이 글은 詩話를 대상으로 한 시맨틱 데이터베이스 편찬의 필요성과 그것을 위한 詩話 데이터 모델의 기초적 형식을 디자인하는 데 목적을 두고 있다. 최근 ‘디지털 인문학(digital humanities)’에 대한 관심이 커지고 있는 데서 알 수 있듯이, 현대의 인문학 연구 환경에서 유관 자료를 대상으로 한 데이터베이스 편찬은 중요한 일이 되어가고 있다. 한문학 유관 분야에서 활용 범위가 넓고 학술적 의미가 다채로운 詩話와 같은 자료의 경우 더욱 그러하다.
詩話는 잡록의 한 갈래로 분류하기도 할 만큼 비정형적 성격의 장르이기에 내용과 형식이 다양할 뿐만 아니라 여타 문헌과 맺고 있는 의미적 관계 또한 입체적이라서, 그 자체로 색인(index)을 작성하거나 연구를 위한 기초 자료를 정리하는 데 어려움이 크다. 시맨틱 데이터베이스는 이러한 문제를 효율적으로 해결할 수 있을 뿐만 아니라, 추후 데이터를 효과적으로 공유하기 위한 채널이 될 수 있다. 이에 따라 詩話 시맨틱 데이터베이스 구축을 염두에 둔 데이터 모델 디자인을 실험적으로 진행하였으며, 詩話叢林 을 그 구체적인 대상으로 삼았다.
詩話를 구성하는 형식・내용 요소를 분류・정리하고 각각의 정보 항목에 대한 속성을 기술하는 방식으로 데이터베이스의 전체적 밑그림을 완성하였고, 이 가운데 개체 데이터 사이의 의미적 관계를 재현하는 관계어를 정의함으로써 詩話 지식그래프이자 시맨틱 데이터베이스로서의 기초적 형식을 구현하였다. 이렇게 만들어진 시화 데이터 모델은 ‘시화집’, ‘시화’, ‘시화집 간본’, ‘시화 간본’, ‘조목’, ‘시’, ‘산문’, ‘비평’, ‘평어’, ‘특수글자’, ‘시어’, ‘인물’, ‘장소’, ‘물체’, ‘주제’, ‘참고문헌’ 등의 클래스로 이루어진다. 개별 클래스에 속한 각각의 개체들과 그것들 사이의 다채로운 의미적 관계를, 일부 샘플 데이터를 활용해 그래프데이터베이스 Neo4jTM로 편찬함으로써 시맨틱 데이터로서 Triple(S-P-O) 형식의 유효함을 검토하였다.
본 연구를 통해 확보한 데이터 모델의 윤곽을 더욱 분명하게 보완하고 유관 데이터 편찬을 확대해, 학술 연구에 유효한 시화 데이터베이스를 웹상에서 실제 구현하는 것이 차후의 과제라 하겠다.
This paper discusses the need for creating a Sihwa database and expounds the fundamental structures of such a database. As can be seen in the growing interest in the Digital Humanities in recent years, the creation of resource- specific database is gradually seen as a must-have requirement, rather than a nice addendum, in today’s Humanities research. In the field of Sino-Korean literature, this is especially true for texts such as Sihwa that have a broad range of uses and diverse interpretations. Often classified as miscellany, Sihwa is an atypical literary genre that comes in varied forms. Moreover, Sihwa has complex multidimensional relationships with other types of texts. As such, indexing and compiling data for research purpose have remained a particularly challenging task for Sihwa. A semantic database can efficiently solve this problem and function as a useful channel for the future sharing of data. With this goal, we have designed a pilot data modelling for a semantic database of Sihwa using the anthology Sihwa ch’ongnim as the textual data.
We sketched an overall blueprint of the database by classifying and organizing the various elements that make up the form and content of Sihwa and describing their properties in detail. We then created a knowledge graph and basic semantic database of Sihwa by defining and assigning relational words to connect the data.
The classes specific to Sihwa include ‘Series’, ‘Book’, ‘Edition’, ‘Entry’, ‘Poem’, ‘Prose’, ‘Critique’, ‘CriticalTerm’, ‘Character’, ‘Diction’, ‘Person’, ‘Place’, ‘Object’, ‘Reference’, ‘Topic’, and others.
With the sample data, we created a graph database using Neo4jTM to test the validity of the semantic data in Triple(S-P-O) form that connects the various entities within individual classes. We will continue to improve the initial data model introduced in this study and expand the data to create a semantic database on the Web that will prove useful in academic research.