18.97.9.173
18.97.9.173
close menu
Accredited
구조적 토픽 모델을 활용한 <일성록> 분석 -정조대를 중심으로-
An Analysis on < Ilseongrok > using Structural Topic Model -focus on King Jeongjo’s < Ilseongrok >
정성훈 ( Jung Sunghoon )
한문학논집 vol. 64 7-34(28pages)
UCI I410-ECN-0102-2023-800-001114014

본 연구의 목적은 정조대 <일성록(日省錄)>을 대상으로 계량적 텍스트 분석 방법 중의 하나인 토픽 모델(topic model)을 적용하여 <일성록>의 어휘와 내용 등을 거시적으로 분석하여 주제(topic)를 탐구하고, 이를 토대로 향후 헌종, 철종, 고종, 순종 시기의 <일성록> 국문 번역에 도움이 되고자 하는 것이다. <일성록(日省錄)>은 조선시대 왕의 일기이자 국가의 공식 기록물로서, 총 2,329책(영조 33책, 정조 645책, 순조 637책, 헌종 199책, 철종 220책, 고종 562책, 순종 33책)으로 구성되어 있는데, 본 연구에서는 정조 시기의 645책만을 분석하였다. 분석 결과, 정조 시기에 작성된 <일성록>의 전체 기사는 총 74,226건이었고, 총 16,372,458개의 한자가 사용되었으며, 한자의 종류는 모두 9,853개였음을 확인하였다. 연도별로 살펴보면, 정조 19년(1795)의 <일성록>이 3,958건의 기사와 995,395개로 한자를 사용하여 가장 많이 작성되었으며, 시간이 흐름에 따라 <일성록>의 양과 내용이 점차 풍부해지고 있는 것을 확인할 수 있었다. 또한 정조 시기의 <일성록>에서 가장 자주 사용된 단어는 ‘敎’였으며 총 90,723번 나타났다. ‘予’라는 단어도 많이 나타났는데, 허사를 제외한 단어 순위에서 6순위를 차지하고 있어 <일성록>이 왕의 기록물이라는 것을 확연히 보여주었다. 구조적 토픽 모델 분석의 결과, 정조 시기의 <일성록>은 거시적으로 30개의 주제를 담고 있었다. 한편 주제들에 대한 관심의 증가와 감소를 도출하기 위해 주제에 대한 공변량으로 ‘시간’을 설정하여 주제들을 증감을 추정하였다. 정조 시기에 시간의 흐름에 따라 증가세가 높은 주제들은 주제10, 주제17, 주제22, 주제29, 주제1 순이었다. 주제10은 인물들에 관한 이야기로서, 정조 초기에 비해 정조 후기에 인물들에 대한 언급이 높아졌음을 알 수 있으며, 주제17은 활쏘기에 대한 주제로, 역시 정조 후기로 가면서 정조의 활쏘기에 대한 사랑을 높아졌음을 알 수 있었다. 시간의 흐름에 따라 감소세가 높은 주제들은 주제16, 주제15, 주제13, 주제3, 주제19 등이 있었다. 주제16은 왕의 건강과 어명에 대한 내용들이며, 주제15는 죄인과 형벌에 관해 신하들과 의논하는 이야기들이다. 이러한 주제들은 시간이 지나감에 따라 출현 비율이 감소하였음을 확인하였다.

The purpose of this study is to macroscopically analyze the vocabulary and contents of < Ilseongrok > by using a topic model, one of the quantitative text analysis methods on Jeongjo(正祖)'s < Ilseongrok(日省錄) >. Based on this, it is intended to be helpful in the Korean translation of < Ilseongnok > of the periods of Heonjong(憲宗), Cheoljong(哲宗), Gojong(高宗), and Sunjong(純宗). < Ilseongnok(日省錄) > is both the diary of the kings of the Joseon Dynasty and the official records. It contains a total of 2,329 books (33 books of Yeongjo, 645 books of Jeongjo, 637 books of Sunjo, 199 books of Heonjong, 220 books of Cheoljong, 562 books of Gojong, and 33 books of Sunjong). This study analyzed only 645 books from the period of Jeongjo. As a result, the articles(目) of < Ilseongrok(日省錄) > in the period of Jeongjo is totally 74,226 articles, and we confirmed a total of 16,372,458 Chinese characters and a total of 9,853 types of Chinese characters were used in them. Looking at each year, < Ilseongrok(日省錄) > in the 19th year of Jeongjo(1795) contained the most 3,958 articles and 995,395 Chinese characters, and it was confirmed that the amount and content of < Ilseongnok(日省錄) > gradually became more abundant as time passed. In addition, the most frequent word used in < Ilseongrok(日省錄) > of Jeongjo was ‘敎’, appearing a total of 90,723 times. The word ‘予’ also appeared a lot, and it was ranked 6th in the ranking of words excluding grammatical morpheme(虛辭). It clearly show that < Ilseongrok(日省錄) > was a record of the king. According to the structural topic model(STM), < Ilseongrok(日省錄) > of Jeongjo is consist of 30 topics. In order to deduce the increase and decrease in the topics, we set 'time' as a covariate of analysis and estimated the topics’ increasing and decreasing trends. Topic10, Topic17, Topic22, Topic29, and Topic1 were the topics with the highest increase during the period of Jeongjo, but Topic16, Topic15, Topic13, Topic3, and Topic19 were topics with the high decrease.

1. 들어가는 말
2. 토픽모델의 원리와 구조적 토픽 모델
3. <일성록>에 대한 구조적 토픽모델링 분석
4. 정조 시기 <일성록>에 대한 분석 결과
5. 나가는 말
[자료제공 : 네이버학술정보]
×