이 연구의 목적은 歷史資料형태분석 프로그램을 소개하고 성능을 시험하는 것이다. 아울러 이 프로그램 개발을 통해 만들어지는 주석말뭉치의 國語學的意義를 모색하려고 한다. 이 프로그램은 用例기반 프로그램으로서 2개의 분석 결과를 산출한다. 하나는 現代語形이고 다른 하나는 古語形이다. 이로써 다양한 이표기를 하나의 현대어 대표형으로 분석하여 쉽고 빠르게 검색할 수 있고 통계를 내는 데에도 편리하게 되었다. 이 프로그램의 성능은 재현율과 정확률을 계산한 것인데, 活字本古小說은 재현율과 정확률이 각각 99.74%, 88.79%였다. 이외에 板刻本古小說, 開化期新聞, 新小說을 대상으로 프로그램을 구동해 보았을 때, 재현율은 평균 82.63%, 정확률은 평균 83.63%였다. 역사자료 형태분석 프로그램 개발을 통해 대규모 역사자료 주석말뭉치 構築이 가능하게 됨으로써 국어사 연구의 外延확대와 논의의 深化를 기대할 수 있게 되었다.
This research aims to introduce the Korean Historical Data morphological analyzer in terms of Korean Informetics, to show its performance and to verify significances of tagged corpus resulted by this program in terms of Korean linguistics.
As an example-based tagger, this program is able to produce two analysis results: one is modern language(현대어) and the other is classical language(고어). Through this process it becomes possible to analyze variant transcriptions with a lemmas from modern languages, and it makes the processes of searching and collecting statistics easier and faster.
The program’s performance has been shown by recall ratio(R) and precision ratio(P). In the case of printed old novel(활자본 고소설), the recall and precision ratio were 99.74% and 88.79%, respectively. The average result of other cases such as old novels printed from wood blocks (판각본 고소설), Modernization Period of Korea, and new novels showed 82.63%(R) and 83.63%(P).
The Development of Historical Data morphological analyzer is expected to contribute to constructing a large scale corpus of historical data, which will allow us to extend and deepen the discussion of History of the Korean Language.