본 논문은 한국어 개체명 말뭉치의 구축 방법을 논의하고 실제로 중첩 주석을 수행하여 완성된 말뭉치를 소개하는 것을 목적으로 한다. 이 연구에서는 개방형 데이터인 한국어 자연어 이해 평가(KLUE) 데이터 세트 중 개체명 말뭉치의 원시 문장에 150개의 개체명 분류 표지를 주석하여 한국어 세분류 개체명 말뭉치(KONEC)를 구축하는 실증적 연구를 수행하였다. 이를 바탕으로 한국어 중첩 개체명 주석을 위한 방법론을 제안하고 실제 주석을 수행하여 한국어 중첩 개체명 말뭉치(KONNE)를 구축하였다. 중첩 개체명 주석은 개체명을 계층적 내부 구조를 가진 요소로 분석하는 것으로, 기존의 나열식 주석에 비해 언어학적 정보를 풍부하게 표현할 수 있으며 체계적이고 일관성 있는 주석이 가능하다는 장점이 있다. 본 논문은 한국어에서 아직 시도되지 않은 중첩 개체명 주석의 방법론을 제안하고 실제로 개체명 말뭉치를 구축하는 전 과정을 수행하여 실증적으로 제안된 방법을 검토하고 그 결과 얻어지는 한국어 개체명 주석의 특성을 살펴보았다는 데에 의의가 있다. 또한 본 연구를 통해 생성된 자료를 자유롭게 사용, 수정, 재배포가 가능한 개방형 데이터로 공개하여 한국어 개체명 연구를 위한 공공의 토대를 만드는 데에 기여했다.
The purpose of this paper is to discuss how to build a Korean named entity corpus and to introduce the completed corpus by actually performing annotations based on this. First of all, we conducted an empirical study to build a Korean Named Entity Corpus (KONEC) by annotating 150 types of named entities on the raw corpus of the Korean Language Understanding Evaluation Dataset (KLUE), an open data. Based on this, we were able to propose a methodology for annotating Korean named entity, which is the next step, and proceed to the study of building a Korean Nested Named Entity Corpus (KONNE) by performing actual annotations.
Nested named entity annotations analyze named entity as elements with hierarchical internal structures, which have the advantage of being able to express linguistic information abundantly compared to conventional enumerated annotations and enabling systematic and consistent annotations. It is meaningful that this paper proposed a methodology for nested named entity annotations that have not yet been attempted in Korean, and furthermore, conducted the entire process of building the named entity corpus to empirically review the proposed method and examine the characteristics of the resulting Korean named entity annotations.