본 연구는 러시아어 형태소 분석기 MyStem, Pymorphy, TreeTagger를 대상으로 신조어와 동음이의어 분석 실험을 수행하여 실제 처리 성능을 비교하였다. 신조어 분석 결과, MyStem은 대부분의 신조어에 대해 레마를 모두 생성하며 신조어를 기존의 러시아어 굴절 패러다임 중 하나에 배치하여 가능한 모든 문법 정보를 한꺼번에 제시하는 경향을 보인다. Pymorphy는 규칙과 확률 모델을 결합해 단일 해석을 선택함으로써 비교적 일관된 결과를 산출했지만, 신조어를 고유명사처럼 분류하는 오류가 나타났다. TreeTagger는 품사와 기본 문법 정보는 안정적이었으나, 사전에 없는 어휘에 대해서는 레마를 생성하지 않는 사례가 많았다.
동음이의어 분석에서는 MyStem과 Pymorphy가 문맥 기반 판별을 수행하지 않아 동음이의어가 쓰인 문장에서 반복적인 오분석을 보였지만 TreeTagger는 문맥 정보를 활용해 품사 수준에서 가장 높은 정확도를 보였다. 다만 TreeTagger 역시 세부 문법 범주와 동사 상 정보에서는 오류가 관찰되었다. 이러한 결과는 형태소 분석기가 신조어 처리와 중의성 해소에서 서로 다른 강점과 한계를 지니며, 연구 목적과 자료 특성에 따라 적합한 분석기 선택이 필요함을 시사한다.
This study compares the practical performance of three Russian morphological analyzers-MyStem, Pymorphy, and TreeTagger―through experiments focusing on the analysis of neologisms and homonymous words. The results of the neologism analysis show that MyStem generates lemmas for almost all neologisms and tends to place them within existing Russian inflectional paradigms, presenting a wide range of possible grammatical features simultaneously. Pymorphy, which combines rule-based processing with probabilistic models, produces relatively consistent outputs by selecting a single most probable analysis; however, it occasionally misclassifies neologisms as proper nouns. TreeTagger provides stable part-of-speech and basic grammatical information, but often fails to generate lemmas for out-of-vocabulary words.
In the homonym analysis, both MyStem and Pymorphy exhibit repeated misanalyses in sentences containing homonymous forms due to their lack of context-based disambiguation, whereas TreeTagger achieves the highest accuracy at the part-of-speech level by exploiting contextual information. Nevertheless, TreeTagger also shows errors in finer-grained grammatical categories and in the determination of verbal aspect. These findings indicate that the three morphological analyzers exhibit different strengths and limitations in handling neologisms and resolving ambiguity, and that the choice of an appropriate analyzer should depend on the research goals and the characteristics of the data.