Low-Resource 환경에서 Multi-Task 학습을 이용한 카자흐어 형태소 분석

Nazira Kaibalina; 박성배

한국정보처리학회 한국정보처리학회 학술대회논문집 Low-Resource 환경에서 Multi-Task 학습을 이용한 카자흐어 형태소 분석

Low-Resource 환경에서 Multi-Task 학습을 이용한 카자흐어 형태소 분석

Low-Resource Morphological Analysis for Kazakh using Multi-Task Learning

( Nazira Kaibalina ) , 박성배 ( Seong-bae Park )

한국정보처리학회 2021.05

한국정보처리학회 학술대회논문집 28권 1호 437-440(4pages)

UCI I410-ECN-0102-2022-500-000653166

인용하기 URL 복사 보관함 담기

이 자료는 4페이지 이하의 자료입니다.

초록

지난 10년 동안 기계학습을 통해 자연어 처리 분야에서 많은 발전이 있었다. Machine translation, question answering과 같은 문제는 사용 가능한 데이터가 많은 언어에서 높은 정확도 성능 결과를 보여준다. 그러나 low-resource 언어에선 동일한 수준의 성능에 도달할 수 없다. 카자흐어는 형태학적 분석을 위해 구축된 대용량 데이터셋이 없으므로 low-resource 환경이다. 카자흐어는 단일 어근으로 수백 개의 단어 형태를 생성할 수 있는 교착어이다. 그래서 카자흐어 문장의 형태학적 분석은 카자흐어 문장의 의미를 이해하는 기본적인 단계이다. 기존에 존재하는 카자흐어 데이터셋은 구체적인 형태학적 분석의 부재로 모델이 충분한 학습이 이루어지지 못하기 때문에 본 논문에서 새로운 데이터셋을 제안한다. 본 논문은 low-resource 환경에서 높은 정확도를 달성할 수 있는 신경망 모델기반의 카자흐어 형태학 분석기를 제안한다.

키워드

참고문헌 (0)

[자료제공 : 네이버학술정보]