닫기
216.73.216.214
216.73.216.214
close menu
음소 단위 임베딩 기반 한국어 모델
Phoneme-level Embedding based Korean Language Model
최우성 ( Woosung Choi ) , 현경석 ( Kyungseok Hyun ) , 정재화 ( Jaehwa Chung ) , 정순영 ( Soon Young Jung )
UCI I410-ECN-0102-2022-500-000350971
이 자료는 4페이지 이하의 자료입니다.

최근 제안되고 있는 Bert 등의 딥러닝 언어 모델 기반 pre-training 기법은 다양한 NLP 분야에서 활용되고 있다. 텍스트로 작성된 데이터 셋을 딥러닝 언어 모델이 학습하기 위해서는 토크나이징(tokenizing) 기술이 필요하다. 그러나 기존 토크나이징 방식은 한국어 및 한글이 가지는 고유한 특성(교착어적 특성과 모아쓰기 반영)을 반영하기 어렵다는 한계를 가지고 있다. 본 논문에서는 한국어와 한글이 가지는 고유한 특성을 고려하기 위하여 음소 단위의 임베딩 기법을 제안하며, 이를 기반으로 언어 모델을 설계 및 구현한다. 또한 음소 단위 임베딩 기반 한국어 모델이 실제 데이터 집합(구약성서)에서 나타나는 언어적 패턴을 학습할 수 있다는 것을 실험을 통하여 밝힌다.

[자료제공 : 네이버학술정보]
×