논문 상세보기

한국정보처리학회> 정보처리학회논문지. 소프트웨어 및 데이터 공학> CTC를 적용한 CRNN 기반 한국어 음소인식 모델 연구

KCI등재

CTC를 적용한 CRNN 기반 한국어 음소인식 모델 연구

CRNN-Based Korean Phoneme Recognition Model with CTC Algorithm

홍윤석 ( Hong Yoonseok ) , 기경서 ( Ki Kyungseo ) , 권가진 ( Gweon Gahgene )
  • : 한국정보처리학회
  • : 정보처리학회논문지. 소프트웨어 및 데이터 공학 8권3호
  • : 연속간행물
  • : 2019년 03월
  • : 115-122(8pages)
정보처리학회논문지. 소프트웨어 및 데이터 공학

DOI


목차

1. 서 론
2. 관련 연구
3. 실험 환경
4. 실험 1: CNN 단일 - RNN 결합 모델 비교
5. 실험 2: CNN/RNN 기반의 음소 인식 모델 개선
6. 강제정렬 비교 분석
7. 토 의
References

키워드 보기


초록 보기

지금까지의 한국어 음소 인식에는 은닉 마르코프-가우시안 믹스쳐 모델(HMM-GMM)이나 인공신경망-HMM을 결합한 하이브리드 시스템이 주로 사용되어 왔다. 하지만 이 방법은 성능 개선 여지가 적으며, 전문가에 의해 제작된 강제정렬(force-alignment) 코퍼스 없이는 학습이 불가능하다는 단점이 있다. 이 모델의 문제로 인해 타 언어를 대상으로 한 음소 인식 연구에서는 이 단점을 보완하기 위해 순환 신경망(RNN)계열 구조와 Connectionist Temporal Classification(CTC) 알고리즘을 결합한 신경망 기반 음소 인식 모델이 연구된 바 있다. 그러나 RNN 계열 모델을 학습시키기 위해 많은 음성 말뭉치가 필요하고 구조가 복잡해질 경우 학습이 까다로워, 정제된 말뭉치가 부족하고 기반 연구가 비교적 부족한 한국어의 경우 사용에 제약이 있었다. 이에 본 연구는 강제정렬이 불필요한 CTC 알고리즘을 도입하되, RNN에 비해 더 학습 속도가 빠르고 더 적은 말뭉치로도 학습이 가능한 합성곱 신경망(CNN)을 기반으로 한국어 음소 인식 모델을 구축하여 보고자 시도하였다. 총 2가지의 비교 실험을 통해 본 연구에서는 한국어에 존재하는 49가지의 음소를 판별하는 음소 인식기 모델을 제작하였으며, 실험 결과 최종적으로 선정된 음소 인식 모델은 CNN과 3층의 Bidirectional LSTM을 결합한 구조로, 이 모델의 최종 PER(Phoneme Error Rate)은 3.26으로 나타났다. 이는 한국어 음소 인식 분야에서 보고된 기존 선행 연구들의 PER인 10~12와 비교하면 상당한 성능 향상이라고 할 수 있다.
For Korean phoneme recognition, Hidden Markov-Gaussian Mixture model(HMM-GMM) or hybrid models which combine artificial neural network with HMM have been mainly used. However, current approach has limitations in that such models require force-aligned corpus training data that is manually annotated by experts. Recently, researchers used neural network based phoneme recognition model which combines recurrent neural network(RNN)-based structure with connectionist temporal classification(CTC) algorithm to overcome the problem of obtaining manually annotated training data. Yet, in terms of implementation, these RNN-based models have another difficulty in that the amount of data gets larger as the structure gets more sophisticated. This problem of large data size is particularly problematic in the Korean language, which lacks refined corpora. In this study, we introduce CTC algorithm that does not require force-alignment to create a Korean phoneme recognition model. Specifically, the phoneme recognition model is based on convolutional neural network(CNN) which requires relatively small amount of data and can be trained faster when compared to RNN based models. We present the results from two different experiments and a resulting best performing phoneme recognition model which distinguishes 49 Korean phonemes. The best performing phoneme recognition model combines CNN with 3hop Bidirectional LSTM with the final Phoneme Error Rate(PER) at 3.26. The PER is a considerable improvement compared to existing Korean phoneme recognition models that report PER ranging from 10 to 12.

UCI(KEPA)

I410-ECN-0102-2019-500-001457327

간행물정보

  • : 공학분야  > 전자공학
  • : KCI등재
  • :
  • : 월간
  • : 2287-5905
  • : 2734-0503
  • : 학술지
  • : 연속간행물
  • : 2012-2021
  • : 670


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

10권12호(2021년 12월) 수록논문
최근 권호 논문
| | | |

KCI등재

1개인별 유전자 네트워크 구축 및 페이지랭크를 이용한 환자 특이적 암 유발 유전자 탐색 방법

저자 : 정희원 ( Jung Hee Won ) , 박지우 ( Park Ji Woo ) , 안재균 ( Ahn Jae Gyoon )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 12호 발행 연도 : 2021 페이지 : pp. 547-554 (8 pages)

다운로드

(기관인증 필요)

초록보기

암을 유발하는 유전자는 모든 암 환자에게 공통적인 것은 아니며, 이러한 환자 특이적 암 유발 유전자의 탐색은 개인 맟춤형 암 치료 및 항암제 개발에 있어서 매우 중요하다. 환자 특이적 암 유발 유전자를 찾기 위한 생물 정보학 연구들이 있어왔지만, 아직 정확도 면에서는 발전의 여지가 있다. 본 논문에서는 환자 특이적 암 유발 유전자를 탐색하기 위하여 NPD (Network based Patient-specific Driver gene identification)라는 방법을 제안한다. NPD는 환자 특이적 유전자 네트워크를 구축하고, 여기에 수정된 PageRank 알고리즘을 적용하여 유전자에 점수를 부여한 후, 유전적 변이 데이터를 사용한 승률 계산 방법을 통하여 암 유발 유전자를 찾는 세 단계로 이루어진다. TCGA 데이터베이스의 여섯 개의 암 데이터에 NPD를 적용한 결과, NPD가 기존의 환자 특이적 암 유발 유전자 탐색 방법들보다 전체적으로 높은 F1 점수를 보여줌을 확인할 수 있었다.


Cancer patients can have different kinds of cancer driver genes, and identification of these patient-specific cancer driver genes is an important step in the development of personalized cancer treatment and drug development. Several bioinformatic methods have been proposed for this purpose, but there is room for improvement in terms of accuracy. In this paper, we propose NPD (Network based Patient-specific Driver gene identification) for identifying patient-specific cancer driver genes. NPD consists of three steps, constructing a patient-specific gene network, applying the modified PageRank algorithm to assign scores to genes, and identifying cancer driver genes through a score comparison method. We applied NPD on six cancer types of TCGA data, and found that NPD showed generally higher F1 score compared to existing patient-specific cancer driver gene identification methods.

KCI등재

2다중 레이블 분류를 활용한 안면 피부 질환 인식에 관한 연구

저자 : 임채현 ( Chae Hyun Lim ) , 손민지 ( Son Min Ji ) , 김명호 ( Kim Myung Ho )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 12호 발행 연도 : 2021 페이지 : pp. 555-560 (6 pages)

다운로드

(기관인증 필요)

초록보기

최근 안면 피부 미용에 대한 사람들의 관심이 높아짐에 따라 딥 러닝을 활용한 안면 피부 미용을 위한 피부 질환 인식 연구가 진행되고 있다. 이러한 연구들은 여드름을 비롯한 다양한 피부 질환을 인식한다. 기존의 연구들은 단일 피부 질환만을 인식하지만, 안면에 발생하는 피부질환은 더 다양하고 복합적으로 발생할 수 있다. 따라서 본 논문에서는 Inception-ResNet V2 모델을 활용하여 다중 레이블 분류 방법으로 여드름, 블랙헤드, 주근깨, 검버섯, 일반 피부, 화이트헤드에 관한 복합적인 피부 질환을 인식한다. 사용한 평가 지표 중 정확도는 98.8%, 해밍손실은 0.003을 달성하였고, 단일 클래스별 정밀도, 재현율, F1-점수는 모두 96.6% 이상을 달성하였다.


Recently, as people's interest in facial skin beauty has increased, research on skin disease recognition for facial skin beauty is being conducted by using deep learning. These studies recognized a variety of skin diseases, including acne. Existing studies can recognize only the single skin diseases, but skin diseases that occur on the face can enact in a more diverse and complex manner. Therefore, in this paper, complex skin diseases such as acne, blackheads, freckles, age spots, normal skin, and whiteheads are identified using the Inception-ResNet V2 deep learning mode with multi-label classification. The accuracy was 98.8%, hamming loss was 0.003, and precision, recall, F1-Score achieved 96.6% or more for each single class.

KCI등재

3YOLOv5와 모션벡터를 활용한 트램-보행자 충돌 예측 방법 연구

저자 : 김영민 ( Young-min Kim ) , 안현욱 ( Hyeon-uk An ) , 전희균 ( Hee-gyun Jeon ) , 김진평 ( Jin-pyeong Kim ) , 장규진 ( Gyu-jin Jang ) , 황현철 ( Hyeon-chyeol Hwang )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 12호 발행 연도 : 2021 페이지 : pp. 561-568 (8 pages)

다운로드

(기관인증 필요)

초록보기

최근 자율주행에 관한 기술은 고부가가치 신기술로서 주목받고 있으며 활발히 연구가 진행되고 있는 분야이다. 상용화 가능한 자율주행을 위해서는 실시간으로 정확하게 진입하는 객체를 탐지하고 이동속도를 추정해야 한다. CNN(Convolutional Neural Network) 기반 딥러닝 알고리즘과 밀집광학흐름(Dense Optical Flow)을 사용하는 기존 방식은 실행 속도가 느려 실시간으로 객체를 탐지하고 이동속도를 추정하기에는 한계가 존재한다. 본 논문에서는 트램에 설치된 카메라를 통해 획득된 주행영상에서 딥러닝 알고리즘인 YOLOv5 알고리즘을 활용하여 실시간으로 객체를 탐지를 수행하고, 탐지된 객체영역에서 기존의 밀집광학흐름(Dense Optical Flow) 대신 연산량을 개선한 부분 밀집광학흐름(Local Dense Optical Flow)을 사용하여 객체의 진행 방향과 속력을 빠르게 추정하는 방식을 제안한다. 이를 바탕으로 충돌 시간과 충돌 지점을 예측할 수 있는 모델을 설계하였으며, 이를 통해 트램(Tram)의 주행 중 전방 충돌사고를 방지할 수 있는 시스템에 적용하고자 한다.


In recent years, autonomous driving technologies have become a high-value-added technology that attracts attention in the fields of science and industry. For smooth Self-driving, it is necessary to accurately detect an object and estimate its movement speed in real time. CNN-based deep learning algorithms and conventional dense optical flows have a large consumption time, making it difficult to detect objects and estimate its movement speed in real time. In this paper, using a single camera image, fast object detection was performed using the YOLOv5 algorithm, a deep learning algorithm, and fast estimation of the speed of the object was performed by using a local dense optical flow modified from the existing dense optical flow based on the detected object. Based on this algorithm, we present a system that can predict the collision time and probability, and through this system, we intend to contribute to prevent tram accidents.

KCI등재

4검증 자료를 활용한 가짜뉴스 탐지 자동화 연구

저자 : 한윤진 ( Yoon-jin Han ) , 김근형 ( Geun-hyung Kim )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 12호 발행 연도 : 2021 페이지 : pp. 569-578 (10 pages)

다운로드

(기관인증 필요)

초록보기

오늘날 웹의 발전으로 우리는 각종 언론 매체를 통해 온라인 기사를 쉽게 접하게 된다. 온라인 기사를 쉽게 접할 수 있게 된 만큼 거짓 정보를 진실로 위장한 가짜뉴스 또한 빈번하게 찾아볼 수 있다. 가짜뉴스가 전 세계적으로 대두되면서 국내에서도 가짜뉴스를 탐지하기 위한 팩트 체크서비스가 제공되고 있으나, 이는 전문가 기반의 수동 탐지 방법을 기반으로 하며 가짜뉴스 탐지를 자동화하는 기술에 대한 연구가 계속해서 활발하게 이루어지고 있다. 기존 연구는 기사 작성에 사용된 문맥의 특성이나, 기사 제목과 기사 본문의 내용 비교를 통한 탐지 방법이 가장 많이 사용되고 있으나, 이러한 시도는 조작의 정밀도가 높아졌을 때 탐지가 어려워질 수 있다는 한계를 가진다. 따라서 본 논문에서는 기사 조작의 발달에 따른 영향을 받지 않기 위하여 기사의 진위 여부를 판단할 수 있는 검증기사를 함께 사용하는 방법을 제안한다. 또한 가짜뉴스 탐지 정확도를 개선시킬 수 있도록 실험에 사용되는 기사와 검증기사를 문서 요약 모델을 통해 요약하는 과정을 추가했다. 본 논문에서는 제안 알고리즘을 검증하기 위해 문서 요약 기법 검증, 검증기사 검색 기법 검증, 그리고 최종적인 제안 알고리즘의 가짜뉴스 탐지 정확도 검증을 진행하였다. 본 연구에서 제안한 알고리즘은 다양한 언론 매체에 적용하여 기사가 온라인으로 확산되기 이전에 진위 여부를 판단하는 방법으로 유용하게 사용될 수 있다.


Thanks to web development today, we can easily access online news via various media. As much as it is easy to access online news, we often face fake news pretending to be true. As fake news items have become a global problem, fact-checking services are provided domestically, too. However, these are based on expert-based manual detection, and research to provide technologies that automate the detection of fake news is being actively conducted. As for the existing research, detection is made available based on contextual characteristics of an article and the comparison of a title and the main article. However, there is a limit to such an attempt making detection difficult when manipulation precision has become high. Therefore, this study suggests using a verifying article to decide whether a news item is genuine or not to be affected by article manipulation. Also, to improve the precision of fake news detection, the study added a process to summarize a subject article and a verifying article through the summarization model. In order to verify the suggested algorithm, this study conducted verification for summarization method of documents, verification for search method of verification articles, and verification for the precision of fake news detection in the finally suggested algorithm. The algorithm suggested in this study can be helpful to identify the truth of an article before it is applied to media sources and made available online via various media sources.

KCI등재

5시계열 예측을 위한 스타일 기반 트랜스포머

저자 : 김동건 ( Dong-keon Kim ) , 김광수 ( Kwangsu Kim )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 12호 발행 연도 : 2021 페이지 : pp. 579-586 (8 pages)

다운로드

(기관인증 필요)

초록보기

시계열 예측은 과거 시점의 정보를 토대로 미래 시점의 정보를 예측하는 것을 말한다. 향후 시점의 정보를 정확하게 예측하는 것은 다양한 분야 전략 수립, 정책 결정 등을 위해 활용되기 때문에 매우 중요하다. 최근에는 트랜스포머 모델이 시계열 예측 모델로서 주로 연구되고 있다. 그러나 기존의 트랜스포머의 모델은 예측 순차를 출력할 때 출력 결과를 다시 입력하는 자가회귀 구조로 되어 있다는 한계점이 있다. 이 한계점은 멀리 떨어진 시점을 예측할 때 정확도가 떨어진다는 문제점을 초래한다. 본 논문에서는 이러한 문제점을 개선하고 더 정확한 시계열 예측을 위해 스타일 변환 기법에 착안한 순차 디코딩 모델을 제안한다. 제안하는 모델은 트랜스포머-인코더에서 과거 정보의 특성을 추출하고, 이를 스타일-기반디코더에 반영하여 예측 시계열을 생성하는 구조로 되어 있다. 이 구조는 자가회귀 방식의 기존의 트랜스포머의 디코더 구조와 다르게, 예측 순차를 한꺼번에 출력하기 때문에 더 먼 시점의 정보를 좀 더 정확히 예측할 수 있다는 장점이 있다. 서로 다른 데이터 특성을 가지는 다양한 시계열 데이터셋으로 예측 실험을 진행한 결과, 본 논문에서 제시한 모델이 기존의 다른 시계열 예측 모델보다 예측 정확도가 우수하다는 것을 보인다.


Time series forecasting refers to predicting future time information based on past time information. Accurately predicting future information is crucial because it is used for establishing strategies or making policy decisions in various fields. Recently, a transformer model has been mainly studied for a time series prediction model. However, the existing transformer model has a limitation in that it has an auto-regressive structure in which the output result is input again when the prediction sequence is output. This limitation causes a problem in that accuracy is lowered when predicting a distant time point. This paper proposes a sequential decoding model focusing on the style transformation technique to handle these problems and make more precise time series forecasting. The proposed model has a structure in which the contents of past data are extracted from the transformer-encoder and reflected in the style-based decoder to generate the predictive sequence. Unlike the decoder structure of the conventional auto-regressive transformer, this structure has the advantage of being able to more accurately predict information from a distant view because the prediction sequence is output all at once. As a result of conducting a prediction experiment with various time series datasets with different data characteristics, it was shown that the model presented in this paper has better prediction accuracy than other existing time series prediction models.

KCI등재

6뇌파의 중첩 분할에 기반한 CNN 앙상블 모델을 이용한 뇌전증 발작 검출

저자 : 김민기 ( Min-ki Kim )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 12호 발행 연도 : 2021 페이지 : pp. 587-594 (8 pages)

다운로드

(기관인증 필요)

초록보기

뇌파(electroencephalogram, EEG)를 이용한 진단이 확대되면서 EEG 신호를 자동으로 분류하기 위한 다양한 연구가 활발히 이루어지고 있다. 본 논문은 일반인과 뇌전증 환자에게서 추출한 EEG 신호를 효과적으로 식별할 수 있는 CNN 모델을 제안한다. CNN의 학습에 필요한 데이터를 확장하기 위하여 EEG 신호를 낮은 차원의 신호로 분할하고, 이것을 다시 여러 개의 세그먼트로 중첩 분할하여 CNN 학습에 이용한다. 이와 더불어 CNN의 성능을 개선하기 위하여 CNN 앙상블 전략을 제안한다. 공개된 Bonn 데이터세트로 실험을 수행한 결과 뇌전증 발작을 99.0% 이상의 정확도로 검출하였고, 앙상블 방식에 의해 3-클래스와 5-클래스의 EEG 분류에서 정확도가 향상되었다.


As the diagnosis using encephalography(EEG) has been expanded, various studies have been actively performed for classifying EEG automatically. This paper proposes a CNN model that can effectively classify EEG signals acquired from healthy persons and patients with epilepsy. We segment the EEG signals into sub-signals with smaller dimension to augment the EEG data that is necessary to train the CNN model. Then the sub-signals are segmented again with overlap and they are used for training the CNN model. We also propose ensemble strategy in order to improve the classification accuracy. Experimental result using public Bonn dataset shows that the CNN can detect the epileptic seizure with the accuracy above 99.0%. It also shows that the ensemble method improves the accuracy of 3-class and 5-class EEG classification.

KCI등재

7Cloud Robotics Platform 환경에서 Node간 안전한 통신 기법

저자 : 김형주 ( Hyungjoo Kim )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 12호 발행 연도 : 2021 페이지 : pp. 595-602 (8 pages)

다운로드

(기관인증 필요)

초록보기

로봇은 주변 상황을 인지하고 Task를 부여받는 software oriented 형상으로 발전하고 있다. Cloud Robotics Platform은 로봇에 Service Oriented Architecture 형상을 지원하기 위한 방법으로, 상황에 따라 필요한 Task와 Motion Controller를 클라우드 기반으로 제공할 수 있는 방안이다. 휴머노이드 로봇으로 진화할수록 로봇은 로봇 3대 원칙에 따라 보편화된 일상생활 속에서 인간에게 도움을 주기 위해 사용될 것이다. 따라서 특정개인만을 위한 로봇 이외에도, 상황에 따라 모든 인간에게 도움을 줄 수 있는 공공재로써의 로봇이 보편화될 것이다. 따라서, 생성하는 정보는 사람, 로봇, 로봇에 지능을 부여하는 클라우드 상의 서비스 애플리케이션, 로봇과 클라우드를 이어주는 클라우드 브릿지로 구성될 것으로 분석되는 Cloud Robotics Computing 환경에서 정보보안의 중요성은 인간의 생명 및 안전을 위해 필수불가결한 요소로 자리잡게 될 것이다. 본 논문에서는 지능화된 로봇을 위한 Cloud Robotics Computing 환경에서 사람, 로봇, 클라우드 브릿지, 클라우드 시스템간 통신 시 보안을 제공하여 해킹으로부터 안전하고 개인의 정보가 보호되는 로봇 서비스가 가능할 수 있는 Security Scheme을 제안한다.


The robot is developing into a software-oriented shape that recognizes the surrounding situation and is given a task. Cloud Robotics Platform is a method to support Service Oriented Architecture shape for robots, and it is a cloud-based method to provide necessary tasks and motion controllers depending on the situation. As it evolves into a humanoid robot, the robot will be used to help humans in generalized daily life according to the three robot principles. Therefore, in addition to robots for specific individuals, robots as public goods that can help all humans depending on the situation will be universal. Therefore, the importance of information security in the Cloud Robotics Computing environment is analyzed to be composed of people, robots, service applications on the cloud that give intelligence to robots, and a cloud bridge that connects robots and clouds. It will become an indispensable element for In this paper, we propose a Security Scheme that can provide security for communication between people, robots, cloud bridges, and cloud systems in the Cloud Robotics Computing environment for intelligent robots, enabling robot services that are safe from hacking and protect personal information.

1
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1마이크로서비스 아키텍처 기반의 통합 콘텐츠 관리 시스템 설계 및 구현

저자 : 윤경식 ( Kyung Sik Yoon ) , 김영한 ( Young Han Kim )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 8권 3호 발행 연도 : 2019 페이지 : pp. 97-108 (12 pages)

다운로드

(기관인증 필요)

초록보기

디지털 콘텐츠 재화가 증가됨에 따라 이를 관리하기 위한 콘텐츠 관리 시스템에 새로운 콘텐츠 서비스를 추가하거나 기존 콘텐츠 관리 시스템 간에 통합하는 경우가 빈번하게 발생한다. 효율적인 시스템 통합을 위해 본 논문에서는 이 기종으로 구성된 두개의 콘텐츠 관리 시스템을 마이크로서비스 아키텍처 기반으로 통합 콘텐츠 관리 시스템을 설계하여 개발 간 기존 시스템의 중단 없이 재활용이 가능하고, 효율적으로 통합이 가능하며, 확장성을 가진 시스템을 구현하였다. 이를 통해 구현된 시스템의 소요되는 자원 사용량을 측정하고, 기존 미들웨어를 사용한 시스템 통합을 방식 간의 차이점을 분석하였다.

KCI등재

2문장 및 어절 유사도를 이용한 표절 탐지 시스템 구현

저자 : 맹주수 ( Joosoo Maeng ) , 박지수 ( Ji Su Park ) , 손진곤 ( Jin Gon Shon )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 8권 3호 발행 연도 : 2019 페이지 : pp. 109-114 (6 pages)

다운로드

(기관인증 필요)

초록보기

기존 표절 탐지 시스템은 형태소 분석을 기반으로 공통 단어의 빈도수를 이용해 문서의 유사도를 측정한다. 그러나 주제가 같아 유사 단어가 많이 쓰인 경우, 문장 단위로 일부만 발췌 표절한 경우, 그리고 조사와 어미의 유사성이 있는 경우는 공통 단어의 빈도수만으로는 정확한 유사도를 측정하는데 한계가 있다. 따라서 본 논문에서는 공통 단어 빈도수 기반의 유사도 측정 외에 문장 유사도와 어절 유사도를 추가적으로 측정해 유사도의 정확성을 높일 수 있는 표절 탐지 시스템을 설계하고 구현하였다. 실험 결과, 문장 유사도를 측정함으로써 문장 단위로 표절이 이루어진 경우를 발견할 수 있었고, 어절 유사도를 추가로 측정함으로써 부분표절이 일어난 경우라도 조사나 어미까지 그대로 사용한 표절의 경우 등을 발견할 수 있었다.

KCI등재

3CTC를 적용한 CRNN 기반 한국어 음소인식 모델 연구

저자 : 홍윤석 ( Hong Yoonseok ) , 기경서 ( Ki Kyungseo ) , 권가진 ( Gweon Gahgene )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 8권 3호 발행 연도 : 2019 페이지 : pp. 115-122 (8 pages)

다운로드

(기관인증 필요)

초록보기

지금까지의 한국어 음소 인식에는 은닉 마르코프-가우시안 믹스쳐 모델(HMM-GMM)이나 인공신경망-HMM을 결합한 하이브리드 시스템이 주로 사용되어 왔다. 하지만 이 방법은 성능 개선 여지가 적으며, 전문가에 의해 제작된 강제정렬(force-alignment) 코퍼스 없이는 학습이 불가능하다는 단점이 있다. 이 모델의 문제로 인해 타 언어를 대상으로 한 음소 인식 연구에서는 이 단점을 보완하기 위해 순환 신경망(RNN)계열 구조와 Connectionist Temporal Classification(CTC) 알고리즘을 결합한 신경망 기반 음소 인식 모델이 연구된 바 있다. 그러나 RNN 계열 모델을 학습시키기 위해 많은 음성 말뭉치가 필요하고 구조가 복잡해질 경우 학습이 까다로워, 정제된 말뭉치가 부족하고 기반 연구가 비교적 부족한 한국어의 경우 사용에 제약이 있었다. 이에 본 연구는 강제정렬이 불필요한 CTC 알고리즘을 도입하되, RNN에 비해 더 학습 속도가 빠르고 더 적은 말뭉치로도 학습이 가능한 합성곱 신경망(CNN)을 기반으로 한국어 음소 인식 모델을 구축하여 보고자 시도하였다. 총 2가지의 비교 실험을 통해 본 연구에서는 한국어에 존재하는 49가지의 음소를 판별하는 음소 인식기 모델을 제작하였으며, 실험 결과 최종적으로 선정된 음소 인식 모델은 CNN과 3층의 Bidirectional LSTM을 결합한 구조로, 이 모델의 최종 PER(Phoneme Error Rate)은 3.26으로 나타났다. 이는 한국어 음소 인식 분야에서 보고된 기존 선행 연구들의 PER인 10~12와 비교하면 상당한 성능 향상이라고 할 수 있다.

KCI등재

4가중치 손실 함수를 가지는 순환 컨볼루션 신경망 기반 주가 예측

저자 : 김현진 ( Hyunjin Kim ) , 정연승 ( Yeon Sung Jung )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 8권 3호 발행 연도 : 2019 페이지 : pp. 123-128 (6 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 RCNN (recurrent convolution neural network) 계층 모델을 채택한 인공 지능에 기반을 둔 주가 예측을 제안한다. LSTM(long-term memory model) 기반 신경망은 시계열 데이터의 예측에 사용된다. 다른 한편, 컨볼루션 신경망은 데이터 필터링, 평균화 및 데이터확장을 제공한다. 제안된 주가 예측에서는 위에서 언급 한 장점들을 RCNN 모델에서 결합하여 적용함으로써 다음날의 주가 종가를 예측한다. 그리고 최근의 시계열의 데이터를 강조하기 위해 커스텀 가중치 손실 함수가 채택되었다. 또한 시장의 상황을 반영하기 위해 주가 인덱스에 관련된 데이터를 입력으로 포함하였다. 제안된 주가 예측 방식은 실제 주가를 대상으로 한 실험에서 3.19%로 테스트 오차를 줄였으며, 다른 방법보다 약 19%의 성능 향상을 거둘 수 있었다.

KCI등재

5개체 링킹을 위한 RDF 지식그래프 기반의 포괄적 상호의존성 짝 연결 접근법

저자 : 심용선 ( Yongsun Shim ) , 양성권 ( Sungkwon Yang ) , 김홍기 ( Hong-gee Kim )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 8권 3호 발행 연도 : 2019 페이지 : pp. 129-136 (8 pages)

다운로드

(기관인증 필요)

초록보기

자연어 표현에는 인물, 조직, 장소, 제품 등의 다양한 개체들이 존재한다. 이러한 개체는 다양한 의미를 가질 수 있다. 이러한 개체가 갖는 중의성 문제는 자연어 처리 분야에 있어 매우 도전적인 과제이다. 개체 링킹(Entity Linking)이란 텍스트에 등장한 개체명을 지식베이스 내의 적절한 개체로 연결해주는 작업이다. 개체 링킹을 위한 대표적인 방법론인 짝 연결 접근법(Pairwise based method)은 한 문장에서 등장한 개체가 두 개 이상일 경우 서로의 연관성을 이용해 개체 링킹을 하는 방법이다. 이 방법은 동일 문장에서 등장하는 개체들 간의 상호의존성(interdependence)만을 고려하고 있어 포괄적인 상호의존성(Global interdependence)이 부족하다는 한계를 갖고 있다. 본 논문에서는 개체 링킹을 위해 RDF 형태의 지식베이스 정보를 바탕으로 Word2vec을 활용한 Entity2vec 모델을 생성하였다. 그리고 생성된 모델을 사용하여 각 개체에 대한 랭킹을 하였다. 본 논문에서는 짝 연결 접근법의 한계점을 보완하기 위해 포괄적인 상호의존성을 바탕으로 짝 연결 접근법을 고안하고 구현 및 실험을 통해 기존의 짝 연결 접근법과 비교하였다.

1
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기