인터넷이 보급되면서 사람들 간의 소통을 위한 커뮤니티가 활성화됨과 함께 익명 커뮤니티가 나타났고 익명성을 이용한 공격적인 게시글, 댓글을 남기는 등 타인에게 피해를 주는 행위를 하는 이용자가 많아지고 있다. 과거에는 관리자가 직접 글과 댓글을 확인하며 삭제 및 차단했지만, 커뮤니티 이용자가 늘어나면서 관리자가 계속 감시할 수 없는 수준에 이르렀다. 초기에는 특정 단어가 포함되면 해당 글을 게시하거나 댓글을 달 수 없는 형태로 악의적인 글이 게시되는 것을 막는 단어 필터링 기법을 사용하였으나 유사한 단어를 사용하는 등 우회하는 형식으로 필터링을 피해 갔다. 이를 해결하는 방법으로 딥러닝을 이용하여 실시간으로 이용자들이 게시하는 글들을 감시하였으나 최근 커뮤니티에서는 해당 커뮤니티에서만 이해할 수 있는 단어를 사용하거나 일반적인 한글이 아닌 인간의 시야에서만 이해할 수 있는 문자를 사용하고 있다. 이들이 사용하는 문자의 종류나 형태가 다양하여 인공지능 모델에 모든 것을 학습시키기에 어려움이 있다. 이에 본 논문에서는 한글의 자음과 모음 띄어쓰기 이미지를 학습시킨 CNN 모델을 이용해서 문장의 각 문자를 이미지화해 인간의 시야에서만 이해할 수 있는 문자를 모델이 예측한 문자로 변환하는 전처리 기법을 제안한다. 실험 결과, 제안한 전처리 기법을 통해 LSTM, BiLSTM, CNN-BiLSTM 모델에서의 성능이 각각 3.2%, 3.3%, 4.88% 증가함을 확인했다.
With the spread of the Internet, anonymous communities emerged along with the activation of communities for communication between people, and many users are doing harm to others, such as posting aggressive posts and leaving comments using anonymity. In the past, administrators directly checked posts and comments, then deleted and blocked them, but as the number of community users increased, they reached a level that managers could not continue to monitor. Initially, word filtering techniques were used to prevent malicious writing from being posted in a form that could not post or comment if a specific word was included, but they avoided filtering in a bypassed form, such as using similar words. As a way to solve this problem, deep learning was used to monitor posts posted by users in real-time, but recently, the community uses words that can only be understood by the community or from a human perspective, not from a general Korean word. There are various types and forms of characters, making it difficult to learn everything in the artificial intelligence model. Therefore, in this paper, we proposes a preprocessing technique in which each character of a sentence is imaged using a CNN model that learns the consonants, vowel and spacing images of Korean word and converts characters that can only be understood from a human perspective into characters predicted by the CNN model. As a result of the experiment, it was confirmed that the performance of the LSTM, BiLSTM and CNN-BiLSTM models increased by 3.2%, 3.3%, and 4.88%, respectively, through the proposed preprocessing technique.