본 연구는 혐오표현 분류 AI와 AI가 발생하는 오류의 양상을 분석함으로써 인공지능이 사회에 끼치는 영향에 관해 논의하고자 한다. 현대 사회의 온라인 공간은 혐오표현으로 가득하다. 이를 해결하기 위해 혐오표현 분류 AI가 등장하여 온라인 공간의 자정작용에 긍정적 영향을 주었지만, 이들의 오류는 혐오표현을 제대로 걸러내지 못하거나 엉뚱한 문장을 검열함으로써 특정 개인들에게 큰 피해를 주곤 한다. 그러므로 우리는 혐오표현 분류기의 오분류 양상을 살펴보고, 이러한 오류가 사회에 영향을 줄 수 있는지, 더 나아가 이를 개선 방안을 논하고자 한다. 본 연구는 스마일 게이트에서 제공하는 혐오표현 분류기와 데이터를 활용하여, 스마일 게이트의 테스트 데이터 내에서 오분류가 보이는 양상을 검토할 것이다. 따라서 본 연구는 혐오표현 분류기가 사회에 끼치는 악영향은 줄이고, 올바른 분류를 할 수 있는 모델 개발에 도움이 되었으리라 기대한다.
This study explores the classification of hate speech by artificial intelligence (AI) and its errors, to explore its impact on society. The online sphere in modern society is full of hate speech. To address this, hate speech classification AIs have been developed and have positively impacted the self-regulation of online platforms. However, their errors often cause significant harm to certain individuals by failing to filter out hate speech or by censoring incorrect sentences. Therefore, we aim to examine the misclassification of hate speech classifiers and discuss the potential societal impact of these errors, as well as explore methods for improvement. This study employed the hate speech classifier and date provided by SmileGate to examine the patterns of misclassification within SmileGate’s test data. Therefore, we hope that this study can lay the groundwork for aiding hate speech classifiers in making accurate classifications, thus mitigating their detrimental impact on society.