카이제곱 통계량과 지지벡터기계를 이용한 스팸메일 필터

이성욱

한국정보처리학회 정보처리학회논문지B 카이제곱 통계량과 지지벡터기계를 이용한 스팸메일 필터

카이제곱 통계량과 지지벡터기계를 이용한 스팸메일 필터

Spam Filter by Using X2 Statistics and Support Vector Machines

이성욱 ( Song Wook Lee )

한국정보처리학회 2010.06

정보처리학회논문지B 17권 3호 249-254(6pages)

UCI I410-ECN-0102-2012-000-001083560

인용하기 URL 복사 보관함 담기

미리보기

초록

본 논문은 지지벡터기계를 이용하여 스팸메일을 자동으로 분류하는 시스템을 제안한다. 이메일에 포함된 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이제곱 통계량을 이용하여 자질을 선택한 후 각각의 자질을 TF, TF-IDF, 이진 가중치 등으로 표현하여 실험하였다. 카이제곱 통계량을 이용하여 선택된 자질들을 이용하여 SVM을 학습한 후, SVM분류기는 각각의 이메일의 스팸 여부를 결정한다. 실험 결과, 선택되어진 자질들이 성능향상을 가져왔으며, TREC05-p1 스팸 말뭉치에 대해 약 98.9%의 정확도를 얻었다.

We propose an automatic spam filter for e-mail data using Support Vector Machines(SVM). We use a lexical form of a word and its part of speech(POS) tags as features and select features by chi square statistics. We represent each feature by TF(text frequency), TF-IDF, and binary weight for experiments. After training SVM with the selected features, SVM classifies each e-mail as spam or not. In experiment, the selected features improve the performance of our system and we acquired overall 98.9% of accuracy with TREC05-p1 spam corpus.

키워드

Support Vector Machine

Chi Square Statistics

Feature Selection

참고문헌 (0)

[자료제공 : 네이버학술정보]