Creation and clustering of proximity data for text data analysis
1. 서론 2. 근접성 데이터 생성법 3. 활용 사례 4. 결론 References
문서-용어 빈도행렬은 텍스트 마이닝 분야에서 보편적으로 사용되는 데이터의 한 유형으로, 여러 개체들이 제공하는 문서를 기반으로 만들어진다. 그러나 대다수의 연구자들은 개체 정보에 무게를 두지 않고 여러 문서에서 공통적으로 등장하는 공통용어 중 핵심적인 용어를 효과적으로 찾아내는 방법에 집중하는 경향을 보인다. 공통용어에서 핵심어를 선별할 경우 특정 문서에서만 등장하는 중요한 용어들이 공통용어 선정단계에서부터 배제될 뿐만 아니라 개별 문서들이 갖는 고유한 정보가 누락되는 등의 문제가 야기된다. 본 연구에서는 이러한 문제를 극복할 수 있는 데이터를 근접성 데이터라 정의한다. 그리고 근접성 데이터를 생성할 수 있는 12가지 방법 중 개체 군집화의 관점에서 가장 최적화된 방법을 제안한다. 개체 특성 파악을 위한 군집화 알고리즘으로는 다차원척도법과 K-평균 군집분석을 활용한다.
Document-term frequency matrix is a type of data used in text mining. This matrix is often based on various documents provided by the objects to be analyzed. When analyzing objects using this matrix, researchers generally select only terms that are common in documents belonging to one object as keywords. Keywords are used to analyze the object. However, this method misses the unique information of the individual document as well as causes a problem of removing potential keywords that occur frequently in a specific document. In this study, we define data that can overcome this problem as proximity data. We introduce twelve methods that generate proximity data and cluster the objects through two clustering methods of multidimensional scaling and k-means cluster analysis. Finally, we choose the best method to be optimized for clustering the object.
I410-ECN-0102-2019-300-001407432
한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.
이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.
간행물명 | 수록권호 |
---|---|
|
33권 6호 ~ 33권 6호 |
|
27권 5호 ~ 27권 5호 |
|
33권 5호 ~ 33권 5호 |
|
33권 4호 ~ 33권 4호 |
|
27권 3호 ~ 27권 4호 |
|
33권 3호 ~ 33권 3호 |
|
33권 2호 ~ 33권 2호 |
|
27권 2호 ~ 27권 2호 |
|
27권 1호 ~ 27권 1호 |
|
33권 1호 ~ 33권 1호 |
통계연구 |
21권 0호 ~ 21권 0호 |
|
32권 6호 ~ 32권 6호 |
|
32권 6호 ~ 32권 6호 |
|
26권 6호 ~ 26권 6호 |
|
32권 5호 ~ 32권 5호 |
|
26권 5호 ~ 26권 5호 |
|
32권 4호 ~ 32권 4호 |
|
26권 4호 ~ 26권 4호 |
|
32권 3호 ~ 32권 3호 |
|
26권 3호 ~ 26권 3호 |
자료제공: 네이버학술정보 |
---|
자료제공: 네이버학술정보 |
---|
본 자료는 원문파일이 존재하지 않거나 서비스를 위한 준비 중입니다.
빠른 시일 내에 서비스할 수 있도록 노력하겠습니다.
관련문의사항은 kiss@kstudy.com 으로 연락주시기 바랍니다.
감사합니다.
개인회원가입으로 더욱 편리하게 이용하세요.
아이디/비밀번호를 잊으셨나요?