본 연구는 논문을 사용한 토픽 모델링에서 연구자가 고려해야 할 요소 중 하나인 참고문헌 제거 여부에 대한 필요성을 탐색하고자 하였다. 참고문헌 내용만을 텍스트에서 정확하게 제거하는 명령어나 기술이 제공되고 있지 않아, 참고문헌을 제외한 텍스트로 토픽 모델링을 수행하고자 하였을 때에는 연구자가 모든 텍스트에서 일일이 참고문헌을 제거하는 과정을 거쳐야만 한다. 이렇게 많은 노동력과 시간이 소요되는 참고문헌 제거 과정이 연구자에게 부담으로 작용할 수 있으므로, 참고문헌의 존재가 토픽 모델링 결과에 어떠한 영향을 미치는지를 알아보고 토픽 모델링에 더욱 적합한 텍스트 형태를 제시하고자 하였다. 스포츠산업경영 분야의 국제 저널 SMQ, ESMQ와 JSM에서 최근 10년간 출간된 논문을 대상으로 토픽 모델링을 수행하고, 참고문헌이 포함된 텍스트와 참고문헌이 제거된 텍스트의 토픽 모델링 결과를 비교하였다. 스포츠산업경영 및 마케팅에 대한 전반적인 지식을 가지고 세 가지 저널의 특성에 대해 충분히 이해하고 있는 전문가 5인의 평가로 결과 비교가 이루어졌다. 비교 결과, 참고문헌을 포함한 전문을 사용하였을 때 더욱 해석이 용이한 토픽 모델링 결과가 도출되는 것으로 나타났다. 텍스트에 참고문헌이 포함되었을 때에 토픽을 산출하는 데 할당되는 논문 간의 연관성이 높았으며, 연관성이 높은 논문들로부터 산출된 토픽의 해석가능성 또한 높아지는 것으로 판단할 수 있다. 이처럼 참고문헌의 존재가 토픽 모델링 결과에 부정적인 영향을 미치지 않는다는 본 연구결과에 따르면, 논문을 사용한 토픽 모델링에서 참고문헌을 제거하는 추가적인 절차를 거치지 않아도 됨을 뜻한다. 이에 따라, 논문을 사용한 토픽 모델링을 수행하고자 하는 추후 연구에서는 참고문헌의 존재가 미칠 수 있는 토픽 모델링 결과에 대한 부정적인 영향력에 대한 고민을 덜 수 있을 것으로 판단된다.
This study tried to investigate the necessity of the reference removal procedure during the text pre-processing in topic modeling by comparing the topic modeling results using the text with reference and the text without reference. The use of full-text article for the topic modeling may cause extra work on removing the subsidiary part that is not directly related to the content of the article, because it is not able to selectively extract the certain part of the text that researcher wants to include in the analysis has not yet been developed. Therefore, manual work by the researcher is required to remove the subsidiary information and it takes a great amount of labor and time to perform the text pre-processing rather than the actual topic modeling analysis process. Thus, this study compared the topic modeling result of the text containing reference and of the text without reference. The research articles has been published from three major sports management and marketing journals from 2009 to 2018 were collected. JSM, ESMQ, and SMQ have been selected based on their reputation and status in the academic field. Five sport management/marketing experts were hired to evaluate the quality of the topic modeling result. The result indicated that the text containing reference produced a better topic modeling result than the text without reference. The relevance between the articles which were used to generate certain topic was higher when the text containing reference. It can be concluded that the quality of the topics is also high when the relevance of the articles is high. Based on this result, reference removal procedure is not necessary for the topic modeling using research articles. It can reduce a considerable amount of time and labor that the researcher needs to spend on pre-processing.