연구목적 본 연구는 분류 기법을 이용하여 P 대학 학생의 중도 탈락을 예측하는 모형을 제시하는 데 주된 목적이 있다. 연구방법 이 연구는 2017년부터 2021년까지 P 대학의 중도 탈락자를 대상으로 한 설문과 2019학년도에서 2020학년도에 재학 중인 학생들을 대상으로 한 설문 중 중도 탈락의 사유와 의도에 대한 텍스트를 분석하였다. 결과 본 연구의 결론은 다음과 같다. 4개의 분류 알고리즘을 사용한 결과 학습용 데이터 셋의 정확도는 릿지 회귀 알고리즘을 사용한 경우가 96.7%로 가장 높았으며, 평가용 데이터 셋의 경우 결정트리 알고리즘을 사용한 경우가 73.9%로 가장 높았다. 결론 텍스트 분석을 통하여 중도 탈락의 예측모형을 평가하였으나 입력된 텍스트의 문맥에 대한 분석에 대한 보완과 중도 탈락이 개인적인 요인과 기관 관련 요인 등에 의해 영향을 받을 수 있는 만큼 해당 요인들 간의 관계를 중도 탈락예측 모형에 반영할 필요가 있다. 또한 중도탈락에 대해 학생들이 입력한 텍스트로부터 학생들의 의도를 명확하게 파악하기 위해 문맥의 의미를 파악하도록 예측 모형을 보완할 필요가 있다.
PURPOSE The purpose of this study is to propose a machine learning based model that predicts dropout in advance by using various information of dropouts and on-campus students. METHOD To this end, data of dropouts students enrolled in P University from 2017 to 2021 and attended from 2019 to 202 were sampled and collected. RESULT As a result of using four classification algorithms, the accuracy of the learning dataset was the highest at 96.7% in the case of using the Ridge regression algorithm. In the case of evaluation datasets, 73.9% of the cases using the decision tree algorithm were the highest. CONCLUSION Although the prediction model of dropout was evaluated through text analysis, it is necessary to reflect the relationship between the factors in the prediction model as it can be affected by personal and institutional factors. In addition, it is necessary to supplement the predictive model to grasp the meaning of the context in order to clearly grasp the student's intention from the text entered by students for dropout.