연구목적 본 연구는 한 사립대학의 학생 데이터에서 중도탈락 학생을 식별하는 데 있어 최적의 모델링 솔루션을 찾는 것이다. 연구방법 K-Nearest Neighbor(KNN), Naïve Bayes(NB) 및 Decision Tree(DT)의 세 가지 분류기법을 사용하여 학생 중퇴를 예측하기 위해 학업 성과와 인구 통계학적 지표 사이의 상관 관계를 분석하고 측정한다. 결과 정밀도는 KNN이 73.41%, DT가 60.81%, NB는 64.79%이었으나 그라데이션 부스팅을 사용하여 앙상블 스태킹 방법으로 분석한 결과는 78.62%로 나타났다. 또한 10배 교차 검증으로 테스트된 이 방법을 사용하여 정확도는 약 98.02%의 나타났다. 결론 대학생의 중도 탈락을 예측하는 데 과제 수행율, 강의 출석률, 학점, 대학생활에 대한 만족도 등이 포함된다는 것을 알 수 있었으나, 외적인 이유를 배제할 수 없어 본 연구에서 수행한 예측 모델만으로는 한계를 가지고 있다. 연구를 확장하기 위해서는 연관된 다양한 속성들 사이의 상관관계를 파악하고 이를 활용하는 방법과 데이터 세트의 수를 증가시켜 예측 모델의 성능을 향상시키기 위한 연구를 수행해야 한다.
PURPOSE The main objective of this study is to find the best prediction solution in identifying dropout student predictors from student data of a private university. METHOD Three classification techniques, K-Nearest Neighbor (KNN), Nai),ve Bayes (NB), and Decision Tree (DT), are used to analyze and measure the correlation between academic performance and demographic indicators to predict student dropout. RESULT The results only get 73.41%(KNN), 60.81%(DT), and 64.79%(NB) while I tried to combine algorithms with Ensemble Stacking Methods using Gradient Boosting as meta-classifier and gets better about 78.62%. In addition, I also get the best accuracy of about 98.02% using this method which was tested by 10-fold cross-validation. CONCLUSION It was found that the prediction of college students' dropout included the percentage of student attendance, homework, GPA, etc., but external reasons such as environmental influences cannot be excluded. There are still many shortcomings in this study, To expand the study, it is necessary to increase the number of variations correlative feature and large dataset. It also needs to do more research about feature selection method so each feature is more significant and very optimal to use in prediction modelling.