3.145.152.98
3.145.152.98
close menu
KCI 우수
빅데이터 분석을 적용한 한국프로농구 리그 정규시즌 경기결과의 머신러닝 분류모형 예측성능 비교에 관한 연구
The Application of Big Data Analysis in Comparison of Machine Learning Algorithms to Predict Korean Professional Basketball League Team Results
김필수 ( Kim Philsoo ) , 이상현 ( Lee Sang Hyun )
DOI 10.23949/kjpe.2023.3.62.2.19
UCI I410-ECN-0102-2023-000-001089976

본 연구는 빅데이터 분석과 다양한 머신러닝 기법을 적용하여 한국프로농구 경기결과를 예측하고 각 기법의 알고리즘 성능을 하이퍼 파라미터 최적화를 통해 개선하고 비교 분석하기 위해 실시되었다. 이를 위해 한국프로농구 홈페이지에서 크롤링한 데이터와 연구자들이 실질적으로 가공한 86개의 예측변수를 종합적으로 사용하였다. 구체적으로, 본 연구에서는 2017∼2018시즌부터 2020∼2021시즌까지의 4년에 달하는 1,003경기의 방대한 분량의 빅데이터를 학습데이터로 사용하여 2021∼2022시즌에 구성된 265경기의 경기 승패 결과를 예측하였다. 본 연구에 적용된 머신러닝 기법으로는 네이브 베이즈, 로지스틱 회귀, 랜덤 포레스트, 배깅, 서포트 벡터 머신(SVM), 에이다 부스트, 의사결정나무, K-최근접 이웃(KNN)이 사용되었고, 각 기법의 성능을 확인하기 위해 학습정확도, 예측정확도, 정밀도, 재현율, F1점수, RMSE, 결정계수를 분석하였다. 마지막으로 본 연구에서 분류된 각각의 머신러닝 모형별 파라미터를 기본값으로 설정한 경우와 최적의 하이퍼 파라미터를 설정한 경우를 객관적으로 비교하여 분석하였다. Test 정확도가 가장 높은 Logistic Regression은 98.11%였으며, 가장 낮은 Decision Tree의 경우에는 94.91%로 나타났다. 한국프로농구 리그의 경기결과 예측을 위해 분류되어 적용된 각각의 머신러닝 기법별로 최적의 하이퍼 파라미터를 적용할 경우 SVM이 98.68%로 가장 높은 Test 정확도를 나타냈으며, 의사결정나무가 86.91% 가장 낮은 테스트 정확도를 보여주었다. 이는 기존의 머신러닝의 기법을 폭넓은 데이터와 변수에 적용하여 종합적으로 비교분석하고 이를 적용한 알고리즘에 나타난 정확도를 비약적으로 발전시켰다는 점에서 큰 의의가 있다.

The purpose of this study is to predict the regular season game results of the Korean professional basketball league and compare the prediction performance of machine learning algorithms with hyper-parameter optimization to improve the performance. We used 86 predictors from the data collected from the Korean Basketball League site through the web scraping technique and transformed some of the variables into usable variables. Using those variables, we predicted the outcomes of 265 matches in the 2021-2022 season with the learning data sets composed of 1003 match data from the 2017-2018 season to the 2020-2021 season. This study compared 8 machine learning algorithms-Naive Bayes, Logistic Regression, Random Forest, Bagging, Support Vector Machine (SVM), AdaBoost, Decision Tree, and K-Nearest Neighborhood comparing the prediction performance of each machine learning algorithm that applied default parameters with hyper-parameters. Logistic Regression displayed the highest test accuracy with 94.91%. Optimizing hyper-parameter, SVM displayed the highest test accuracy (98.68%) and Decision Tree displayed the lowest test accuracy (86.91%). This study contributed to this domain by dramatically developing the prediction performance of machine learning algorithms.

서론
연구방법
연구결과
논의
결론 및 제언
참고문헌
[자료제공 : 네이버학술정보]
×