스포츠와 관련한 빅데이터 축적 및 수집 기술, AI 알고리즘의 발전, 컴퓨터 과학이 발전하면서 최근 경기결과 예측과 관련한 연구가 증가하고 있다. 하지만, 세계에서 가장 큰 시장을 가지고 있는 축구 종목에서 이와 같은 연구는 초기 단계라는 점에서 학술적 발전과 실무적 요구에 부응할 필요가 있다. 본 연구는 이러한 연구의 필요성을 달성하기 위해 경기데이터의 축적이 비교적 잘 이루어진 영국 프리미어리그 경기결과를 머신러닝을 적용하여 예측하고 그 분류모형의 성능을 비교하는 것을 목표로 수행하였다. 이를 위해 2020~2021시즌부터 2022~2023시즌 5월까지 진행된 1,107경기에서 (N=2,214) 축적된 123개의 변수를 프리미어리그 공식 홈페이지, 풋몹(Fotmob), 트랜스퍼마켓(Transfer markt), 케이펄로지(Capology)에서 총체적으로 수집하여, 이 중 16개의 변수를 최종적으로 분석에 사용하였다. 본 연구에서는 다항 로지스틱 회귀분석, 다층 신경망, 랜덤 포레스트, 그래디언트 부스팅, Light-GBM, 에이다 부스트, 서포트 벡터 머신, 선형 판별 분석, 비선형 판별 분석의 9가지 머신러닝 알고리즘을 통해 경기결과를 예측하였다. 본 연구의 분석 결과, 최종적으로는 다층 신경망, 다항 로지스틱 회귀, 선형 판별 분석, 비선형 판별 분석, 서포트 벡터 머신, 그래디언트 부스팅, 에이다 부스트, Light-GBM, 랜덤 포레스트 순으로 예측 성능을 나타냈다. 가장 높은 예측 성능을 보여준 다층 신경망은 F1-score 86.66, 정확도 88.49%를 기록했다. 본 연구는 기존 연구에서 경기결과 예측에서 활용하지 않았던 기대득점을 비롯한 16개의 독립 변수만으로 머신러닝 성능평가 모형을 구축하여 86.66의 F1-score를 기록하는 등 기존 연구의 예측 성능을 대폭 개선하였다는 점에서 축구 분야에서 머신러닝을 활용한 연구의 발전과 실무적 활용 가능성 확장에 기여도가 있다는 의의를 지닌다.
The accumulation and collection of big data related to sports along with the development of AI algorithms, and computer science has opened a new era of research on the prediction of sports match results based on machine learning. Football, which has the largest market in the world, calls for such research still in its early stages of academic development and practical needs. This study was conducted to predict the English Premier League match to expand machine learning application in sports result prediction research. To implement our research idea, game match variables were collected from various validated sites such as Premier League, Fotmob, Trasfer market, and Capology homepage through web scraping technique. Following the procedure, 16 variables were selected for the research modelling optimized based on a stepwise selection of a total of 123 variables for 1,107 match data (N=2,214) during the 2020-2021 season to May of the 2022-2023 season collected to predict game results based on nine machine learning algorithms. As a result of the analysis, the prediction performance can be depicted in the order of Multi-layer Perception, Multinomial Logistic Regression, Linear Discriminant Analysis, Quadratic Discriminant Analysis, Support Vector Machine, Gradient Boosting, Ada Boost, Light-GBM, and Random Forest. The Multi-layer Perception, which showed the highest prediction performance, recorded an F1 score of 86.66. This study has made a significant theoretical and practical contribution to the development of game prediction with the application of machine learning algorithms in the domain of professional football, as it has significantly improved the prediction performance of previous studies recording a F1-score of 86.66 that includes expected goal (xG) variable not frequently applied in the prediction of game results in previous studies.