이 연구는 국가 간 축구 A매치 승부를 예측할 수 있는 머신러닝 모델을 구축하는 것을 목적으로 한다. 모델 구축을 위해 피파랭킹 100위 안에 있는 국가들의 1872년부터 2018년까지의 A매치 경기 결과가 기록되어 있는 38,847개의 케이스와 최종 테스트용 2019년 728개의 케이스를 입력 데이터로 사용하였다. Orange 플랫폼에 kNN, 랜덤 포레스트, 인공신경망, SVM, 로지스틱 회귀 모델을 활용하여 학습시켰으며 전체 데이터는 학습용 70%, 테스트용 30%로 구별되어 진행되었다. 독립 변인은 팀명, 경기장소, 팀 랭킹, 점수 차, 경기 규모이며, 연구 결과 점수 변인이 포함된 테스트에서는 로지스틱 회귀모델이 근소한 차로 가장 높은 예측력을 보여주었다. 최종 테스트에는 점수 변인이 제거되었는데 전과는 다르게 랜덤 포레스트가 가장 높은 예측력을 보였다. 각 모델에서 결과를 예측하는데 중요하게 쓰인 변인은 첫 번째 테스트에서는 점수 차이였지만 최종 테스트에서는 팀명, 팀 랭킹, 관중효과들이 적절히 사용되어 승부를 예측하는데 효과적으로 변인들이 사용되었음을 확인할 수 있었다.
The purpose of this study is to build a machine learning model that can predict the outcome of international soccer matches. To build the model, 38,848 cases recording A-match results of countries in the top 100 FIFA rankings from 1872 to 2018 and 728 cases from 2019 for the final test were used as input data. The Orange platform was trained using kNN, random forest, artificial neural network, SVM, and logistic regression model, and the entire data was divided into 70% for learning and 30% for testing. The independent variables were the team name, venue, team ranking, score difference, and game size. As a result of the study, the logistic regression model showed the highest predictive power by a narrow margin in the test that included the score variable. In the final test, the score variable was removed, but unlike before, random forest showed the highest predictive power. In each model, the important variable used to predict the result was the score difference in the first test, but in the final test, the team name, team ranking, and spectator effect were appropriately used, confirming that the variables were effectively used to predict the outcome.