본문 바로가기
216.73.217.86
216.73.217.86
KCI 등재 SSCI SCOPUS
풍부한 데이터를 활용한 CBOE 변동성 지수(VIX) 예측: 보루타 연산(Boruta algorithm)과 랜덤 포레스트(random forest)의 적용
Multi-Step-Ahead Forecasting of the CBOE Volatility Index in a Data-Rich Environment: Application of Random Forest with Boruta Algorithm
김병연 ( Byung Yeon Kim ) , 한희준 ( Heejoon Han )
UCI I410-ECN-0102-2023-300-000661404

시카고 옵션거래소(CBOE) 변동성 지수(VIX)는 향후 미국 주식시장 변동성에 대한 투자자들의 기대를 반영하는 지표로서, 오늘날 금융시장의 변동성과 전반적인 심리에 대한 대표적인 척도이다. VIX 지수 예측과 관련한 기존 논문들은 단순한 HAR(Heterogeneous Autoregressive) 모형의 예측력이 우수하다는 것을 보였는데, 대부분의 경우 예측에 사용한 설명변수들의 개수가 제한되어 있고 또한 1단계 앞 예측(one-stepahead forecasting)만을 고려하고 있다. 본고는 고차원(highdimension)의 설명 변수(총 298개의 거시/금융 변수)를 사용하면서 다양한 기계학습(machine learning) 기법들을 적용하여 VIX 지수의 다단계 앞 예측(multi-step-ahead forecasting)을 분석한다. 특히 랜덤 포레스트(random forest) 환경에서 변수 선택(variable selection)과 최적 변수의 개수를 결정하는 새로운 방법을 제시하고, 이 방법이 다단계 앞 예측(multi-step-ahead forecasting)에 우수함을 보이고 있다. 구체적인 예측 절차는 1) 보루타 연산(Boruta algorithm)을 통해 변수 중요도(variable importance)의 순위를 도출하고, 2) 교차 검증(cross validation)을 통해 최적 변수의 개수를 결정하고, 3) 중요도가 높은 변수들을 2)에서 정해진 개수만큼만 사용하여 랜덤 포레스트를 실시하는 것이다. 다양한 표본 기간 및 예측 기간을 고려해도, 이 방법을 통해 통계적으로 유의하게 우월한 VIX 지수의 다단계 앞 예측치(multi-stepahead forecast)들을 구할 수 있음을 보이고 있다.

The CBOE volatility index (VIX) is a representative barometer of the overall sentiment and volatility of the financial market. This paper seeks to apply random forest and its variable importance measure to forecasting the VIX index. Compared to the previous literature which has found it difficult to outperform the pure HAR process in terms of forecasting the VIX index due to its persistent nature, random forest can produce forecasts that are significantly more accurate than the HAR and augmented HAR models for multidays forecasting horizons. This paper shows that the forecasting accuracy of random forest could be further improved by systematically selecting the optimal number of the most important covariates from a dataset of 298 macro-finance variables, while using the Boruta algorithm which ranks the variables based on random forest’s variable importance measure. The superior predictability of this method is more evident with longer forecasting horizons.

Ⅰ. Introduction
Ⅱ. Methodology
Ⅲ. Data and Forecasting Procedure
Ⅳ. Results
Ⅴ. Conclusion
Appendix A
References
[자료제공 : 네이버학술정보]
×