빅데이터 분석에 의한 요율산정 방법 비교 : 실손의료보험 적용 사례

이항석

보험연구원 보험연구원 연구보고서 빅데이터 분석에 의한 요율산정 방법 비교 : 실손의료보험 적용 사례

빅데이터 분석에 의한 요율산정 방법 비교 : 실손의료보험 적용 사례

A Ratemaking of Private Health Insurance using Data Mining Techniques

이항석

보험연구원 2018.09

보험연구원 연구보고서 2018권 16호 1-114(114pages)

UCI I410-ECN-0102-2019-300-001175851

인용하기 URL 복사 보관함 담기

미리보기

초록

Ⅰ. 서론 ■ 빅데이터 시대에 발맞춰 외국보험회사들이 빅데이터기법을 도입하고 있음 ○ 기존의 전통적인 요율산정기법에서 교호작용을 고려하지 않아 요율산정에 왜곡을 가져올 수 있으나, Multivariate Method가 단점을 보완함 － 요율산정의 Multivariate Method로 일반화선형모형이 최근에 널리 이용되고 있으며 본 연구에서는 일반화선형모형, 일반화 혼합선형모형, 의사결정나무, MARS 그리고 신경망모형을 통하여 실손의료보험 데이터를 분석함 ■ 실손의료보험은 국민 60% 이상이 가입한 상품임에도 불구하고 손해율은 여전히 100%를 상회하고 있음 ○ 국민복지에 지속적인 순기능을 위해 현행되고 있는 단일보험료체계가 아닌 세분화된 요율산정의 필요성이 대두됨 ■ 최근에는 실손의료보험에 대한 다양한 요율 산출 연구가 진행되고 있음 ○ 역선택과 관련된 선행연구로 － 김대환·이봉주(2013)는 국내 실손의료보험시장에 역선택이 존재한다는 점을 확인하였고, － 이경아·이항석(2016)은 역선택의 원인을 계약자별 편차가 큰 위험특성으로 주장하며 이에 대한 해결책으로 과거 보험금 정보인 경험자료를 활용한 보험료 차등화를 제안함 ○ 과거실적을 반영한 요율 산출 방법에 대한 선행연구로 이항석·이수빈·백혜연(2017)은 신뢰도기법을 반영하여 보험료를 산정함 Ⅱ. GLM 빈도 심도 분석 ■ 일반화선형모형은 보험자료의 흔한 특성인 비정규성의 특성에 맞는 방법론임 ○ GLM은 선형모형의 확장된 모델로 정규성과 등분산을 만족하지 않아도 되어 포괄적인 적용이 가능함 － 선형모형의 가정과는 다르게 반응변수는 정규분포를 따르지 않아도 되고 오차항의 등분산성을 상정하지 않아도 됨 ○ 반응변수의 분포를 지수족(Exponential family)으로 가정함 － 지수족에는 포아송분포, 감마분포, 이항분포 등이 있으며 이는 보험데이터에 적합한 분포임 ○ 로그 연결함수를 이용하면 승법성이(Multiplicativity) 성립하여 상대도(Relativity)에 적용하기에 용이함 － ln(μ) = β₀+x₁β₁ ⇒ μ = e^{β₀+x₁β₁} ■ GLM을 활용한 빈도 분석 ○ 보험사고건수는 포아송분포를 가정함 － 사고건수는 이산형변수이므로 이를 반응변수로 갖는 포아송분포가 적합함 ■ GLM을 활용한 심도 분석 ○ 보험사고금액은 0이상인 데이터를 반응변수로 하는 감마분포를 가정함 ○ 위험에 노출된 정도가 다를 때, 즉 익스포져(Exposure)가 다를 때 오프셋(offsets)을 사용하여 보정함 － 보험금은 가입금액에 따라 최대로 받을 수 있는 보험금이 달라지므로 오프셋항을 활용함 Ⅲ. GLMM을 이용한 할인할증제도 적용 방법 ■ 일반화 혼합선형모형(GLMM)을 이용해 할인할증제도를 적용함 ○ GLMM 방법은 GLM에서 고정효과(Fixed Effect)로 가정하고 계약자들의 실적변수들의 계수는 임의효과(Random Effect)로 가정하여 계약자에게 발생한 보험사고 간의 상관관계를 모형화한 것임 ○ 할인할증제도는 최적의 방법론이라기보다는 주로 해외 선진국에서 사회적으로 수용 가능한 형태로 도입되어 옴 － 이미 2017년 4월부터 판매되고 있는 국내 실손의료보험 상품에 대해서는 2년 무사고자에게 보험료를 10% 할인해주는 할인할증제도를 적용하고 있음 － AIA, AXA, BUPA와 같은 해외보험사들은 무청구 이력을 바탕으로 할인할증제도를 운영함 ■ 무사고 누적연수를 바탕으로 할인할증제도 실증분석 ○ -1/Top scale 형태의 할인할증제도로 실증분석결과 무사고 누적연수가 0년인 계약자보다 4년 이상인 계약자가 61% 할인을 받음 Ⅳ. 의사결정나무와 MARS ■ CART 방법론은 의사결정나무 중에 가장 널리 쓰이는 방법론으로 Breiman et al.(1984)이 개발함 ○ 출력변수가 연속형인지 범주형인지에 따라서 회귀나무와 분류나무로 나뉠 수 있는데 본 연구에서는 회귀나무로 분석함 ○ 이진분리(Binary split)로 해석성은 좋으나 예측력이 떨어지는 단점이 있음 － 또한 가장 설명력이 있는 변수에 대하여 최초로 분리가 일어나는 특징을 가지므로 요율산정에 있어서 주요변수가 무엇인지 파악 가능함 － complexity parameter(cp)를 통하여 나무크기 조절이 가능한데 cp가 클수록 나무형태가 작아짐 ■ CART 분석결과 직전연도 발생건수가 최초 분리변수로 사용되었으며, 나머지 변수들도 중요도 순으로 분리변수로 선택됨 ○ 분리변수의 중요도 순은 GLM 분석의 p-value 작은 순과 일치함 － GLM 분석에서 p-value 값은 작을수록 유의한 변수라고 해석될 수 있음 ■ MARS는 입력변수가 많은 고차원 회귀문제에 적합한 알고리즘으로 Friedman(1991)이 제안함 ○ 기저함수(basis function)로 데이터 자체(X_j)가 아닌 변형된 형태((X_j+t)₊)로 입력됨 － 전통적 선형회귀와 같이 오차제곱합을 최소화시키는 β_m 계수들을 추정함 － 기저함수는 전진 선택법을 사용하여 선택되어, 먼저 B₀(X)=1을 모형에 투입하고 오차제곱합을 최소화하는 변수와 매듭점을 찾고 기저함수쌍을 모형에 추가 － 그 후 과대적합(Overfitting)을 막기 위해 후진 소거법으로 설명력이 없는 기저들을 제거함 ■ GLM 옵션이 있는 MARS 분석 ○ GLM 옵션에서 링크함수를 로그로 지정하면 빈도나 심도가 반응변수가 음수 값을 갖는 것을 방지함 Ⅴ. 앙상블기법과 신경망모형 ■ 신경망모형은 복잡한 구조를 가진 데이터의 예측 문제를 해결하는 비선형 모형화 방법이며 본문에서는 가장 간단한 신경망모형을 통해서 신경망모형의 구조를 살펴봄 ○ 입력변수의 선형결합에 비선형 함수를 취하는 사영추적회귀(Projection Pursuit Regression)임 － 입력층에서 은닉층으로 시그모이드 함수를 사용한 선형결합이 이루어지고, 은닉층에서 출력층으로 비선형결합이 이루어짐 ■ 은닉층이 다층인 신경망모형을 다차원 신경망모형, 즉 딥러닝이라고 칭함 ○ 가중치가 많아 해석하는데 어려움이 있음 ■ 신경망모형을 이용한 보험료 차등화 ○ 신경망모형을 이용한 빈도와 심도 모형은 MAE(Mean Sbsolute Error) 지표를 기준으로 보았을 때 대체로 우수한 편이나 입력변수에 영향을 많이 받음 － 빈도 모형의 경우 신경망모형이 가장 우수하였으나 그 해석이 어려움 － 빈도는 0 근처의 값이 대부분이므로 입력변수를 데이터와 똑같이 삽입하는 반면 심도는 입력변수가 크기 때문에 정규화하여 모델링함 Ⅵ. 시사점 및 결론 ■ 모델 비교 ○ MAE(Mean Absolute Error)지표를 바탕으로 5-묶음 교차검증을 각 방법론별로 실시함 － 그 결과, 빈도 모형에서는 신경망모형이 가장 우수하고 GLM과 같은 통계적인 기법보다 머신러닝기법 사용 시 오차가 감소함 － 심도 모형은 로그를 연결함수로 사용한 모형들이 오차가 작게 평가됨 ■ 상황별 제한점 ○ GLM 모형과 같은 통계 모형은 추정한 계수를 해석하기 편한 장점이 있는 반면 빈도 모형에서는 낮은 예측력을 보임 ○ GLMM은 Random Effect를 고려할 수 있는 장점이 있으며 할인할증제도 모델링에 응용 가능함 ○ CART는 이진분리로 해석하기 용이하나 예측력이 다른 모델에 비해 좋지 않음. 이를 보완하기 위해 앙상블기법이 쓰임 ○ 앙상블기법에는 배깅, 부스팅, 랜덤 포레스트 등이 있는데 부스팅같은 경우 해석력이 부족하고 이상치(Outlier)에 민감함 － 배깅이나 랜덤 포레스트의 경우 복원추출 시 일부 관측치들은 훈련자료에서 빠질 수도 있음 ○ 신경망모형 및 딥러닝은 빈도 모형에서 예측력은 좋으나 은닉층에 노드가 많을 때에는 해석하기 쉽지 않은 편임

Many insurance companies use data mining techniques to find insights hidden in their data. In this study, a ratemaking of the private health insurance is carried out through various supervised learning. In the case of private health insurance, although it is necessary to calculate a more detailed rate to prevent adverse selection, various ratemaking methods have not yet been applied in practice. Currently, rating variables of private health insurance are genders, ages and class rates. In spite of the heterogeneous risk characteristics of private health insurance, the use of only restrictive rating variables can lead to sustained loss ratios and a reduction in the private health insurance market by intensifying adverse selection. Therefore, it is necessary to consider introducing the policyholder's performance as a rate variable, which can better explain the risk characteristics of each policyholder. In order to overcome the shortcomings of one-way classification, ratemaking approach using multivariate method such as generalized linear model (GLM) is used. Furthermore, we apply machine learning techniques such as decision trees, ensemble models, MARS and neural network models to ratemaking in this study. We implement through R programming so that insurance practitioners and researchers can try machine learning algorithms.

키워드

참고문헌 (0)

[자료제공 : 네이버학술정보]