|
저자 : 송미경 ( Mi Kyung Song ) , 박영우 ( Yeongwoo Park ) , 한은정 ( Eun-jeong Han )
발행기관 : 한국통계학회
간행물 :
응용통계연구
35권 4호
발행 연도 : 2022
페이지 : pp. 457-468 (12 pages)
|
다운로드
(기관인증 필요)
|
|
초록보기
고령인구가 증가함에 따라 국가차원에서 노인의 건강노화 실현을 위한 장기요양 필요 발생의 예방 방안을 마련하는 것은 매우 중요하며, 정책적 효과를 극대화하기 위해서는 적절한 대상자의 선정이 선행되어야 한다. 이에 본 연구는 국민건강보험공단의 국민건강정보를 활용하여, 장기요양 필요를 야기하는 기능장애 발생 가능성이 높은 대상자를 발굴하기 위한 예측모형을 개발하고자 한다. 본 연구는 연구대상자의 과거 수집된 자료를 활용하는 후향적 연구로, 본 연구의 연구대상자는 만 65세 이상 의료보장등록인구이다(총 7,724,101명). 예측모형 개발을 위해 고유 방법인 로지스틱 회귀모형, 머신러닝 방법인 의사결정나무와 랜덤포레스트, 딥러닝 방법인 다층퍼셉트론 신경망을 분석하였다. 체계적 분석절차를 통해 각 분석방법별 모형을 적합하였고, 내적 타당성 및 외적 타당성 평가 결과를 기반으로 최종 예측모형을 랜덤포레스트로 선정하였다. 랜덤포레스트는 모집단에서의 4.50%밖에 되지 않는 장기요양 필요 대상자의 약 90%를 장기요양 필요 발생 고위험 대상자로 예측할 수 있다. 본 연구의 예측모형 및 고위험군 기준은 노인의 욕구 중심에서 예방 서비스가 필요한 대상자를 선제적으로 발굴하는데 기여할 것으로 기대된다.
|
|
저자 : 문혜인 ( Hye In Mun ) , 손원 ( Won Son )
발행기관 : 한국통계학회
간행물 :
응용통계연구
35권 4호
발행 연도 : 2022
페이지 : pp. 469-484 (16 pages)
|
다운로드
(기관인증 필요)
|
|
초록보기
텍스트 데이터는 일반적으로 많은 단어로 이루어져 있으므로 변수의 수가 매우 많은 고차원 데이터에 해당된다. 이러한 고차원 데이터에서는 계산 효율성과 통계분석의 정확성을 높이기 위해 많은 변수 중 중요한 변수를 선택하기 위한 절차를 거치는 경우가 많다. 텍스트 데이터에서도 많은 단어 중 중요한 단어를 선택하기 위해 여러가지 방법들이 사용되고 있다. 이 연구에서는 단어 선택을 위한 대표적인 필터링 방법인 카이제곱통계량과 정보이득의 공통점과 차이점을 살펴보고 실제 텍스트 데이터에서 이들 성질을 확인해보았다. 카이제곱통계량과 정보이득은 비음성, 볼록성 등의 성질을 공유하지만 불균형 텍스트 데이터에서 카이제곱통계량이 양변수 위주로 단어를 선택하는 반면, 정보이득은 음변수도 상대적으로 많이 선택하는 경향이 있음을 확인하였다.
|
|
저자 : 이민하 ( Min-ha Lee ) , 신기일 ( Key-il Shin )
발행기관 : 한국통계학회
간행물 :
응용통계연구
35권 4호
발행 연도 : 2022
페이지 : pp. 485-499 (15 pages)
|
다운로드
(기관인증 필요)
|
|
초록보기
표본오차와 비표본오차를 포함하는 총오차(total survey error)를 관리하는 것은 표본설계에서 매우 중요하다. 무응답으로 인해 발생한 비표본오차는 총오차에서 차지하는 비중이 매우 크며 이를 해결하는 방법인 무응답 대체에 관한 다수의 연구가 수행되었다. 최근 전통적 통계학 관련 기법에 추가하여 기계학습 관련 기법을 이용한 무응답 대체법이 다수 연구되고 실질적으로 사용되고 있다. 기존에 발표된 다수의 방법은 MCAR (missing completely at random) 또는 MAR (missing at random) 가정을 사용하고 있다. 그러나 관심변수에 영향을 받는 MNAR (missing not at random) 또는 무시할 수 없는 무응답 (non-ignorable non-response; NN)은 편향을 발생시켜대체 결과의 정확성을 크게 떨어뜨리지만 이에 관한 연구는 상대적으로 미미하다. 본 연구에서는 무시할 수 없는 무응답이 발생한 경우에 적용 가능한 무응답 대체법을 제안하였다. 특히 편향을 추정한 후 이를 제거하는 방법을 이용하여 무응답 대체 결과의 정확성을 향상하는 방법을 제안하였다. 또한, 모의실험을 이용하여 제안된 방법의 타당성을 확인하였다.
|
|
저자 : 김태형 ( Taehyung Kim ) , 박정민 ( Jeongmin Park )
발행기관 : 한국통계학회
간행물 :
응용통계연구
35권 4호
발행 연도 : 2022
페이지 : pp. 501-515 (15 pages)
|
다운로드
(기관인증 필요)
|
|
초록보기
두꺼운 꼬리 분포와 레버리지효과 등의 금융시계열의 전형적인 특징에도 불구하고 기존 빈도론적 접근법에서는 이를 명시적으로 포착하는 확률변동성모형이 제시된 바 없다. 본 연구는 빈도론적 접근법에서 수익률 금융시계열의 두꺼운 꼬리 분포와 레버리지효과를 명시적으로 포착할 수 있는 근사적인 확률변동성모형 설정을 제시하고이에 대한 Langrock 등 (2012)의 HMM근사를 이용한 최우추정을 제안한다. 본 연구는 다양한 모의실험과 실증분석을 통해 본 연구에서 제안하는 근사모형이 두꺼운 꼬리 분포와 레버리지효과를 정밀하고 효과적으로 추정할 수 있음을 보인다.
|
|
저자 : 장영재 ( Youngjae Chang )
발행기관 : 한국통계학회
간행물 :
응용통계연구
35권 4호
발행 연도 : 2022
페이지 : pp. 517-525 (9 pages)
|
다운로드
(기관인증 필요)
|
|
초록보기
빅데이터 시대에 이르러 다양한 데이터 마이닝 기법이 주요 분석 방법론으로 제안되었다. 복잡 다양한 데이터가 양산되면서 데이터 마이닝 기법은 데이터 과학의 토대를 이루는 방법으로 부각되었다. 본고에서는 해석의 유용성과 예측력 향상의 측면 모두에 초점을 맞추어 다양한 실험 연구를 시행하였다. 구체적인 모형으로는 의사결정나무를 선택하였는데, 이는 실무적 사용 빈도가 높은 방법으로서 활용 폭이 넓을 뿐만 아니라 이해가 쉽고 성능평가가 용이한 방법론이기 때문이다. 의사결정나무모형을 대상으로 이 모형의 구조를 크게 변형시키지 않으면서도 예측력 향상의 목적을 이룰 수 있는 방법을 살펴보았으며 분기변수의 선택 방법이 모형의 성능에 미치는 영향을 분석하였다. 이 효과를 측정하기 위해서 다양한 모의실험 모델을 생성하고 분기법의 변화에 따른 예측력을 비교하였다. 비선형성을 지니면서 단일 분할을 통해서 하위 집합으로 명확하게 구분하기 어려운 복잡한 데이터의 경우에는 선형결합 분기방법이 예측력 제고에 도움을 주는 것으로 나타났다.
|
|
저자 : 박예진 ( Yejin Park ) , 엄정민 ( Jungmin Um ) , 홍수빈 ( Subeen Hong ) , 한유진 ( Yujin Han ) , 김재희 ( Jaehee Kim )
발행기관 : 한국통계학회
간행물 :
응용통계연구
35권 4호
발행 연도 : 2022
페이지 : pp. 527-541 (15 pages)
|
다운로드
(기관인증 필요)
|
|
초록보기
회사는 영리 등의 공동 목표를 달성하는 조직으로, 더 나은 성과를 도출해내기 위해 함께 노력하는 수많은 개인으로 구성된 사회 집단이다. 이에 따라 개인의 의사소통 능력을 비롯한 구성원 간의 네트워크 형성이 중요해지고 있다. 이러한 배경으로부터 본 연구는 직원 간 조언 관계 형성에 어떠한 요인이 영향을 미치는지 알아보고자 수행되었다. 이를 위해 미국과 유럽에 지사를 둔 컨설팅 회사 내 직원 44명의 네트워크 데이터를 ERGM (Exponential Random Graph Model) 방법으로 분석하였다. 분석 결과로 첫째, 연결을 비롯해 네트워크의 구조와 관련한 변수들이 유의하였다. 둘째, 서로 조언을 구할 확률에 성별 속성이 가장 큰 주효과로 나타났다. 셋째, 지역별 동질성은 성별 주효과보다 더 큰 연결 확률을 유도하였다. 이러한 결과로부터 직장 내 네트워크가 조금 더 효율적으로 활발하게 이루어질 수 있는 방법을 제시하였다.
|
|
저자 : 김효정 ( Hyojeoung Kim ) , 김삼용 ( Sahm Kim )
발행기관 : 한국통계학회
간행물 :
응용통계연구
35권 4호
발행 연도 : 2022
페이지 : pp. 543-552 (10 pages)
|
다운로드
(기관인증 필요)
|
|
초록보기
서리는 표면 근처의 공기의 이슬점 온도가 빙점 이하일 때 수증기가 승화, 응축되어 땅이나 물체에 얼게 되는 작은 얼음 결정체이다. 서리가 내리면 농작물이 직접 피해를 입는다. 농작물이 낮은 온도에 접촉하면 조직이 얼어서 세포막이나 엽록체가 딱딱해지고 파괴되거나 건조한 세포가 죽습니다. 2020년 7월, 세계 최대 커피 생산국인 브라질 미나스제라이스 주에 갑작스러운 영하의 날씨와 서리가 내려 지역 커피 나무의 약 30%가 피해를 입었다. 이로 인해 피해로 커피값이 크게 올랐고, 피해가 심각한 농가는 농작물이 회복되기까지 3년이 걸리기 때문에 2024년에야 커피를 생산할 수 있다. 본 논문에서는 심한 서리가 내리는 것을 방지하기 위해 기상청이 제공하는 서리 발생 데이터와 기상관측 데이터를 이용해 서리를 예측하려고 했다. 관측 지점의 고도 및 풍속, 온도, 습도, 강수량, 흐림 등의 기상 요인을 반영하여 모델을 구축하였다. XGB, SVM, Random Forest, MLP 모델을 사용하여 다양한 하이퍼 파라미터를 학습 데이터로 적용하여 각 모델에 가장 적합한 모델을 선택하였다. 마지막으로, 결과는 테스트 데이터에서 정확도 (acc)와 중요 성공 지수 (CSI)로 평가되었다. XGB는 90.4%의 acc와 64.4%의 CSI로 다른 모델에 비해 최고의 모델이었고, SVM은 89.7%의 acc와 61.2%의 CSI로 그 뒤를 이었다. 랜덤 포레스트와 MLP는 약 89%의 acc와 약 60%의 CSI로 비슷한 성능을 보였다.
|
|
저자 : 김시현 ( Sihyeon Kim ) , 성병찬 ( Byeongchan Seong ) , 최영근 ( Young-geun Choi ) , 여인권 ( In-kwon Yeo )
발행기관 : 한국통계학회
간행물 :
응용통계연구
35권 4호
발행 연도 : 2022
페이지 : pp. 553-568 (16 pages)
|
다운로드
(기관인증 필요)
|
|
초록보기
가계동향조사는 가구에 대한 가계수지 실태를 파악하여 국민 소득, 소비 수준과 그 변화의 측정 및 분석 등을 목적으로 하는 통계청의 대표적인 조사이다. 최근 여러 기관들에서 2017년과 2018년의 가계동향 지출 부문에서 발생한 시계열 단절에 대한 문제를 인식하고, 이 기간에 대한 시계열 연계를 위한 관련 연구를 진행하고 있다. 본 연구에서는 2016년까지의 가계동향 조사 시계열 특성을 파악하고, 이를 반영하여 2017년과 2018년의 지출액에 대한 시계열을 연계하는 예측값을 도출한다. 본 연구에서는 각 지출 항목들의 시계열적 특성을 골고루 반영하는 동시에 특정 예측 모형의 영향을 줄이기 위하여총 8개의 회귀모형, 시계열모형, 머신러닝 기법을 합성하여 사용하였다. 특히 본 연구의 주목할 만한 특징은, Top-down 또는 Bottom-up 방식이 아닌, 정보의 손실없이 가계동향조사의 계층 구조를 반영할 수 있는 optimal combination 기법을 사용하여 예측력을 향상시켰다는 점이다. 2017년부터 2019년 자료에 대한 가계동향 지출 부문의 연계 분석 결과, 본 연구가 제안하는 연계 방식이 시계열 단절성 회복 및 예측력 향상에 기여하며, 또한 optimal combination 기법에 의한 계층 조정 후의 예측값이 조사자료에 보다 근접한 결과를 보여줌을 확인하였다.
|
|
저자 : 김지현 ( Ji-hyun Kim ) , 깁봉성 ( Bongseong Kim )
발행기관 : 한국통계학회
간행물 :
응용통계연구
35권 4호
발행 연도 : 2022
페이지 : pp. 569-577 (9 pages)
|
다운로드
(기관인증 필요)
|
|
초록보기
비모수적 추정량의 성능을 이론적으로 비교하기 힘들 때 흔히 모의실험을 실시한다. 다양한 실험조건에서 여러 추정량에 대해 얻어진 모의실험 결과를 회귀모형을 이용해 분석하면보다 체계적이고 정확한 비교를 할 수 있다는 것을 Kim과 Kim (2021)에서 보였다. 이 연구는 Kim과 Kim (2021)에 대한 후속연구이자 보완연구이다. 회귀모형의 오차항에 대한 분산공분산행렬에서 이분산성만 고려하고 공분산을 선행연구에서 무시했는데, 공분산을 고려하게 되면 분산공분산행렬은 블록대각행렬이 된다. 본 연구에서 블록대각행렬인 분산공분산행렬을 추정하여 분석에 이용하는 방법을 제시하였다. 이렇게 하면 명목신뢰수준을 보장하면서 유의하게 성능 차이가 나는 추정량 짝을 더 잘 찾을 수 있다는 것도 보였다.
|
개인회원가입으로 더욱 편리하게 이용하세요.
아이디/비밀번호를 잊으셨나요?