논문 상세보기

한국통계학회> 응용통계연구> 의사결정나무의 분기법 변화가 예측력에 미치는 영향

KCI등재

의사결정나무의 분기법 변화가 예측력에 미치는 영향

The impact of the change in the splitting method of decision trees on the prediction power

장영재 ( Youngjae Chang )
  • : 한국통계학회
  • : 응용통계연구 35권4호
  • : 연속간행물
  • : 2022년 08월
  • : 517-525(9pages)
응용통계연구

DOI


목차

1. 서론
2. 선행연구
3. 분석방법 및 모형
4. 분석 결과
5. 결론
References

키워드 보기


초록 보기

빅데이터 시대에 이르러 다양한 데이터 마이닝 기법이 주요 분석 방법론으로 제안되었다. 복잡 다양한 데이터가 양산되면서 데이터 마이닝 기법은 데이터 과학의 토대를 이루는 방법으로 부각되었다. 본고에서는 해석의 유용성과 예측력 향상의 측면 모두에 초점을 맞추어 다양한 실험 연구를 시행하였다. 구체적인 모형으로는 의사결정나무를 선택하였는데, 이는 실무적 사용 빈도가 높은 방법으로서 활용 폭이 넓을 뿐만 아니라 이해가 쉽고 성능평가가 용이한 방법론이기 때문이다. 의사결정나무모형을 대상으로 이 모형의 구조를 크게 변형시키지 않으면서도 예측력 향상의 목적을 이룰 수 있는 방법을 살펴보았으며 분기변수의 선택 방법이 모형의 성능에 미치는 영향을 분석하였다. 이 효과를 측정하기 위해서 다양한 모의실험 모델을 생성하고 분기법의 변화에 따른 예측력을 비교하였다. 비선형성을 지니면서 단일 분할을 통해서 하위 집합으로 명확하게 구분하기 어려운 복잡한 데이터의 경우에는 선형결합 분기방법이 예측력 제고에 도움을 주는 것으로 나타났다.
In the era of big data, various data mining techniques have been proposed as major analysis methodologies. As complex and diverse data is mass-produced, data mining techniques have attracted attention as a method that forms the foundation of data science. In this paper, we focused on the decision tree, which is frequently used in practice and easy to understand as one of representative data mining methods. Specifically, we analyzed the effect of the splitting method of decision trees on the model performance. We compared the prediction power and structures of decision tree models with different split methods based on various simulated data. The results show that the linear combination split method can improve the prediction accuracy of decision trees in the case of data simulated from nonlinear models with complex structure.

UCI(KEPA)

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2022
  • : 2037


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

35권5호(2022년 10월) 수록논문
최근 권호 논문
| | | |

KCI등재

1단변량 및 다변량 함수 데이터에 대한 분산분석의 활용

저자 : 김미정 ( Mijeong Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 579-591 (13 pages)

다운로드

(기관인증 필요)

초록보기

함수 데이터는 다양한 분야에서 수집되고 있으며, 집단 간의 함수 데이터를 비교해야하는 경우가 종종 발생한다. 이럴 경우 점별 분산분석 방법을 이용하여 설명하기에는 무리가 있으며, 통합된 결과를 제시할 필요가 있다. 이에 대한 다양한 연구가 제안되었으며, 최근에 R 패키지 fdANOVA로 구현되었다. 이 논문에서 우선 분산분석 및 다변량 분산분석을 설명하고, 최근에 제안된 다양한 단변량 및 다변량 함수 데이터 분산분석을 설명하고자 한다. 또한 R 패키지 fdANOVA의 사용 방법을 설명하고, 이 패키지를 이용하여 서울과 부산 지역의 주별 기온을 단변량 함수 데이터 분산분석을 통해 비교하고, 손글씨 이미지를 다변량 함수 데이터로 변환하여 다변량 함수 데이터 분산분석을 이용하여 비교하고자 한다.


Functional data is collected in various fields. It is often necessary to test whether there are differences among groups of functional data. In this case, it is not appropriate to explain using the point-wise ANOVA method, and we should present not the point-wise result but the integrated result. Various studies on functional data analysis of variance have been proposed, and recently implemented those methods in the package fdANOVA of R. In this paper, I first explain ANOVA and multivariate ANOVA, then I will introduce various methods of analysis of variance for univariate and multivariate functional data recently proposed. I also describe how to use the R package fdANOVA. This package is used to test equality of weekly temperatures in Seoul and Busan through univariate functional data ANOVA, and to test equality of multivariate functional data corresponding to handwritten images using multivariate function data ANOVA.

KCI등재

2불량 웨이퍼 탐지를 위한 함수형 부정 탐지 지지 벡터기계

저자 : 박민형 ( Minhyoung Park ) , 신승준 ( Seung Jun Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 593-601 (9 pages)

다운로드

(기관인증 필요)

초록보기

빈번하지는 않지만 한번 발생하면 상대적으로 큰 손실을 가져오는 사례를 통칭하여 부정 사례(Fraud)라고 부르며, 부정 탐지의 문제는 많은 분야에서 활용된다. 부정 사례는 정상 사례에 비해 상대적으로 관측치가 매우 적고 오분류의 비용이 월등히 크기 때문에 일반적인 이항분류 기법을 바로 적용할 수 없다. 이러한 경우에 활용할 수 있는 방법이 부정 탐지 지지 벡터기계(FDSVM)이다. 본 논문에서는 공변량이 함수형일 때 활용 가능한 함수형 부정 탐지 지지 벡터기계(F2DSVM)를 제안하였다. 제안된 방법을 사용하면 함수형 공변량을 가진 데이터에서 사용자가 목표하는 부정 탐지의 성능을 만족시키는 제약하에서 최적의 예측력을 가지는 분류기를 학습시킬 수 있다. 뿐만아니라, 통상적인 SVM과 마찬가지로, F2DSVM도 자취해의 조각별 선형성을 보일 수 있으며 이를 바탕으로 효율적인 자취해 알고리즘을 활용할 수 있고 분류기의 학습 시간을 크게 단축시킬 수 있다. 마지막으로, 반도체 웨이퍼 불량 탐지 문제에 제안된 F2DSVM을 적용해 보았고, 그 활용 가능성을 확인하였다.


We call “fruad” the cases that are not frequently occurring but cause significant losses. Fraud detection is commonly encountered in various applications, including wafer production in the semiconductor industry. It is not trivial to directly extend the standard binary classification methods to the fraud detection context because the misclassification cost is much higher than the normal class. In this article, we propose the functional fraud detection support vector machine (F2DSVM) that extends the fraud detection support vector machine (FDSVM) to handle functional covariates. The proposed method seeks a classifier for a function predictor that achieves optimal performance while achieving the desired sensitivity level. F2DSVM, like the conventional SVM, has piece-wise linear solution paths, allowing us to develop an efficient algorithm to recover entire solution paths, resulting in significantly improved computational efficiency. Finally, we apply the proposed F2DSVM to the defective wafer detection problem and assess its potential applicability.

KCI등재

3전후 재건사업을 안정적으로 진행하려면? - 베이지안 계층모형을 이용한 테러 예측

저자 : 엄승현 ( Seunghyun Eom ) , 장원철 ( Woncheol Jang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 603-617 (15 pages)

다운로드

(기관인증 필요)

초록보기

2001년 9.11 테러 이후 미국은 테러와의 전쟁을 선포하면서 아프가니스탄과 이라크침공하여 단기간에 정규전 승리를 이끌었다. 하지만 이후 발생한 다수의 테러를 통제하지 못해 전후 국가 재건을 돕는 안정화 작전에 상당시간이 소요되면서, 전후 테러활동의 분석에 대한 관심이 높아지게 되었다. 본 연구에서는 시공간 종속성을 반영하는 베이지안 계층 모형을 이용해 2003년부터 2010년까지 이라크에서 발생한 테러 자료를 기반으로시·공간 요인, 자치구별 인구·종교와 같은 예측 변수들과 자치구별 테러 빈도수와의 관계를 분석하고, 2011년의 테러 위협을 예측하였다. 이렇게 구한 예측치를 바탕으로 해당지역 담당 군 지휘관이 효율적인 부대 배치를 통해 테러방지에 활용할 수 있을 것으로 기대된다.


Following the September 11, 2001 terrorist attacks, the United States declared war on terror and invaded Afghanistan and Iraq, winning quickly. However, interest in analyzing terrorist activities has developed as a result of a significant amount of time being spent on the post-war stabilization effort, which failed to minimize the number of terrorist activities that occurred later. Based on terrorist data from 2003 to 2010, this study utilized a Bayesian hierarchical model to forecast the terrorist threat in 2011. The model depicts spatiotemporal dependence with predictors such as population and religion by autonomous district. The military commander in charge of the region can utilize the forecast value based on the our model to prevent terrorism by deploying forces efficiently.

KCI등재

4위험요인이 포함된 시공간 모형을 이용한 5대 강력범죄 분석

저자 : 전영은 ( Young Eun Jeon ) , 강석복 ( Suk-bok Kang ) , 서정인 ( Jung-in Seo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 619-629 (11 pages)

다운로드

(기관인증 필요)

초록보기

5대 강력범죄(살인, 강도, 강간·강제추행, 절도, 폭력)는 사회 구성원들의 안전을 위협하는 대표 범죄들로 일상생활에서 자주 발생한다. 이러한 범죄들은 사회 구성원들의 삶의 질을 떨어뜨리는 등 부정적인 영향을 미친다. 대한민국의 수도인 서울의 경우, 지방에 있는 많은 인구가 서울로 이동하면서 서울의 인구 밀도는 증가하고, 이로 인해 5대 강력범죄 발생 위험성도 증가하고 있다. 본 연구에서는 이러한 위험성을 줄이기 위해 세 가지의 시공간 모형을 이용하여 서울의 5대 강력범죄 발생에 대한 상대위험도를 모델링하였다. 게다가, 상대위험도에 유의한 영향을 미치는 위험요인을 살펴보기 위해 다양한 위험요인을 포함하였다. 최적의 모형을 선택하기 위해 편차정보기준을 이용하였으며, 최적의 모형을 중심으로 다양한 시각화를 포함한 분석 결과를 제공하였다. 본 연구는 각 자치구의 상대위험도와 5대 강력범죄에 대한 위험에 유의한 영향을 미치는 위험요인을 분석함으로써, 사람들의 안전한 일상생활을 유지하기 위한 효율적인 전략을 수립하는 데 도움을 준다.


The five major violent crimes including murder, robbery, rape·forced indecent act, theft, and violence are representative crimes that threaten the safety of members of society and occur frequently in real life. These crimes have negative effects such as lowering the quality of citizens' life. In the case of Seoul, the capital of Korea, the risk for the five major violent crimes is increasing because the population density of Seoul is increasing as a large number of people in the provinces move to Seoul. In this study, to reduce this risk, the relative risk for the occurrence of the five major violent crimes in Seoul is modeled using three spatio-temporal models. In addition, various risk factors are included to identify factors that significantly affect the relative risk of the five major violent crimes. The best model is selected in terms of the deviance information criterion, and the analysis results including various visualizations for the best model are provided. This study will help to establish efficient strategies to sustain people's safe everyday living by analyzing important risk factors affecting the risk of the five major violent crimes and the relative risk of each region.

KCI등재

5희박 벡터 자기 회귀 모형의 로버스트 추정

저자 : 김동영 ( Dongyeong Kim ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 631-644 (14 pages)

다운로드

(기관인증 필요)

초록보기

본 논문은 고차원 시계열 자료에 이상점이 존재하는 경우 희박벡터자기회귀모형(sparse VAR; sVAR)의 모수를 강건하게 추정하는 방법에 대해서 연구하였다. 먼저 Xu 등 (2008)이 독립인 자료에서 밝혔듯이 adaptive lasso 방법이 sVAR 모형에서도 어느 정도의 강건함을 가짐을 모의 실험을 통해 알 수 있었다. 하지만, 이상점의 개수가 증가하거나 이상점의 영향력이 커지는 경우 효율성이 현저히 저하되는 현상도 관찰할 수 있었다. 따라서 이를 개선하기 위해서 최소절대편차(least absolute deviation; LAD)와 Huber 함수를 기반으로 벌점화 시키는 adaptive lasso를 이용하여 sVAR 모형을 추정하는 방법을 본 논문에서는 제안하고 그 성능을 검토하였다. 모의 실험을 통해 제안한 로버스트 추정 방법이 이상점이 존재하는 경우에 모수 추정을 더 정확하게 하고 예측 성능도 뛰어남을 확인했다. 또한 해당 방법론들을 전력사용량 데이터에 적용한 결과 이상점으로 의심되는 시점들이 존재하였고, 이를 고려하여 강건하게 추정하는 제안한 방법론이 더 좋은 예측 성능을 보임을 확인할 수 있었다.


This paper considers robust estimation of the sparse vector autoregressive model (sVAR) useful in high-dimensional time series analysis. First, we generalize the result of Xu it et al. (2008) that the adaptive lasso indeed has robustness in sVAR as well. However, adaptive lasso method in sVAR performs poorly as the number and sizes of outliers increases. Therefore, we propose new robust estimation methods for sVAR based on least absolute deviation (LAD) and Huber estimation. Our simulation results show that our proposed methods provide more accurate estimation in turn showed better forecasting performance when outliers exist. In addition, we applied our proposed methods to power usage data and confirmed that there are unignorable outliers and robust estimation taking such outliers into account improves forecasting.

KCI등재

6R에서 자동화 예측 함수에 대한 성능 비교

저자 : 오지우 ( Jiu Oh ) , 성병찬 ( Byeongchan Seong )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 645-655 (11 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 R에서 시계열 자료 예측을 위한 자동화 함수에 대하여 고찰하고 그 예측 성능을 비교합니다. 대표적인 시계열 예측 방법인 지수 평활 모형과 ARIMA (autoregressive integrated moving average) 모형을 대상으로 하였으며, 이들의 모형화 및 예측 자동화를 가능하게 하는 R의 4가지 자동화 함수인 forecast::ets(), forecast::auto.arima(), smooth::es()와 smooth::auto.ssarima()를 대상으로 하였습니다. 이들의 예측 성능을 비교하기 위하여 3,003가지의 시계열로 구성되어 있는 M3-Competition자료와 3가지의 정확성 척도를 사용하였습니다. 4가지 자동화 함수는 모형화의 다양성 및 편리성, 예측 정확도 및 실행 시간 등에서 각자 장단점이 있음을 확인하였습니다.


In this paper, we investigate automatic functions for time series forecasting in R system and compare their performances. For the exponential smoothing models and ARIMA (autoregressive integrated moving average) models, we focus on the representative time series forecasting functions in R: forecast::ets(), forecast::auto.arima()\newline, smooth::es() and smooth::auto.ssarima(). In order to compare their forecast performances, we use M3-Competition data consisting of 3,003 time series and adopt 3 accuracy measures. It is confirmed that each of the four automatic forecasting functions has strengths and weaknesses in the flexibility and convenience for time series modeling, forecasting accuracy, and execution time.

KCI등재

7Note on the estimation of informative predictor subspace and projective-resampling informative predictor subspace

저자 : Jae Keun Yoo

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 657-666 (10 pages)

다운로드

(기관인증 필요)

초록보기

정보적 설명 변수 공간은 일반적인 충분차원축소 방법들이 요구하는 가정들이 만족하지 않을 때 중심부분공간을 추정하기 위해 유용하다. 최근 Ko와 Yoo (2022)는 다변량 회귀에서 Li 등 (2008)이 제시한 투영-재표본 방법론을 사용하여 정보적 설명 변수 공간이 아닌 투영-재표본 정보적 설명 변수 공간을 새로이 정의하였다. 이 공간은 기존의 정보적 설명 변수 공간에 포함되지만 중심 부분 공간을 포함한다. 본 논문에서는 다변량 회귀에서 정보적 설명 변수 공간을 직접적으로 추정할 수 있는 방법을 제안하고, 이를 Ko와 Yoo (2022)가 제시한 방법과 이론적으로 그리고 모의실험을 통해 비교하고자 한다. 모의실험에 따르면 Ko-Yoo 방법론이 본 논문에서 제시한 추정 방법보다 더 정확하게 중심 부분 공간을 추정하고, 추정값들의 변동이 적다는 측면에서 보다 더 효율적임을 알 수 있다.


An informative predictor subspace is useful to estimate the central subspace, when conditions required in usual sufficient dimension reduction methods fail. Recently, for multivariate regression, Ko and Yoo (2022) newly defined a projective-resampling informative predictor subspace, instead of the informative predictor subspace, by the adopting projective-resampling method (Li it et al. 2008). The new space is contained in the informative predictor subspace but contains the central subspace. In this paper, a method directly to estimate the informative predictor subspace is proposed, and it is compared with the method by Ko and Yoo (2022) through theoretical aspects and numerical studies. The numerical studies confirm that the Ko-Yoo method is better in the estimation of the central subspace than the proposed method and is more efficient in sense that the former has less variation in the estimation.

KCI등재

8기계학습 접근법에 기반한 유전자 선택 방법들에 대한 리뷰

저자 : 이하정 ( Hajoung Lee ) , 김재직 ( Jaejik Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 667-684 (18 pages)

다운로드

(기관인증 필요)

초록보기

유전자 발현 데이터는 각 유전자에 대해 mRNA 양의 정도를 나타내고, 그러한 유전자 발현량에 대한 분석은 질병 발생에 대한 메커니즘을 이해하고 새로운 치료제와 치료 방법을 개발하는데 중요한 아이디어를 제공해오고 있다. 오늘날 DNA 마이크로어레이와 RNA-시퀀싱과 같은 고출력 기술은 수천 개의 유전자 발현량을 동시에 측정하는 것을 가능하게 하여 고차원성이라는 유전자 발현 데이터의 특징을 발생시켰다. 이러한 고차원성으로 인해 유전자 발현 데이터를 분석하기 위한 학습 모형들은 과적합 문제에 부딪히기 쉽고, 이를 해결하기 위해 차원 축소 또는 변수 선택 기술들이 사전 분석 단계로써 보통 사용된다. 특히, 사전 분석 단계에서 우리는 유전자 선택법을 이용하여 부적절하거나 중복된 유전자를 제거할 수 있고 중요한 유전자를 찾아낼 수도 있다. 현재까지 다양한 유전자 선택 방법들이 기계학습의 맥락에서 개발되어왔다. 본 논문에서는 기계학습 접근법을 사용하는 최근의 유전자 선택 방법들을 집중적으로 살펴보고자 한다. 또한, 현재까지 개발된 유전자 선택 방법들의 근본적인 문제점과 앞으로의 연구 방향에 대해 논의하고자 한다.


Gene expression data present the level of mRNA abundance of each gene, and analyses of gene expressions have provided key ideas for understanding the mechanism of diseases and developing new drugs and therapies. Nowadays high-throughput technologies such as DNA microarray and RNA-sequencing enabled the simultaneous measurement of thousands of gene expressions, giving rise to a characteristic of gene expression data known as high dimensionality. Due to the high-dimensionality, learning models to analyze gene expression data are prone to overfitting problems, and to solve this issue, dimension reduction or feature selection techniques are commonly used as a preprocessing step. In particular, we can remove irrelevant and redundant genes and identify important genes using gene selection methods in the preprocessing step. Various gene selection methods have been developed in the context of machine learning so far. In this paper, we intensively review recent works on gene selection methods using machine learning approaches. In addition, the underlying difficulties with current gene selection methods as well as future research directions are discussed.

1
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1장기요양 필요 발생의 고위험 대상자 발굴을 위한 예측모형 개발

저자 : 송미경 ( Mi Kyung Song ) , 박영우 ( Yeongwoo Park ) , 한은정 ( Eun-jeong Han )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 457-468 (12 pages)

다운로드

(기관인증 필요)

초록보기

고령인구가 증가함에 따라 국가차원에서 노인의 건강노화 실현을 위한 장기요양 필요 발생의 예방 방안을 마련하는 것은 매우 중요하며, 정책적 효과를 극대화하기 위해서는 적절한 대상자의 선정이 선행되어야 한다. 이에 본 연구는 국민건강보험공단의 국민건강정보를 활용하여, 장기요양 필요를 야기하는 기능장애 발생 가능성이 높은 대상자를 발굴하기 위한 예측모형을 개발하고자 한다. 본 연구는 연구대상자의 과거 수집된 자료를 활용하는 후향적 연구로, 본 연구의 연구대상자는 만 65세 이상 의료보장등록인구이다(총 7,724,101명). 예측모형 개발을 위해 고유 방법인 로지스틱 회귀모형, 머신러닝 방법인 의사결정나무와 랜덤포레스트, 딥러닝 방법인 다층퍼셉트론 신경망을 분석하였다. 체계적 분석절차를 통해 각 분석방법별 모형을 적합하였고, 내적 타당성 및 외적 타당성 평가 결과를 기반으로 최종 예측모형을 랜덤포레스트로 선정하였다. 랜덤포레스트는 모집단에서의 4.50%밖에 되지 않는 장기요양 필요 대상자의 약 90%를 장기요양 필요 발생 고위험 대상자로 예측할 수 있다. 본 연구의 예측모형 및 고위험군 기준은 노인의 욕구 중심에서 예방 서비스가 필요한 대상자를 선제적으로 발굴하는데 기여할 것으로 기대된다.

KCI등재

2불균형 텍스트 데이터의 변수 선택에 있어서의 카이제곱통계량과 정보이득의 특징

저자 : 문혜인 ( Hye In Mun ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 469-484 (16 pages)

다운로드

(기관인증 필요)

초록보기

텍스트 데이터는 일반적으로 많은 단어로 이루어져 있으므로 변수의 수가 매우 많은 고차원 데이터에 해당된다. 이러한 고차원 데이터에서는 계산 효율성과 통계분석의 정확성을 높이기 위해 많은 변수 중 중요한 변수를 선택하기 위한 절차를 거치는 경우가 많다. 텍스트 데이터에서도 많은 단어 중 중요한 단어를 선택하기 위해 여러가지 방법들이 사용되고 있다. 이 연구에서는 단어 선택을 위한 대표적인 필터링 방법인 카이제곱통계량과 정보이득의 공통점과 차이점을 살펴보고 실제 텍스트 데이터에서 이들 성질을 확인해보았다. 카이제곱통계량과 정보이득은 비음성, 볼록성 등의 성질을 공유하지만 불균형 텍스트 데이터에서 카이제곱통계량이 양변수 위주로 단어를 선택하는 반면, 정보이득은 음변수도 상대적으로 많이 선택하는 경향이 있음을 확인하였다.

KCI등재

3무시할 수 없는 무응답에서 편향 보정을 이용한 무응답 대체

저자 : 이민하 ( Min-ha Lee ) , 신기일 ( Key-il Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 485-499 (15 pages)

다운로드

(기관인증 필요)

초록보기

표본오차와 비표본오차를 포함하는 총오차(total survey error)를 관리하는 것은 표본설계에서 매우 중요하다. 무응답으로 인해 발생한 비표본오차는 총오차에서 차지하는 비중이 매우 크며 이를 해결하는 방법인 무응답 대체에 관한 다수의 연구가 수행되었다. 최근 전통적 통계학 관련 기법에 추가하여 기계학습 관련 기법을 이용한 무응답 대체법이 다수 연구되고 실질적으로 사용되고 있다. 기존에 발표된 다수의 방법은 MCAR (missing completely at random) 또는 MAR (missing at random) 가정을 사용하고 있다. 그러나 관심변수에 영향을 받는 MNAR (missing not at random) 또는 무시할 수 없는 무응답 (non-ignorable non-response; NN)은 편향을 발생시켜대체 결과의 정확성을 크게 떨어뜨리지만 이에 관한 연구는 상대적으로 미미하다. 본 연구에서는 무시할 수 없는 무응답이 발생한 경우에 적용 가능한 무응답 대체법을 제안하였다. 특히 편향을 추정한 후 이를 제거하는 방법을 이용하여 무응답 대체 결과의 정확성을 향상하는 방법을 제안하였다. 또한, 모의실험을 이용하여 제안된 방법의 타당성을 확인하였다.

KCI등재

4두꺼운 꼬리 분포와 레버리지효과를 포함하는 확률변동성모형에 대한 최우추정: HMM근사를 이용한 최우추정

저자 : 김태형 ( Taehyung Kim ) , 박정민 ( Jeongmin Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 501-515 (15 pages)

다운로드

(기관인증 필요)

초록보기

두꺼운 꼬리 분포와 레버리지효과 등의 금융시계열의 전형적인 특징에도 불구하고 기존 빈도론적 접근법에서는 이를 명시적으로 포착하는 확률변동성모형이 제시된 바 없다. 본 연구는 빈도론적 접근법에서 수익률 금융시계열의 두꺼운 꼬리 분포와 레버리지효과를 명시적으로 포착할 수 있는 근사적인 확률변동성모형 설정을 제시하고이에 대한 Langrock 등 (2012)의 HMM근사를 이용한 최우추정을 제안한다. 본 연구는 다양한 모의실험과 실증분석을 통해 본 연구에서 제안하는 근사모형이 두꺼운 꼬리 분포와 레버리지효과를 정밀하고 효과적으로 추정할 수 있음을 보인다.

KCI등재

5의사결정나무의 분기법 변화가 예측력에 미치는 영향

저자 : 장영재 ( Youngjae Chang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 517-525 (9 pages)

다운로드

(기관인증 필요)

초록보기

빅데이터 시대에 이르러 다양한 데이터 마이닝 기법이 주요 분석 방법론으로 제안되었다. 복잡 다양한 데이터가 양산되면서 데이터 마이닝 기법은 데이터 과학의 토대를 이루는 방법으로 부각되었다. 본고에서는 해석의 유용성과 예측력 향상의 측면 모두에 초점을 맞추어 다양한 실험 연구를 시행하였다. 구체적인 모형으로는 의사결정나무를 선택하였는데, 이는 실무적 사용 빈도가 높은 방법으로서 활용 폭이 넓을 뿐만 아니라 이해가 쉽고 성능평가가 용이한 방법론이기 때문이다. 의사결정나무모형을 대상으로 이 모형의 구조를 크게 변형시키지 않으면서도 예측력 향상의 목적을 이룰 수 있는 방법을 살펴보았으며 분기변수의 선택 방법이 모형의 성능에 미치는 영향을 분석하였다. 이 효과를 측정하기 위해서 다양한 모의실험 모델을 생성하고 분기법의 변화에 따른 예측력을 비교하였다. 비선형성을 지니면서 단일 분할을 통해서 하위 집합으로 명확하게 구분하기 어려운 복잡한 데이터의 경우에는 선형결합 분기방법이 예측력 제고에 도움을 주는 것으로 나타났다.

KCI등재

6직장 네트워크 데이터에 대한 통계적 ERGM 분석

저자 : 박예진 ( Yejin Park ) , 엄정민 ( Jungmin Um ) , 홍수빈 ( Subeen Hong ) , 한유진 ( Yujin Han ) , 김재희 ( Jaehee Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 527-541 (15 pages)

다운로드

(기관인증 필요)

초록보기

회사는 영리 등의 공동 목표를 달성하는 조직으로, 더 나은 성과를 도출해내기 위해 함께 노력하는 수많은 개인으로 구성된 사회 집단이다. 이에 따라 개인의 의사소통 능력을 비롯한 구성원 간의 네트워크 형성이 중요해지고 있다. 이러한 배경으로부터 본 연구는 직원 간 조언 관계 형성에 어떠한 요인이 영향을 미치는지 알아보고자 수행되었다. 이를 위해 미국과 유럽에 지사를 둔 컨설팅 회사 내 직원 44명의 네트워크 데이터를 ERGM (Exponential Random Graph Model) 방법으로 분석하였다. 분석 결과로 첫째, 연결을 비롯해 네트워크의 구조와 관련한 변수들이 유의하였다. 둘째, 서로 조언을 구할 확률에 성별 속성이 가장 큰 주효과로 나타났다. 셋째, 지역별 동질성은 성별 주효과보다 더 큰 연결 확률을 유도하였다. 이러한 결과로부터 직장 내 네트워크가 조금 더 효율적으로 활발하게 이루어질 수 있는 방법을 제시하였다.

KCI등재

7머신러닝을 사용한 서리 예측 연구

저자 : 김효정 ( Hyojeoung Kim ) , 김삼용 ( Sahm Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 543-552 (10 pages)

다운로드

(기관인증 필요)

초록보기

서리는 표면 근처의 공기의 이슬점 온도가 빙점 이하일 때 수증기가 승화, 응축되어 땅이나 물체에 얼게 되는 작은 얼음 결정체이다. 서리가 내리면 농작물이 직접 피해를 입는다. 농작물이 낮은 온도에 접촉하면 조직이 얼어서 세포막이나 엽록체가 딱딱해지고 파괴되거나 건조한 세포가 죽습니다. 2020년 7월, 세계 최대 커피 생산국인 브라질 미나스제라이스 주에 갑작스러운 영하의 날씨와 서리가 내려 지역 커피 나무의 약 30%가 피해를 입었다. 이로 인해 피해로 커피값이 크게 올랐고, 피해가 심각한 농가는 농작물이 회복되기까지 3년이 걸리기 때문에 2024년에야 커피를 생산할 수 있다. 본 논문에서는 심한 서리가 내리는 것을 방지하기 위해 기상청이 제공하는 서리 발생 데이터와 기상관측 데이터를 이용해 서리를 예측하려고 했다. 관측 지점의 고도 및 풍속, 온도, 습도, 강수량, 흐림 등의 기상 요인을 반영하여 모델을 구축하였다. XGB, SVM, Random Forest, MLP 모델을 사용하여 다양한 하이퍼 파라미터를 학습 데이터로 적용하여 각 모델에 가장 적합한 모델을 선택하였다. 마지막으로, 결과는 테스트 데이터에서 정확도 (acc)와 중요 성공 지수 (CSI)로 평가되었다. XGB는 90.4%의 acc와 64.4%의 CSI로 다른 모델에 비해 최고의 모델이었고, SVM은 89.7%의 acc와 61.2%의 CSI로 그 뒤를 이었다. 랜덤 포레스트와 MLP는 약 89%의 acc와 약 60%의 CSI로 비슷한 성능을 보였다.

KCI등재

8가계동향조사 지출부문 시계열 연계 방안에 관한 연구

저자 : 김시현 ( Sihyeon Kim ) , 성병찬 ( Byeongchan Seong ) , 최영근 ( Young-geun Choi ) , 여인권 ( In-kwon Yeo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 553-568 (16 pages)

다운로드

(기관인증 필요)

초록보기

가계동향조사는 가구에 대한 가계수지 실태를 파악하여 국민 소득, 소비 수준과 그 변화의 측정 및 분석 등을 목적으로 하는 통계청의 대표적인 조사이다. 최근 여러 기관들에서 2017년과 2018년의 가계동향 지출 부문에서 발생한 시계열 단절에 대한 문제를 인식하고, 이 기간에 대한 시계열 연계를 위한 관련 연구를 진행하고 있다. 본 연구에서는 2016년까지의 가계동향 조사 시계열 특성을 파악하고, 이를 반영하여 2017년과 2018년의 지출액에 대한 시계열을 연계하는 예측값을 도출한다. 본 연구에서는 각 지출 항목들의 시계열적 특성을 골고루 반영하는 동시에 특정 예측 모형의 영향을 줄이기 위하여총 8개의 회귀모형, 시계열모형, 머신러닝 기법을 합성하여 사용하였다. 특히 본 연구의 주목할 만한 특징은, Top-down 또는 Bottom-up 방식이 아닌, 정보의 손실없이 가계동향조사의 계층 구조를 반영할 수 있는 optimal combination 기법을 사용하여 예측력을 향상시켰다는 점이다. 2017년부터 2019년 자료에 대한 가계동향 지출 부문의 연계 분석 결과, 본 연구가 제안하는 연계 방식이 시계열 단절성 회복 및 예측력 향상에 기여하며, 또한 optimal combination 기법에 의한 계층 조정 후의 예측값이 조사자료에 보다 근접한 결과를 보여줌을 확인하였다.

KCI등재

9통계모형을 이용하여 모의실험 결과 분석하기에 대한 보완연구

저자 : 김지현 ( Ji-hyun Kim ) , 깁봉성 ( Bongseong Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 569-577 (9 pages)

다운로드

(기관인증 필요)

초록보기

비모수적 추정량의 성능을 이론적으로 비교하기 힘들 때 흔히 모의실험을 실시한다. 다양한 실험조건에서 여러 추정량에 대해 얻어진 모의실험 결과를 회귀모형을 이용해 분석하면보다 체계적이고 정확한 비교를 할 수 있다는 것을 Kim과 Kim (2021)에서 보였다. 이 연구는 Kim과 Kim (2021)에 대한 후속연구이자 보완연구이다. 회귀모형의 오차항에 대한 분산공분산행렬에서 이분산성만 고려하고 공분산을 선행연구에서 무시했는데, 공분산을 고려하게 되면 분산공분산행렬은 블록대각행렬이 된다. 본 연구에서 블록대각행렬인 분산공분산행렬을 추정하여 분석에 이용하는 방법을 제시하였다. 이렇게 하면 명목신뢰수준을 보장하면서 유의하게 성능 차이가 나는 추정량 짝을 더 잘 찾을 수 있다는 것도 보였다.

1
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기