간행물

한국통계학회> 응용통계연구

응용통계연구 update

The Korean Journal of Applied Statistics

  • : 한국통계학회
  • : 자연과학분야  >  통계학
  • : KCI등재
  • :
  • : 연속간행물
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • :

수록정보
35권3호(2022) |수록논문 수 : 10
간행물 제목
35권5호(2022년 10월) 수록논문
최근 권호 논문
| | | |

KCI등재

저자 : 김미정 ( Mijeong Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 579-591 (13 pages)

다운로드

(기관인증 필요)

초록보기

함수 데이터는 다양한 분야에서 수집되고 있으며, 집단 간의 함수 데이터를 비교해야하는 경우가 종종 발생한다. 이럴 경우 점별 분산분석 방법을 이용하여 설명하기에는 무리가 있으며, 통합된 결과를 제시할 필요가 있다. 이에 대한 다양한 연구가 제안되었으며, 최근에 R 패키지 fdANOVA로 구현되었다. 이 논문에서 우선 분산분석 및 다변량 분산분석을 설명하고, 최근에 제안된 다양한 단변량 및 다변량 함수 데이터 분산분석을 설명하고자 한다. 또한 R 패키지 fdANOVA의 사용 방법을 설명하고, 이 패키지를 이용하여 서울과 부산 지역의 주별 기온을 단변량 함수 데이터 분산분석을 통해 비교하고, 손글씨 이미지를 다변량 함수 데이터로 변환하여 다변량 함수 데이터 분산분석을 이용하여 비교하고자 한다.


Functional data is collected in various fields. It is often necessary to test whether there are differences among groups of functional data. In this case, it is not appropriate to explain using the point-wise ANOVA method, and we should present not the point-wise result but the integrated result. Various studies on functional data analysis of variance have been proposed, and recently implemented those methods in the package fdANOVA of R. In this paper, I first explain ANOVA and multivariate ANOVA, then I will introduce various methods of analysis of variance for univariate and multivariate functional data recently proposed. I also describe how to use the R package fdANOVA. This package is used to test equality of weekly temperatures in Seoul and Busan through univariate functional data ANOVA, and to test equality of multivariate functional data corresponding to handwritten images using multivariate function data ANOVA.

KCI등재

저자 : 박민형 ( Minhyoung Park ) , 신승준 ( Seung Jun Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 593-601 (9 pages)

다운로드

(기관인증 필요)

초록보기

빈번하지는 않지만 한번 발생하면 상대적으로 큰 손실을 가져오는 사례를 통칭하여 부정 사례(Fraud)라고 부르며, 부정 탐지의 문제는 많은 분야에서 활용된다. 부정 사례는 정상 사례에 비해 상대적으로 관측치가 매우 적고 오분류의 비용이 월등히 크기 때문에 일반적인 이항분류 기법을 바로 적용할 수 없다. 이러한 경우에 활용할 수 있는 방법이 부정 탐지 지지 벡터기계(FDSVM)이다. 본 논문에서는 공변량이 함수형일 때 활용 가능한 함수형 부정 탐지 지지 벡터기계(F2DSVM)를 제안하였다. 제안된 방법을 사용하면 함수형 공변량을 가진 데이터에서 사용자가 목표하는 부정 탐지의 성능을 만족시키는 제약하에서 최적의 예측력을 가지는 분류기를 학습시킬 수 있다. 뿐만아니라, 통상적인 SVM과 마찬가지로, F2DSVM도 자취해의 조각별 선형성을 보일 수 있으며 이를 바탕으로 효율적인 자취해 알고리즘을 활용할 수 있고 분류기의 학습 시간을 크게 단축시킬 수 있다. 마지막으로, 반도체 웨이퍼 불량 탐지 문제에 제안된 F2DSVM을 적용해 보았고, 그 활용 가능성을 확인하였다.


We call “fruad” the cases that are not frequently occurring but cause significant losses. Fraud detection is commonly encountered in various applications, including wafer production in the semiconductor industry. It is not trivial to directly extend the standard binary classification methods to the fraud detection context because the misclassification cost is much higher than the normal class. In this article, we propose the functional fraud detection support vector machine (F2DSVM) that extends the fraud detection support vector machine (FDSVM) to handle functional covariates. The proposed method seeks a classifier for a function predictor that achieves optimal performance while achieving the desired sensitivity level. F2DSVM, like the conventional SVM, has piece-wise linear solution paths, allowing us to develop an efficient algorithm to recover entire solution paths, resulting in significantly improved computational efficiency. Finally, we apply the proposed F2DSVM to the defective wafer detection problem and assess its potential applicability.

KCI등재

저자 : 엄승현 ( Seunghyun Eom ) , 장원철 ( Woncheol Jang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 603-617 (15 pages)

다운로드

(기관인증 필요)

초록보기

2001년 9.11 테러 이후 미국은 테러와의 전쟁을 선포하면서 아프가니스탄과 이라크침공하여 단기간에 정규전 승리를 이끌었다. 하지만 이후 발생한 다수의 테러를 통제하지 못해 전후 국가 재건을 돕는 안정화 작전에 상당시간이 소요되면서, 전후 테러활동의 분석에 대한 관심이 높아지게 되었다. 본 연구에서는 시공간 종속성을 반영하는 베이지안 계층 모형을 이용해 2003년부터 2010년까지 이라크에서 발생한 테러 자료를 기반으로시·공간 요인, 자치구별 인구·종교와 같은 예측 변수들과 자치구별 테러 빈도수와의 관계를 분석하고, 2011년의 테러 위협을 예측하였다. 이렇게 구한 예측치를 바탕으로 해당지역 담당 군 지휘관이 효율적인 부대 배치를 통해 테러방지에 활용할 수 있을 것으로 기대된다.


Following the September 11, 2001 terrorist attacks, the United States declared war on terror and invaded Afghanistan and Iraq, winning quickly. However, interest in analyzing terrorist activities has developed as a result of a significant amount of time being spent on the post-war stabilization effort, which failed to minimize the number of terrorist activities that occurred later. Based on terrorist data from 2003 to 2010, this study utilized a Bayesian hierarchical model to forecast the terrorist threat in 2011. The model depicts spatiotemporal dependence with predictors such as population and religion by autonomous district. The military commander in charge of the region can utilize the forecast value based on the our model to prevent terrorism by deploying forces efficiently.

KCI등재

저자 : 전영은 ( Young Eun Jeon ) , 강석복 ( Suk-bok Kang ) , 서정인 ( Jung-in Seo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 619-629 (11 pages)

다운로드

(기관인증 필요)

초록보기

5대 강력범죄(살인, 강도, 강간·강제추행, 절도, 폭력)는 사회 구성원들의 안전을 위협하는 대표 범죄들로 일상생활에서 자주 발생한다. 이러한 범죄들은 사회 구성원들의 삶의 질을 떨어뜨리는 등 부정적인 영향을 미친다. 대한민국의 수도인 서울의 경우, 지방에 있는 많은 인구가 서울로 이동하면서 서울의 인구 밀도는 증가하고, 이로 인해 5대 강력범죄 발생 위험성도 증가하고 있다. 본 연구에서는 이러한 위험성을 줄이기 위해 세 가지의 시공간 모형을 이용하여 서울의 5대 강력범죄 발생에 대한 상대위험도를 모델링하였다. 게다가, 상대위험도에 유의한 영향을 미치는 위험요인을 살펴보기 위해 다양한 위험요인을 포함하였다. 최적의 모형을 선택하기 위해 편차정보기준을 이용하였으며, 최적의 모형을 중심으로 다양한 시각화를 포함한 분석 결과를 제공하였다. 본 연구는 각 자치구의 상대위험도와 5대 강력범죄에 대한 위험에 유의한 영향을 미치는 위험요인을 분석함으로써, 사람들의 안전한 일상생활을 유지하기 위한 효율적인 전략을 수립하는 데 도움을 준다.


The five major violent crimes including murder, robbery, rape·forced indecent act, theft, and violence are representative crimes that threaten the safety of members of society and occur frequently in real life. These crimes have negative effects such as lowering the quality of citizens' life. In the case of Seoul, the capital of Korea, the risk for the five major violent crimes is increasing because the population density of Seoul is increasing as a large number of people in the provinces move to Seoul. In this study, to reduce this risk, the relative risk for the occurrence of the five major violent crimes in Seoul is modeled using three spatio-temporal models. In addition, various risk factors are included to identify factors that significantly affect the relative risk of the five major violent crimes. The best model is selected in terms of the deviance information criterion, and the analysis results including various visualizations for the best model are provided. This study will help to establish efficient strategies to sustain people's safe everyday living by analyzing important risk factors affecting the risk of the five major violent crimes and the relative risk of each region.

KCI등재

저자 : 김동영 ( Dongyeong Kim ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 631-644 (14 pages)

다운로드

(기관인증 필요)

초록보기

본 논문은 고차원 시계열 자료에 이상점이 존재하는 경우 희박벡터자기회귀모형(sparse VAR; sVAR)의 모수를 강건하게 추정하는 방법에 대해서 연구하였다. 먼저 Xu 등 (2008)이 독립인 자료에서 밝혔듯이 adaptive lasso 방법이 sVAR 모형에서도 어느 정도의 강건함을 가짐을 모의 실험을 통해 알 수 있었다. 하지만, 이상점의 개수가 증가하거나 이상점의 영향력이 커지는 경우 효율성이 현저히 저하되는 현상도 관찰할 수 있었다. 따라서 이를 개선하기 위해서 최소절대편차(least absolute deviation; LAD)와 Huber 함수를 기반으로 벌점화 시키는 adaptive lasso를 이용하여 sVAR 모형을 추정하는 방법을 본 논문에서는 제안하고 그 성능을 검토하였다. 모의 실험을 통해 제안한 로버스트 추정 방법이 이상점이 존재하는 경우에 모수 추정을 더 정확하게 하고 예측 성능도 뛰어남을 확인했다. 또한 해당 방법론들을 전력사용량 데이터에 적용한 결과 이상점으로 의심되는 시점들이 존재하였고, 이를 고려하여 강건하게 추정하는 제안한 방법론이 더 좋은 예측 성능을 보임을 확인할 수 있었다.


This paper considers robust estimation of the sparse vector autoregressive model (sVAR) useful in high-dimensional time series analysis. First, we generalize the result of Xu it et al. (2008) that the adaptive lasso indeed has robustness in sVAR as well. However, adaptive lasso method in sVAR performs poorly as the number and sizes of outliers increases. Therefore, we propose new robust estimation methods for sVAR based on least absolute deviation (LAD) and Huber estimation. Our simulation results show that our proposed methods provide more accurate estimation in turn showed better forecasting performance when outliers exist. In addition, we applied our proposed methods to power usage data and confirmed that there are unignorable outliers and robust estimation taking such outliers into account improves forecasting.

KCI등재

저자 : 오지우 ( Jiu Oh ) , 성병찬 ( Byeongchan Seong )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 645-655 (11 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 R에서 시계열 자료 예측을 위한 자동화 함수에 대하여 고찰하고 그 예측 성능을 비교합니다. 대표적인 시계열 예측 방법인 지수 평활 모형과 ARIMA (autoregressive integrated moving average) 모형을 대상으로 하였으며, 이들의 모형화 및 예측 자동화를 가능하게 하는 R의 4가지 자동화 함수인 forecast::ets(), forecast::auto.arima(), smooth::es()와 smooth::auto.ssarima()를 대상으로 하였습니다. 이들의 예측 성능을 비교하기 위하여 3,003가지의 시계열로 구성되어 있는 M3-Competition자료와 3가지의 정확성 척도를 사용하였습니다. 4가지 자동화 함수는 모형화의 다양성 및 편리성, 예측 정확도 및 실행 시간 등에서 각자 장단점이 있음을 확인하였습니다.


In this paper, we investigate automatic functions for time series forecasting in R system and compare their performances. For the exponential smoothing models and ARIMA (autoregressive integrated moving average) models, we focus on the representative time series forecasting functions in R: forecast::ets(), forecast::auto.arima()\newline, smooth::es() and smooth::auto.ssarima(). In order to compare their forecast performances, we use M3-Competition data consisting of 3,003 time series and adopt 3 accuracy measures. It is confirmed that each of the four automatic forecasting functions has strengths and weaknesses in the flexibility and convenience for time series modeling, forecasting accuracy, and execution time.

KCI등재

저자 : Jae Keun Yoo

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 657-666 (10 pages)

다운로드

(기관인증 필요)

초록보기

정보적 설명 변수 공간은 일반적인 충분차원축소 방법들이 요구하는 가정들이 만족하지 않을 때 중심부분공간을 추정하기 위해 유용하다. 최근 Ko와 Yoo (2022)는 다변량 회귀에서 Li 등 (2008)이 제시한 투영-재표본 방법론을 사용하여 정보적 설명 변수 공간이 아닌 투영-재표본 정보적 설명 변수 공간을 새로이 정의하였다. 이 공간은 기존의 정보적 설명 변수 공간에 포함되지만 중심 부분 공간을 포함한다. 본 논문에서는 다변량 회귀에서 정보적 설명 변수 공간을 직접적으로 추정할 수 있는 방법을 제안하고, 이를 Ko와 Yoo (2022)가 제시한 방법과 이론적으로 그리고 모의실험을 통해 비교하고자 한다. 모의실험에 따르면 Ko-Yoo 방법론이 본 논문에서 제시한 추정 방법보다 더 정확하게 중심 부분 공간을 추정하고, 추정값들의 변동이 적다는 측면에서 보다 더 효율적임을 알 수 있다.


An informative predictor subspace is useful to estimate the central subspace, when conditions required in usual sufficient dimension reduction methods fail. Recently, for multivariate regression, Ko and Yoo (2022) newly defined a projective-resampling informative predictor subspace, instead of the informative predictor subspace, by the adopting projective-resampling method (Li it et al. 2008). The new space is contained in the informative predictor subspace but contains the central subspace. In this paper, a method directly to estimate the informative predictor subspace is proposed, and it is compared with the method by Ko and Yoo (2022) through theoretical aspects and numerical studies. The numerical studies confirm that the Ko-Yoo method is better in the estimation of the central subspace than the proposed method and is more efficient in sense that the former has less variation in the estimation.

KCI등재

저자 : 이하정 ( Hajoung Lee ) , 김재직 ( Jaejik Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 667-684 (18 pages)

다운로드

(기관인증 필요)

초록보기

유전자 발현 데이터는 각 유전자에 대해 mRNA 양의 정도를 나타내고, 그러한 유전자 발현량에 대한 분석은 질병 발생에 대한 메커니즘을 이해하고 새로운 치료제와 치료 방법을 개발하는데 중요한 아이디어를 제공해오고 있다. 오늘날 DNA 마이크로어레이와 RNA-시퀀싱과 같은 고출력 기술은 수천 개의 유전자 발현량을 동시에 측정하는 것을 가능하게 하여 고차원성이라는 유전자 발현 데이터의 특징을 발생시켰다. 이러한 고차원성으로 인해 유전자 발현 데이터를 분석하기 위한 학습 모형들은 과적합 문제에 부딪히기 쉽고, 이를 해결하기 위해 차원 축소 또는 변수 선택 기술들이 사전 분석 단계로써 보통 사용된다. 특히, 사전 분석 단계에서 우리는 유전자 선택법을 이용하여 부적절하거나 중복된 유전자를 제거할 수 있고 중요한 유전자를 찾아낼 수도 있다. 현재까지 다양한 유전자 선택 방법들이 기계학습의 맥락에서 개발되어왔다. 본 논문에서는 기계학습 접근법을 사용하는 최근의 유전자 선택 방법들을 집중적으로 살펴보고자 한다. 또한, 현재까지 개발된 유전자 선택 방법들의 근본적인 문제점과 앞으로의 연구 방향에 대해 논의하고자 한다.


Gene expression data present the level of mRNA abundance of each gene, and analyses of gene expressions have provided key ideas for understanding the mechanism of diseases and developing new drugs and therapies. Nowadays high-throughput technologies such as DNA microarray and RNA-sequencing enabled the simultaneous measurement of thousands of gene expressions, giving rise to a characteristic of gene expression data known as high dimensionality. Due to the high-dimensionality, learning models to analyze gene expression data are prone to overfitting problems, and to solve this issue, dimension reduction or feature selection techniques are commonly used as a preprocessing step. In particular, we can remove irrelevant and redundant genes and identify important genes using gene selection methods in the preprocessing step. Various gene selection methods have been developed in the context of machine learning so far. In this paper, we intensively review recent works on gene selection methods using machine learning approaches. In addition, the underlying difficulties with current gene selection methods as well as future research directions are discussed.

1
권호별 보기
같은 권호 수록 논문
| | | | 다운로드

KCI등재

저자 : 김다은 ( Daeun Kim ) , 이성임 ( Sungim Lee ) , 임요한 ( Johan Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 335-346 (12 pages)

다운로드

(기관인증 필요)

초록보기

통계적 공정관리에서 프로파일 관리도란 다수의 품질 특성치 간 함수관계의 변화를 탐지하는 것을 말한다. 두 변수 간 선형의 관계가 있는 경우, 선형 프로파일을 가정하고 절편과 기울기가 일정한지 모니터링한다. 이때 선형 프로파일에 관한 대부분의 기존 연구에서는 모든 프로파일에서 설명변수의 관측치가 동일하다고 가정한다. 그러나 프로파일마다 설명변수의 값이 랜덤하게 관측되는 경우도 존재한다. 본 논문에서는 단순 선형 프로파일 모니터링에서 설명변수가 프로파일마다 랜덤하게 관측된다는 가정하에 기존의 방법을 확장 적용하고자 한다. 모의실험을 통해 제안한 방법의 탐지 성능을 확인하고 네트워크 침입 탐지 알고리즘 성능을 비교하기 위한 NSL-KDD 데이터를 이용하여 제안된 침입 탐지 결과를 비교해 보았다.

KCI등재

저자 : 이효령 ( Hyo Ryoung Lee ) , 황선영 ( Sun Young Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 347-356 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 금융 시계열 비대칭 변동성을 모형화하기 위해서 다중 임계점을 가진 비대칭-ARCH 점화식(A-ARCH(1))을 제안하고 있다. 특히 임계점이 두 개인 간단한 모형에 초점을 맞추어 설명하고 있으며 미국 S\&P500 자료 분석을 통해 예시하였다. 다양한 A-ARCH(1) 모형의 예측력 비교를 위해 모수적-붓스트랩을 활용하여 예측오차의 평가 및 예측구간의 정확도를 설명하였다.

KCI등재

저자 : 김정환 ( Jeonghwan Kim ) , 장민아 ( Mina Jang ) , 조형준 ( Hyungjun Cho )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 357-370 (14 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 Tobit 모형과 Heckit 모형을 소개한다. 이러한 모형은 절단된 자료의 분석에 사용되는데, 이때 절단된 자료란 연속형 자료가 아닌 특정 지점에서 절단이 발생하게 되거나 일정한 지점에서 개체가 양의 확률로 개체의 다수가 분포, 다른 영역에서는 연속형의 형태로 분포하는 자료를 의미한다. 이때 절단된 형태의 자료라는 특성을 고려하여 일반적인 선형회귀모형을 적합하는 경우 발생하는 문제점을 교정하고자 Tobit 및 Heckit 모형을 사용하나, 두 모형의 차이점이 명확하게 고려되지 않고 종종 혼용된 채 사용되었다. 따라서 여기서는 절단된 자료의 형태를 가정별로 세분화하여 모의자료를 통해 먼저 모형의 적합성을 비교하였으며, 이후 실제 자료를 바탕으로 모형을 적합하였다. 그 결과 절단 여부에 영향을 주는 잠재변수가 없는 경우 Tobit 및 Heckit 모형 모두 잘 적합되나 Tobit 모형이 간소하면서도 참값에 더 근접하게 적합되는 것을 확인하였다. 하지만 절단 여부에 영향을 주는 잠재변수가 존재하는 경우에는 Heckit 모형만 적합이 잘 되는 것을 확인하였다.

KCI등재

저자 : 유동현 ( Donghyeon Yu ) , 임요한 ( Johan Lim ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 371-384 (14 pages)

다운로드

(기관인증 필요)

초록보기

구간별 상수 구조를 가지는 관측값으로부터 변화점을 식별하기 위해 FLSA가 자주 사용되고 있다. FLSA는 총변동벌점을 이용하기 때문에 평균 수준이 단조성을 가지는 경우에는 변화점 식별에서의 일치성이 보장되지 않는다는 특징이 있다. ℓ1 추세필터는 오차제곱합과 기울기 차이에 대한 ℓ1 벌점의 합을 목적함수로 가지는 구간별 선형 구조 추정방법으로 구간별 선형 구조에서의 변화점을 식별하기 위해 활용할 수 있다. 한편 ℓ1 추세필터의 경우에도 총변동벌점을 이용하므로 FLSA와 마찬가지로 변화점 식별에 있어서 비일치성을 보일 것으로 예상할 수 있는데 이와 관련된 연구는 아직까지 많이 이루어져 있지 않다. 이 연구에서는 모의실험을 통해 구간별 선형 모형에서 변화점을 식별하기 위해 사용되는 ℓ1 추세필터의 비일치성에 대해 살펴본다. 또 구간별 선형 구조를 가지는 데이터에서 변화점을 정확하게 식별하기 위해서는 관측값에 ℓ1추세필터를 적용하는 것보다 관측값을 차분하여 FLSA를 적용하는 것이 바람직한 경우들이 있음을 확인해본다.

KCI등재

저자 : 이선홍 ( Seonhong Lee ) , 성병찬 ( Byeongchan Seong )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 385-393 (9 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 시계열 예측 분야에서 잘 알려져 있는 단변량 시계열 모형들을 이용하여, 그들의 단순 조합이 어떤 예측력을 보여주는지 연구한다. 고려된 단변량 시계열 모형으로는, 지수평활 및 ARIMA(autoregressive integrated moving average) 모형들과 그들의 확장된 형태인 모형들 그리고 예측의 벤치마크 모형으로 자주 사용되는 비계절 및 계절 랜덤워크 모형이다. 단순 조합의 방법은 중앙값과 평균을 이용하였으며, 검증을 위하여 사용된 데이터셋은 3,003개의 시계열 자료로 구성된 M3-competition 자료이다. 예측 성능을 sMAPE(symmetric mean absolute percentage error)와 MASE(mean absolute scaled error)로 평가한 결과, 단변량 시계열 모형들의 단순 조합이 아주 우수한 예측력을 가지고 있음을 확인하였다.

KCI등재

저자 : 김경희 ( Kyunghee Kim ) , 유승연 ( Seungyeon Yu ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 395-406 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 장기 종속 다변량 시계열 자료에 대한 이상점 탐지 기법을 연구한다. 기존 다변량 시계열 이상점 탐지 방법은 단기 종속 시계열 모형인 VARMA에 기반한 방법으로, 장기억성을 띈 다변량 시계열 자료에는 적합하지 않다. 자기회귀 모형을 통해서 장기 종속성, 즉 장기억성을 고려하기 위해서는 높은 차수의 모형이 필요하고, 이는 곧 추정의 불안성으로 이어지기에 장기억성을 효율적으로 다룰 수 없기 때문이다. 따라서, 본 논문은 이러한 문제를 보완하고자 VHAR 구조에 기반한 이상점 탐지 방법을 제시하고자 한다. 또한 더욱 정확한 추론을 위해서 로버스트한 방법을 이용하여 VHAR 계수를 추정하였고 이를 활용하여 이상점을 탐지하였다. 모의실험 결과 우리가 제안한 방법론이 기존 VARMA에 기반한 방법론보다 이상점 탐지에 더 효과적임을 살펴볼 수 있었다. 주가지수에 대한 실증자료 분석에서도 기존의 방법론은 탐지하지 못하는 추가 이상점을 찾음을 확인할 수 있었다.

KCI등재

저자 : 정주원 ( Joowon Jeong ) , 정윤서 ( Yoonsuh Jung )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 407-419 (13 pages)

다운로드

(기관인증 필요)

초록보기

반도체는 제조 공정이 복잡하고 길어 결함이 발생될 때 빠른 탐지와 조치가 이뤄져야 결함으로 인한 손실을 최소화할 수 있다. 테스트 공정을 거쳐 구성된 웨이퍼 빈 맵(WBM)의 체계적인 패턴을 탐지하고 분류함으로써 문제의 원인을 유추할 수 있다. 이 작업은 수작업으로 이뤄지기 때문에 대량의 웨이퍼를 단 시간에 처리하는 데 한계가 있다. 본 논문은 웨이퍼 빈 맵의 정상 여부를 구분하기 위해 계층적 군집 분석을 활용한 새로운 결함 패턴 탐지 방법을 제시한다. 제시하는 방법은 여러 장점이 있다. 군집의 수를 알 필요가 없으며 군집분석의 조율 모수가 적고 직관적이다. 동일한 크기의 웨이퍼와 다이(die)에서는 동일한 조율 모수를 가지므로 대량의 웨이퍼도 빠르게 결함을 탐지할 수 있다. 소량의 결함 데이터만 있어도 그리고 데이터의 결함 비율을 가정하지 않더라도 기계학습 모형을 훈련할 수 있다. 제조 특성상 결함 데이터는 구하기 어렵고 결함의 비율이 수시로 바뀔 수 있기 때문에 필요하다. 또한 신규 패턴 발생시에도 안정적으로 탐지한다. 대만 반도체 기업에서 공개한 실제 웨이퍼 빈 맵 데이터(WM-811K)로 실험하였다. 계층적 군집 분석을 이용한 결함 패턴 탐지는 불량의 재현율이 96.31\%로 기존의 공간 필터(spatial filter)보다 우수함을 보여준다. 결함 분류는 혼합 유형에 장점이 있는 계층적 군집 분석을 그대로 사용한다. 직선형과 곡선형의 긁힘(scratch) 결함의 특징에 각각 주성분 분석의 고유값과 2차 다항식의 결정계수를 이용하고 랜덤 포레스트 분류기를 이용한다.

KCI등재

저자 : 장대흥 ( Dae-heung Jang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 421-434 (14 pages)

다운로드

(기관인증 필요)

초록보기

hatterjee (2021)는 새로운 상관계수 ξ 를 제안하였다. 두 가지 질문 (1. Anscombe's quartet 데이터셋에 대하여 ξ 계수는 구별이 가능한가?, 2. 다양한 종류의 산점도에서 데이터의 개수에 따라 ξ 계수 값의 변화는 어떠한가?)을 중심으로 ξ 계수에 대한 탐색적자료분석을 시도하였다. 세 가지 측도 (ξ 계수, 피어슨상관계수, 상호정보)를 서로 비교하였다.

KCI등재

저자 : 여인권 ( In-kwon Yeo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 435-443 (9 pages)

다운로드

(기관인증 필요)

초록보기

이 논문에서는 질병관리청에서 제공한 코로나 진단검사 관련 자료를 이용하여 신속진단키트의 민감도 및 특이도에 따른 확진 비율과 신속검사에서 음성이 나왔을 때 실제로는 확진이었을 확률에 대해 알아본다. 또한 양성 반응 중 실제 확진의 확률을 알 때 민감도와 특이도 간의 관계를 유도하고 이를 통해 질병관리청의 자료에 따른 신속진단키트의 실제 민감도가 얼마나 되는지 알아 본다.

KCI등재

저자 : 장인송 ( Insong Jang ) , 이경재 ( Kyoungjae Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 445-455 (11 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 고차원 희소 회귀분석을 위한 기존의 베이지안 방법들을 소개하고, 다양한 모의실험 세팅에서 성능을 비교한다. 특히, 확장 가능하고 정확한 베이지안 추론을 가능하게 하는 변분 베이즈 방법(variational Bayes method) (Ray와 Szabó, 2021)에 중점을 둔다. 시뮬레이션 자료를 기반으로 한 희소 고차원 선형 회귀분석을 실시하고 변분 베이즈 방법의 성능을 다른 베이지안 및 빈도론 방법들과 비교한다. 로지스틱 회귀분석에서 변분 베이즈 방법의 실제 성능을 확인하기 위해 백혈병 유전자 발현 자료를 사용하여 실자료 분석을 수행한다.

1

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기