논문 상세보기

한국통계학회> 응용통계연구> 1 추세필터의 변화점 식별에 있어서의 비일치성

KCI등재

1 추세필터의 변화점 식별에 있어서의 비일치성

An empirical evidence of inconsistency of the ℓ1 trend filtering in change point detection

유동현 ( Donghyeon Yu ) , 임요한 ( Johan Lim ) , 손원 ( Won Son )
  • : 한국통계학회
  • : 응용통계연구 35권3호
  • : 연속간행물
  • : 2022년 06월
  • : 371-384(14pages)
응용통계연구

DOI


목차

1. 서론
2. 벌점회귀모형을 이용한 변화점 식별
3. 변화점 식별에 있어서의 비일치성
4. 모의실험
5. 결론 및 토의
Reference

키워드 보기


초록 보기

구간별 상수 구조를 가지는 관측값으로부터 변화점을 식별하기 위해 FLSA가 자주 사용되고 있다. FLSA는 총변동벌점을 이용하기 때문에 평균 수준이 단조성을 가지는 경우에는 변화점 식별에서의 일치성이 보장되지 않는다는 특징이 있다. ℓ1 추세필터는 오차제곱합과 기울기 차이에 대한 ℓ1 벌점의 합을 목적함수로 가지는 구간별 선형 구조 추정방법으로 구간별 선형 구조에서의 변화점을 식별하기 위해 활용할 수 있다. 한편 ℓ1 추세필터의 경우에도 총변동벌점을 이용하므로 FLSA와 마찬가지로 변화점 식별에 있어서 비일치성을 보일 것으로 예상할 수 있는데 이와 관련된 연구는 아직까지 많이 이루어져 있지 않다. 이 연구에서는 모의실험을 통해 구간별 선형 모형에서 변화점을 식별하기 위해 사용되는 ℓ1 추세필터의 비일치성에 대해 살펴본다. 또 구간별 선형 구조를 가지는 데이터에서 변화점을 정확하게 식별하기 위해서는 관측값에 ℓ1추세필터를 적용하는 것보다 관측값을 차분하여 FLSA를 적용하는 것이 바람직한 경우들이 있음을 확인해본다.
The fused LASSO signal approximator (FLSA) can be applied to find change points from the data having piecewise constant mean structure. It is well-known that the FLSA is inconsistent in change points detection. This inconsistency is due to a total-variation denoising penalty of the FLSA. ℓ1 trend filter, one of the popular tools for finding an underlying trend from data, can be used to identify change points of piecewise linear trends. Since the ℓ1 trend filter applies the sum of absolute values of slope di_erences, it can be inconsistent for change points recovery as the FLSA. However, there are few studies on the inconsistency of the ℓ1 trend filtering. In this paper, we demonstrate the inconsistency of the ℓ1 trend filtering with a numerical study.

UCI(KEPA)

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2022
  • : 2042


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

35권6호(2022년 12월) 수록논문
최근 권호 논문
| | | |

KCI등재

1KNOCKOFF를 이용한 성근 VHAR 모형의 FDR 제어

저자 : 박민수 ( Minsu Parka ) , 이재원 ( Jaewon Leea ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 685-701 (17 pages)

다운로드

(기관인증 필요)

초록보기

FDR은 1종 오류를 제어하는 매우 보수적인 FWER과 달리 더 자유로운 변수 판단을 제공하여 고차원 자료의 추론에 있어 널리 쓰이고 있다. 본 논문은 Barber와 Candès (2015)가 제안한 knockoff 방법론을 사용하여 FDR을 일정 수준으로 제어하면서 고차원 장기억 시계열 모형인 성근 VHAR 모형을 추정하는 방법을 제안한다. 또한 기존의 방법론인 AL (adaptive Lasso)와의 모의실험을 통한 비교 연구를 통해서 장단점을 비교하였다. 그 결과 AL이 성근 일치성을 보이는 등 전체적으로 좋은 성질을 가지고 있지만, FDR의 관점에서는 비교적 높은 값을 주는 것을 관찰했다. 즉 AL은 0인 계수를 0이 아닌 계수로 추정하려는 경향이 있었다. 반면, knockoff 방법론은 FDR을 일정 수준으로 유지하였지만 표본의 수가 작을 경우 매우 보수적으로 0이 아닌 계수를 찾아냄을 관찰할 수 있었다. 하지만, 모형이 희박할 수록 knockoff의 성능이 크게 향상됨을 확인할 수 있어 표본의 개수가 크고 성근 모형일 경우 knockoff 방법론이 우수함을 살펴볼 수 있었다.


FDR is widely used in high-dimensional data inference since it provides more liberal criterion contrary to FWER which is known to be very conservative by controlling Type-1 errors. This paper proposes a sparse VHAR model estimation method controlling FDR by adapting the knockoff introduced by Barber and Cand`es (2015).We also compare knocko_ with conventional method using adaptive Lasso (AL) through extensive simulation study. We observe that AL shows sparsistency and decent forecasting performance, however, AL is not satisfactory in controlling FDR. To be more specific, AL tends to estimate zero coefficients as non-zero coefficients. On the other hand, knockoff controls FDR sufficiently well under desired level, but it finds too sparse model when the sample size is small. However, the knockoff is dramatically improved as sample size increases and the model is getting sparser.

KCI등재

2베이지안 다변량 선형 모형을 이용한 청소년 패널 데이터 분석

저자 : 이인선 ( Insun Lee ) , 이근백 ( Keunbaik Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 703-724 (22 pages)

다운로드

(기관인증 필요)

초록보기

다변량 경시적 자료 분석은 반복 측정된 자료에 존재하는 상관관계를 올바르게 추정하면서 자료를 분석해야 한다. 경시적 연구에서는 다변량 경시적 자료가주로 생성되지만, 기존통계적 모형은 대부분단변량으로 분석되어 다변량 경시적 자료에 존재하는 복잡한 상관관계를 제대로 설명하지 못하게 된다. 따라서 본 논문에서는 복잡한 상관관계를 설명하기 위해 공분산 행렬을 모형화하는 다양한 방법에 대해 고찰한다. 그 중 수정된 콜레스키 분해, 수정된 콜레스키 블록분해와 초구분해를 살펴본다. 그리고 일반화 자기회귀모수 행렬이 가지는 희박성 문제를 해결하기 위해 베이지안 방법을 이용하여 청소년 패널 데이터를 분석한다. 청소년 패널 데이터는 다변량 경시적 자료이며, 반응 변수로는 학교 적응도, 학업 성취도, 휴대전화 의존도를 고려한다. 자기 상관 구조와 혁신 표준 편차 구조를 달리 가정하여 여러 모형을 비교한다. 가장 적합한 모형에 대해 학교 적응도와 학업 성취도에 대해 모든 설명 변수가 유의미하며, 휴대전화 의존도가 반응 변수일 때 사교육 시간을 제외한 모든 설명 변수가 유의미한 것으로 나타난다.


Although longitudinal studies mainly produce multivariate longitudinal data, most of existing statistical models analyze univariate longitudinal data and there is a limitation to explain complex correlations properly. Therefore, this paper describes various methods of modeling the covariance matrix to explain the complex correlations. Among them, modified Cholesky decomposition, modified Cholesky block decomposition, and hypersphere decomposition are reviewed. In this paper, we review these methods and analyze Korean children and youth panel (KCYP) data are analyzed using the Bayesian method. The KCYP data are multivariate longitudinal data that have response variables: School adaptation, academic achievement, and dependence on mobile phones. Assuming that the correlation structure and the innovation standard deviation structure are different, several models are compared. For the most suitable model, all explanatory variables are significant for school adaptation, and academic achievement and only household income appears as insignificant variables when cell phone dependence is a response variable.

KCI등재

33개의 모수영역을 모니터링하는 EWMA 관리도

저자 : 김유경 ( Yukyung Kim ) , 이재헌 ( Jaeheon Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 725-737 (13 pages)

다운로드

(기관인증 필요)

초록보기

통계적 공정 모니터링에서 관리 상태일 때 품질 특성치의 모수값은 하나 값으로 지정하는 경우가 대부분이다. 그러나 관리 상태로부터 공정 모수의 작은 변화는 실제적으로 크게 중요하지 않은 경우, 품질 특성치의 모수 영역은 관리 상태, 무관심, 그리고 이상 상태의 세 영역으로 구성될 수 있다. 이 논문에서는 3 개의 모수 영역이 있는 공정에 적용할 수 있는 두 가지 지수가중 이동평균(exponentially weighted moving average; EWMA) 관리도 절차를 제안하고, 제안된 절차의 성능을 Shewhart 관리도 및 누적합(cumulative sum; CUSUM) 관리도와 비교하여 그 효율을 평가하였다.


In the standard assumption of statistical process monitoring (SPM) under consideration, the in-control region of the control parameter of quality characteristic consists of a single point. However, if small deviations from the ideal situation may not be of practical importance, the parametric space can consist of three regions: In-control, indifference, and out-of-control. In this paper, we propose two exponentially weighted moving average (EWMA) charting procedures applicable to the situation with three parameter regions, and compare the efficiency of the proposed procedures with the Shewhart chart and the cumulative sum (CUSUM) chart.

KCI등재

4토픽 모형을 이용한 텍스트 데이터의 단어 선택

저자 : 장우솔 ( Woosol Jang ) , 김예은 ( Ye Eun Kim ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 739-754 (16 pages)

다운로드

(기관인증 필요)

초록보기

텍스트 데이터는 일반적으로 많은 변수를 포함하고 있으며 변수들 사이의 연관성도 높아 통계 분석의 정확성, 효율성 등에서 문제가 생길 수 있다. 이러한 문제점에 대처하기 위해 목표 변수가 주어진 지도 학습에서는 목표 변수를 잘 설명할 수 있는 단어들을 선택하여 이 단어들만 통계 분석에 이용하기도 한다. 반면, 비지도 학습에서는 목표 변수가 주어지지 않으므로 지도 학습에서와 같은 단어 선택 절차를 활용하기 어렵다. 이 연구에서는 토픽 모형을 이용하여 지도 학습에서의 목표 변수를 대신할 수 있는 토픽을 생성하고 각 토픽별로 연관성이 높은 단어들을 선택하는 단어 선택 절차를 제안한다. 제안된 절차를 실제 텍스트 데이터에 적용한 결과, 단어 선택 절차를 이용하면 많은 토픽에서 공통적으로 자주 등장하는 단어들을 제거함으로써 토픽을 더 명확하게 식별할 수 있었다. 또한, 군집 분석에 적용한 결과, 군집과 범주 사이에 높은 연관성을 가지는 군집 분석 결과를 얻을 수 있는 것으로 나타났다. 목표 변수에 대한 정보없이 토픽 모형을 이용하여 선택한 단어들을 분류 분석에 적용하였을 때 목표 변수를 이용하여 단어들을 선택한 경우와 비슷한 분류 정확성을 얻을 수 있음도 확인하였다.


Usually, text data consists of many variables, and some of them are closely correlated. Such multi-collinearity often results in inefficient or inaccurate statistical analysis. For supervised learning, one can select features by examining the relationship between target variables and explanatory variables. On the other hand, for unsupervised learning, since target variables are absent, one cannot use such a feature selection procedure as in supervised learning. In this study, we propose a word selection procedure that employs topic models to find latent topics. We substitute topics for the target variables and select terms which show high relevance for each topic. Applying the procedure to real data, we found that the proposed word selection procedure can give clear topic interpretation by removing high-frequency words prevalent in various topics. In addition, we observed that, by applying the selected variables to the classifiers such as naïve Bayes classifiers and support vector machines, the proposed feature selection procedure gives results comparable to those obtained by using class label information.

KCI등재

5금융 시계열 변동성 추정을 위한 준-우도 이노베이션의 멱변환

저자 : 정선아 ( Sunah Chung ) , 황선영 ( Sun Young Hwang ) , 이성덕 ( Sung Duck Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 755-764 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 금융 시계열 변동성 추정을 위한 준-모수(quasi-likelihood) 방법을 다루고 있다. 모형식에서 오차항의 분포를 미 지 (unknown)로 하여 준-우도 함수를 통한 모수 추정을 하는 경우 이노베이션의 지정을 멱변환을 통해 구성하였다. 고정된 멱변환에 대한 프로파일-정보 행렬을 비교하여 최대값을 제공하는 멱변환을 제안하였다. 이차원 이노베이션으로의 확장을 다루었으며 코로나 펜데믹 기간의 높은 변동성을 보이는 국내 9개 주가 자료 분석을 통해 방법론을 예시하고 있다.


This paper is concerned with power transformations in estimating GARCH volatility. To handle a semiparametric case for which the exact likelihood is not known, quasi-likelihood (QL) rather than maximumlikelihood method is investigated to best estimate GARCH via maximizing the information criteria. A power transformation is introduced in the innovation generating QL estimating functions and then optimum power is selected by maximizing the profile information. A combination of two different power transformations is also studied in order to increase the parameter estimation efficiency. Nine domestic stock prices data are analyzed to order to illustrate the main idea of the paper. The data span includes Covid-19 pandemic period in which financial time series are really volatile.

1
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1설명변수가 랜덤인 선형 프로파일 연구

저자 : 김다은 ( Daeun Kim ) , 이성임 ( Sungim Lee ) , 임요한 ( Johan Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 335-346 (12 pages)

다운로드

(기관인증 필요)

초록보기

통계적 공정관리에서 프로파일 관리도란 다수의 품질 특성치 간 함수관계의 변화를 탐지하는 것을 말한다. 두 변수 간 선형의 관계가 있는 경우, 선형 프로파일을 가정하고 절편과 기울기가 일정한지 모니터링한다. 이때 선형 프로파일에 관한 대부분의 기존 연구에서는 모든 프로파일에서 설명변수의 관측치가 동일하다고 가정한다. 그러나 프로파일마다 설명변수의 값이 랜덤하게 관측되는 경우도 존재한다. 본 논문에서는 단순 선형 프로파일 모니터링에서 설명변수가 프로파일마다 랜덤하게 관측된다는 가정하에 기존의 방법을 확장 적용하고자 한다. 모의실험을 통해 제안한 방법의 탐지 성능을 확인하고 네트워크 침입 탐지 알고리즘 성능을 비교하기 위한 NSL-KDD 데이터를 이용하여 제안된 침입 탐지 결과를 비교해 보았다.

KCI등재

2비대칭 금융 시계열을 위한 다중 임계점 변동성 모형

저자 : 이효령 ( Hyo Ryoung Lee ) , 황선영 ( Sun Young Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 347-356 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 금융 시계열 비대칭 변동성을 모형화하기 위해서 다중 임계점을 가진 비대칭-ARCH 점화식(A-ARCH(1))을 제안하고 있다. 특히 임계점이 두 개인 간단한 모형에 초점을 맞추어 설명하고 있으며 미국 S\&P500 자료 분석을 통해 예시하였다. 다양한 A-ARCH(1) 모형의 예측력 비교를 위해 모수적-붓스트랩을 활용하여 예측오차의 평가 및 예측구간의 정확도를 설명하였다.

KCI등재

3절단자료에 대한 Tobit과 Heckit 모형의 이해와 활용

저자 : 김정환 ( Jeonghwan Kim ) , 장민아 ( Mina Jang ) , 조형준 ( Hyungjun Cho )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 357-370 (14 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 Tobit 모형과 Heckit 모형을 소개한다. 이러한 모형은 절단된 자료의 분석에 사용되는데, 이때 절단된 자료란 연속형 자료가 아닌 특정 지점에서 절단이 발생하게 되거나 일정한 지점에서 개체가 양의 확률로 개체의 다수가 분포, 다른 영역에서는 연속형의 형태로 분포하는 자료를 의미한다. 이때 절단된 형태의 자료라는 특성을 고려하여 일반적인 선형회귀모형을 적합하는 경우 발생하는 문제점을 교정하고자 Tobit 및 Heckit 모형을 사용하나, 두 모형의 차이점이 명확하게 고려되지 않고 종종 혼용된 채 사용되었다. 따라서 여기서는 절단된 자료의 형태를 가정별로 세분화하여 모의자료를 통해 먼저 모형의 적합성을 비교하였으며, 이후 실제 자료를 바탕으로 모형을 적합하였다. 그 결과 절단 여부에 영향을 주는 잠재변수가 없는 경우 Tobit 및 Heckit 모형 모두 잘 적합되나 Tobit 모형이 간소하면서도 참값에 더 근접하게 적합되는 것을 확인하였다. 하지만 절단 여부에 영향을 주는 잠재변수가 존재하는 경우에는 Heckit 모형만 적합이 잘 되는 것을 확인하였다.

KCI등재

41 추세필터의 변화점 식별에 있어서의 비일치성

저자 : 유동현 ( Donghyeon Yu ) , 임요한 ( Johan Lim ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 371-384 (14 pages)

다운로드

(기관인증 필요)

초록보기

구간별 상수 구조를 가지는 관측값으로부터 변화점을 식별하기 위해 FLSA가 자주 사용되고 있다. FLSA는 총변동벌점을 이용하기 때문에 평균 수준이 단조성을 가지는 경우에는 변화점 식별에서의 일치성이 보장되지 않는다는 특징이 있다. ℓ1 추세필터는 오차제곱합과 기울기 차이에 대한 ℓ1 벌점의 합을 목적함수로 가지는 구간별 선형 구조 추정방법으로 구간별 선형 구조에서의 변화점을 식별하기 위해 활용할 수 있다. 한편 ℓ1 추세필터의 경우에도 총변동벌점을 이용하므로 FLSA와 마찬가지로 변화점 식별에 있어서 비일치성을 보일 것으로 예상할 수 있는데 이와 관련된 연구는 아직까지 많이 이루어져 있지 않다. 이 연구에서는 모의실험을 통해 구간별 선형 모형에서 변화점을 식별하기 위해 사용되는 ℓ1 추세필터의 비일치성에 대해 살펴본다. 또 구간별 선형 구조를 가지는 데이터에서 변화점을 정확하게 식별하기 위해서는 관측값에 ℓ1추세필터를 적용하는 것보다 관측값을 차분하여 FLSA를 적용하는 것이 바람직한 경우들이 있음을 확인해본다.

KCI등재

5단변량 시계열 모형들의 단순 결합의 예측 성능

저자 : 이선홍 ( Seonhong Lee ) , 성병찬 ( Byeongchan Seong )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 385-393 (9 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 시계열 예측 분야에서 잘 알려져 있는 단변량 시계열 모형들을 이용하여, 그들의 단순 조합이 어떤 예측력을 보여주는지 연구한다. 고려된 단변량 시계열 모형으로는, 지수평활 및 ARIMA(autoregressive integrated moving average) 모형들과 그들의 확장된 형태인 모형들 그리고 예측의 벤치마크 모형으로 자주 사용되는 비계절 및 계절 랜덤워크 모형이다. 단순 조합의 방법은 중앙값과 평균을 이용하였으며, 검증을 위하여 사용된 데이터셋은 3,003개의 시계열 자료로 구성된 M3-competition 자료이다. 예측 성능을 sMAPE(symmetric mean absolute percentage error)와 MASE(mean absolute scaled error)로 평가한 결과, 단변량 시계열 모형들의 단순 조합이 아주 우수한 예측력을 가지고 있음을 확인하였다.

KCI등재

6다변량 장기 종속 시계열에서의 이상점 탐지

저자 : 김경희 ( Kyunghee Kim ) , 유승연 ( Seungyeon Yu ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 395-406 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 장기 종속 다변량 시계열 자료에 대한 이상점 탐지 기법을 연구한다. 기존 다변량 시계열 이상점 탐지 방법은 단기 종속 시계열 모형인 VARMA에 기반한 방법으로, 장기억성을 띈 다변량 시계열 자료에는 적합하지 않다. 자기회귀 모형을 통해서 장기 종속성, 즉 장기억성을 고려하기 위해서는 높은 차수의 모형이 필요하고, 이는 곧 추정의 불안성으로 이어지기에 장기억성을 효율적으로 다룰 수 없기 때문이다. 따라서, 본 논문은 이러한 문제를 보완하고자 VHAR 구조에 기반한 이상점 탐지 방법을 제시하고자 한다. 또한 더욱 정확한 추론을 위해서 로버스트한 방법을 이용하여 VHAR 계수를 추정하였고 이를 활용하여 이상점을 탐지하였다. 모의실험 결과 우리가 제안한 방법론이 기존 VARMA에 기반한 방법론보다 이상점 탐지에 더 효과적임을 살펴볼 수 있었다. 주가지수에 대한 실증자료 분석에서도 기존의 방법론은 탐지하지 못하는 추가 이상점을 찾음을 확인할 수 있었다.

KCI등재

7계층적 군집분석을 이용한 반도체 웨이퍼의 불량 및 불량 패턴 탐지

저자 : 정주원 ( Joowon Jeong ) , 정윤서 ( Yoonsuh Jung )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 407-419 (13 pages)

다운로드

(기관인증 필요)

초록보기

반도체는 제조 공정이 복잡하고 길어 결함이 발생될 때 빠른 탐지와 조치가 이뤄져야 결함으로 인한 손실을 최소화할 수 있다. 테스트 공정을 거쳐 구성된 웨이퍼 빈 맵(WBM)의 체계적인 패턴을 탐지하고 분류함으로써 문제의 원인을 유추할 수 있다. 이 작업은 수작업으로 이뤄지기 때문에 대량의 웨이퍼를 단 시간에 처리하는 데 한계가 있다. 본 논문은 웨이퍼 빈 맵의 정상 여부를 구분하기 위해 계층적 군집 분석을 활용한 새로운 결함 패턴 탐지 방법을 제시한다. 제시하는 방법은 여러 장점이 있다. 군집의 수를 알 필요가 없으며 군집분석의 조율 모수가 적고 직관적이다. 동일한 크기의 웨이퍼와 다이(die)에서는 동일한 조율 모수를 가지므로 대량의 웨이퍼도 빠르게 결함을 탐지할 수 있다. 소량의 결함 데이터만 있어도 그리고 데이터의 결함 비율을 가정하지 않더라도 기계학습 모형을 훈련할 수 있다. 제조 특성상 결함 데이터는 구하기 어렵고 결함의 비율이 수시로 바뀔 수 있기 때문에 필요하다. 또한 신규 패턴 발생시에도 안정적으로 탐지한다. 대만 반도체 기업에서 공개한 실제 웨이퍼 빈 맵 데이터(WM-811K)로 실험하였다. 계층적 군집 분석을 이용한 결함 패턴 탐지는 불량의 재현율이 96.31\%로 기존의 공간 필터(spatial filter)보다 우수함을 보여준다. 결함 분류는 혼합 유형에 장점이 있는 계층적 군집 분석을 그대로 사용한다. 직선형과 곡선형의 긁힘(scratch) 결함의 특징에 각각 주성분 분석의 고유값과 2차 다항식의 결정계수를 이용하고 랜덤 포레스트 분류기를 이용한다.

KCI등재

8Chatterjee의 ξ 계수에 대한 탐색적자료분석

저자 : 장대흥 ( Dae-heung Jang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 421-434 (14 pages)

다운로드

(기관인증 필요)

초록보기

hatterjee (2021)는 새로운 상관계수 ξ 를 제안하였다. 두 가지 질문 (1. Anscombe's quartet 데이터셋에 대하여 ξ 계수는 구별이 가능한가?, 2. 다양한 종류의 산점도에서 데이터의 개수에 따라 ξ 계수 값의 변화는 어떠한가?)을 중심으로 ξ 계수에 대한 탐색적자료분석을 시도하였다. 세 가지 측도 (ξ 계수, 피어슨상관계수, 상호정보)를 서로 비교하였다.

KCI등재

9코로나19 신속진단검사는 얼마나 정확한가?

저자 : 여인권 ( In-kwon Yeo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 435-443 (9 pages)

다운로드

(기관인증 필요)

초록보기

이 논문에서는 질병관리청에서 제공한 코로나 진단검사 관련 자료를 이용하여 신속진단키트의 민감도 및 특이도에 따른 확진 비율과 신속검사에서 음성이 나왔을 때 실제로는 확진이었을 확률에 대해 알아본다. 또한 양성 반응 중 실제 확진의 확률을 알 때 민감도와 특이도 간의 관계를 유도하고 이를 통해 질병관리청의 자료에 따른 신속진단키트의 실제 민감도가 얼마나 되는지 알아 본다.

KCI등재

10고차원 선형 및 로지스틱 회귀모형에 대한 변분 베이즈 방법 소개

저자 : 장인송 ( Insong Jang ) , 이경재 ( Kyoungjae Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 445-455 (11 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 고차원 희소 회귀분석을 위한 기존의 베이지안 방법들을 소개하고, 다양한 모의실험 세팅에서 성능을 비교한다. 특히, 확장 가능하고 정확한 베이지안 추론을 가능하게 하는 변분 베이즈 방법(variational Bayes method) (Ray와 Szabó, 2021)에 중점을 둔다. 시뮬레이션 자료를 기반으로 한 희소 고차원 선형 회귀분석을 실시하고 변분 베이즈 방법의 성능을 다른 베이지안 및 빈도론 방법들과 비교한다. 로지스틱 회귀분석에서 변분 베이즈 방법의 실제 성능을 확인하기 위해 백혈병 유전자 발현 자료를 사용하여 실자료 분석을 수행한다.

1
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기