논문 상세보기

한국통계학회> 응용통계연구> 계층적 군집분석을 이용한 반도체 웨이퍼의 불량 및 불량 패턴 탐지

KCI등재

계층적 군집분석을 이용한 반도체 웨이퍼의 불량 및 불량 패턴 탐지

Wafer bin map failure pattern recognition using hierarchical clustering

정주원 ( Joowon Jeong ) , 정윤서 ( Yoonsuh Jung )
  • : 한국통계학회
  • : 응용통계연구 35권3호
  • : 연속간행물
  • : 2022년 06월
  • : 407-419(13pages)
응용통계연구

DOI


목차

1. Introduction
2. 반도체 웨이퍼 데이터 (WM-811K) 소개
3. 웨이퍼 맵 결함 패턴 탐지 및 분류 방법론
4. 실제 데이터 분석
5. 결론
References

키워드 보기


초록 보기

반도체는 제조 공정이 복잡하고 길어 결함이 발생될 때 빠른 탐지와 조치가 이뤄져야 결함으로 인한 손실을 최소화할 수 있다. 테스트 공정을 거쳐 구성된 웨이퍼 빈 맵(WBM)의 체계적인 패턴을 탐지하고 분류함으로써 문제의 원인을 유추할 수 있다. 이 작업은 수작업으로 이뤄지기 때문에 대량의 웨이퍼를 단 시간에 처리하는 데 한계가 있다. 본 논문은 웨이퍼 빈 맵의 정상 여부를 구분하기 위해 계층적 군집 분석을 활용한 새로운 결함 패턴 탐지 방법을 제시한다. 제시하는 방법은 여러 장점이 있다. 군집의 수를 알 필요가 없으며 군집분석의 조율 모수가 적고 직관적이다. 동일한 크기의 웨이퍼와 다이(die)에서는 동일한 조율 모수를 가지므로 대량의 웨이퍼도 빠르게 결함을 탐지할 수 있다. 소량의 결함 데이터만 있어도 그리고 데이터의 결함 비율을 가정하지 않더라도 기계학습 모형을 훈련할 수 있다. 제조 특성상 결함 데이터는 구하기 어렵고 결함의 비율이 수시로 바뀔 수 있기 때문에 필요하다. 또한 신규 패턴 발생시에도 안정적으로 탐지한다. 대만 반도체 기업에서 공개한 실제 웨이퍼 빈 맵 데이터(WM-811K)로 실험하였다. 계층적 군집 분석을 이용한 결함 패턴 탐지는 불량의 재현율이 96.31\%로 기존의 공간 필터(spatial filter)보다 우수함을 보여준다. 결함 분류는 혼합 유형에 장점이 있는 계층적 군집 분석을 그대로 사용한다. 직선형과 곡선형의 긁힘(scratch) 결함의 특징에 각각 주성분 분석의 고유값과 2차 다항식의 결정계수를 이용하고 랜덤 포레스트 분류기를 이용한다.
The semiconductor fabrication process is complex and time-consuming. There are sometimes errors in the process, which results in defective die on the wafer bin map (WBM). We can detect the faulty WBM by finding some patterns caused by dies. When one manually seeks the failure on WBM, it takes a long time due to the enormous number of WBMs. We suggest a two-step approach to discover the probable pattern on the WBMs in this paper. The first step is to separate the normal WBMs from the defective WBMs. We adapt a hierarchical clustering for de-noising, which nicely performs this work by wisely tuning the number of minimum points and the cutting height. Once declared as a faulty WBM, then it moves to the next step. In the second step, we classify the patterns among the defective WBMs. For this purpose, we extract features from the WBM. Then machine learning algorithm classifies the pattern. We use a real WBM data set (WM-811K) released by Taiwan semiconductor manufacturing company.

UCI(KEPA)

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2022
  • : 2029


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

35권4호(2022년 08월) 수록논문
최근 권호 논문
| | | |

KCI등재

1장기요양 필요 발생의 고위험 대상자 발굴을 위한 예측모형 개발

저자 : 송미경 ( Mi Kyung Song ) , 박영우 ( Yeongwoo Park ) , 한은정 ( Eun-jeong Han )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 457-468 (12 pages)

다운로드

(기관인증 필요)

초록보기

고령인구가 증가함에 따라 국가차원에서 노인의 건강노화 실현을 위한 장기요양 필요 발생의 예방 방안을 마련하는 것은 매우 중요하며, 정책적 효과를 극대화하기 위해서는 적절한 대상자의 선정이 선행되어야 한다. 이에 본 연구는 국민건강보험공단의 국민건강정보를 활용하여, 장기요양 필요를 야기하는 기능장애 발생 가능성이 높은 대상자를 발굴하기 위한 예측모형을 개발하고자 한다. 본 연구는 연구대상자의 과거 수집된 자료를 활용하는 후향적 연구로, 본 연구의 연구대상자는 만 65세 이상 의료보장등록인구이다(총 7,724,101명). 예측모형 개발을 위해 고유 방법인 로지스틱 회귀모형, 머신러닝 방법인 의사결정나무와 랜덤포레스트, 딥러닝 방법인 다층퍼셉트론 신경망을 분석하였다. 체계적 분석절차를 통해 각 분석방법별 모형을 적합하였고, 내적 타당성 및 외적 타당성 평가 결과를 기반으로 최종 예측모형을 랜덤포레스트로 선정하였다. 랜덤포레스트는 모집단에서의 4.50%밖에 되지 않는 장기요양 필요 대상자의 약 90%를 장기요양 필요 발생 고위험 대상자로 예측할 수 있다. 본 연구의 예측모형 및 고위험군 기준은 노인의 욕구 중심에서 예방 서비스가 필요한 대상자를 선제적으로 발굴하는데 기여할 것으로 기대된다.


In aged society, it is important to prevent older people from being disability needing long-term care. The purpose of this study is to develop a prediction model to discover high-risk groups who are likely to be beneficiaries of Long-Term Care Insurance. This study is a retrospective study using database of National Health Insurance Service (NHIS) collected in the past of the study subjects. The study subjects are 7,724,101, the population over 65 years of age registered for medical insurance. To develop the prediction model, we used logistic regression, decision tree, random forest, and multi-layer perceptron neural network. Finally, random forest was selected as the prediction model based on the performances of models obtained through internal and external validation. Random forest could predict about 90% of the older people in need of long-term care using DB without any information from the assessment of eligibility for long-term care. The findings might be useful in evidence-based health management for prevention services and can contribute to preemptively discovering those who need preventive services in older people.

KCI등재

2불균형 텍스트 데이터의 변수 선택에 있어서의 카이제곱통계량과 정보이득의 특징

저자 : 문혜인 ( Hye In Mun ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 469-484 (16 pages)

다운로드

(기관인증 필요)

초록보기

텍스트 데이터는 일반적으로 많은 단어로 이루어져 있으므로 변수의 수가 매우 많은 고차원 데이터에 해당된다. 이러한 고차원 데이터에서는 계산 효율성과 통계분석의 정확성을 높이기 위해 많은 변수 중 중요한 변수를 선택하기 위한 절차를 거치는 경우가 많다. 텍스트 데이터에서도 많은 단어 중 중요한 단어를 선택하기 위해 여러가지 방법들이 사용되고 있다. 이 연구에서는 단어 선택을 위한 대표적인 필터링 방법인 카이제곱통계량과 정보이득의 공통점과 차이점을 살펴보고 실제 텍스트 데이터에서 이들 성질을 확인해보았다. 카이제곱통계량과 정보이득은 비음성, 볼록성 등의 성질을 공유하지만 불균형 텍스트 데이터에서 카이제곱통계량이 양변수 위주로 단어를 선택하는 반면, 정보이득은 음변수도 상대적으로 많이 선택하는 경향이 있음을 확인하였다.


Since a large text corpus contains hundred-thousand unique words, text data is one of the typical large-dimensional data. Therefore, various feature selection methods have been proposed for dimension reduction. Feature selection methods can improve the prediction accuracy. In addition, with reduced data size, computational efficiency also can be achieved. The chi-square statistic and the information gain are two of the most popular measures for identifying interesting terms from text data. In this paper, we investigate the theoretical properties of the chi-square statistic and the information gain. We show that the two filtering metrics share theoretical properties such as non-negativity and convexity. However, they are different from each other in the sense that the information gain is prone to select more negative features than the chi-square statistic in imbalanced text data.

KCI등재

3무시할 수 없는 무응답에서 편향 보정을 이용한 무응답 대체

저자 : 이민하 ( Min-ha Lee ) , 신기일 ( Key-il Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 485-499 (15 pages)

다운로드

(기관인증 필요)

초록보기

표본오차와 비표본오차를 포함하는 총오차(total survey error)를 관리하는 것은 표본설계에서 매우 중요하다. 무응답으로 인해 발생한 비표본오차는 총오차에서 차지하는 비중이 매우 크며 이를 해결하는 방법인 무응답 대체에 관한 다수의 연구가 수행되었다. 최근 전통적 통계학 관련 기법에 추가하여 기계학습 관련 기법을 이용한 무응답 대체법이 다수 연구되고 실질적으로 사용되고 있다. 기존에 발표된 다수의 방법은 MCAR (missing completely at random) 또는 MAR (missing at random) 가정을 사용하고 있다. 그러나 관심변수에 영향을 받는 MNAR (missing not at random) 또는 무시할 수 없는 무응답 (non-ignorable non-response; NN)은 편향을 발생시켜대체 결과의 정확성을 크게 떨어뜨리지만 이에 관한 연구는 상대적으로 미미하다. 본 연구에서는 무시할 수 없는 무응답이 발생한 경우에 적용 가능한 무응답 대체법을 제안하였다. 특히 편향을 추정한 후 이를 제거하는 방법을 이용하여 무응답 대체 결과의 정확성을 향상하는 방법을 제안하였다. 또한, 모의실험을 이용하여 제안된 방법의 타당성을 확인하였다.


Controlling the total survey error including sampling error and non-sampling error is very important in sampling design. Non-sampling error caused by non-response accounts for a large proportion of the total survey error. Many studies have been conducted to handle non-response properly. Recently, a lot of non-response imputation methods using machine learning technique and traditional statistical methods have been studied and practically used. Most imputation methods assume MCAR(missing completely at random) or MAR(missing at random) and few studies have been conducted focusing on MNAR (missing not at random) or NN(non-ignorable non-response) which cause bias and reduce the accuracy of imputation. In this study, we propose a non-response imputation method that can be applied to non-ignorable non-response. That is, we propose an imputation method to improve the accuracy of estimation by removing the bias caused by NN. In addition, the superiority of the proposed method is confirmed through small simulation studies.

KCI등재

4두꺼운 꼬리 분포와 레버리지효과를 포함하는 확률변동성모형에 대한 최우추정: HMM근사를 이용한 최우추정

저자 : 김태형 ( Taehyung Kim ) , 박정민 ( Jeongmin Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 501-515 (15 pages)

다운로드

(기관인증 필요)

초록보기

두꺼운 꼬리 분포와 레버리지효과 등의 금융시계열의 전형적인 특징에도 불구하고 기존 빈도론적 접근법에서는 이를 명시적으로 포착하는 확률변동성모형이 제시된 바 없다. 본 연구는 빈도론적 접근법에서 수익률 금융시계열의 두꺼운 꼬리 분포와 레버리지효과를 명시적으로 포착할 수 있는 근사적인 확률변동성모형 설정을 제시하고이에 대한 Langrock 등 (2012)의 HMM근사를 이용한 최우추정을 제안한다. 본 연구는 다양한 모의실험과 실증분석을 통해 본 연구에서 제안하는 근사모형이 두꺼운 꼬리 분포와 레버리지효과를 정밀하고 효과적으로 추정할 수 있음을 보인다.


Despite the stylized statistical features of returns of financial returns such as fat-tailed distribution and leverage effect, no stochastic volatility models that can explicitly capture these features have been presented in the existing frequentist approach. we propose an approximate parameterization of stochastic volatility models that can explicitly capture the fat-tailed distribution and leverage effect of financial returns and a maximum likelihood estimation of the model using Langrock et al. (2012)'s hidden Markov model approximation in a frequentist approach. Through extensive simulation experiments and an empirical analysis, we present the statistical evidences validating the efficacy and accuracy of proposed parameterization.

KCI등재

5의사결정나무의 분기법 변화가 예측력에 미치는 영향

저자 : 장영재 ( Youngjae Chang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 517-525 (9 pages)

다운로드

(기관인증 필요)

초록보기

빅데이터 시대에 이르러 다양한 데이터 마이닝 기법이 주요 분석 방법론으로 제안되었다. 복잡 다양한 데이터가 양산되면서 데이터 마이닝 기법은 데이터 과학의 토대를 이루는 방법으로 부각되었다. 본고에서는 해석의 유용성과 예측력 향상의 측면 모두에 초점을 맞추어 다양한 실험 연구를 시행하였다. 구체적인 모형으로는 의사결정나무를 선택하였는데, 이는 실무적 사용 빈도가 높은 방법으로서 활용 폭이 넓을 뿐만 아니라 이해가 쉽고 성능평가가 용이한 방법론이기 때문이다. 의사결정나무모형을 대상으로 이 모형의 구조를 크게 변형시키지 않으면서도 예측력 향상의 목적을 이룰 수 있는 방법을 살펴보았으며 분기변수의 선택 방법이 모형의 성능에 미치는 영향을 분석하였다. 이 효과를 측정하기 위해서 다양한 모의실험 모델을 생성하고 분기법의 변화에 따른 예측력을 비교하였다. 비선형성을 지니면서 단일 분할을 통해서 하위 집합으로 명확하게 구분하기 어려운 복잡한 데이터의 경우에는 선형결합 분기방법이 예측력 제고에 도움을 주는 것으로 나타났다.


In the era of big data, various data mining techniques have been proposed as major analysis methodologies. As complex and diverse data is mass-produced, data mining techniques have attracted attention as a method that forms the foundation of data science. In this paper, we focused on the decision tree, which is frequently used in practice and easy to understand as one of representative data mining methods. Specifically, we analyzed the effect of the splitting method of decision trees on the model performance. We compared the prediction power and structures of decision tree models with different split methods based on various simulated data. The results show that the linear combination split method can improve the prediction accuracy of decision trees in the case of data simulated from nonlinear models with complex structure.

KCI등재

6직장 네트워크 데이터에 대한 통계적 ERGM 분석

저자 : 박예진 ( Yejin Park ) , 엄정민 ( Jungmin Um ) , 홍수빈 ( Subeen Hong ) , 한유진 ( Yujin Han ) , 김재희 ( Jaehee Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 527-541 (15 pages)

다운로드

(기관인증 필요)

초록보기

회사는 영리 등의 공동 목표를 달성하는 조직으로, 더 나은 성과를 도출해내기 위해 함께 노력하는 수많은 개인으로 구성된 사회 집단이다. 이에 따라 개인의 의사소통 능력을 비롯한 구성원 간의 네트워크 형성이 중요해지고 있다. 이러한 배경으로부터 본 연구는 직원 간 조언 관계 형성에 어떠한 요인이 영향을 미치는지 알아보고자 수행되었다. 이를 위해 미국과 유럽에 지사를 둔 컨설팅 회사 내 직원 44명의 네트워크 데이터를 ERGM (Exponential Random Graph Model) 방법으로 분석하였다. 분석 결과로 첫째, 연결을 비롯해 네트워크의 구조와 관련한 변수들이 유의하였다. 둘째, 서로 조언을 구할 확률에 성별 속성이 가장 큰 주효과로 나타났다. 셋째, 지역별 동질성은 성별 주효과보다 더 큰 연결 확률을 유도하였다. 이러한 결과로부터 직장 내 네트워크가 조금 더 효율적으로 활발하게 이루어질 수 있는 방법을 제시하였다.


A company is a social group of many individuals that work together to obtain better results, and it is an organization that pursues common goals such as profit. As a result, forming networks among members, as well as individual communication abilities, is critical. The purpose of this research was to determine what factors influence the creation of employee advice relationships. Using the ERGM(Exponential Random Graph Model) approach, we looked at the network data of 44 individuals from consulting firms with offices in the United States and Europe. The significance of structural network factors like connectivity was first discovered. Second, the gender factor had the most significant main influence on the likelihood of adopting each other's advice. Third, geographical homogeneity resulted in higher link probabilities than major impacts of gender. This research looked at ways to make a company's network more efficient and active.

KCI등재

7머신러닝을 사용한 서리 예측 연구

저자 : 김효정 ( Hyojeoung Kim ) , 김삼용 ( Sahm Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 543-552 (10 pages)

다운로드

(기관인증 필요)

초록보기

서리는 표면 근처의 공기의 이슬점 온도가 빙점 이하일 때 수증기가 승화, 응축되어 땅이나 물체에 얼게 되는 작은 얼음 결정체이다. 서리가 내리면 농작물이 직접 피해를 입는다. 농작물이 낮은 온도에 접촉하면 조직이 얼어서 세포막이나 엽록체가 딱딱해지고 파괴되거나 건조한 세포가 죽습니다. 2020년 7월, 세계 최대 커피 생산국인 브라질 미나스제라이스 주에 갑작스러운 영하의 날씨와 서리가 내려 지역 커피 나무의 약 30%가 피해를 입었다. 이로 인해 피해로 커피값이 크게 올랐고, 피해가 심각한 농가는 농작물이 회복되기까지 3년이 걸리기 때문에 2024년에야 커피를 생산할 수 있다. 본 논문에서는 심한 서리가 내리는 것을 방지하기 위해 기상청이 제공하는 서리 발생 데이터와 기상관측 데이터를 이용해 서리를 예측하려고 했다. 관측 지점의 고도 및 풍속, 온도, 습도, 강수량, 흐림 등의 기상 요인을 반영하여 모델을 구축하였다. XGB, SVM, Random Forest, MLP 모델을 사용하여 다양한 하이퍼 파라미터를 학습 데이터로 적용하여 각 모델에 가장 적합한 모델을 선택하였다. 마지막으로, 결과는 테스트 데이터에서 정확도 (acc)와 중요 성공 지수 (CSI)로 평가되었다. XGB는 90.4%의 acc와 64.4%의 CSI로 다른 모델에 비해 최고의 모델이었고, SVM은 89.7%의 acc와 61.2%의 CSI로 그 뒤를 이었다. 랜덤 포레스트와 MLP는 약 89%의 acc와 약 60%의 CSI로 비슷한 성능을 보였다.


When frost occurs, crops are directly damaged. When crops come into contact with low temperatures, tissues freeze, which hardens and destroys the cell membranes or chloroplasts, or dry cells to death. In July 2020, a sudden sub-zero weather and frost hit the Minas Gerais state of Brazil, the world's largest coffee producer, damaging about 30% of local coffee trees. As a result, coffee prices have risen significantly due to the damage, and farmers with severe damage can produce coffee only after three years for crops to recover, which is expected to cause long-term damage.
In this paper, we tried to predict frost using frost generation data and weather observation data provided by the Korea Meteorological Administration to prevent severe frost. A model was constructed by reflecting weather factors such as wind speed, temperature, humidity, precipitation, and cloudiness. Using XGB(eXtreme Gradient Boosting), SVM(Support Vector Machine), Random Forest, and MLP(Multi Layer perceptron) models, various hyper parameters were applied as training data to select the best model for each model. Finally, the results were evaluated as accuracy(acc) and CSI(Critical Success Index) in test data.
XGB was the best model compared to other models with 90.4% ac and 64.4% CSI, followed by SVM with 89.7% ac and 61.2% CSI. Random Forest and MLP showed similar performance with about 89% ac and about 60% CSI.

KCI등재

8가계동향조사 지출부문 시계열 연계 방안에 관한 연구

저자 : 김시현 ( Sihyeon Kim ) , 성병찬 ( Byeongchan Seong ) , 최영근 ( Young-geun Choi ) , 여인권 ( In-kwon Yeo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 553-568 (16 pages)

다운로드

(기관인증 필요)

초록보기

가계동향조사는 가구에 대한 가계수지 실태를 파악하여 국민 소득, 소비 수준과 그 변화의 측정 및 분석 등을 목적으로 하는 통계청의 대표적인 조사이다. 최근 여러 기관들에서 2017년과 2018년의 가계동향 지출 부문에서 발생한 시계열 단절에 대한 문제를 인식하고, 이 기간에 대한 시계열 연계를 위한 관련 연구를 진행하고 있다. 본 연구에서는 2016년까지의 가계동향 조사 시계열 특성을 파악하고, 이를 반영하여 2017년과 2018년의 지출액에 대한 시계열을 연계하는 예측값을 도출한다. 본 연구에서는 각 지출 항목들의 시계열적 특성을 골고루 반영하는 동시에 특정 예측 모형의 영향을 줄이기 위하여총 8개의 회귀모형, 시계열모형, 머신러닝 기법을 합성하여 사용하였다. 특히 본 연구의 주목할 만한 특징은, Top-down 또는 Bottom-up 방식이 아닌, 정보의 손실없이 가계동향조사의 계층 구조를 반영할 수 있는 optimal combination 기법을 사용하여 예측력을 향상시켰다는 점이다. 2017년부터 2019년 자료에 대한 가계동향 지출 부문의 연계 분석 결과, 본 연구가 제안하는 연계 방식이 시계열 단절성 회복 및 예측력 향상에 기여하며, 또한 optimal combination 기법에 의한 계층 조정 후의 예측값이 조사자료에 보다 근접한 결과를 보여줌을 확인하였다.


The Household Income and Expenditure Survey is a representative survey of Statistics Korea, which aims to measure and analyze national income and consumption levels and their changes by understanding the current state of household balances. Recently, the disconnection problem in these time series caused by the large-scale reorganization of the survey methods in 2017 and 2019 has become an issue. In this study, we model the characteristics of the time series in the Household Income and Expenditure Survey up to 2016, and use the modeling to compute forecasts for linking the expenditures in 2017 and 2018. In order to evenly reflect the characteristics across all expenditure item series and to reduce the impact of a specific forecast model, we synthesize a total of 8 models such as regression models, time series models, and machine learning techniques. In particular, the noteworthy aspect of this study is that it improves the forecast by using the optimal combination technique that can exactly reflect the hierarchical structure of the Household Income and Expenditure Survey without loss of information as in the top-down or bottom-up methods. As a result of applying the proposed method to forecast expenditure series from 2017 to 2019, it contributed to the recovery of time series linkage and improved the forecast. In addition, it was confirmed that the hierarchical time series forecasts by the optimal combination method make linkage results closer to the actual survey series.

KCI등재

9통계모형을 이용하여 모의실험 결과 분석하기에 대한 보완연구

저자 : 김지현 ( Ji-hyun Kim ) , 깁봉성 ( Bongseong Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 4호 발행 연도 : 2022 페이지 : pp. 569-577 (9 pages)

다운로드

(기관인증 필요)

초록보기

비모수적 추정량의 성능을 이론적으로 비교하기 힘들 때 흔히 모의실험을 실시한다. 다양한 실험조건에서 여러 추정량에 대해 얻어진 모의실험 결과를 회귀모형을 이용해 분석하면보다 체계적이고 정확한 비교를 할 수 있다는 것을 Kim과 Kim (2021)에서 보였다. 이 연구는 Kim과 Kim (2021)에 대한 후속연구이자 보완연구이다. 회귀모형의 오차항에 대한 분산공분산행렬에서 이분산성만 고려하고 공분산을 선행연구에서 무시했는데, 공분산을 고려하게 되면 분산공분산행렬은 블록대각행렬이 된다. 본 연구에서 블록대각행렬인 분산공분산행렬을 추정하여 분석에 이용하는 방법을 제시하였다. 이렇게 하면 명목신뢰수준을 보장하면서 유의하게 성능 차이가 나는 추정량 짝을 더 잘 찾을 수 있다는 것도 보였다.


Simulation studies are often conducted when it is difficult to compare the performance of nonparametric estimators theoretically. Kim and Kim (2021) showed that more systematic and accurate comparisons can be made if you analyze the simulation results using a regression model,. This study is a complementary study on Kim and Kim (2021). In the variance-covariance matrix for the error term of the regression model, only heteroscedasticity was considered and covariance was ignored in the previous study. When covariance is considered together with the heteroscedasticity, the variance-covariance matrix becomes a block diagonal matrix. In this study, a method of estimating and using the block diagonal variance-covariance matrix for the analysis was presented. This allows you to find more pairs of estimators with significant performance differences while ensuring the nominal confidence level.

1
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1설명변수가 랜덤인 선형 프로파일 연구

저자 : 김다은 ( Daeun Kim ) , 이성임 ( Sungim Lee ) , 임요한 ( Johan Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 335-346 (12 pages)

다운로드

(기관인증 필요)

초록보기

통계적 공정관리에서 프로파일 관리도란 다수의 품질 특성치 간 함수관계의 변화를 탐지하는 것을 말한다. 두 변수 간 선형의 관계가 있는 경우, 선형 프로파일을 가정하고 절편과 기울기가 일정한지 모니터링한다. 이때 선형 프로파일에 관한 대부분의 기존 연구에서는 모든 프로파일에서 설명변수의 관측치가 동일하다고 가정한다. 그러나 프로파일마다 설명변수의 값이 랜덤하게 관측되는 경우도 존재한다. 본 논문에서는 단순 선형 프로파일 모니터링에서 설명변수가 프로파일마다 랜덤하게 관측된다는 가정하에 기존의 방법을 확장 적용하고자 한다. 모의실험을 통해 제안한 방법의 탐지 성능을 확인하고 네트워크 침입 탐지 알고리즘 성능을 비교하기 위한 NSL-KDD 데이터를 이용하여 제안된 침입 탐지 결과를 비교해 보았다.

KCI등재

2비대칭 금융 시계열을 위한 다중 임계점 변동성 모형

저자 : 이효령 ( Hyo Ryoung Lee ) , 황선영 ( Sun Young Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 347-356 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 금융 시계열 비대칭 변동성을 모형화하기 위해서 다중 임계점을 가진 비대칭-ARCH 점화식(A-ARCH(1))을 제안하고 있다. 특히 임계점이 두 개인 간단한 모형에 초점을 맞추어 설명하고 있으며 미국 S\&P500 자료 분석을 통해 예시하였다. 다양한 A-ARCH(1) 모형의 예측력 비교를 위해 모수적-붓스트랩을 활용하여 예측오차의 평가 및 예측구간의 정확도를 설명하였다.

KCI등재

3절단자료에 대한 Tobit과 Heckit 모형의 이해와 활용

저자 : 김정환 ( Jeonghwan Kim ) , 장민아 ( Mina Jang ) , 조형준 ( Hyungjun Cho )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 357-370 (14 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 Tobit 모형과 Heckit 모형을 소개한다. 이러한 모형은 절단된 자료의 분석에 사용되는데, 이때 절단된 자료란 연속형 자료가 아닌 특정 지점에서 절단이 발생하게 되거나 일정한 지점에서 개체가 양의 확률로 개체의 다수가 분포, 다른 영역에서는 연속형의 형태로 분포하는 자료를 의미한다. 이때 절단된 형태의 자료라는 특성을 고려하여 일반적인 선형회귀모형을 적합하는 경우 발생하는 문제점을 교정하고자 Tobit 및 Heckit 모형을 사용하나, 두 모형의 차이점이 명확하게 고려되지 않고 종종 혼용된 채 사용되었다. 따라서 여기서는 절단된 자료의 형태를 가정별로 세분화하여 모의자료를 통해 먼저 모형의 적합성을 비교하였으며, 이후 실제 자료를 바탕으로 모형을 적합하였다. 그 결과 절단 여부에 영향을 주는 잠재변수가 없는 경우 Tobit 및 Heckit 모형 모두 잘 적합되나 Tobit 모형이 간소하면서도 참값에 더 근접하게 적합되는 것을 확인하였다. 하지만 절단 여부에 영향을 주는 잠재변수가 존재하는 경우에는 Heckit 모형만 적합이 잘 되는 것을 확인하였다.

KCI등재

41 추세필터의 변화점 식별에 있어서의 비일치성

저자 : 유동현 ( Donghyeon Yu ) , 임요한 ( Johan Lim ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 371-384 (14 pages)

다운로드

(기관인증 필요)

초록보기

구간별 상수 구조를 가지는 관측값으로부터 변화점을 식별하기 위해 FLSA가 자주 사용되고 있다. FLSA는 총변동벌점을 이용하기 때문에 평균 수준이 단조성을 가지는 경우에는 변화점 식별에서의 일치성이 보장되지 않는다는 특징이 있다. ℓ1 추세필터는 오차제곱합과 기울기 차이에 대한 ℓ1 벌점의 합을 목적함수로 가지는 구간별 선형 구조 추정방법으로 구간별 선형 구조에서의 변화점을 식별하기 위해 활용할 수 있다. 한편 ℓ1 추세필터의 경우에도 총변동벌점을 이용하므로 FLSA와 마찬가지로 변화점 식별에 있어서 비일치성을 보일 것으로 예상할 수 있는데 이와 관련된 연구는 아직까지 많이 이루어져 있지 않다. 이 연구에서는 모의실험을 통해 구간별 선형 모형에서 변화점을 식별하기 위해 사용되는 ℓ1 추세필터의 비일치성에 대해 살펴본다. 또 구간별 선형 구조를 가지는 데이터에서 변화점을 정확하게 식별하기 위해서는 관측값에 ℓ1추세필터를 적용하는 것보다 관측값을 차분하여 FLSA를 적용하는 것이 바람직한 경우들이 있음을 확인해본다.

KCI등재

5단변량 시계열 모형들의 단순 결합의 예측 성능

저자 : 이선홍 ( Seonhong Lee ) , 성병찬 ( Byeongchan Seong )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 385-393 (9 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 시계열 예측 분야에서 잘 알려져 있는 단변량 시계열 모형들을 이용하여, 그들의 단순 조합이 어떤 예측력을 보여주는지 연구한다. 고려된 단변량 시계열 모형으로는, 지수평활 및 ARIMA(autoregressive integrated moving average) 모형들과 그들의 확장된 형태인 모형들 그리고 예측의 벤치마크 모형으로 자주 사용되는 비계절 및 계절 랜덤워크 모형이다. 단순 조합의 방법은 중앙값과 평균을 이용하였으며, 검증을 위하여 사용된 데이터셋은 3,003개의 시계열 자료로 구성된 M3-competition 자료이다. 예측 성능을 sMAPE(symmetric mean absolute percentage error)와 MASE(mean absolute scaled error)로 평가한 결과, 단변량 시계열 모형들의 단순 조합이 아주 우수한 예측력을 가지고 있음을 확인하였다.

KCI등재

6다변량 장기 종속 시계열에서의 이상점 탐지

저자 : 김경희 ( Kyunghee Kim ) , 유승연 ( Seungyeon Yu ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 395-406 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 장기 종속 다변량 시계열 자료에 대한 이상점 탐지 기법을 연구한다. 기존 다변량 시계열 이상점 탐지 방법은 단기 종속 시계열 모형인 VARMA에 기반한 방법으로, 장기억성을 띈 다변량 시계열 자료에는 적합하지 않다. 자기회귀 모형을 통해서 장기 종속성, 즉 장기억성을 고려하기 위해서는 높은 차수의 모형이 필요하고, 이는 곧 추정의 불안성으로 이어지기에 장기억성을 효율적으로 다룰 수 없기 때문이다. 따라서, 본 논문은 이러한 문제를 보완하고자 VHAR 구조에 기반한 이상점 탐지 방법을 제시하고자 한다. 또한 더욱 정확한 추론을 위해서 로버스트한 방법을 이용하여 VHAR 계수를 추정하였고 이를 활용하여 이상점을 탐지하였다. 모의실험 결과 우리가 제안한 방법론이 기존 VARMA에 기반한 방법론보다 이상점 탐지에 더 효과적임을 살펴볼 수 있었다. 주가지수에 대한 실증자료 분석에서도 기존의 방법론은 탐지하지 못하는 추가 이상점을 찾음을 확인할 수 있었다.

KCI등재

7계층적 군집분석을 이용한 반도체 웨이퍼의 불량 및 불량 패턴 탐지

저자 : 정주원 ( Joowon Jeong ) , 정윤서 ( Yoonsuh Jung )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 407-419 (13 pages)

다운로드

(기관인증 필요)

초록보기

반도체는 제조 공정이 복잡하고 길어 결함이 발생될 때 빠른 탐지와 조치가 이뤄져야 결함으로 인한 손실을 최소화할 수 있다. 테스트 공정을 거쳐 구성된 웨이퍼 빈 맵(WBM)의 체계적인 패턴을 탐지하고 분류함으로써 문제의 원인을 유추할 수 있다. 이 작업은 수작업으로 이뤄지기 때문에 대량의 웨이퍼를 단 시간에 처리하는 데 한계가 있다. 본 논문은 웨이퍼 빈 맵의 정상 여부를 구분하기 위해 계층적 군집 분석을 활용한 새로운 결함 패턴 탐지 방법을 제시한다. 제시하는 방법은 여러 장점이 있다. 군집의 수를 알 필요가 없으며 군집분석의 조율 모수가 적고 직관적이다. 동일한 크기의 웨이퍼와 다이(die)에서는 동일한 조율 모수를 가지므로 대량의 웨이퍼도 빠르게 결함을 탐지할 수 있다. 소량의 결함 데이터만 있어도 그리고 데이터의 결함 비율을 가정하지 않더라도 기계학습 모형을 훈련할 수 있다. 제조 특성상 결함 데이터는 구하기 어렵고 결함의 비율이 수시로 바뀔 수 있기 때문에 필요하다. 또한 신규 패턴 발생시에도 안정적으로 탐지한다. 대만 반도체 기업에서 공개한 실제 웨이퍼 빈 맵 데이터(WM-811K)로 실험하였다. 계층적 군집 분석을 이용한 결함 패턴 탐지는 불량의 재현율이 96.31\%로 기존의 공간 필터(spatial filter)보다 우수함을 보여준다. 결함 분류는 혼합 유형에 장점이 있는 계층적 군집 분석을 그대로 사용한다. 직선형과 곡선형의 긁힘(scratch) 결함의 특징에 각각 주성분 분석의 고유값과 2차 다항식의 결정계수를 이용하고 랜덤 포레스트 분류기를 이용한다.

KCI등재

8Chatterjee의 ξ 계수에 대한 탐색적자료분석

저자 : 장대흥 ( Dae-heung Jang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 421-434 (14 pages)

다운로드

(기관인증 필요)

초록보기

hatterjee (2021)는 새로운 상관계수 ξ 를 제안하였다. 두 가지 질문 (1. Anscombe's quartet 데이터셋에 대하여 ξ 계수는 구별이 가능한가?, 2. 다양한 종류의 산점도에서 데이터의 개수에 따라 ξ 계수 값의 변화는 어떠한가?)을 중심으로 ξ 계수에 대한 탐색적자료분석을 시도하였다. 세 가지 측도 (ξ 계수, 피어슨상관계수, 상호정보)를 서로 비교하였다.

KCI등재

9코로나19 신속진단검사는 얼마나 정확한가?

저자 : 여인권 ( In-kwon Yeo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 435-443 (9 pages)

다운로드

(기관인증 필요)

초록보기

이 논문에서는 질병관리청에서 제공한 코로나 진단검사 관련 자료를 이용하여 신속진단키트의 민감도 및 특이도에 따른 확진 비율과 신속검사에서 음성이 나왔을 때 실제로는 확진이었을 확률에 대해 알아본다. 또한 양성 반응 중 실제 확진의 확률을 알 때 민감도와 특이도 간의 관계를 유도하고 이를 통해 질병관리청의 자료에 따른 신속진단키트의 실제 민감도가 얼마나 되는지 알아 본다.

KCI등재

10고차원 선형 및 로지스틱 회귀모형에 대한 변분 베이즈 방법 소개

저자 : 장인송 ( Insong Jang ) , 이경재 ( Kyoungjae Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 445-455 (11 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 고차원 희소 회귀분석을 위한 기존의 베이지안 방법들을 소개하고, 다양한 모의실험 세팅에서 성능을 비교한다. 특히, 확장 가능하고 정확한 베이지안 추론을 가능하게 하는 변분 베이즈 방법(variational Bayes method) (Ray와 Szabó, 2021)에 중점을 둔다. 시뮬레이션 자료를 기반으로 한 희소 고차원 선형 회귀분석을 실시하고 변분 베이즈 방법의 성능을 다른 베이지안 및 빈도론 방법들과 비교한다. 로지스틱 회귀분석에서 변분 베이즈 방법의 실제 성능을 확인하기 위해 백혈병 유전자 발현 자료를 사용하여 실자료 분석을 수행한다.

1
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기