간행물

한국통계학회> 응용통계연구

응용통계연구 update

The Korean Journal of Applied Statistics

  • : 한국통계학회
  • : 자연과학분야  >  통계학
  • : KCI등재
  • :
  • : 연속간행물
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • :

수록정보
35권1호(2022) |수록논문 수 : 12
간행물 제목
35권6호(2022년 12월) 수록논문
최근 권호 논문
| | | |

KCI등재

저자 : 박민수 ( Minsu Parka ) , 이재원 ( Jaewon Leea ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 685-701 (17 pages)

다운로드

(기관인증 필요)

초록보기

FDR은 1종 오류를 제어하는 매우 보수적인 FWER과 달리 더 자유로운 변수 판단을 제공하여 고차원 자료의 추론에 있어 널리 쓰이고 있다. 본 논문은 Barber와 Candès (2015)가 제안한 knockoff 방법론을 사용하여 FDR을 일정 수준으로 제어하면서 고차원 장기억 시계열 모형인 성근 VHAR 모형을 추정하는 방법을 제안한다. 또한 기존의 방법론인 AL (adaptive Lasso)와의 모의실험을 통한 비교 연구를 통해서 장단점을 비교하였다. 그 결과 AL이 성근 일치성을 보이는 등 전체적으로 좋은 성질을 가지고 있지만, FDR의 관점에서는 비교적 높은 값을 주는 것을 관찰했다. 즉 AL은 0인 계수를 0이 아닌 계수로 추정하려는 경향이 있었다. 반면, knockoff 방법론은 FDR을 일정 수준으로 유지하였지만 표본의 수가 작을 경우 매우 보수적으로 0이 아닌 계수를 찾아냄을 관찰할 수 있었다. 하지만, 모형이 희박할 수록 knockoff의 성능이 크게 향상됨을 확인할 수 있어 표본의 개수가 크고 성근 모형일 경우 knockoff 방법론이 우수함을 살펴볼 수 있었다.


FDR is widely used in high-dimensional data inference since it provides more liberal criterion contrary to FWER which is known to be very conservative by controlling Type-1 errors. This paper proposes a sparse VHAR model estimation method controlling FDR by adapting the knockoff introduced by Barber and Cand`es (2015).We also compare knocko_ with conventional method using adaptive Lasso (AL) through extensive simulation study. We observe that AL shows sparsistency and decent forecasting performance, however, AL is not satisfactory in controlling FDR. To be more specific, AL tends to estimate zero coefficients as non-zero coefficients. On the other hand, knockoff controls FDR sufficiently well under desired level, but it finds too sparse model when the sample size is small. However, the knockoff is dramatically improved as sample size increases and the model is getting sparser.

KCI등재

저자 : 이인선 ( Insun Lee ) , 이근백 ( Keunbaik Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 703-724 (22 pages)

다운로드

(기관인증 필요)

초록보기

다변량 경시적 자료 분석은 반복 측정된 자료에 존재하는 상관관계를 올바르게 추정하면서 자료를 분석해야 한다. 경시적 연구에서는 다변량 경시적 자료가주로 생성되지만, 기존통계적 모형은 대부분단변량으로 분석되어 다변량 경시적 자료에 존재하는 복잡한 상관관계를 제대로 설명하지 못하게 된다. 따라서 본 논문에서는 복잡한 상관관계를 설명하기 위해 공분산 행렬을 모형화하는 다양한 방법에 대해 고찰한다. 그 중 수정된 콜레스키 분해, 수정된 콜레스키 블록분해와 초구분해를 살펴본다. 그리고 일반화 자기회귀모수 행렬이 가지는 희박성 문제를 해결하기 위해 베이지안 방법을 이용하여 청소년 패널 데이터를 분석한다. 청소년 패널 데이터는 다변량 경시적 자료이며, 반응 변수로는 학교 적응도, 학업 성취도, 휴대전화 의존도를 고려한다. 자기 상관 구조와 혁신 표준 편차 구조를 달리 가정하여 여러 모형을 비교한다. 가장 적합한 모형에 대해 학교 적응도와 학업 성취도에 대해 모든 설명 변수가 유의미하며, 휴대전화 의존도가 반응 변수일 때 사교육 시간을 제외한 모든 설명 변수가 유의미한 것으로 나타난다.


Although longitudinal studies mainly produce multivariate longitudinal data, most of existing statistical models analyze univariate longitudinal data and there is a limitation to explain complex correlations properly. Therefore, this paper describes various methods of modeling the covariance matrix to explain the complex correlations. Among them, modified Cholesky decomposition, modified Cholesky block decomposition, and hypersphere decomposition are reviewed. In this paper, we review these methods and analyze Korean children and youth panel (KCYP) data are analyzed using the Bayesian method. The KCYP data are multivariate longitudinal data that have response variables: School adaptation, academic achievement, and dependence on mobile phones. Assuming that the correlation structure and the innovation standard deviation structure are different, several models are compared. For the most suitable model, all explanatory variables are significant for school adaptation, and academic achievement and only household income appears as insignificant variables when cell phone dependence is a response variable.

KCI등재

저자 : 김유경 ( Yukyung Kim ) , 이재헌 ( Jaeheon Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 725-737 (13 pages)

다운로드

(기관인증 필요)

초록보기

통계적 공정 모니터링에서 관리 상태일 때 품질 특성치의 모수값은 하나 값으로 지정하는 경우가 대부분이다. 그러나 관리 상태로부터 공정 모수의 작은 변화는 실제적으로 크게 중요하지 않은 경우, 품질 특성치의 모수 영역은 관리 상태, 무관심, 그리고 이상 상태의 세 영역으로 구성될 수 있다. 이 논문에서는 3 개의 모수 영역이 있는 공정에 적용할 수 있는 두 가지 지수가중 이동평균(exponentially weighted moving average; EWMA) 관리도 절차를 제안하고, 제안된 절차의 성능을 Shewhart 관리도 및 누적합(cumulative sum; CUSUM) 관리도와 비교하여 그 효율을 평가하였다.


In the standard assumption of statistical process monitoring (SPM) under consideration, the in-control region of the control parameter of quality characteristic consists of a single point. However, if small deviations from the ideal situation may not be of practical importance, the parametric space can consist of three regions: In-control, indifference, and out-of-control. In this paper, we propose two exponentially weighted moving average (EWMA) charting procedures applicable to the situation with three parameter regions, and compare the efficiency of the proposed procedures with the Shewhart chart and the cumulative sum (CUSUM) chart.

KCI등재

저자 : 장우솔 ( Woosol Jang ) , 김예은 ( Ye Eun Kim ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 739-754 (16 pages)

다운로드

(기관인증 필요)

초록보기

텍스트 데이터는 일반적으로 많은 변수를 포함하고 있으며 변수들 사이의 연관성도 높아 통계 분석의 정확성, 효율성 등에서 문제가 생길 수 있다. 이러한 문제점에 대처하기 위해 목표 변수가 주어진 지도 학습에서는 목표 변수를 잘 설명할 수 있는 단어들을 선택하여 이 단어들만 통계 분석에 이용하기도 한다. 반면, 비지도 학습에서는 목표 변수가 주어지지 않으므로 지도 학습에서와 같은 단어 선택 절차를 활용하기 어렵다. 이 연구에서는 토픽 모형을 이용하여 지도 학습에서의 목표 변수를 대신할 수 있는 토픽을 생성하고 각 토픽별로 연관성이 높은 단어들을 선택하는 단어 선택 절차를 제안한다. 제안된 절차를 실제 텍스트 데이터에 적용한 결과, 단어 선택 절차를 이용하면 많은 토픽에서 공통적으로 자주 등장하는 단어들을 제거함으로써 토픽을 더 명확하게 식별할 수 있었다. 또한, 군집 분석에 적용한 결과, 군집과 범주 사이에 높은 연관성을 가지는 군집 분석 결과를 얻을 수 있는 것으로 나타났다. 목표 변수에 대한 정보없이 토픽 모형을 이용하여 선택한 단어들을 분류 분석에 적용하였을 때 목표 변수를 이용하여 단어들을 선택한 경우와 비슷한 분류 정확성을 얻을 수 있음도 확인하였다.


Usually, text data consists of many variables, and some of them are closely correlated. Such multi-collinearity often results in inefficient or inaccurate statistical analysis. For supervised learning, one can select features by examining the relationship between target variables and explanatory variables. On the other hand, for unsupervised learning, since target variables are absent, one cannot use such a feature selection procedure as in supervised learning. In this study, we propose a word selection procedure that employs topic models to find latent topics. We substitute topics for the target variables and select terms which show high relevance for each topic. Applying the procedure to real data, we found that the proposed word selection procedure can give clear topic interpretation by removing high-frequency words prevalent in various topics. In addition, we observed that, by applying the selected variables to the classifiers such as naïve Bayes classifiers and support vector machines, the proposed feature selection procedure gives results comparable to those obtained by using class label information.

KCI등재

저자 : 정선아 ( Sunah Chung ) , 황선영 ( Sun Young Hwang ) , 이성덕 ( Sung Duck Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 755-764 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 금융 시계열 변동성 추정을 위한 준-모수(quasi-likelihood) 방법을 다루고 있다. 모형식에서 오차항의 분포를 미 지 (unknown)로 하여 준-우도 함수를 통한 모수 추정을 하는 경우 이노베이션의 지정을 멱변환을 통해 구성하였다. 고정된 멱변환에 대한 프로파일-정보 행렬을 비교하여 최대값을 제공하는 멱변환을 제안하였다. 이차원 이노베이션으로의 확장을 다루었으며 코로나 펜데믹 기간의 높은 변동성을 보이는 국내 9개 주가 자료 분석을 통해 방법론을 예시하고 있다.


This paper is concerned with power transformations in estimating GARCH volatility. To handle a semiparametric case for which the exact likelihood is not known, quasi-likelihood (QL) rather than maximumlikelihood method is investigated to best estimate GARCH via maximizing the information criteria. A power transformation is introduced in the innovation generating QL estimating functions and then optimum power is selected by maximizing the profile information. A combination of two different power transformations is also studied in order to increase the parameter estimation efficiency. Nine domestic stock prices data are analyzed to order to illustrate the main idea of the paper. The data span includes Covid-19 pandemic period in which financial time series are really volatile.

1
권호별 보기
같은 권호 수록 논문
| | | | 다운로드

KCI등재

저자 : 손주희 ( Juhee Son ) , 박민정 ( Min-jeong Park ) , 정성규 ( Sungkyu Jung )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 1호 발행 연도 : 2022 페이지 : pp. 1-17 (17 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 모수적 부트스트랩을 이용한 두 차등정보보호 히스토그램의 동질성 검정을 제안한다. 제안된 검정 방법은 차등정보보호 히스토그램과 적용된 차등정보보호 수준 정보만 있을 때에도 사용 가능하며, 비교하고자 하는 두 히스토그램에 적용된 차등정보보호의 수준이 다를 때에도 사용할 수 있다는 장점이 있다. 검정 방법의 성능을 평가하기 위해 미국과 한국의 연령별 인구분포 자료를 사용하고, 제 1종 오류의 확률이 잘 통제됨과 높은 검정력을 확인한다.

KCI등재

저자 : 김소진 ( Sojin Kim ) , 송종우 ( Jongwoo Song )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 1호 발행 연도 : 2022 페이지 : pp. 19-33 (15 pages)

다운로드

(기관인증 필요)

초록보기

SNS의 등장으로 인터넷 이용자들이 온라인에 남기는 텍스트의 양이 방대해지고 그 중요성이 강조되고있다. 특히 네이버의 영화 탭에서 볼 수 있는 영화 평점이나 리뷰는 실제로 관객들이 영화를 보기 전 해당 영화를 볼 것인지 결정하는 데 주요 요인이 되기도 한다. 본 연구는 실제 네이버 영화 리뷰 데이터를 가지고 평점을 예측하는 분석을 수행했다. 영화 리뷰 데이터를 분석하기 위해 평점의 분포를 통해 데이터 특성을 살펴보았고, 텍스트의 의미를 분석하기 위해 형태소 분석을 통한 한국어 자연어처리를 수행했다. 또한 평점 예측에 활용할 모델 선택을 위해 2-Class와 multi-Class 문제들에 대해 머신러닝과 딥러닝, 회귀와 분류 분석을 비교했으며, 오분류의 원인을 영화 리뷰 데이터 특성과 연관시켜 서술했다.

KCI등재

저자 : 김양진 ( Yang-jin Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 1호 발행 연도 : 2022 페이지 : pp. 35-47 (13 pages)

다운로드

(기관인증 필요)

초록보기

Receiver operating characteristic (ROC) 곡선은 이항 반응 자료에 대한 마커의 분류 예측력을 측정하기 위해 널리 적용되어왔으며 최근에는 생존 분석에서도 매우 중요한 역할을 하고 있다. 여러 가지 유형의 중도 절단과 원인 불명 등 다양한 종류의 결측 자료를 포함한 생존 자료 분석에서 마커의 사건 발생 여부에 대한 예측력을 판단하기 위해 기존의 통계량을 확장하였다. 생존 분석 자료는 각 시점에서의 사건 발생 여부로 이해할 수 있으며, 따라서 시점마다 ROC 곡선과 AUC를 구할 수 있다. 본 논문에서는 우중도 절단과 경쟁 위험 모형하에서 사용되는 다양한 방법론과 관련 R 패키지를 소개하고 각 방법의 특성을 설명하고 비교하였으며 이를 검토하기 위해 간단한 모의실험을 시행하였다. 또한, 프랑스에서 수집된 치매 자료의 마커 분석을 시행하였다.

KCI등재

저자 : 박민수 ( Minsu Park ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 1호 발행 연도 : 2022 페이지 : pp. 49-62 (14 pages)

다운로드

(기관인증 필요)

초록보기

실현 변동성은 강한 종속성을 가짐이 잘 알려져 있으며, 글로벌 금융 시장과 유기적으로 연관이 되어 있을 뿐만 아니라 환율, 유가, 이자율 등의 거시적인 지표와도 밀접한 관계가 있다. 본 논문은 이러한 실현 변동성의 효과적인 예측을 위해서 오토인코더를 이용한 FAHAR (autoencoder factor-augmented heterogeneous autoregressive, AE-FAHAR) 모형을 제안한다. AE-FAHAR 모형은 강한 종속성을 HAR 구조로 반영하고, 외부효과에 대한 영향을 오토인코더를 사용하여 몇 개의 요인으로 추출하여 이를 반영한다. 오토인코더는 비선형 방법으로 요인을 추정하기에 많은 계산 시간이 필요하지만 복잡하고 비정상성을 가질 수 있는 고차원 시계열 자료의 요약에 더 적합하다. 이는 곧 실증 자료 분석을 통해 AE-FAHAR 모형이 예측 오차를 줄임을 확인할 수 있었다. 또한 계산 시간을 줄이고 추정 오차를 줄이기 위해 오토인코더에 사전학습 및 앙상블을 적용하는 등의 방법에 대해서도 논의하였다.

KCI등재

저자 : 김문정 ( Moonjung Kim ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 1호 발행 연도 : 2022 페이지 : pp. 63-75 (13 pages)

다운로드

(기관인증 필요)

초록보기

본 논문은 Wang과 Samworth (2018)가 제안한 성근 프로젝션 방법을 개선하여 MOSUM을 이용하여 고차원의 시계열데이터에 존재하는 다중 평균 변화점을 추정하는 방법에 대해서 제안한다. 제안한 방법은 국소방법으로 다중 변화점을 동시에 찾을 수 있어 순차적 오류를 최소화 할 뿐만 아니라 평균이 상쇄되는 경우에도 변화점을 추정하는 장점을 지니고 있다. 또한 데이터 의존적인 방법으로 블록 와일드 붓스트랩 방법을 활용하여 임계점을 찾는 방법을 제안한다. 모의 실험을 통해 제안한 방법이 좋은 성능을 보임을 확인하였으며 S&P 500 지수를 구성하는 개별 기업들의 금융 자료에 적용하여 최근 6년간 네 번의 변화점을 찾았다.

KCI등재

저자 : 홍종선 ( Chong Sun Hong ) , 오세현 ( Se Hyeon Oh ) , 최예원 ( Ye Won Choi )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 1호 발행 연도 : 2022 페이지 : pp. 77-91 (15 pages)

다운로드

(기관인증 필요)

초록보기

의학통계와 신용평가 분야에서 혼합분포함수를 판별하는 최적분류점 추정하기 위하여 판별력을 측정하는 다양한 정확도 측도들이 존재한다. 최근에 혼동행렬 빈도수로 표현되는 Matthews의 상관계수와 정밀도와 재현율의 조화평균인 F1 통계량의 정확도 측도들이 최적분류점을 추정하는데 연구되었다. 본 연구에서는 이런 정확도 측도들 중에서 표본크기에 의존하는 정확도 측도들은 두 표본크기 차이가 많은 경우에 최적분류점을 설정하는데 적절하지 않음을 발견한다. 그리고 대안적인 정확도 측도로 혼동행렬의 비율들의 함수인 상관계수를 정의하고, 이를 최대화하는 분류점을 최적분류점으로 추정하는 방법을 제안하고 이 방법의 유용성과 활용성에 대하여 토론한다.

KCI등재

저자 : 신지원 ( Jiwon Shin ) , 신동완 ( Dong Wan Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 1호 발행 연도 : 2022 페이지 : pp. 93-104 (12 pages)

다운로드

(기관인증 필요)

초록보기

S&P 500과 RUSSELL 2000, DJIA, Nasdaq 100 4가지 미국 주가지수의 실현변동성(realized volatility, RV)을 예측하는데 있어서 사람들의 관심 지표로 삼을 수 있는 인터넷 검색량(search volume, SV) 지수와 내재변동성(implied volatility, IV)를 이용하여 LSTM 딥러닝(deep learning) 방법으로 RV의 예측력을 높이고자하였다. SV을 이용한 LSTM 방법의 실현변동성 예측력이 기존의 기본적인 vector autoregressive (VAR) 모형, vector error correction (VEC)보다 우수하였다. 또한, 최근 제안된 RV와 IV의 공적분 관계를 이용한 vector error correction heterogeneous autoregressive (VECHAR) 모형보다도 전반적으로 예측력이 더 높음을 확인하였다.

KCI등재

저자 : 최숙희 ( Sookhee Choi ) , 한경수 ( Kyungsoo Han )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 1호 발행 연도 : 2022 페이지 : pp. 105-117 (13 pages)

다운로드

(기관인증 필요)

초록보기

최근 전국 대학에서 교양 통계학을 배우는 학생이 크게 늘고 있다. 2022년 대학수능에서 수학영역의 선택과목으로 확률과 통계를 선택한 학생은 53.2\%를 차지했다. 통계를 한 학기만 배우고 졸업하는 통계 비전공 학생들은 미래에 데이터를 통계적으로 분석하는 생산자보다 소비자로 살아갈 가능성이 높다. 통계 소비자가 배워야 할 것은 요리법처럼 각종의 통계 분석 기법이 아닌 통계적 문해력과 사고력이다. 이 논문은 통계적 사고력을 함양하는 교양 통계학 교재를 개발하기 위해 고려해야 할 사항들을 논의한다.

KCI등재

저자 : 김준철 ( Jun Cheol Kim ) , 권숙희 ( Sookhee Kwon ) , 장대흥 ( Dae-heung Jang ) , 이근우 ( Kun Woo Rhee ) , 김영석 ( Young-seog Kim ) , 하일도 ( Il Do Ha )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 1호 발행 연도 : 2022 페이지 : pp. 119-129 (11 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 최근 경주와 포항에서 심각한 피해를 주며 발생한 지진의 규모를 과거자료에 근거한 통계적 분석방법을 통해 예측하고자 한다. 이를 위해, 조선시대 역사지진 자료중에서 연단위 밀집도가 상대적으로 높은 1392~1771년의 5년 블록 최대 규모 자료를 이용하였다. 이 자료를 기반으로 일반화 극단값(generalized extreme value) 확률분포에 기초한 극단값 이론을 이용하여 조선시대 재현기간별 지진 규모 예측 및 분석을 제시하고자 한다. 일반화 극단값 분포의 모수추정을 위해 최대가능도추정법(maximum likelihood estimation, MLE)과 L-적률추정법(L-moments estimation, LME)을 사용한다. 특히 본 논문에서는 일반화 극단값 분포가 이러한 역사지진 자료에 대한 적절한 분석 모형이 될 수 있음을 적합도 검정(goodness-of-fit test)을 통해 보인다.

KCI등재

저자 : 이은희 ( Eun Hee Rhee ) , 황범석 ( Beom Seuk Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 1호 발행 연도 : 2022 페이지 : pp. 131-146 (16 pages)

다운로드

(기관인증 필요)

초록보기

로지스틱 회귀 모형은 다양한 분야에서 범주형 종속 변수를 예측하거나 분류하기 위한 모형으로 많이 사용되고 있다. 로지스틱 회귀 모형에 대한 전통적인 베이지안 추론 기법으로 메트로폴리스-헤이스팅스 알고리즘이 많이 사용되었지만, 수렴의 속도가 느리고 제안 분포에 대한 적절성을 보장하기 어렵다. 따라서, 본 논문에서는 모형에 대한 베이지안 추론 방법으로 Frühwirth-Schnatter와 Frühwirth (2007)에서 제안된 보조 혼합 샘플링(auxiliary mixture sampling) 기법을 사용하였다. 이 방법은 모형의 선형성과 정규성을 만족시키기 위해 두 단계에 거쳐 잠재변수를 도입하며, 결과적으로 깁스 샘플링을 통한 추론을 가능하게 한다. 제안한 모형의 효과를 검증하기 위해 2020년 지역사회 건강조사 당뇨병 자료에 적용하여 메트로폴리스-헤이스팅스를 사용한 모형과 추론 결과를 비교 분석하였다. 또한, 다양한 분류 모형들과 본 논문에서 제안한 모형의 분류 성능을 비교한 결과 제안된 모형이 분류 분석에서도 좋은 성능을 보이는 것을 확인할 수 있었다.

12

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기