논문 상세보기

한국통계학회> 응용통계연구> 확률적 reduced K-means 군집분석

KCI등재

확률적 reduced K-means 군집분석

Probabilistic reduced K-means cluster analysis

이승훈 ( Seunghoon Lee ) , 송주원 ( Juwon Song )
  • : 한국통계학회
  • : 응용통계연구 34권6호
  • : 연속간행물
  • : 2021년 12월
  • : 905-922(18pages)
응용통계연구

DOI


목차

1. 서론
2. Reduced K-means 군집분석
3. 확률적 reduced K-means 군집분석
4. 모의실험
5. 보스턴 자료분석
6. 결론
Appendix: 확률적 reduced K-means의 EM 알고리듬 유도
References

키워드 보기


초록 보기

라벨 없이 진행되는 비지도 학습 중 하나인 군집분석은 자료에 어떤 그룹이 내포되어 있는지 사전 지식이 없을 경우에 군집을 발굴하고, 군집 간의 특성 차이와 군집 안에서의 유사성을 분석하고자 할 때 유용한 방법이다. 기본적인 군집분석 중 하나인 K-means 방법은 변수의 개수가 많아질 때 잘 동작하지 않을 수 있으며, 군집에 대한 해석도 쉽지 않은 문제가 있다. 따라서 고차원 자료의 경우 주성분 분석과 같은 차원 축소 방법을 사용하여 변수의 개수를 줄인 후에 K-means 군집분석을 행하는 Tandem 군집분석이 제안되었다. 하지만 차원 축소 방법을 이용해서 찾아낸 축소 차원이 반드시 군집에 대한 구조를 잘 반영할 것이라는 보장은 없다. 특히 군집의 구조와는 상관없는 변수들의 분산 또는 공분산이 클 때, 주성분 분석을 통한 차원 축소는 오히려 군집의 구조를 가릴 수 있다. 이에 따라 군집분석과 차원 축소를 동시에 진행하는 방법들이 제안되어 왔다. 그 중에서도 본 연구에서는 De Soete와 Carroll (1994)이 제안한 방법론을 확률적인 모형으로 바꿔 군집분석을 진행하는 확률적 reduced K-means를 제안한다. 모의실험 결과 차원 축소를 배제한 군집분석과 Tandem 군집분석보다 더 좋은 군집을 형성함을 알 수 있었고 군집 당 표본 크기에 비해 변수의 개수가 많은 자료에서 기존의 비 확률적 reduced K-means 군집분석에 비해 우수한 성능을 확인했다. 보스턴 자료에서는 다른 군집분석 방법론보다 명확한 군집이 형성됨을 확인했다.
Cluster analysis is one of unsupervised learning techniques used for discovering clusters when there is no prior knowledge of group membership. K-means, one of the commonly used cluster analysis techniques, may fail when the number of variables becomes large. In such high-dimensional cases, it is common to perform tandem analysis, K-means cluster analysis after reducing the number of variables using dimension reduction methods. However, there is no guarantee that the reduced dimension reveals the cluster structure properly. Principal component analysis may mask the structure of clusters, especially when there are large variances for variables that are not related to cluster structure. To overcome this, techniques that perform dimension reduction and cluster analysis simultaneously have been suggested. This study proposes probabilistic reduced K-means, the transition of reduced K-means (De Soete and Caroll, 1994) into a probabilistic framework. Simulation shows that the proposed method performs better than tandem clustering or clustering without any dimension reduction. When the number of the variables is larger than the number of samples in each cluster, probabilistic reduced K-means show better formation of clusters than non-probabilistic reduced K-means. In the application to a real data set, it revealed similar or better cluster structure compared to other methods.

UCI(KEPA)

I410-ECN-0102-2022-300-000968160

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2022
  • : 2010


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

35권2호(2022년 04월) 수록논문
최근 권호 논문
| | | |

KCI등재

1불균형의 대용량 범주행 자료에 대한 분할-과대추출 정복 서포트 벡터 버신

저자 : 방성완 ( Sungwan Bang ) , 김재오 ( Jaeoh Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 177-188 (12 pages)

다운로드

(기관인증 필요)

초록보기

일반적으로 support vector machine (SVM)은 높은 수준의 분류 정확도를 제공함으로써 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용이 필요하므로 대용량 자료의 분류분석에는 그 사용이 제한된다. 또한 불균형 자료(imbalanced data)의 분류분석에서는 다수집단에 편향된 분류함수를 추정함으로써 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소시키게 된다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 다수집단을 분할(divide)하고, 소수집단을 과대추출(oversampling)하여 여러 분류함수들을 추정하고 이들을 통합(conquer)하는 DOC-SVM 분류기법을 제안한다. 제안한 DOC-SVM은 분할정복 알고리즘을 다수집단에 적용하여 SVM의 계산 효율을 향상시키고, 과대추출 알고리즘을 소수집단에 적용하여 SVM 분류함수의 편향을 줄이게 된다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DOC-SVM의 효율적인 성능과 활용 가능성을 확인하였다.


The support vector machine (SVM) has been successfully applied to various classification areas with a high level of classification accuracy. However, it is infeasible to use the SVM in analyzing massive data because of its significant computational problems. When analyzing imbalanced data with different class sizes, furthermore, the classification accuracy of SVM in minority class may drop significantly because its classifier could be biased toward the majority class. To overcome such a problem, we propose the DOC-SVM method, which uses divideoversampling and conquers techniques. The proposed DOC-SVM divides the majority class into a few subsets and applies an oversampling technique to the minority class in order to produce the balanced subsets. And then the DOC-SVM obtains the final classifier by aggregating all SVM classifiers obtained from the balanced subsets. Simulation studies are presented to demonstrate the satisfactory performance of the proposed method.

KCI등재

2암호화폐 수익률 예측력 향상을 위한 요인 강화

저자 : 염예빈 ( Yebin Yeom ) , 한유진 ( Yoojin Han ) , 이재현 ( Jaehyun Lee ) , 박세령 ( Seryeong Park ) , 이정우 ( Jungwoo Lee ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 189-201 (13 pages)

다운로드

(기관인증 필요)

초록보기

본 연구는 외부 요인을 모형에 강화시켜 암호화폐 수익률 예측력을 향상시키는 방법에 대해서 다루고 있다. 고려한 요인으로는 크게 나누어 금융 경제적 요인 및 심리적 요인을 고려하였다. 먼저 금융 경제적 요인을 반용하기 위해서 주성분 요인을 사용하여 수 많은 변수를 차원축소를 통해서 모형에 반영하였다. 또한 심리적 요인을 위해서는 뉴스 기사 데이터를 활용하여 산출해낸 감성지수를 활용하였다. 이러한 요인들은 충격반응함수 분석을 통해서 요인들의 의미와 영향력을 시각화하였다. 또한 전통적인 ARIMAX 뿐 만 아니라 랜덤포레스트 및 딥러닝 모형을 활용하여 비선형성을 반영하였다. 그 결과 요인 강화가 암호화폐 수익률 예측력을 향상시킴을 실증분석을 통해 밝혔으며 그 중에서 딥러닝 모형인 GRU가 가장 좋은 예측 성능을 보임을 관찰하였다.


In this study, we propose factor augmentation to improve forecasting power of cryptocurrency return. We consider financial and economic variables as well as psychological aspect for possible factors. To be more specific, financial and economic factors are obtained by applying principal factor analysis. Psychological factor is summarized by news sentiment analysis. We also visualize such factors through impulse response analysis. In the modeling perspective, we consider ARIMAX as the classical model, and random forest and deep learning to accommodate nonlinear features. As a result, we show that factor augmentation reduces prediction error and the GRU performed the best amongst all models considered.

KCI등재

3개별 관측치에 대한 관리도 비교

저자 : 이성임 ( Sungim Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 203-215 (13 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 연속적으로 관측되는 개별 관측치에 대하여, 모평균의 변화를 모니터링하는 데 적용 가능한 관리도에 대하여 고찰해 보고자 한다. 가장 대표적인 관리도로 슈하르트의 $X$ 관리도, 지수가중이동평균 관리도와 이들의 결합관리도에 관하여 살펴보고 모의실험을 통하여 각 관리도의 성능을 비교 평가해 보고자 한다. 또한, 실제 자료분석을 통해 실질적인 문제에서 관리도를 어떻게 사용해야 하는지 알아보고, 각 관리도의 문제점에 대하여 살펴보기로 한다.


In this paper, we consider the control charts applicable to monitoring the change of the population mean for sequentially observed individual data. The most representative control charts are Shewhart's individual control chart, the exponential weighted moving average (EWMA) control chart, and their combined control chart. We compare their performance based on a simulation study, and also, through real data analysis, we present how to apply control charts in practical application and investigate the problems of each control chart.

KCI등재

4베이즈 정보 기준을 활용한 분할-정복 벌점화 분위수 회귀

저자 : 강종경 ( Jongkyeong Kang ) , 한석원 ( Seokwon Han ) , 방성완 ( Sungwan Bang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 217-227 (11 pages)

다운로드

(기관인증 필요)

초록보기

분위수 회귀 모형은 변수에 숨겨진 복잡한 정보를 살펴보기 위한 효율적인 도구를 제공하는 장점을 바탕으로 많은 분야에서 널리 사용되고 있다. 그러나 현대의 대용량-고차원 데이터는 계산 시간 및 저장공간의 제한으로 인해 분위수 회귀 모형의 추정을 매우 어렵게 만든다. 분할-정복은 전체 데이터를 계산이 용이한 여러개의 부분집합으로 나눈 다음 각 분할에서의 요약 통계량만을 이용하여 전체 데이터의 추정량을 재구성하는 기법이다. 본 연구에서는 분할-정복 기법을 벌점화 분위수 회귀에 적용하고 베이즈 정보기준을 활용하여 변수를 선택하는 방법에 관하여 연구하였다. 제안 방법은 분할 수를 적절하게 선택하였을 때, 전체 데이터로 계산한 일반적인 분위수 회귀 추정량만큼 변수 선택의 측면에서 일관된 결과를 제공하면서 계산 속도의 측면에서 효율적이다. 이러한 제안된 방법의 장점은 시뮬레이션 데이터 및 실제 데이터 분석을 통해 확인하였다.


Quantile regression is widely used in many fields based on the advantage of providing an efficient tool for examining complex information latent in variables. However, modern large-scale and high-dimensional data makes it very difficult to estimate the quantile regression model due to limitations in terms of computation time and storage space. Divide-and-conquer is a technique that divide the entire data into several sub-datasets that are easy to calculate and then reconstruct the estimates of the entire data using only the summary statistics in each sub-datasets. In this paper, we studied on a variable selection method using Bayes information criteria by applying the divide-and-conquer technique to the penalized quantile regression. When the number of sub-datasets is properly selected, the proposed method is efficient in terms of computational speed, providing consistent results in terms of variable selection as long as classical quantile regression estimates calculated with the entire data. The advantages of the proposed method were confirmed through simulation data and real data analysis.

KCI등재

5Dantzig 위험을 사용한 포트폴리오 최적화 선형계획법 모형

저자 : 안다영 ( Dayoung Ahn ) , 박세영 ( Seyoung Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 229-250 (22 pages)

다운로드

(기관인증 필요)

초록보기

포트폴리오 최적화 이론의 초석인 Markowitz의 평균-분산 포트폴리오 모형 (1952)이 발표된 이후로 많은 분야에서 포트폴리오 최적화에 대한 다양한 연구가 진행되었다. 기존의 평균-분산 포트폴리오 모형은 주로 목적함수나 제약식에 비선형 볼록 형태를 포함한다. 이를 Dantzig의 선형계획법을 적용하여 선형으로 변환시켜 알고리즘 계산 시간을 효율적으로 감소시켰다. 또한 시계열 데이터 특성을 반영하여 시간에 따른 가중치를 고려하는 가우시안 커널 가중치 공분산을 제안하였다. 여기에 일정 부분은 벤치마크에 투자하고 나머지는 포트폴리오 최적화 모형으로 제안된 자산들에 투자하는 퍼터베이션 방법을 적용하여 평균 수익률과 위험도를 목적에 맞게 조절하도록 하였다. 또한, 본 논문에서는 안정적이면서도 적은 자산을 보유하게 포트폴리오를 구성하여 관리비용(management costs)과 거래비용(transaction costs)를 낮출 수 있는 Dantzig-type 퍼터베이션 포트폴리오 모형을 제안하였다. 제안된 모형의 성능은 5개의 실제 데이터 세트로 벤치마크 포트폴리오와 비교 분석하여 평가하였다. 최종적으로 제안한 최적화 모형은 벤치마크보다 높은 기대수익률이나 낮은 위험도를 갖는 포트폴리오를 구성하여 퍼터베이션 목적을 만족하며, 투자한 자산의 수와 시간에 따른 자산 구성 변화를 일정 수준 이하로 조절하는 희소하며 안정적인 결과를 얻었다.


Since the publication of Markowitz's (1952) mean-variance portfolio model, research on portfolio optimization has been conducted in many fields. The existing mean-variance portfolio model forms a nonlinear convex problem. Applying Dantzig's linear programming method, it was converted to a linear form, which can effectively reduce the algorithm computation time. In this paper, we proposed a Dantzig perturbation portfolio model that can reduce management costs and transaction costs by constructing a portfolio with stable and small (sparse) assets. The average return and risk were adjusted according to the purpose by applying a perturbation method in which a certain part is invested in the existing benchmark and the rest is invested in the assets proposed as a portfolio optimization model. For a covariance estimation, we proposed a Gaussian kernel weight covariance that considers time-dependent weights by reflecting time-series data characteristics. The performance of the proposed model was evaluated by comparing it with the benchmark portfolio with 5 real data sets. Empirical results show that the proposed portfolios provide higher expected returns or lower risks than the benchmark. Further, sparse and stable asset selection was obtained in the proposed portfolios.

KCI등재

6제 1상 임상시험에서 다양한 멈춤 규칙을 이용한 최대허용용량 추정법

저자 : 전소영 ( Soyoung Jeon ) , 김동재 ( Dongjae Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 251-263 (13 pages)

다운로드

(기관인증 필요)

초록보기

제1상 임상시험은 `투약 용량 발견 시험(dose finding study)'라고도 불리는데 동물 실험 또는 시험관 실험을 통하여 개발된 신약 물질을 사람에게 시험하는 첫 단계이다. 제 1상 임상시험의 목적 중 하나는 환자에게 허용할 수 있으면서 최대의 효능을 가진 복용량인 최대허용용량(maximum tolerated dose, MTD)을 결정하는 것이다. 본 논문에서는 다양한 멈춤 규칙을 이용한 MTD 추정법들을 소개한다. 또한 모의실험을 통해 SM3, NM, Rim, J3, BSM 방법을 비교하고 효율적인 MTD 추정법에 대해 고찰한다. 모의실험 결과 BSM방법이 목표독성확률에 가장 가깝게 MTD를 추정하는 것으로 나타났다. 또한 J3방법의 피험자 수가 가장 적었다. 이러한 결과는 두 방법의 멈춤 규칙의 특성 때문이라고 판단되는데 BSM방법은 독성 반응이 있을 때 같은 용량에 피험자를 2명 또는 1명을 추가한다. 또한 J3방법은 동일한 용량에 할당되는 최대 피험자 수가 다른 방법에 비해 적다. 이러한 특성들을 결합하여 추정법을 개선한다면 더 효율적으로 MTD를 추정할 수 있을 것이다. 특히 BSM방법의 멈춤 규칙을 이용하면서 총 피험자 수를 줄일 수 있다면 적은 수의 피험자로 정확한 추정이 가능할 것이다.


Phase I clinical trial is called `Dose finding study'. It is first step of experimenting on humans with new drugs developed through animal experiments or vitro experiments. The important area of interest in designing Phase I clinical trial is determining the dose that acceptable level to the patients and provides the greatest efficacy. In this paper, we explain about methods to determine the maximum tolerated dose using various stopping rules. The SM3, NM, Rim, J3, BSM methods are compared through simulation. And we consider how the methods might be reformed. As a result of the simulation, BSM estimated the MTD closest to the target toxicity probability. J3 method required the least number of subjects. These results are due to the feature of the stopping rules of both methods. The BSM adds 2 or 1 subject at the same dose level when there is a toxic reaction. In addition, the J3 method has a smaller number of subjects than the other methods. If the methods are improved by combining these features, MTD can be estimated more efficiently. If the total number of subjects can be reduced while using the stopping rule of the BSM, accurate estimation is possible for a small number of subjects.

KCI등재

7영화 데이터를 위한 쌍별 규합 접근방식의 군집화 기법

저자 : 김희진 ( Hui Jin Kim ) , 박세영 ( Seyoung Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 265-283 (19 pages)

다운로드

(기관인증 필요)

초록보기

사용자들의 영화정보를 기록한 MovieLens 데이터는 추천 시스템 연구에서 아이디어를 탐색하고 검증하는데 상당한 가치가 있는 데이터로, 기존 데이터 분할 및 군집화 알고리즘을 사용하여 사용자 평점 데이터를 기반으로 항목 집합을 분할하는 연구 등에 사용되는 데이터이다. 본 논문에서는 기존 연구에서 대표적으로 사용되었던 영화 평점 데이터와 영화 장르 데이터를 통해 사용자의 장르 선호도를 예측하여 선호도 패턴을 기반으로 사용자를 군집화(clustering)하고, 유의미한 정보를 얻는 연구를 진행하였다. MovieLens 데이터는 영화의 전체 개수에 비해 사용자별 평균 영화 평점 수가 낮아 결측 비율이 높다. 이러한 이유로 기존의 군집화 방법을 적용하는 데 한계가 존재한다. 본 논문에서는 MovieLens 데이터 특성에 모티브를 얻어 쌍별 규합 벌점함수(pairwise fused penalty)를 활용한 볼록 군집화(convex clustering) 기반의 방법을 제안한다. 특히 결측치 대체(missing imputation)도 동시에 해결하는 최적화 문제를 통해 기존의 군집화 분석과 차별화하였다. 군집화는 반복 알고리즘인 ADMM을 통해 제안하는 최적화 문제를 풀어 진행한다. 또한 시뮬레이션과 MovieLens 데이터 적용을 통해 제안하는 군집화 방법이 기존의 방법보다 노이즈 및 이상치에 상대적으로 민감하지 않은 것으로 보인다.


MovieLens data consists of recorded movie evaluations that was often used to measure the evaluation score in the recommendation system research field. In this paper, we provide additional information obtained by clustering user-specific genre preference information through movie evaluation data and movie genre data. Because the number of movie ratings per user is very low compared to the total number of movies, the missing rate in this data is very high. For this reason, there are limitations in applying the existing clustering methods. In this paper, we propose a convex clustering-based method using the pairwise fused penalty motivated by the analysis of MovieLens data. In particular, the proposed clustering method execute missing imputation, and at the same time uses movie evaluation and genre weights for each movie to cluster genre preference information possessed by each individual. We compute the proposed optimization using alternating direction method of multipliers algorithm. It is shown that the proposed clustering method is less sensitive to noise and outliers than the existing method through simulation and MovieLens data application.

KCI등재

8희박 공분산 행렬에 대한 베이지안 변수 선택 방법론 비교 연구

저자 : 김봉수 ( Bongsu Kim ) , 이경재 ( Kyoungjae Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 285-298 (14 pages)

다운로드

(기관인증 필요)

초록보기

연속 수축 사전분포는 spike and slab 사전분포와 더불어, 희박 회귀계수 벡터 또는 공분산 행렬에 대한 베이지안 추론을 위해 널리 사용되고 있다. 특히 고차원 상황에서, 연속 수축 사전분포는 spike and slab 사전분포에 비해 매우 작은 모수공간을 가짐으로써 계산적인 이점을 가진다. 하지만 연속 수축 사전분포는 정확히 0인 값을 생성하지 않기 때문에, 이를 이용한 변수 선택이 자연스럽지 않다는 문제가 있다. 비록 연속 수축 사전분포에 기반한 변수 선택 방법들이 개발되어 있기는 하지만, 이들에 대한 포괄적인 비교연구는 거의 진행되어 있지 않다. 본 논문에서는, 연속 수축 사전분포에 기반한 두 가지의 변수 선택 방법들을 비교하려 한다. 첫 번째 방법은 신용구간에 기반한 변수 선택, 두 번째 방법은 최근 Li와 Pati (2017)가 개발한 sequential 2-means 알고리듬이다. 두 방법에 대한 간략한 소개를 한 뒤, 다양한 모의실험 상황에서 자료를 생성하여 두 방법들의 성능을 비교하였다. 끝으로, 모의실험으로부터 발견한 몇 가지 사실들을 기술하고, 이로부터 몇 가지 제안을 하며 논문을 마치려 한다.


Continuous shrinkage priors, as well as spike and slab priors, have been widely employed for Bayesian inference about sparse regression coefficient vectors or covariance matrices. Continuous shrinkage priors provide computational advantages over spike and slab priors since their model space is substantially smaller. This is especially true in high-dimensional settings. However, variable selection based on continuous shrinkage priors is not straightforward because they do not give exactly zero values. Although few variable selection approaches based on continuous shrinkage priors have been proposed, no substantial comparative investigations of their performance have been conducted. In this paper, We compare two variable selection methods: a credible interval method and the sequential 2-means algorithm (Li and Pati, 2017). Various simulation scenarios are used to demonstrate the practical performances of the methods. We conclude the paper by presenting some observations and conjectures based on the simulation findings.

KCI등재

9분할된 네트워크에 기반한 사회 네트워크 모니터링 절차

저자 : 홍휘주 ( Hwiju Hong ) , 이주원 ( Joo Weon Lee ) , 이재헌 ( Jaeheon Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 299-310 (12 pages)

다운로드

(기관인증 필요)

초록보기

사회 네트워크 분석에 대한 관심이 높아짐에 따라 사회 네트워크에서 발생하는 변화를 탐지하는 연구에 대한 관심도 높아지고 있다. 사회 네트워크에서 발생하는 변화는 네트워크의 구조적 변화로 나타난다. 따라서 사회 네트워크에서 발생하는 변화를 탐지하는 것은 네트워크의 구조적 특성에 대한 변화를 탐지하는 것이다. 사회 네트워크에서 발생하는 지역적 변화는 가까운 이웃들 간에 발생하는 변화로 네트워크 일부에 집단적으로 나타난다. 이 논문의 목적은 네트워크에서 발생하는 지역적 변화를 효율적으로 탐지하는 절차를 제안하는 것이다. 제안하는 절차는 지역적 변화를 보다 효율적으로 탐지하기 위해 네트워크를 분할하고 각각의 분할된 네트워크에 기반한 관리도를 작성하여 네트워크에서 발생한 변화를 탐지하는 것이다. 네트워크를 분할하여 변화를 탐지하는 절차는 네트워크에서 발생한 지역적 변화를 보다 신속하게 탐지할 수 있으며, 변화가 발생한 위치에 대한 정보를 제공한다는 장점이 있다. 모의실험 결과에 따르면 제안된 절차는 네트워크의 크기가 작고 변화의 크기가 작은 경우 효율적이며, 네트워크를 더 작은 크기로 분할하면 작은 변화를 더 효율적으로 탐지한다는 사실을 확인하였다.


As interest in social network analysis increases, researchers' interest in detecting changes in social networks is also increasing. Changes in social networks appear as structural changes in the network. Therefore, detecting a change in a social network is detecting a change in the structural characteristics of the network. A local change in a social network is a change that occurs in a part of the network. It usually occurs between close neighbors. The purpose of this paper is to propose a procedure to efficiently detect local changes occurring in the network. In this paper, we divide the network into partitioned networks and monitor each partitioned network to detect local changes more efficiently. By monitoring partitioned networks, we can detect local changes more quickly and obtain information about where the changes are occurring. Simulation studies show that the proposed method is efficient when the network size is small and the amount of change is small. In addition, under a fixed overall false alarm rate, when we partition the network into smaller sizes and monitor smaller partitioned networks, it detects local changes better.

KCI등재

10폴랴-감마 잠재변수에 기반한 베이지안 영과잉 음이항 회귀모형: 약학 자료에의 응용

저자 : 서기태 ( Gi Tae Seo ) , 황범석 ( Beom Seuk Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 311-325 (15 pages)

다운로드

(기관인증 필요)

초록보기

0의 값을 과도하게 포함하는 가산자료는 다양한 연구 분야에서 흔히 나타난다. 영과잉 모형은 영과잉 가산자료를 분석하기 위해 가장 일반적으로 사용되는 모형이다. 영과잉 모형에 대한 전통적인 베이지안 추론은 조건부 사후분포의 형태가 폐쇄형 분포로 나타나지 않아 모형 적합 과정이 용이하지 않다는 한계점이 존재했다. 그러나 최근 Pillow와 Scott (2012)과 Polson 등 (2013)이 제안한 폴랴-감마 자료확대전략으로 인해, 로지스틱 회귀모형과 음이항 회귀모형에서 깁스 샘플링을 통한 추론이 가능해지면서, 영과잉 모형에 대한 베이지안 추론이 용이해졌다. 본 논문에서는 베이지안 추론에 기반한 영과잉 음이항 회귀모형을 Min과 Agresti (2005)에서 분석된 약학 연구 자료에 적용해본다. 분석에 사용된 자료는 경시적 영과잉 가산자료로 복잡한 자료 구조를 가지고 있다. 모형 적합 과정에서는 깁스 샘플링을 통한 추론을 수행하기 위해 폴랴-감마 자료확대전략을 사용한다.


For count responses, the situation of excess zeros often occurs in various research fields. Zero-inflated model is a common choice for modeling such count data. Bayesian inference for the zero-inflated model has long been recognized as a hard problem because the form of conditional posterior distribution is not in closed form. Recently, however, Pillow and Scott (2012) and Polson et al. (2013) proposed a Pólya-Gamma data-augmentation strategy for logistic and negative binomial models, facilitating Bayesian inference for the zero-inflated model. We apply Bayesian zero-inflated negative binomial regression model to longitudinal pharmaceutical data which have been previously analyzed by Min and Agresti (2005). To facilitate posterior sampling for longitudinal zeroinflated model, we use the Pólya-Gamma data-augmentation strategy.

12
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1순열검정을 이용한 FLSA의 사후추론

저자 : 최지은 ( Jieun Choi ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 863-874 (12 pages)

다운로드

(기관인증 필요)

초록보기

FLSA는 총변동벌점을 이용해 구간별상수인 평균 구조를 구현하는 벌점모형으로 다중변화점 탐색을 위해 활용되고 있다. 한편, FLSA는 변화점 탐색에 있어서 점근적 일치성이 만족되지 않으므로 잡음의 크기가 0에 가깝게 수렴하는 경우에도 다수의 거짓 변화점이 식별될 수 있다는 단점이 있다. 이 연구에서는 이러한 FLSA의 문제점을 해결하기 위한 사후추론 방법으로 순열검정 방법을 제안한다. 단일변화점 모형과 관련된 순열검정 방법은 Antoch와 Hušková (2001)에 의해 제안된 바 있다. 이 연구에서는 Antoch와 Hušková (2001)의 검정절차를 확장하여 다중변화점 식별에 사용되는 FLSA와 결합함으로써 다중변화점 모형에 적용할 수 있는 순열검정절차를 제안한다. 모의실험 결과, 제안된 방법은 z-검정과 CUSUM 통계량의 극한분포에 기반을 둔 검정방법에 비해 전반적으로 우수하였으며 거짓 변화점의 식별에 유용함을 확인할 수 있었다.

KCI등재

2성근 바인 코풀라 모형을 이용한 고차원 금융 자료의 VaR 추정

저자 : 안광준 ( Kwangjoon An ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 875-887 (13 pages)

다운로드

(기관인증 필요)

초록보기

최대예상손실액(VaR)은 위험관리수단으로 금융에서 시장위험을 측정하는 대표적인 값이다. 본 논문에서는 다양한 자산으로 이루어진 고차원 금융자료에서 자산들 간의 의존성 구조를 잘 설명할 수 있는 성근 바인 코풀라를 이용한 VaR 추정에 대해서 논의한다. 성근 바인 코풀라는 정규 바인 코풀라 모형에 벌점화를 적용한 방법으로 추정하는 모수의 개수를 벌점화를 통해 축소하는 방법이다. 모의 실험 결과 성근 바인 코풀라를 이용한 VaR 추정이 더 작은 표본 외 예측오차를 줌을 살펴볼수 있었다. 또한 최근 5년간의 코스피 60개 종목을 바탕으로 실시한 실증 자료 분석에서도 성근 바인 코풀라 모형이 더 좋은 예측 성능을 보임을 확인할 수 있었다.

KCI등재

3경험적 영향함수와 표본영향함수 간 차이 보정의 t통계량으로의 확장

저자 : 강현석 ( Hyunseok Kang ) , 김홍기 ( Honggie Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 889-904 (16 pages)

다운로드

(기관인증 필요)

초록보기

본 연구는 Kang과 Kim (2020)의 후속 연구이다. 본 연구에서는 기존 연구에서 직접 유도하지 않았던 통계량의 표본영향함수를 유도한다. 그리고 이 결과를 바탕으로 경험적 영향함수와 표본영향함수는 어떠한 관계를 가지고 있는지 이론적으로 살펴보고, 경험적 영향함수를 통해 표본영향함수를 근사시켜 추정하는 방안에 대해 생각해 본다. 또한, 임의추출한 300개의 데이터를 바탕으로 모의실험을 통해 유도한 함수와 그 관계에 대한 그 타당성도 검증한다. 모의실험 결과 t통계량으로부터 유도한 표본영향함수와 경험적 영향함수와의 관계 및 경험적 영향함수를 통한 표본영향함수의 근사 방안에 대한 타당성도 검증해 냈다. 본 연구는 경험적 영향함수를 이용한 표본영향함수의 근사에서 오차를 줄이기 위한 방안을 제안하고 그 타당성을 검증하였으며, 이를 통해 기존의 연구에서 경험적 영향함수로 표본영향함수를 바로 근사시켰던 연구 방법에 효과적인 근사 방안을 제안한 점에서 의의를 갖는다.

KCI등재

4확률적 reduced K-means 군집분석

저자 : 이승훈 ( Seunghoon Lee ) , 송주원 ( Juwon Song )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 905-922 (18 pages)

다운로드

(기관인증 필요)

초록보기

라벨 없이 진행되는 비지도 학습 중 하나인 군집분석은 자료에 어떤 그룹이 내포되어 있는지 사전 지식이 없을 경우에 군집을 발굴하고, 군집 간의 특성 차이와 군집 안에서의 유사성을 분석하고자 할 때 유용한 방법이다. 기본적인 군집분석 중 하나인 K-means 방법은 변수의 개수가 많아질 때 잘 동작하지 않을 수 있으며, 군집에 대한 해석도 쉽지 않은 문제가 있다. 따라서 고차원 자료의 경우 주성분 분석과 같은 차원 축소 방법을 사용하여 변수의 개수를 줄인 후에 K-means 군집분석을 행하는 Tandem 군집분석이 제안되었다. 하지만 차원 축소 방법을 이용해서 찾아낸 축소 차원이 반드시 군집에 대한 구조를 잘 반영할 것이라는 보장은 없다. 특히 군집의 구조와는 상관없는 변수들의 분산 또는 공분산이 클 때, 주성분 분석을 통한 차원 축소는 오히려 군집의 구조를 가릴 수 있다. 이에 따라 군집분석과 차원 축소를 동시에 진행하는 방법들이 제안되어 왔다. 그 중에서도 본 연구에서는 De Soete와 Carroll (1994)이 제안한 방법론을 확률적인 모형으로 바꿔 군집분석을 진행하는 확률적 reduced K-means를 제안한다. 모의실험 결과 차원 축소를 배제한 군집분석과 Tandem 군집분석보다 더 좋은 군집을 형성함을 알 수 있었고 군집 당 표본 크기에 비해 변수의 개수가 많은 자료에서 기존의 비 확률적 reduced K-means 군집분석에 비해 우수한 성능을 확인했다. 보스턴 자료에서는 다른 군집분석 방법론보다 명확한 군집이 형성됨을 확인했다.

KCI등재

5선형 응답률 모형에서 초모집단 모형의 비모수적 함수 추정을 이용한 무응답 편향 보정 추정

저자 : 심주용 ( Joo-yong Sim ) , 신기일 ( Key-il Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 923-936 (14 pages)

다운로드

(기관인증 필요)

초록보기

표본조사에서는 다수의 무응답이 발생하며 이를 적절히 처리하는 다양한 방법이 개발되었다. 특히 무응답이 관심변수에 영향을 받고 이로 인해 발생한 편향은 추정의 정확성을 크게 떨어뜨리며 무응답 처리를 어렵게 한다. 최근 Chung과 Shin (2017, 2020)은 알려진 모수적 초모집단 모형과 응답률 모형을 이용하여 추정의 정확성을 향상한 추정량을 제안하였다. 본 연구에서는 초모집단 모형의 형태를 일반화하여 비모수적 함수 형태를 설정한 후 이를 기반으로 얻어진 편향을 적절히 처리한 편향 보정 평균추정량을 제안하였다. 모의실험을 통해 본 연구에서 제안한 방법의 우수성을 확인하였다.

KCI등재

6부분선형모형에서 LARS를 이용한 변수선택

저자 : 서한손 ( Han Son Seo ) , 윤민 ( Min Yoon ) , 이학배 ( Hakbae Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 937-944 (8 pages)

다운로드

(기관인증 필요)

초록보기

본 연구는 부분선형모형에서 변수선택의 문제를 다룬다. 부분선형모형은 평활화모수 추정과 같은 비모수 추정과 선형설명변수에 대한 추정의 문제를 함께 포함하고 있어 변수선택이 쉽지 않다. 본 연구에서는 빠른 전진선택법인 LARS 를 이용한 변수선택법을 제시한다. 제안된 방법은 LARS에 의하여 선별된 변수들에 대하여 t-검정, 가능한 모든 회귀모형 비교 또는 단계별 선택법을 적용한다. 제안된 방법들의 효율성을 비교하기 위하여 실제데이터에 적용한 예제와 모의실험 결과가 제시된다.

KCI등재

7가중주성분분석을 활용한 정준대응분석과 가우시안 반응 모형에 의한 정준대응분석의 동일성 연구

저자 : 정형철 ( Hyeong Chul Jeong )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 945-956 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 가중주성분분석으로부터 정준대응분석을 유도하는 Legendre와 Legendre (2012)의 알고리즘을 고찰하였다. 그리고, 가중주성분분석에 기반한 Legendre와 Legendre (2012)의 정준대응분석이 가우시안 반응모형에 기초한 Ter Braak (1986)의 정준대응분석과 동일함을 다루었다. 생태학에서 종의 발현 정도를 잘 설명할 수 있는 가우시안 반응곡선에서 도출된 Ter Braak (1986)의 정준대응분석은 종 패킹 모형(species packing model)이라는 기본 가정을 사용한 후 일반화선형모형과 정준상관분석을 결합시키는 방법으로 도출된다. 그런데 Legendre와 Legendre (2012)의 알고리즘은 이러한 가정없이 Benzecri의 대응분석과 상당히 유사한 방법으로 계산되는 특징을 지닌다. 그러므로 가중주성분석에 기초한 정준대응분석을 사용하면, 결과물 활용에 약간의 유연성을 지닐 수 있게 된다. 결론적으로 본 연구에서는 서로 다른 모형에서 출발한 두 방법이 장소점수(site score), 종 점수(species score) 그리고 환경변수와의 상관관계가 서로 동일함을 보인다.

KCI등재

8중도절단 회귀모형에서 역절단확률가중 방법 간의 비교연구

저자 : 신정민 ( Jungmin Shin ) , 김형우 ( Hyungwoo Kim ) , 신승준 ( Seung Jun Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 957-968 (12 pages)

다운로드

(기관인증 필요)

초록보기

역중도절단확률가중(inverse censoring probability weighting, ICPW)은 생존분석에서 흔히 사용되는 방법이다. 중도절단 회귀모형과 같은 ICPW 방법의 응용에 있어서 중도절단 확률의 정확한 추정은 핵심적인 요소라고 할 수 있다. 본 논문에서는 중도절단 확률의 추정이 ICPW 기반 중도절단 회귀모형의 성능에 어떠한 영향을 주는지 모의실험을 통하여 알아보았다. 모의실험에서는 Kaplan-Meier 추정량, Cox 비례위험(proportional hazard) 모형 추정량, 그리고 국소 Kaplan-Meier 추정량 세 가지를 비교하였다. 국소 KM 추정량에 대해서는 차원의 저주를 피하기 위해 공변량의 차원축소 방법을 추가적으로 적용하였다. 차원축소 방법으로는 흔히 사용되는 주성분분석(principal component analysis, PCA)과 절단역회귀(sliced inverse regression) 방법을 고려하였다. 그 결과 Cox 비례위험 추정량이 평균 및 중위수 중도절단 회귀모형 모두에서 중도절단 확률을 추정하는 데 가장 좋은 성능을 보여주었다.

KCI등재

9AMI로부터 측정된 전력사용데이터에 대한 군집 분석

저자 : 안효정 ( Hyojung Ann ) , 임예지 ( Yaeji Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 969-977 (9 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 Hierarchical K-means 군집화 알고리즘을 이용해 서울의 A아파트 가구들의 전력 사용량 패턴을 군집화 하였다. 차원을 축소해주면서 패턴을 파악할 수 있는 Hierarchical K-means 군집화 알고리즘은 기존 K-means 군집화 알고리즘의 단점을 보완하여 최근 대용량 전력 사용량 데이터에 적용되고 있는 방법론이다. 본 연구에서는 여름 저녁 피크 시간대의 시간당 전력소비량 자료에 대해 군집화 알고리즘을 적용하였으며, 다양한 군집 개수와 level에 따라 얻어진 결과를 비교하였다. 결과를 통해 사용량에 따라 패턴이 군집화 됨을 확인하였으며, 군집화 유효성 지수들을 통해 이를 비교하였다.

KCI등재

10음향 장면 분류를 위한 경량화 모형 연구

저자 : 임소영 ( Soyoung Lim ) , 곽일엽 ( Il-youp Kwak )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 979-993 (15 pages)

다운로드

(기관인증 필요)

초록보기

음향 장면 분류는 오디오 파일이 녹음된 환경이 어디인지 분류하는 문제이다. 이는 음향 장면 분류와 관련한 대회인 DCASE 대회에서 꾸준하게 연구되었던 분야이다. 실제 응용 분야에 음향 장면 분류 문제를 적용할 때, 모델의 복잡도를 고려하여야 한다. 특히 경량 기기에 적용하기 위해서는 경량 딥러닝 모델이 필요하다. 우리는 경량 기술이 적용된 여러 모델을 비교하였다. 먼저 log mel-spectrogram, deltas, delta-deltas 피쳐를 사용한 합성곱 신경망(CNN) 기반의 기본 모델을 제안하였다. 그리고 원래의 합성곱 층을 depthwise separable convolution block, linear bottleneck inverted residual block과 같은 효율적인 합성곱 블록으로 대체하고, 각 모델에 대하여 Quantization를 적용하여 경량 모델을 제안하였다. 경량화 기술을 고려한 모델은 기본 모델에 대비하여 성능이 비슷하거나 조금 낮은 성능을 보였지만, 모델 사이즈는 503KB에서 42.76KB로 작아진 것을 확인하였다.

1
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기