논문 상세보기

한국통계학회> 응용통계연구> 불균형의 대용량 범주행 자료에 대한 분할-과대추출 정복 서포트 벡터 버신

KCI등재

불균형의 대용량 범주행 자료에 대한 분할-과대추출 정복 서포트 벡터 버신

A divide-oversampling and conquer algorithm based support vector machine for massive and highly imbalanced data

방성완 ( Sungwan Bang ) , 김재오 ( Jaeoh Kim )
  • : 한국통계학회
  • : 응용통계연구 35권2호
  • : 연속간행물
  • : 2022년 04월
  • : 177-188(12pages)
응용통계연구

DOI


목차

1. 서론
2. 불균형 자료의 분류분석을 위한 서포트 벡터 머신
3. 분할-과대출 서포트 벡터 머신
4. 모의실험
5. 실제 자료분석
6. 결론
Reference

키워드 보기


초록 보기

일반적으로 support vector machine (SVM)은 높은 수준의 분류 정확도를 제공함으로써 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용이 필요하므로 대용량 자료의 분류분석에는 그 사용이 제한된다. 또한 불균형 자료(imbalanced data)의 분류분석에서는 다수집단에 편향된 분류함수를 추정함으로써 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소시키게 된다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 다수집단을 분할(divide)하고, 소수집단을 과대추출(oversampling)하여 여러 분류함수들을 추정하고 이들을 통합(conquer)하는 DOC-SVM 분류기법을 제안한다. 제안한 DOC-SVM은 분할정복 알고리즘을 다수집단에 적용하여 SVM의 계산 효율을 향상시키고, 과대추출 알고리즘을 소수집단에 적용하여 SVM 분류함수의 편향을 줄이게 된다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DOC-SVM의 효율적인 성능과 활용 가능성을 확인하였다.
The support vector machine (SVM) has been successfully applied to various classification areas with a high level of classification accuracy. However, it is infeasible to use the SVM in analyzing massive data because of its significant computational problems. When analyzing imbalanced data with different class sizes, furthermore, the classification accuracy of SVM in minority class may drop significantly because its classifier could be biased toward the majority class. To overcome such a problem, we propose the DOC-SVM method, which uses divideoversampling and conquers techniques. The proposed DOC-SVM divides the majority class into a few subsets and applies an oversampling technique to the minority class in order to produce the balanced subsets. And then the DOC-SVM obtains the final classifier by aggregating all SVM classifiers obtained from the balanced subsets. Simulation studies are presented to demonstrate the satisfactory performance of the proposed method.

UCI(KEPA)

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2022
  • : 2010


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

35권2호(2022년 04월) 수록논문
최근 권호 논문
| | | |

KCI등재

1불균형의 대용량 범주행 자료에 대한 분할-과대추출 정복 서포트 벡터 버신

저자 : 방성완 ( Sungwan Bang ) , 김재오 ( Jaeoh Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 177-188 (12 pages)

다운로드

(기관인증 필요)

초록보기

일반적으로 support vector machine (SVM)은 높은 수준의 분류 정확도를 제공함으로써 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용이 필요하므로 대용량 자료의 분류분석에는 그 사용이 제한된다. 또한 불균형 자료(imbalanced data)의 분류분석에서는 다수집단에 편향된 분류함수를 추정함으로써 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소시키게 된다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 다수집단을 분할(divide)하고, 소수집단을 과대추출(oversampling)하여 여러 분류함수들을 추정하고 이들을 통합(conquer)하는 DOC-SVM 분류기법을 제안한다. 제안한 DOC-SVM은 분할정복 알고리즘을 다수집단에 적용하여 SVM의 계산 효율을 향상시키고, 과대추출 알고리즘을 소수집단에 적용하여 SVM 분류함수의 편향을 줄이게 된다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DOC-SVM의 효율적인 성능과 활용 가능성을 확인하였다.


The support vector machine (SVM) has been successfully applied to various classification areas with a high level of classification accuracy. However, it is infeasible to use the SVM in analyzing massive data because of its significant computational problems. When analyzing imbalanced data with different class sizes, furthermore, the classification accuracy of SVM in minority class may drop significantly because its classifier could be biased toward the majority class. To overcome such a problem, we propose the DOC-SVM method, which uses divideoversampling and conquers techniques. The proposed DOC-SVM divides the majority class into a few subsets and applies an oversampling technique to the minority class in order to produce the balanced subsets. And then the DOC-SVM obtains the final classifier by aggregating all SVM classifiers obtained from the balanced subsets. Simulation studies are presented to demonstrate the satisfactory performance of the proposed method.

KCI등재

2암호화폐 수익률 예측력 향상을 위한 요인 강화

저자 : 염예빈 ( Yebin Yeom ) , 한유진 ( Yoojin Han ) , 이재현 ( Jaehyun Lee ) , 박세령 ( Seryeong Park ) , 이정우 ( Jungwoo Lee ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 189-201 (13 pages)

다운로드

(기관인증 필요)

초록보기

본 연구는 외부 요인을 모형에 강화시켜 암호화폐 수익률 예측력을 향상시키는 방법에 대해서 다루고 있다. 고려한 요인으로는 크게 나누어 금융 경제적 요인 및 심리적 요인을 고려하였다. 먼저 금융 경제적 요인을 반용하기 위해서 주성분 요인을 사용하여 수 많은 변수를 차원축소를 통해서 모형에 반영하였다. 또한 심리적 요인을 위해서는 뉴스 기사 데이터를 활용하여 산출해낸 감성지수를 활용하였다. 이러한 요인들은 충격반응함수 분석을 통해서 요인들의 의미와 영향력을 시각화하였다. 또한 전통적인 ARIMAX 뿐 만 아니라 랜덤포레스트 및 딥러닝 모형을 활용하여 비선형성을 반영하였다. 그 결과 요인 강화가 암호화폐 수익률 예측력을 향상시킴을 실증분석을 통해 밝혔으며 그 중에서 딥러닝 모형인 GRU가 가장 좋은 예측 성능을 보임을 관찰하였다.


In this study, we propose factor augmentation to improve forecasting power of cryptocurrency return. We consider financial and economic variables as well as psychological aspect for possible factors. To be more specific, financial and economic factors are obtained by applying principal factor analysis. Psychological factor is summarized by news sentiment analysis. We also visualize such factors through impulse response analysis. In the modeling perspective, we consider ARIMAX as the classical model, and random forest and deep learning to accommodate nonlinear features. As a result, we show that factor augmentation reduces prediction error and the GRU performed the best amongst all models considered.

KCI등재

3개별 관측치에 대한 관리도 비교

저자 : 이성임 ( Sungim Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 203-215 (13 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 연속적으로 관측되는 개별 관측치에 대하여, 모평균의 변화를 모니터링하는 데 적용 가능한 관리도에 대하여 고찰해 보고자 한다. 가장 대표적인 관리도로 슈하르트의 $X$ 관리도, 지수가중이동평균 관리도와 이들의 결합관리도에 관하여 살펴보고 모의실험을 통하여 각 관리도의 성능을 비교 평가해 보고자 한다. 또한, 실제 자료분석을 통해 실질적인 문제에서 관리도를 어떻게 사용해야 하는지 알아보고, 각 관리도의 문제점에 대하여 살펴보기로 한다.


In this paper, we consider the control charts applicable to monitoring the change of the population mean for sequentially observed individual data. The most representative control charts are Shewhart's individual control chart, the exponential weighted moving average (EWMA) control chart, and their combined control chart. We compare their performance based on a simulation study, and also, through real data analysis, we present how to apply control charts in practical application and investigate the problems of each control chart.

KCI등재

4베이즈 정보 기준을 활용한 분할-정복 벌점화 분위수 회귀

저자 : 강종경 ( Jongkyeong Kang ) , 한석원 ( Seokwon Han ) , 방성완 ( Sungwan Bang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 217-227 (11 pages)

다운로드

(기관인증 필요)

초록보기

분위수 회귀 모형은 변수에 숨겨진 복잡한 정보를 살펴보기 위한 효율적인 도구를 제공하는 장점을 바탕으로 많은 분야에서 널리 사용되고 있다. 그러나 현대의 대용량-고차원 데이터는 계산 시간 및 저장공간의 제한으로 인해 분위수 회귀 모형의 추정을 매우 어렵게 만든다. 분할-정복은 전체 데이터를 계산이 용이한 여러개의 부분집합으로 나눈 다음 각 분할에서의 요약 통계량만을 이용하여 전체 데이터의 추정량을 재구성하는 기법이다. 본 연구에서는 분할-정복 기법을 벌점화 분위수 회귀에 적용하고 베이즈 정보기준을 활용하여 변수를 선택하는 방법에 관하여 연구하였다. 제안 방법은 분할 수를 적절하게 선택하였을 때, 전체 데이터로 계산한 일반적인 분위수 회귀 추정량만큼 변수 선택의 측면에서 일관된 결과를 제공하면서 계산 속도의 측면에서 효율적이다. 이러한 제안된 방법의 장점은 시뮬레이션 데이터 및 실제 데이터 분석을 통해 확인하였다.


Quantile regression is widely used in many fields based on the advantage of providing an efficient tool for examining complex information latent in variables. However, modern large-scale and high-dimensional data makes it very difficult to estimate the quantile regression model due to limitations in terms of computation time and storage space. Divide-and-conquer is a technique that divide the entire data into several sub-datasets that are easy to calculate and then reconstruct the estimates of the entire data using only the summary statistics in each sub-datasets. In this paper, we studied on a variable selection method using Bayes information criteria by applying the divide-and-conquer technique to the penalized quantile regression. When the number of sub-datasets is properly selected, the proposed method is efficient in terms of computational speed, providing consistent results in terms of variable selection as long as classical quantile regression estimates calculated with the entire data. The advantages of the proposed method were confirmed through simulation data and real data analysis.

KCI등재

5Dantzig 위험을 사용한 포트폴리오 최적화 선형계획법 모형

저자 : 안다영 ( Dayoung Ahn ) , 박세영 ( Seyoung Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 229-250 (22 pages)

다운로드

(기관인증 필요)

초록보기

포트폴리오 최적화 이론의 초석인 Markowitz의 평균-분산 포트폴리오 모형 (1952)이 발표된 이후로 많은 분야에서 포트폴리오 최적화에 대한 다양한 연구가 진행되었다. 기존의 평균-분산 포트폴리오 모형은 주로 목적함수나 제약식에 비선형 볼록 형태를 포함한다. 이를 Dantzig의 선형계획법을 적용하여 선형으로 변환시켜 알고리즘 계산 시간을 효율적으로 감소시켰다. 또한 시계열 데이터 특성을 반영하여 시간에 따른 가중치를 고려하는 가우시안 커널 가중치 공분산을 제안하였다. 여기에 일정 부분은 벤치마크에 투자하고 나머지는 포트폴리오 최적화 모형으로 제안된 자산들에 투자하는 퍼터베이션 방법을 적용하여 평균 수익률과 위험도를 목적에 맞게 조절하도록 하였다. 또한, 본 논문에서는 안정적이면서도 적은 자산을 보유하게 포트폴리오를 구성하여 관리비용(management costs)과 거래비용(transaction costs)를 낮출 수 있는 Dantzig-type 퍼터베이션 포트폴리오 모형을 제안하였다. 제안된 모형의 성능은 5개의 실제 데이터 세트로 벤치마크 포트폴리오와 비교 분석하여 평가하였다. 최종적으로 제안한 최적화 모형은 벤치마크보다 높은 기대수익률이나 낮은 위험도를 갖는 포트폴리오를 구성하여 퍼터베이션 목적을 만족하며, 투자한 자산의 수와 시간에 따른 자산 구성 변화를 일정 수준 이하로 조절하는 희소하며 안정적인 결과를 얻었다.


Since the publication of Markowitz's (1952) mean-variance portfolio model, research on portfolio optimization has been conducted in many fields. The existing mean-variance portfolio model forms a nonlinear convex problem. Applying Dantzig's linear programming method, it was converted to a linear form, which can effectively reduce the algorithm computation time. In this paper, we proposed a Dantzig perturbation portfolio model that can reduce management costs and transaction costs by constructing a portfolio with stable and small (sparse) assets. The average return and risk were adjusted according to the purpose by applying a perturbation method in which a certain part is invested in the existing benchmark and the rest is invested in the assets proposed as a portfolio optimization model. For a covariance estimation, we proposed a Gaussian kernel weight covariance that considers time-dependent weights by reflecting time-series data characteristics. The performance of the proposed model was evaluated by comparing it with the benchmark portfolio with 5 real data sets. Empirical results show that the proposed portfolios provide higher expected returns or lower risks than the benchmark. Further, sparse and stable asset selection was obtained in the proposed portfolios.

KCI등재

6제 1상 임상시험에서 다양한 멈춤 규칙을 이용한 최대허용용량 추정법

저자 : 전소영 ( Soyoung Jeon ) , 김동재 ( Dongjae Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 251-263 (13 pages)

다운로드

(기관인증 필요)

초록보기

제1상 임상시험은 `투약 용량 발견 시험(dose finding study)'라고도 불리는데 동물 실험 또는 시험관 실험을 통하여 개발된 신약 물질을 사람에게 시험하는 첫 단계이다. 제 1상 임상시험의 목적 중 하나는 환자에게 허용할 수 있으면서 최대의 효능을 가진 복용량인 최대허용용량(maximum tolerated dose, MTD)을 결정하는 것이다. 본 논문에서는 다양한 멈춤 규칙을 이용한 MTD 추정법들을 소개한다. 또한 모의실험을 통해 SM3, NM, Rim, J3, BSM 방법을 비교하고 효율적인 MTD 추정법에 대해 고찰한다. 모의실험 결과 BSM방법이 목표독성확률에 가장 가깝게 MTD를 추정하는 것으로 나타났다. 또한 J3방법의 피험자 수가 가장 적었다. 이러한 결과는 두 방법의 멈춤 규칙의 특성 때문이라고 판단되는데 BSM방법은 독성 반응이 있을 때 같은 용량에 피험자를 2명 또는 1명을 추가한다. 또한 J3방법은 동일한 용량에 할당되는 최대 피험자 수가 다른 방법에 비해 적다. 이러한 특성들을 결합하여 추정법을 개선한다면 더 효율적으로 MTD를 추정할 수 있을 것이다. 특히 BSM방법의 멈춤 규칙을 이용하면서 총 피험자 수를 줄일 수 있다면 적은 수의 피험자로 정확한 추정이 가능할 것이다.


Phase I clinical trial is called `Dose finding study'. It is first step of experimenting on humans with new drugs developed through animal experiments or vitro experiments. The important area of interest in designing Phase I clinical trial is determining the dose that acceptable level to the patients and provides the greatest efficacy. In this paper, we explain about methods to determine the maximum tolerated dose using various stopping rules. The SM3, NM, Rim, J3, BSM methods are compared through simulation. And we consider how the methods might be reformed. As a result of the simulation, BSM estimated the MTD closest to the target toxicity probability. J3 method required the least number of subjects. These results are due to the feature of the stopping rules of both methods. The BSM adds 2 or 1 subject at the same dose level when there is a toxic reaction. In addition, the J3 method has a smaller number of subjects than the other methods. If the methods are improved by combining these features, MTD can be estimated more efficiently. If the total number of subjects can be reduced while using the stopping rule of the BSM, accurate estimation is possible for a small number of subjects.

KCI등재

7영화 데이터를 위한 쌍별 규합 접근방식의 군집화 기법

저자 : 김희진 ( Hui Jin Kim ) , 박세영 ( Seyoung Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 265-283 (19 pages)

다운로드

(기관인증 필요)

초록보기

사용자들의 영화정보를 기록한 MovieLens 데이터는 추천 시스템 연구에서 아이디어를 탐색하고 검증하는데 상당한 가치가 있는 데이터로, 기존 데이터 분할 및 군집화 알고리즘을 사용하여 사용자 평점 데이터를 기반으로 항목 집합을 분할하는 연구 등에 사용되는 데이터이다. 본 논문에서는 기존 연구에서 대표적으로 사용되었던 영화 평점 데이터와 영화 장르 데이터를 통해 사용자의 장르 선호도를 예측하여 선호도 패턴을 기반으로 사용자를 군집화(clustering)하고, 유의미한 정보를 얻는 연구를 진행하였다. MovieLens 데이터는 영화의 전체 개수에 비해 사용자별 평균 영화 평점 수가 낮아 결측 비율이 높다. 이러한 이유로 기존의 군집화 방법을 적용하는 데 한계가 존재한다. 본 논문에서는 MovieLens 데이터 특성에 모티브를 얻어 쌍별 규합 벌점함수(pairwise fused penalty)를 활용한 볼록 군집화(convex clustering) 기반의 방법을 제안한다. 특히 결측치 대체(missing imputation)도 동시에 해결하는 최적화 문제를 통해 기존의 군집화 분석과 차별화하였다. 군집화는 반복 알고리즘인 ADMM을 통해 제안하는 최적화 문제를 풀어 진행한다. 또한 시뮬레이션과 MovieLens 데이터 적용을 통해 제안하는 군집화 방법이 기존의 방법보다 노이즈 및 이상치에 상대적으로 민감하지 않은 것으로 보인다.


MovieLens data consists of recorded movie evaluations that was often used to measure the evaluation score in the recommendation system research field. In this paper, we provide additional information obtained by clustering user-specific genre preference information through movie evaluation data and movie genre data. Because the number of movie ratings per user is very low compared to the total number of movies, the missing rate in this data is very high. For this reason, there are limitations in applying the existing clustering methods. In this paper, we propose a convex clustering-based method using the pairwise fused penalty motivated by the analysis of MovieLens data. In particular, the proposed clustering method execute missing imputation, and at the same time uses movie evaluation and genre weights for each movie to cluster genre preference information possessed by each individual. We compute the proposed optimization using alternating direction method of multipliers algorithm. It is shown that the proposed clustering method is less sensitive to noise and outliers than the existing method through simulation and MovieLens data application.

KCI등재

8희박 공분산 행렬에 대한 베이지안 변수 선택 방법론 비교 연구

저자 : 김봉수 ( Bongsu Kim ) , 이경재 ( Kyoungjae Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 285-298 (14 pages)

다운로드

(기관인증 필요)

초록보기

연속 수축 사전분포는 spike and slab 사전분포와 더불어, 희박 회귀계수 벡터 또는 공분산 행렬에 대한 베이지안 추론을 위해 널리 사용되고 있다. 특히 고차원 상황에서, 연속 수축 사전분포는 spike and slab 사전분포에 비해 매우 작은 모수공간을 가짐으로써 계산적인 이점을 가진다. 하지만 연속 수축 사전분포는 정확히 0인 값을 생성하지 않기 때문에, 이를 이용한 변수 선택이 자연스럽지 않다는 문제가 있다. 비록 연속 수축 사전분포에 기반한 변수 선택 방법들이 개발되어 있기는 하지만, 이들에 대한 포괄적인 비교연구는 거의 진행되어 있지 않다. 본 논문에서는, 연속 수축 사전분포에 기반한 두 가지의 변수 선택 방법들을 비교하려 한다. 첫 번째 방법은 신용구간에 기반한 변수 선택, 두 번째 방법은 최근 Li와 Pati (2017)가 개발한 sequential 2-means 알고리듬이다. 두 방법에 대한 간략한 소개를 한 뒤, 다양한 모의실험 상황에서 자료를 생성하여 두 방법들의 성능을 비교하였다. 끝으로, 모의실험으로부터 발견한 몇 가지 사실들을 기술하고, 이로부터 몇 가지 제안을 하며 논문을 마치려 한다.


Continuous shrinkage priors, as well as spike and slab priors, have been widely employed for Bayesian inference about sparse regression coefficient vectors or covariance matrices. Continuous shrinkage priors provide computational advantages over spike and slab priors since their model space is substantially smaller. This is especially true in high-dimensional settings. However, variable selection based on continuous shrinkage priors is not straightforward because they do not give exactly zero values. Although few variable selection approaches based on continuous shrinkage priors have been proposed, no substantial comparative investigations of their performance have been conducted. In this paper, We compare two variable selection methods: a credible interval method and the sequential 2-means algorithm (Li and Pati, 2017). Various simulation scenarios are used to demonstrate the practical performances of the methods. We conclude the paper by presenting some observations and conjectures based on the simulation findings.

KCI등재

9분할된 네트워크에 기반한 사회 네트워크 모니터링 절차

저자 : 홍휘주 ( Hwiju Hong ) , 이주원 ( Joo Weon Lee ) , 이재헌 ( Jaeheon Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 299-310 (12 pages)

다운로드

(기관인증 필요)

초록보기

사회 네트워크 분석에 대한 관심이 높아짐에 따라 사회 네트워크에서 발생하는 변화를 탐지하는 연구에 대한 관심도 높아지고 있다. 사회 네트워크에서 발생하는 변화는 네트워크의 구조적 변화로 나타난다. 따라서 사회 네트워크에서 발생하는 변화를 탐지하는 것은 네트워크의 구조적 특성에 대한 변화를 탐지하는 것이다. 사회 네트워크에서 발생하는 지역적 변화는 가까운 이웃들 간에 발생하는 변화로 네트워크 일부에 집단적으로 나타난다. 이 논문의 목적은 네트워크에서 발생하는 지역적 변화를 효율적으로 탐지하는 절차를 제안하는 것이다. 제안하는 절차는 지역적 변화를 보다 효율적으로 탐지하기 위해 네트워크를 분할하고 각각의 분할된 네트워크에 기반한 관리도를 작성하여 네트워크에서 발생한 변화를 탐지하는 것이다. 네트워크를 분할하여 변화를 탐지하는 절차는 네트워크에서 발생한 지역적 변화를 보다 신속하게 탐지할 수 있으며, 변화가 발생한 위치에 대한 정보를 제공한다는 장점이 있다. 모의실험 결과에 따르면 제안된 절차는 네트워크의 크기가 작고 변화의 크기가 작은 경우 효율적이며, 네트워크를 더 작은 크기로 분할하면 작은 변화를 더 효율적으로 탐지한다는 사실을 확인하였다.


As interest in social network analysis increases, researchers' interest in detecting changes in social networks is also increasing. Changes in social networks appear as structural changes in the network. Therefore, detecting a change in a social network is detecting a change in the structural characteristics of the network. A local change in a social network is a change that occurs in a part of the network. It usually occurs between close neighbors. The purpose of this paper is to propose a procedure to efficiently detect local changes occurring in the network. In this paper, we divide the network into partitioned networks and monitor each partitioned network to detect local changes more efficiently. By monitoring partitioned networks, we can detect local changes more quickly and obtain information about where the changes are occurring. Simulation studies show that the proposed method is efficient when the network size is small and the amount of change is small. In addition, under a fixed overall false alarm rate, when we partition the network into smaller sizes and monitor smaller partitioned networks, it detects local changes better.

KCI등재

10폴랴-감마 잠재변수에 기반한 베이지안 영과잉 음이항 회귀모형: 약학 자료에의 응용

저자 : 서기태 ( Gi Tae Seo ) , 황범석 ( Beom Seuk Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 311-325 (15 pages)

다운로드

(기관인증 필요)

초록보기

0의 값을 과도하게 포함하는 가산자료는 다양한 연구 분야에서 흔히 나타난다. 영과잉 모형은 영과잉 가산자료를 분석하기 위해 가장 일반적으로 사용되는 모형이다. 영과잉 모형에 대한 전통적인 베이지안 추론은 조건부 사후분포의 형태가 폐쇄형 분포로 나타나지 않아 모형 적합 과정이 용이하지 않다는 한계점이 존재했다. 그러나 최근 Pillow와 Scott (2012)과 Polson 등 (2013)이 제안한 폴랴-감마 자료확대전략으로 인해, 로지스틱 회귀모형과 음이항 회귀모형에서 깁스 샘플링을 통한 추론이 가능해지면서, 영과잉 모형에 대한 베이지안 추론이 용이해졌다. 본 논문에서는 베이지안 추론에 기반한 영과잉 음이항 회귀모형을 Min과 Agresti (2005)에서 분석된 약학 연구 자료에 적용해본다. 분석에 사용된 자료는 경시적 영과잉 가산자료로 복잡한 자료 구조를 가지고 있다. 모형 적합 과정에서는 깁스 샘플링을 통한 추론을 수행하기 위해 폴랴-감마 자료확대전략을 사용한다.


For count responses, the situation of excess zeros often occurs in various research fields. Zero-inflated model is a common choice for modeling such count data. Bayesian inference for the zero-inflated model has long been recognized as a hard problem because the form of conditional posterior distribution is not in closed form. Recently, however, Pillow and Scott (2012) and Polson et al. (2013) proposed a Pólya-Gamma data-augmentation strategy for logistic and negative binomial models, facilitating Bayesian inference for the zero-inflated model. We apply Bayesian zero-inflated negative binomial regression model to longitudinal pharmaceutical data which have been previously analyzed by Min and Agresti (2005). To facilitate posterior sampling for longitudinal zeroinflated model, we use the Pólya-Gamma data-augmentation strategy.

12
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1불균형의 대용량 범주행 자료에 대한 분할-과대추출 정복 서포트 벡터 버신

저자 : 방성완 ( Sungwan Bang ) , 김재오 ( Jaeoh Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 177-188 (12 pages)

다운로드

(기관인증 필요)

초록보기

일반적으로 support vector machine (SVM)은 높은 수준의 분류 정확도를 제공함으로써 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용이 필요하므로 대용량 자료의 분류분석에는 그 사용이 제한된다. 또한 불균형 자료(imbalanced data)의 분류분석에서는 다수집단에 편향된 분류함수를 추정함으로써 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소시키게 된다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 다수집단을 분할(divide)하고, 소수집단을 과대추출(oversampling)하여 여러 분류함수들을 추정하고 이들을 통합(conquer)하는 DOC-SVM 분류기법을 제안한다. 제안한 DOC-SVM은 분할정복 알고리즘을 다수집단에 적용하여 SVM의 계산 효율을 향상시키고, 과대추출 알고리즘을 소수집단에 적용하여 SVM 분류함수의 편향을 줄이게 된다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DOC-SVM의 효율적인 성능과 활용 가능성을 확인하였다.

KCI등재

2암호화폐 수익률 예측력 향상을 위한 요인 강화

저자 : 염예빈 ( Yebin Yeom ) , 한유진 ( Yoojin Han ) , 이재현 ( Jaehyun Lee ) , 박세령 ( Seryeong Park ) , 이정우 ( Jungwoo Lee ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 189-201 (13 pages)

다운로드

(기관인증 필요)

초록보기

본 연구는 외부 요인을 모형에 강화시켜 암호화폐 수익률 예측력을 향상시키는 방법에 대해서 다루고 있다. 고려한 요인으로는 크게 나누어 금융 경제적 요인 및 심리적 요인을 고려하였다. 먼저 금융 경제적 요인을 반용하기 위해서 주성분 요인을 사용하여 수 많은 변수를 차원축소를 통해서 모형에 반영하였다. 또한 심리적 요인을 위해서는 뉴스 기사 데이터를 활용하여 산출해낸 감성지수를 활용하였다. 이러한 요인들은 충격반응함수 분석을 통해서 요인들의 의미와 영향력을 시각화하였다. 또한 전통적인 ARIMAX 뿐 만 아니라 랜덤포레스트 및 딥러닝 모형을 활용하여 비선형성을 반영하였다. 그 결과 요인 강화가 암호화폐 수익률 예측력을 향상시킴을 실증분석을 통해 밝혔으며 그 중에서 딥러닝 모형인 GRU가 가장 좋은 예측 성능을 보임을 관찰하였다.

KCI등재

3개별 관측치에 대한 관리도 비교

저자 : 이성임 ( Sungim Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 203-215 (13 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 연속적으로 관측되는 개별 관측치에 대하여, 모평균의 변화를 모니터링하는 데 적용 가능한 관리도에 대하여 고찰해 보고자 한다. 가장 대표적인 관리도로 슈하르트의 $X$ 관리도, 지수가중이동평균 관리도와 이들의 결합관리도에 관하여 살펴보고 모의실험을 통하여 각 관리도의 성능을 비교 평가해 보고자 한다. 또한, 실제 자료분석을 통해 실질적인 문제에서 관리도를 어떻게 사용해야 하는지 알아보고, 각 관리도의 문제점에 대하여 살펴보기로 한다.

KCI등재

4베이즈 정보 기준을 활용한 분할-정복 벌점화 분위수 회귀

저자 : 강종경 ( Jongkyeong Kang ) , 한석원 ( Seokwon Han ) , 방성완 ( Sungwan Bang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 217-227 (11 pages)

다운로드

(기관인증 필요)

초록보기

분위수 회귀 모형은 변수에 숨겨진 복잡한 정보를 살펴보기 위한 효율적인 도구를 제공하는 장점을 바탕으로 많은 분야에서 널리 사용되고 있다. 그러나 현대의 대용량-고차원 데이터는 계산 시간 및 저장공간의 제한으로 인해 분위수 회귀 모형의 추정을 매우 어렵게 만든다. 분할-정복은 전체 데이터를 계산이 용이한 여러개의 부분집합으로 나눈 다음 각 분할에서의 요약 통계량만을 이용하여 전체 데이터의 추정량을 재구성하는 기법이다. 본 연구에서는 분할-정복 기법을 벌점화 분위수 회귀에 적용하고 베이즈 정보기준을 활용하여 변수를 선택하는 방법에 관하여 연구하였다. 제안 방법은 분할 수를 적절하게 선택하였을 때, 전체 데이터로 계산한 일반적인 분위수 회귀 추정량만큼 변수 선택의 측면에서 일관된 결과를 제공하면서 계산 속도의 측면에서 효율적이다. 이러한 제안된 방법의 장점은 시뮬레이션 데이터 및 실제 데이터 분석을 통해 확인하였다.

KCI등재

5Dantzig 위험을 사용한 포트폴리오 최적화 선형계획법 모형

저자 : 안다영 ( Dayoung Ahn ) , 박세영 ( Seyoung Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 229-250 (22 pages)

다운로드

(기관인증 필요)

초록보기

포트폴리오 최적화 이론의 초석인 Markowitz의 평균-분산 포트폴리오 모형 (1952)이 발표된 이후로 많은 분야에서 포트폴리오 최적화에 대한 다양한 연구가 진행되었다. 기존의 평균-분산 포트폴리오 모형은 주로 목적함수나 제약식에 비선형 볼록 형태를 포함한다. 이를 Dantzig의 선형계획법을 적용하여 선형으로 변환시켜 알고리즘 계산 시간을 효율적으로 감소시켰다. 또한 시계열 데이터 특성을 반영하여 시간에 따른 가중치를 고려하는 가우시안 커널 가중치 공분산을 제안하였다. 여기에 일정 부분은 벤치마크에 투자하고 나머지는 포트폴리오 최적화 모형으로 제안된 자산들에 투자하는 퍼터베이션 방법을 적용하여 평균 수익률과 위험도를 목적에 맞게 조절하도록 하였다. 또한, 본 논문에서는 안정적이면서도 적은 자산을 보유하게 포트폴리오를 구성하여 관리비용(management costs)과 거래비용(transaction costs)를 낮출 수 있는 Dantzig-type 퍼터베이션 포트폴리오 모형을 제안하였다. 제안된 모형의 성능은 5개의 실제 데이터 세트로 벤치마크 포트폴리오와 비교 분석하여 평가하였다. 최종적으로 제안한 최적화 모형은 벤치마크보다 높은 기대수익률이나 낮은 위험도를 갖는 포트폴리오를 구성하여 퍼터베이션 목적을 만족하며, 투자한 자산의 수와 시간에 따른 자산 구성 변화를 일정 수준 이하로 조절하는 희소하며 안정적인 결과를 얻었다.

KCI등재

6제 1상 임상시험에서 다양한 멈춤 규칙을 이용한 최대허용용량 추정법

저자 : 전소영 ( Soyoung Jeon ) , 김동재 ( Dongjae Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 251-263 (13 pages)

다운로드

(기관인증 필요)

초록보기

제1상 임상시험은 `투약 용량 발견 시험(dose finding study)'라고도 불리는데 동물 실험 또는 시험관 실험을 통하여 개발된 신약 물질을 사람에게 시험하는 첫 단계이다. 제 1상 임상시험의 목적 중 하나는 환자에게 허용할 수 있으면서 최대의 효능을 가진 복용량인 최대허용용량(maximum tolerated dose, MTD)을 결정하는 것이다. 본 논문에서는 다양한 멈춤 규칙을 이용한 MTD 추정법들을 소개한다. 또한 모의실험을 통해 SM3, NM, Rim, J3, BSM 방법을 비교하고 효율적인 MTD 추정법에 대해 고찰한다. 모의실험 결과 BSM방법이 목표독성확률에 가장 가깝게 MTD를 추정하는 것으로 나타났다. 또한 J3방법의 피험자 수가 가장 적었다. 이러한 결과는 두 방법의 멈춤 규칙의 특성 때문이라고 판단되는데 BSM방법은 독성 반응이 있을 때 같은 용량에 피험자를 2명 또는 1명을 추가한다. 또한 J3방법은 동일한 용량에 할당되는 최대 피험자 수가 다른 방법에 비해 적다. 이러한 특성들을 결합하여 추정법을 개선한다면 더 효율적으로 MTD를 추정할 수 있을 것이다. 특히 BSM방법의 멈춤 규칙을 이용하면서 총 피험자 수를 줄일 수 있다면 적은 수의 피험자로 정확한 추정이 가능할 것이다.

KCI등재

7영화 데이터를 위한 쌍별 규합 접근방식의 군집화 기법

저자 : 김희진 ( Hui Jin Kim ) , 박세영 ( Seyoung Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 265-283 (19 pages)

다운로드

(기관인증 필요)

초록보기

사용자들의 영화정보를 기록한 MovieLens 데이터는 추천 시스템 연구에서 아이디어를 탐색하고 검증하는데 상당한 가치가 있는 데이터로, 기존 데이터 분할 및 군집화 알고리즘을 사용하여 사용자 평점 데이터를 기반으로 항목 집합을 분할하는 연구 등에 사용되는 데이터이다. 본 논문에서는 기존 연구에서 대표적으로 사용되었던 영화 평점 데이터와 영화 장르 데이터를 통해 사용자의 장르 선호도를 예측하여 선호도 패턴을 기반으로 사용자를 군집화(clustering)하고, 유의미한 정보를 얻는 연구를 진행하였다. MovieLens 데이터는 영화의 전체 개수에 비해 사용자별 평균 영화 평점 수가 낮아 결측 비율이 높다. 이러한 이유로 기존의 군집화 방법을 적용하는 데 한계가 존재한다. 본 논문에서는 MovieLens 데이터 특성에 모티브를 얻어 쌍별 규합 벌점함수(pairwise fused penalty)를 활용한 볼록 군집화(convex clustering) 기반의 방법을 제안한다. 특히 결측치 대체(missing imputation)도 동시에 해결하는 최적화 문제를 통해 기존의 군집화 분석과 차별화하였다. 군집화는 반복 알고리즘인 ADMM을 통해 제안하는 최적화 문제를 풀어 진행한다. 또한 시뮬레이션과 MovieLens 데이터 적용을 통해 제안하는 군집화 방법이 기존의 방법보다 노이즈 및 이상치에 상대적으로 민감하지 않은 것으로 보인다.

KCI등재

8희박 공분산 행렬에 대한 베이지안 변수 선택 방법론 비교 연구

저자 : 김봉수 ( Bongsu Kim ) , 이경재 ( Kyoungjae Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 285-298 (14 pages)

다운로드

(기관인증 필요)

초록보기

연속 수축 사전분포는 spike and slab 사전분포와 더불어, 희박 회귀계수 벡터 또는 공분산 행렬에 대한 베이지안 추론을 위해 널리 사용되고 있다. 특히 고차원 상황에서, 연속 수축 사전분포는 spike and slab 사전분포에 비해 매우 작은 모수공간을 가짐으로써 계산적인 이점을 가진다. 하지만 연속 수축 사전분포는 정확히 0인 값을 생성하지 않기 때문에, 이를 이용한 변수 선택이 자연스럽지 않다는 문제가 있다. 비록 연속 수축 사전분포에 기반한 변수 선택 방법들이 개발되어 있기는 하지만, 이들에 대한 포괄적인 비교연구는 거의 진행되어 있지 않다. 본 논문에서는, 연속 수축 사전분포에 기반한 두 가지의 변수 선택 방법들을 비교하려 한다. 첫 번째 방법은 신용구간에 기반한 변수 선택, 두 번째 방법은 최근 Li와 Pati (2017)가 개발한 sequential 2-means 알고리듬이다. 두 방법에 대한 간략한 소개를 한 뒤, 다양한 모의실험 상황에서 자료를 생성하여 두 방법들의 성능을 비교하였다. 끝으로, 모의실험으로부터 발견한 몇 가지 사실들을 기술하고, 이로부터 몇 가지 제안을 하며 논문을 마치려 한다.

KCI등재

9분할된 네트워크에 기반한 사회 네트워크 모니터링 절차

저자 : 홍휘주 ( Hwiju Hong ) , 이주원 ( Joo Weon Lee ) , 이재헌 ( Jaeheon Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 299-310 (12 pages)

다운로드

(기관인증 필요)

초록보기

사회 네트워크 분석에 대한 관심이 높아짐에 따라 사회 네트워크에서 발생하는 변화를 탐지하는 연구에 대한 관심도 높아지고 있다. 사회 네트워크에서 발생하는 변화는 네트워크의 구조적 변화로 나타난다. 따라서 사회 네트워크에서 발생하는 변화를 탐지하는 것은 네트워크의 구조적 특성에 대한 변화를 탐지하는 것이다. 사회 네트워크에서 발생하는 지역적 변화는 가까운 이웃들 간에 발생하는 변화로 네트워크 일부에 집단적으로 나타난다. 이 논문의 목적은 네트워크에서 발생하는 지역적 변화를 효율적으로 탐지하는 절차를 제안하는 것이다. 제안하는 절차는 지역적 변화를 보다 효율적으로 탐지하기 위해 네트워크를 분할하고 각각의 분할된 네트워크에 기반한 관리도를 작성하여 네트워크에서 발생한 변화를 탐지하는 것이다. 네트워크를 분할하여 변화를 탐지하는 절차는 네트워크에서 발생한 지역적 변화를 보다 신속하게 탐지할 수 있으며, 변화가 발생한 위치에 대한 정보를 제공한다는 장점이 있다. 모의실험 결과에 따르면 제안된 절차는 네트워크의 크기가 작고 변화의 크기가 작은 경우 효율적이며, 네트워크를 더 작은 크기로 분할하면 작은 변화를 더 효율적으로 탐지한다는 사실을 확인하였다.

KCI등재

10폴랴-감마 잠재변수에 기반한 베이지안 영과잉 음이항 회귀모형: 약학 자료에의 응용

저자 : 서기태 ( Gi Tae Seo ) , 황범석 ( Beom Seuk Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 2호 발행 연도 : 2022 페이지 : pp. 311-325 (15 pages)

다운로드

(기관인증 필요)

초록보기

0의 값을 과도하게 포함하는 가산자료는 다양한 연구 분야에서 흔히 나타난다. 영과잉 모형은 영과잉 가산자료를 분석하기 위해 가장 일반적으로 사용되는 모형이다. 영과잉 모형에 대한 전통적인 베이지안 추론은 조건부 사후분포의 형태가 폐쇄형 분포로 나타나지 않아 모형 적합 과정이 용이하지 않다는 한계점이 존재했다. 그러나 최근 Pillow와 Scott (2012)과 Polson 등 (2013)이 제안한 폴랴-감마 자료확대전략으로 인해, 로지스틱 회귀모형과 음이항 회귀모형에서 깁스 샘플링을 통한 추론이 가능해지면서, 영과잉 모형에 대한 베이지안 추론이 용이해졌다. 본 논문에서는 베이지안 추론에 기반한 영과잉 음이항 회귀모형을 Min과 Agresti (2005)에서 분석된 약학 연구 자료에 적용해본다. 분석에 사용된 자료는 경시적 영과잉 가산자료로 복잡한 자료 구조를 가지고 있다. 모형 적합 과정에서는 깁스 샘플링을 통한 추론을 수행하기 위해 폴랴-감마 자료확대전략을 사용한다.

12
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기