간행물

한국통계학회> 응용통계연구

응용통계연구 update

The Korean Journal of Applied Statistics

  • : 한국통계학회
  • : 자연과학분야  >  통계학
  • : KCI등재
  • :
  • : 연속간행물
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • :

수록정보
29권6호(2016) |수록논문 수 : 11
간행물 제목
34권4호(2021년 08월) 수록논문
최근 권호 논문
| | | |

KCI등재

1혼합자료에서 독립성검정에 의한 연관성 측정

저자 : 이승천 ( Seung-chun Lee ) , 허문열 ( Moon Yul Huh )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 523-536 (14 pages)

다운로드

(기관인증 필요)

초록보기

두 확률변수의 연관성을 측정하는 측도는 많이 있으나, 이러한 측도는 같은 유형인 변수들 간의 관계를 측정하기 위한 것으로 여러 가지 유형의 변수들이 혼재되어 있는 혼합자료에서 사용하기는 곤란하다 본 논문에서는 두 확률변수의 독립성 검정을 통해 구한 p-값으로 혼합자료에서 사용될 수 있는 새로운 연관성 측도를 구하였으며, 이렇게 구하여진 연관성 측도가 혼합자료에서 변수들 간의 연관성을 비교하는데 유용하게 사용될 수 있음을 보였다.


Although there exist numerous measures of association, most of them are lacking in generality in that they do not intend to measure the association between heterogeneous type of random variables. On the other hand, many statistical analyzes dealing with complex data sets require a very sophisticate measure of association. In this note, the p-value of independence tests is utilized to obtain a measure of association. The proposed measure of association have some consistency in measuring association between various types of random variables.

KCI등재

2관리도에서 Markov연쇄의 적용: 복습 및 새로운 응용

저자 : 박창순 ( Changsoon Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 537-556 (20 pages)

다운로드

(기관인증 필요)

초록보기

통계적 공정관리절차의 특성은 해석적 해를 얻기가 어려운 경우가 많이 있으나 Markov연쇄를 적용하면 가능한 경우가 많이 있다. 이 논문에서는 공정 통계량이 Markov특성을 따르는 경우, Markov연쇄를 생성하는 방법과 이를 이용한 공정관리 절차의 특성을 도출하는 방법에 대해 설명하고 있다. 관리도의 통계적 설계, 경제적 설계 및 변량 표본 추출비 설계 등의 특성 규명을 위한 Markov연쇄의 적용에 대한 기존의 알려진 방법을 복습하고 또한 새로운 공정관리 분야인 재조정 관리도에의 적용방법에 대한 연구결과도 보여주고 있다. 공정관리의 특성연구에서 해석적 해가 가능한 경우에도 이 과정이 복잡하여 Markov연쇄를 병행 사용하면 특성 규명이 명확해지며, 모의실험보다는 짧은 시간에 더 정밀한 결과를 얻을 수 있어 널리 이용되고 있다.


Properties of statistical process control procedures may not be derived analytically in many cases; however, the application of a Markov chain can solve such problems. This article shows how to derive the properties of the process control procedures using the generated Markov chains when the control statistic satisfies the Markov property. Markov chain approaches that appear in the literature (such as the statistical design and economic design of the control chart as well as the variable sampling rate design) are reviewed along with the introduction of research results for application to a new control procedure and reset chart. The joint application of a Markov chain approach and analytical solutions (when available) can guarantee the correct derivation of the properties. A Markov chain approach is recommended over simulation studies due to its precise derivation of properties and short calculation times.

KCI등재

3언론보도사례를 통해 본 통계발표상의 문제

저자 : 조진섭 ( Sinsup Cho )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 557-574 (18 pages)

다운로드

(기관인증 필요)

초록보기

공식통계 및 사회조사통계 정보들이 언론에 보도되는 과정에서 발생하는 여러 가지 문제점들을 사례중심으로 살펴보고 이의 해결방안에 대해 알아보았다.


In this paper we investigate the problems revealed when the statistics are published in the press.

KCI등재

4통계학 용어의 증보

저자 : 허명회 ( Myung-hoe Huh )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 575-578 (4 pages)

다운로드

(기관인증 필요)

초록보기

통계학 용어의 국문화에 관련하여 1980년대 이래 한국통계학회의 활동을 돌아보고 2000년 이래 대두된 새 용어들을 제안한다. 기계학습과 관련된 통계학 용어가 속히 정립되어야 하고 전통적 용어들에 대하여도 지속적인 업데이트가 필요하다.


The author reviews the past 40-year activities on Korean translation of statistical terms within the Korean Statistical Society since 1980's and proposes a number of recent terms of statistical machine learning.

KCI등재

5이항자료에 대한 예측구간

저자 : 류제복 ( Jea-bok Ryu )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 579-588 (10 pages)

다운로드

(기관인증 필요)

초록보기

신뢰구간 추정에 널리 사용되고 있는 Wald, Agresti-Coull, 그리고 베이지안 방법인 Jeffrey와 Bayes-Laplace를 예측구간에 적용하였다. 네 가지 방법의 수치적 비교를 위해서 포함확률, 평균포함확률, 평균제곱오차의 제곱근, 그리고 평균기대폭을 사용하였다. 비교결과 Wald 방법은 신뢰구간에서와 마찬가지로 예측구간에서도 바람직하지 않았고 신뢰구간에서 선호되던 Agresti-Coull 방법은 예측구간에서는 너무 보수적이라 적절치 않다. 반면에 Jeffrey와 Bayes-Laplace 방법은 적절하였고, 특히 Jeffrey 방법은 신뢰구간의 경우에서와 마찬가지로 예측구간에서도 바람직하였다.


Wald, Agresti-Coull, Jeffreys, and Bayes-Laplace methods are commonly used for confidence interval of binomial proportion are applied for prediction intervals. We used coverage probability, mean coverage probability, root mean squared error, and mean expected width for numerical comparisons. From the comparisons, we found that Wald is not proper as for confidence interval and Agresti-Coull is too conservative to differ from confidence interval. However, Jeffrey and Bayes-Laplace are good for prediction interval and Jeffrey is especially desirable as for confidence interval.

KCI등재

6다중회귀에서 회귀계수 추정량의 특성

저자 : 강명욱 ( Myung-wook Kahng )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 589-597 (9 pages)

다운로드

(기관인증 필요)

초록보기

단순회귀와 다중회귀에서 회귀계수의 의미는 차이가 있고 회귀계수의 추정값은 같지 않을 뿐 아니라 그 부호가 서로 다른 경우도 발생한다. 회귀모형에서 설명변수의 상대적 기여도의 파악은 회귀분석의 수행의 중요한 부분이다. 표준화 회귀모형에서 표준화 회귀계수는 해당 설명변수를 제외한 나머지 설명변수의 값이 고정되어있는 상황에서 설명변수가 표준편차만큼 증가하였을 때 반응변수가 표준편차를 기준으로 얼마나 변화했는가로 해석할 수 있지만 표준화 회귀계수의 크기가 각 설명변수의 상대적 중요도를 나타내는 척도라고 할 수 없음은 잘 알려져 있다. 본 논문에서는 다중회귀에서 회귀계수의 추정량을 상관계수와 결정계수의 함수로 나타내고 이를 추가적인 설명력과 추가적인 결정계수의 관점에서 생각해 본다. 또한 다양한 산점도에서의 상관계수와 회귀계수 추정값의 관계를 알아보고 설명변수가 두 개인 경우에 구체적으로 적용해 본다.


In simple and multiple regression, there is a difference in the meaning of regression coefficients, and not only are the estimates of regression coefficients different, but they also have different signs. Understanding the relative contribution of explanatory variables in a regression model is an important part of regression analysis. In a standardized regression model, the regression coefficient can be interpreted as the change in the response variable with respect to the standard deviation when the explanatory variable increases by the standard deviation in a situation where the values of the explanatory variables other than the corresponding explanatory variable are fixed. However, the size of the standardized regression coefficient is not a proper measure of the relative importance of each explanatory variable. In this paper, the estimator of the regression coefficient in multiple regression is expressed as a function of the correlation coefficient and the coefficient of determination. Furthermore, it is considered in terms of the effect of an additional explanatory variable and additional increase in the coefficient of determination. We also explore the relationship between estimates of regression coefficients and correlation coefficients in various plots. These results are specifically applied when there are two explanatory variables.

KCI등재

7불균형자료를 위한 판별분석에서 HDBSCAN의 활용

저자 : 이보희 ( Bo-hui Lee ) , 김태헌 ( Tae-heon Kim ) , 최용석 ( Yong-seok Choi )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 599-609 (11 pages)

다운로드

(기관인증 필요)

초록보기

군집간의 개체 수의 차이가 큰 자료들을 불균형자료라고 한다. 불균형자료의 판별분석에서 다수 범주의 개체를 잘 분류하는 것 보다 소수 범주의 개체를 잘 분류하는 것이 더 중요하다. 그러나 개체 수가 상대적으로 작은 소수 범주의 개체를 개체 수가 상대적으로 많은 다수 범주의 개체로 오분류하는 경우가 많다. 본 연구에서는 이를 해결하기 위해 HDBSCAN과 SMOTE를 결합한 방법을 제안한다. HDBSCAN을 이용하여 소수 범주의 노이즈와 다수 범주의 노이즈를 제거하고 SMOTE를 적용하여 새로운 자료를 만들어낸다. 기존의 방법들과 성능을 비교하기 위하여 AUC와 F1 점수를 이용하였고 그 결과 대부분의 경우에 HDBSCAN과 SMOTE를 결합한 방법이 높은 성능 지표를 보였고, 불균형자료를 분류하는데 있어 뛰어난 방법으로 나타났다.


Data with a large difference in the number of objects between clusters are called unbalanced data. In discriminant analysis of unbalanced data, it is more important to classify objects in minority categories than to classify objects in majority categories well. However, objects in minority categories are often misclassified into majority categories. In this study, we propose a method that combined hierarchical DBSCAN (HDBSCAN) and SMOTE to solve this problem. Using HDBSCAN, it removes noise in minority categories and majority categories. Then it applies SMOTE to create new data. Area under the roc curve (AUC) and F1 scores were used to compare performance with existing methods. As a result, in most cases, the method combining HDBSCAN and synthetic minority oversampling technique (SMOTE) showed a high performance index, and it was found to be an excellent method for classifying unbalanced data.

KCI등재

8비대칭-비정상 변동성 모형 평가를 위한 모수적-붓스트랩

저자 : 최선우 ( Sun Woo Choi ) , 윤재은 ( Jae Eun Yoon ) , 이성덕 ( Sung Duck Lee ) , 황선영 ( Sun Young Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 611-622 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 변동성의 비대칭성과 비정상성을 동시에 고려하고 있다. 다양한 변동성 모형을 분석하고 있으며 모수적-붓스트랩을 통한 예측분포를 이용하여 변동성 모형의 예측성능을 비교하고 있다. 오차항 분포로서 표준정규분포 및 표준화 t-분포를 고려하였으며 1-시차 후 예측과 2-시차 후 예측을 미국의 다우지수 사례를 통해 설명하였다.


With a wide recognition that financial time series typically exhibits asymmetry patterns in volatility so called leverage effects, various asymmetric GARCH(1; 1) processes have been introduced to investigate asymmetric volatilities. A lot of researches have also been directed to non-stationary volatilities to deal with frequent high ups and downs in financial time series. This article is concerned with both asymmetric and non-stationary GARCH-type models. As a subsequent paper of Choi et al. (2020), we review various asymmetric and non-stationary GARCH(1; 1) processes, and in turn propose how to compare competing models using a parametric bootstrap methodology. As an illustration, Dow Jones Industrial Average (DJIA) is analyzed.

KCI등재

9최대 전력수요 예측을 위한 시계열모형 비교

저자 : 권숙희 ( Sukhui Kwon ) , 김재훈 ( Jaehoon Kim ) , 손석만 ( Seokman Sohn ) , 이성덕 ( Sungduck Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 623-632 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 여러가지 시계열 모형 중 평활법(가법계절지수, 승법계절지수), 계절 ARIMA 모형, AR-ARCH 그리고 AR-GARCH 회귀모형을 이용하여 최대 전력수요를 예측하는 방법을 연구하였다. 이 때 가중평균모형으로 추세를 갖는 시계열 모형과 온도에 대한 회귀 모형을 적절한 가중치로 예측 정확도를 높이는 방법도 연구하였다. 결과적으로 AR-GARCH 회귀모형으로 예측하는 것이 가중 우수함을 보였다.


Through this study, we studied how to consider environment variables (such as temperatures, weekend, holiday) closely related to electricity demand, and how to consider the characteristics of Korea electricity demand. In order to conduct this study, Smoothing method, Seasonal ARIMA model and regression model with AR-GARCH errors are compared with mean absolute error criteria. The performance comparison results of the model showed that the predictive method using AR-GARCH error regression model with environment variables had the best predictive power.

KCI등재

10통계공학을 위한 Python 패키지 응용

저자 : 장대흥 ( Dae-heung Jang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 633-658 (26 pages)

다운로드

(기관인증 필요)

초록보기

통계공학은 실험계획법, 품질관리/품질경영, 신뢰성공학으로 구성된다. Python은 무료로 개방되어 있는 패키지로서 머신러닝, 데이터사이언스, 공학 및 그래픽 관련 패키지가 방대하다. 우리는 이러한 Python 패키지를 통계공학을 위한 기본 패키지로 유용하게 사용할 수 있다. 본 논문에서는 통계공학을 위한 Python 패키지 응용을 살펴보고 통계공학 관련 종합 Python projects가 필요함을 제안하였다.


Statistical engineering contains design of experiments, quality control/ management, and reliability engineering. Python is a free software environment for machine learning, data science, and graphics. Python package has many functions and libraries for statistical engineering. We can use Python package as a useful tool for statistical engineering. This paper shows applications of Python package for statistical engineering and suggests a total Python projects for statistical engineering.

12
권호별 보기
같은 권호 수록 논문
| | | | 다운로드

KCI등재

1고차원 대용량 자료분석의 현재 동향

저자 : 장원철 ( Woncheol Jang ) , 김광수 ( Gwangsu Kim ) , 김정연 ( Joungyoun Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 999-1005 (7 pages)

다운로드

(기관인증 필요)

초록보기

빅 데이터의 출현은 여러가지 과학적 난제에 대답 할 수 있는 기회를 제공하지만 흥미로운 도전을 또한 제공한다. 이러한 빅데이터의 주요 특징으로 “고차원"과 “대용량"을 들 수가 있다. 본 논문은 이러한 두 가지 특징에 동반되는 다음과 같은 도전문제에 대한 개요를 제시한다 : (1) 고차원 자료에서의 소음 축적과 위 상관 관계; (ⅱ) 대용량자료분석을 위한 계산 확장성. 또한 본 논문에서는 재난예측, 디지털 인문학과 세이버메트릭스 등 다양한 분야에서 빅 데이터의 다양한 응용사례를 제공한다.

KCI등재

2`빅데이터` 분석 기반 한국사 연구의 현황과 가능성: 디지털 역사학의 시작

저자 : 이상국 ( Sangkuk Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1007-1023 (17 pages)

다운로드

(기관인증 필요)

초록보기

본 글은 역사학, 그 중에서 한국사 연구에서 활용 가능한 빅데이터 분석 방법론을 모색하고, 이를 활용한 `디지털 역사학`의 가능성을 검토하는 것을 목적으로 한다. 방대한 `한국사 빅데이터`를 활용한 한국사 연구를 위해서는 기존의 질적분석 방법론뿐만 아니라 양적분석 방법론이 모색되어야 한다. 이를 위해서는 다양한 학문 분야와의 학제 간 융합연구가 요청된다. 본 글에서는 `한국사 빅데이터`를 활용한 다양한 융합연구의 출현을 고대하면서, 학제 간 융합연구의 연구방법론을 제안하고, 이를 적용한 연구의 한 사례를 소개하였다. 즉, 문장의 의미를 분석하는 텍스트분석방법으로 `한국사 빅데이터`에서 원하는 정보를 추출한다면, 양적분석 방법론의 단점으로 지적되는 `행간의 의미읽기의 부재`를 점차 보완해 갈 수 있을 것이다. 그리고 이러한 방법론으로 구축한 데이터베이스를 바탕으로 준지도 학습(Semi-Supervised Learning) 방법론을 적용할 경우, 사료가 충분하지 않은 전근대 한국사의 역사적 인물과 사건들을 분석하는데 유용하게 활용될 것으로 기대된다. 분석 결과를 직관적으로 보여주는 시각화를 통해서도 평면적 연구에서 찾아내지 못한 역사적 사실들을 밝혀낼 수 있을 것이다. 이제 `디지털 역사학`의 서막이 오른 것이다.

KCI등재

3기술의 진보와 혁신, 그리고 사회변화: 특허빅데이터를 이용한 정량적 분석

저자 : 김용대 ( Yongdai Kim ) , 정상조 ( Sang Jo Jong ) , 장원철 ( Woncheol Jang ) , 이종수 ( Jongsu Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1025-1039 (15 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 특허빅데이터를 분석하여 기술적 혁신과 사회변화의 관계를 규명하는 다양한 방법에 대하여 소개를 한다. 특히, 미국특허청에 1985년부터 2015년까지 등록된 4백만개 이상의 특허자료를 분석하였다. 먼저, 특허법의 변천사를 살펴보고 특허법의 발전이 특허활동에 미차는 영향에 대해서 살펴보았다. 두 번째로는, 국가별 기술군별 등록특허수를 바탕으로 군집분석을 이용하여 기술혁신 패턴이 비슷한 국가들로 군집을 만들고 각 군집의 기술혁신특징들을 살펴보았다. 세번째로는 특허간의 인용정보를 바탕으로 특허간의 네트워크를 구축하고 page-rank 알고리즘을 이용하여 주요특허를 탐지하는 방법을 설명하였다. 마지막으로, 정준상관분석을 이용하여 기술혁신과 사회변화와의 관계를 규명하였다.

KCI등재

4마이크로데이터 공표를 위한 통계적 노출제어 방법론 고찰

저자 : 박민정 ( Min-jeong Park ) , 김항준 ( Hang J. Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1041-1059 (19 pages)

다운로드

(기관인증 필요)

초록보기

학술 연구나 정책 입안 등을 위한 심층적 자료 활용의 확대는 동시에 개별 정보 노출에 대한 염려도 증가시킨다. 때문에 최근 이십여 년 간 통계적 노출제어(정보보호) 분야에서 많은 논문들이 발표되었다. 본 논문은 그러한 연구 내용들을 정리하여 국내 통계인들과 기관들에게 소개하고자 한다. 주요 내용으로 국소통합이나 잡음추가와 같은 전통적인 매스킹 기법 뿐만 아니라, 온라인 자료 분석 시스템에서의 정보보호 처리, 차등정보보호를 통한 노출제어 및 재현자료를 활용한 정보보호 대안 모색에 대해 다룬다. 또한 각각의 주제에 대한 방법론 소개와 함께 활용 사례 및 장단점을 논의하였다. 본 논문이 실제적인 통계적 노출제어 문제를 고민하는 통계인들에게 도움이 되기를 바란다.

KCI등재

5고차원 대용량 자료의 시각화에 대한 고찰

저자 : 이은경 ( Eun-kyung Lee ) , 황나영 ( Nayoung Hwang ) , 이윤동 ( Yoondong Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1061-1075 (15 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 고차원 대용량 자료의 시각화에서 발생할 수 있는 문제점들을 살펴보고 이에 대하여 개발된 방법들에 대하여 논의하였다. 고차원 자료의 경우 2차원 공간상에 표현하기 위하여 중요 변수를 선택해야하며 다양한 시각적 표현 속성과 다면화 방법을 이용하여 좀 더 많은 변수들을 표현할 수 있었다. 또한 관심있는 뷰를 보이는 낮은 차원을 찾는 사영추정방법을 이용할 수 있다. 대용량 자료에서는 점들이 겹쳐지는 문제점을 흩트림과 알파 블렌딩 등을 이용하여 해결할 수 있었다. 또한 고차원 대용량 자료의 탐색을 위하여 개발된 R 패키지인 tabplot과 scagnostics, 그리고 대화형 웹 그래프를 위한 다양한 형태의 R 패키지들을 살펴보았다.

KCI등재

6Apache Spark를 활용한 대용량 데이터의 처리

저자 : 고세윤 ( Seyoon Ko ) , 원중호 ( Joong-ho Won )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1077-1094 (18 pages)

다운로드

(기관인증 필요)

초록보기

아파치 스파크는 빠르고 범용성이 뛰어난 클러스터 컴퓨팅 패키지로, 복구 가능한 분산 데이터셋이라는 새로운 추상화를 통해 데이터를 인메모리에 유지하면서도 결함 감내성을 얻을 수 있는 방법을 제공한다. 이러한 추상화는 하드디스크에 직접 데이터를 읽고 쓰는 방식으로 결함 감내성을 제공하는 기존의 대표적인 대용량 데이터 분석 기술인 맵리듀스 프레임워크에 비해 상당한 속도 향상을 거두었다. 특히 로지스틱 회귀 분석이나 K-평균 군집화와 같은 반복적인 기계 학습 알고리즘이나 사용자가 실시간으로 데이터에 관한 질의를 하는 대화형 자료 분석에서 스파크는 매우 효율적인 성능을 보인다. 뿐만 아니라, 높은 범용성을 바탕으로 하여 기계 학습, 스트리밍 자료 처리, SQL, 그래프 자료 처리와 같은 다양한 고수준 라이브러리를 제공한다. 이 논문에서는 스파크의 개념과 프로그래밍 모형에 대해 소개하고, 이를 통해 몇 가지 통계 분석 알고리즘을 구현하는 방법에 대해 소개한다. 아울러, 스파크에서 제공하는 기계 학습 라이브러리인 MLlib과 R 언어 인터페이스인 SparkR에 대해 다룬다.

KCI등재

7분위수 회귀나무를 이용한 변수선택 방법 연구

저자 : 장영재 ( Youngjae Chang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1095-1106 (12 pages)

다운로드

(기관인증 필요)

초록보기

Koenker 등 (1978)에 의해 제안 된 분위수 회귀분석법은 독립변수들이 주어졌을 때, 종속변수의 조건부 분위수에 초점을 맞추어 독립변수들과 종속변수의 해당 특정 분위수와의 관계를 분석하는 방법이다. 선형프로그래밍법 등을 이용한 분위수 회귀의 추정 과정을 생각해 볼 때, 고차원 대용량 자료의 경우에는 모형 적합에 어려움을 겪을 수 밖에 없다. 따라서 분위수 회귀의 문제에 있어서도 차원 축소의 문제, 조금 더 폭을 좁혀 생각해보면 변수선택의 문제를 통해 의사 결정에 영향을 미치는 주요 요인들을 파악하거나 적절한 규모의 모형을 적합하는 과정이 중요하다고 할 수 있다. 본 논문에서는 분위수 회귀의 변수선택의 문제를 보다 직관적이고 간단하게 해결하기 위한 방법으로서 회귀나무 모형을 응용하여 한국야구위원회에 등록된 선수들의 연봉과 기록 데이터를 분석해 보았다. 분석 결과, 각 분위수 별로 소수의 주요 변수가 선택되어 차원축소의 효과를 얻을 수 있었다. 또한 해당 분위수별로 선택된 변수도 해석상 의미 있는 것으로 평가할 수 있었다.

KCI등재

8천문학에서의 대용량 자료 분석

저자 : 신민수 ( Min-su Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1107-1116 (10 pages)

다운로드

(기관인증 필요)

초록보기

최근의 탐사 천문학 관측으로부터 대용량 관측 자료가 획득되면서, 기존의 일상적인 자료 분석 방법에 큰 변화가 있었다. 고전적인 통계적인 추론과 더불어 기계학습 방법들이, 자료의 표준화로부터 물리적인 모델을 추론하는 단계까지 자료 분석의 전 과정에서 활용되어 왔다. 적은 비용으로 대형 검출 기기들을 이용할 수 있게 되고, 더불어서 고속의 컴퓨터 네트워크를 통해서 대용량의 자료들을 쉽게 공유할 수 있게 되면서, 기존의 다양한 천문학 자료 분석의 문제들에 대해서 기계학습을 활용하는 것이 보편화되고 있다. 일반적으로 대용량 천문학 자료의 분석은, 자료의 시간과 공간 분포가 가지는 비 균질성 때문에 야기되는 효과를 고려해야 하는 문제를 가진다. 오늘날 증가하는 자료의 규모는 자연스럽게 기계학습의 활용과 더불어 병렬 분산 컴퓨팅을 필요로 하고 있다. 그러나 이러한 병렬 분산 분석환경의 일반적인 자료 분석에서의 활용은 아직 활발하지 않은 상황이다. 천문학에서 기계학습을 사용하는데 있어서, 충분한 학습 자료를 관측을 통해 획득하는 것이 어렵고, 그래서 다양한 출처의 자료를 모아서 학습 자료를 수집해야 하는 것이 일반적이다. 따라서 앞으로 준 지도학습이나 앙상블 학습과 같은 방법의 역할이 중요해 질 것으로 예상된다.

KCI등재

9그룹 구조를 갖는 고차원 유전체 자료 분석을 위한 네트워크 기반의 규제화 방법

저자 : 김기풍 ( Kipoong Kim ) , 최지윤 ( Jiyun Choi ) , 선호근 ( Hokeun Sun )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1117-1128 (12 pages)

다운로드

(기관인증 필요)

초록보기

고차원 유전체 자료를 사용하는 유전체 연관 분석에서는 벌점 우도함수 기반의 회귀계수 규제화 방법이 질병 및 표현형질에 영향을 주는 유전자를 발견하는데 많이 이용된다. 특히, 네트워크 기반의 규제화 방법은 유전체 연관성 연구에서의 유전체 경로나 신호 전달 경로와 같은 생물학적 네트워크 정보를 사용할 수 있으므로, Lasso나 Elastic-net과 같은 다른 규제화 방법들과 비교했을 경우 네트워크 기반의 규제화 방법이 보다 더 정확하게 관련 유전자들을 찾아낼 수 있다는 장점을 가지고 있다. 그러나 네트워크 기반의 규제화 방법은 그룹 구조를 갖고 있는 고차원유전체 자료에는 적용시킬 수 없다는 문제점을 가지고 있다. 실제 SNP 데이터와 DNA 메틸화 데이터처럼 대다수의 고차원 유전체 자료는 그룹 구조를 가지고 있으므로 본 논문에서는 이러한 그룹 구조를 가지고 있는 고차원 유전체 자료를 분석하고자 네트워크 기반의 규제화 방법에 주성분 분석(principal component analysis; PCA)과 부분최소 자승법(partial least square; PLS)과 같은 차원 축소 방법을 결합시키는 새로운 분석 방법을 제안하고자 한다. 새롭게 제안한 분석 방법은 몇 가지의 모의실험을 통해 변수 선택의 우수성을 입증하였으며, 또한 152명의 정상인들과 123명의 난소암 환자들로 구성된 고차원 DNA 메틸화 자료 분석에도 사용하였다. DNA 메틸화 자료는 대략 20,000여개의 CpG sites가 12,770개의 유전자에 포함되어 있는 그룹 구조를 가지고 있으며 Illumina Infinium Human Methylation27 BeadChip으로부터 생성되었다. 분석 결과 우리는 실제로 암에 연관된 몇 가지의 유전자를 발견할 수 있었다.

KCI등재

10뇌기능 연결성 모델링을 위한 통계적 방법

저자 : 김성호 ( Sung-ho Kim ) , 박창현 ( Chang-hyun Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1129-1145 (17 pages)

다운로드

(기관인증 필요)

초록보기

뇌기능 연결성 문제는 뇌의 신경역학적 현상과 밀접한 관련이 있다는 의미에서 뇌과학에서 주요 연구주제이다. 본 논문에서는 기능적 자기공명영상(fMRI)자료를 뇌활동에 대한 반응 자료의 주요 형태로써 선택하였는데, 이fMRI자료는 높은 해상도 때문에 뇌과학 연구에서 선호되는 자료 형태이다. 뇌활동에 대한 생리학적 반응을 측정해서 자료로 사용한다는 전제하에서 뇌의 기능적 연결성을 분석하는 방법들을 고찰하였다. 여기서의 전제란 상태공간 및 측정 모형을 다룬다는것을 의미하는데, 여기서 상태공간 모형은 뇌신경역학을 표현한다고 가정한다. 뇌기능영상자료의 분석은 무엇을 측정하였느냐에 따라서 분석방법과 그 해석이 조금씩 달라진다. 실제 fMRI자료를 고차원 자기회귀모형을 적용해서 분석한 결과를 논문에 포함하였는데, 이 결과를 통해서 서로 다른 도형문제를 푸는데 서로 다른 뇌신경 역학관계가 요구된다는 것을 엿볼 수 있었다.

12

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기