간행물

한국통계학회> 응용통계연구

응용통계연구 update

The Korean Journal of Applied Statistics

  • : 한국통계학회
  • : 자연과학분야  >  통계학
  • : KCI등재
  • :
  • : 연속간행물
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • :

수록정보
29권6호(2016) |수록논문 수 : 11
간행물 제목
29권6호(2016년) 수록논문
권호별 수록 논문
| | | |

KCI등재

1고차원 대용량 자료분석의 현재 동향

저자 : 장원철 ( Woncheol Jang ) , 김광수 ( Gwangsu Kim ) , 김정연 ( Joungyoun Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 999-1005 (7 pages)

다운로드

(기관인증 필요)

초록보기

빅 데이터의 출현은 여러가지 과학적 난제에 대답 할 수 있는 기회를 제공하지만 흥미로운 도전을 또한 제공한다. 이러한 빅데이터의 주요 특징으로 “고차원"과 “대용량"을 들 수가 있다. 본 논문은 이러한 두 가지 특징에 동반되는 다음과 같은 도전문제에 대한 개요를 제시한다 : (1) 고차원 자료에서의 소음 축적과 위 상관 관계; (ⅱ) 대용량자료분석을 위한 계산 확장성. 또한 본 논문에서는 재난예측, 디지털 인문학과 세이버메트릭스 등 다양한 분야에서 빅 데이터의 다양한 응용사례를 제공한다.


The advent of big data brings the opportunity to answer many open scientific questions but also presents some interesting challenges. Main features of contemporary datasets are the high dimensionality and massive sample size. In this paper, we give an overview of major challenges caused by these two features: (1) noise accumulation and spurious correlations in high dimensional data; (ii) computational scalability for massive data. We also provide applications of big data in various fields including forecast of disasters, digital humanities and sabermetrics.

KCI등재

2`빅데이터` 분석 기반 한국사 연구의 현황과 가능성: 디지털 역사학의 시작

저자 : 이상국 ( Sangkuk Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1007-1023 (17 pages)

다운로드

(기관인증 필요)

초록보기

본 글은 역사학, 그 중에서 한국사 연구에서 활용 가능한 빅데이터 분석 방법론을 모색하고, 이를 활용한 `디지털 역사학`의 가능성을 검토하는 것을 목적으로 한다. 방대한 `한국사 빅데이터`를 활용한 한국사 연구를 위해서는 기존의 질적분석 방법론뿐만 아니라 양적분석 방법론이 모색되어야 한다. 이를 위해서는 다양한 학문 분야와의 학제 간 융합연구가 요청된다. 본 글에서는 `한국사 빅데이터`를 활용한 다양한 융합연구의 출현을 고대하면서, 학제 간 융합연구의 연구방법론을 제안하고, 이를 적용한 연구의 한 사례를 소개하였다. 즉, 문장의 의미를 분석하는 텍스트분석방법으로 `한국사 빅데이터`에서 원하는 정보를 추출한다면, 양적분석 방법론의 단점으로 지적되는 `행간의 의미읽기의 부재`를 점차 보완해 갈 수 있을 것이다. 그리고 이러한 방법론으로 구축한 데이터베이스를 바탕으로 준지도 학습(Semi-Supervised Learning) 방법론을 적용할 경우, 사료가 충분하지 않은 전근대 한국사의 역사적 인물과 사건들을 분석하는데 유용하게 활용될 것으로 기대된다. 분석 결과를 직관적으로 보여주는 시각화를 통해서도 평면적 연구에서 찾아내지 못한 역사적 사실들을 밝혀낼 수 있을 것이다. 이제 `디지털 역사학`의 서막이 오른 것이다.


This paper explores the conditions and potential of newly designed and tried methodology of big data anal-ysis that apply to Korean history subject matter. In order to advance them, we need to pay more attention to quantitative analysis methodologies over pre-existing qualitative analysis. To obtain our new challenge, I propose `digital history` methods along with associated disciplines such as linguistics and computer sci-ence, data science and statistics, and visualization techniques. As one example, I apply interdisciplinary convergence approaches to the principle and mechanism of elite reproduction during the Korean medieval age. I propose how to compensate for a lack of historical material by applying a semi-supervised learning method, how to create a database that utilizes text-mining techniques, how to analyze quantitative data with statistical methods, and how to indicate analytical outcomes with intuitive visualization.

KCI등재

3기술의 진보와 혁신, 그리고 사회변화: 특허빅데이터를 이용한 정량적 분석

저자 : 김용대 ( Yongdai Kim ) , 정상조 ( Sang Jo Jong ) , 장원철 ( Woncheol Jang ) , 이종수 ( Jongsu Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1025-1039 (15 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 특허빅데이터를 분석하여 기술적 혁신과 사회변화의 관계를 규명하는 다양한 방법에 대하여 소개를 한다. 특히, 미국특허청에 1985년부터 2015년까지 등록된 4백만개 이상의 특허자료를 분석하였다. 먼저, 특허법의 변천사를 살펴보고 특허법의 발전이 특허활동에 미차는 영향에 대해서 살펴보았다. 두 번째로는, 국가별 기술군별 등록특허수를 바탕으로 군집분석을 이용하여 기술혁신 패턴이 비슷한 국가들로 군집을 만들고 각 군집의 기술혁신특징들을 살펴보았다. 세번째로는 특허간의 인용정보를 바탕으로 특허간의 네트워크를 구축하고 page-rank 알고리즘을 이용하여 주요특허를 탐지하는 방법을 설명하였다. 마지막으로, 정준상관분석을 이용하여 기술혁신과 사회변화와의 관계를 규명하였다.


We introduce various methods to investigate the relations between innovation of technology and social changes by analyzing more than 4 millions of patents registered at United States Patent and Trademark Office(USPTO) from year 1985 to 2015. First, we review the history of patent law and its relation with the quantitative changes of registered patents. Second, we investigate the differences of technical innovations of several countries by use of cluster analysis based on the numbers of registered patents at several technical sectors. Third, we introduce the PageRank algorithm to define important nodes in network type data and apply the PageRank algorithm to find important technical sectors based on citation information between registered patents. Finally, we explain how to use the canonical correlation analysis to study relationship between technical innovation and social changes.

KCI등재

4마이크로데이터 공표를 위한 통계적 노출제어 방법론 고찰

저자 : 박민정 ( Min-jeong Park ) , 김항준 ( Hang J. Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1041-1059 (19 pages)

다운로드

(기관인증 필요)

초록보기

학술 연구나 정책 입안 등을 위한 심층적 자료 활용의 확대는 동시에 개별 정보 노출에 대한 염려도 증가시킨다. 때문에 최근 이십여 년 간 통계적 노출제어(정보보호) 분야에서 많은 논문들이 발표되었다. 본 논문은 그러한 연구 내용들을 정리하여 국내 통계인들과 기관들에게 소개하고자 한다. 주요 내용으로 국소통합이나 잡음추가와 같은 전통적인 매스킹 기법 뿐만 아니라, 온라인 자료 분석 시스템에서의 정보보호 처리, 차등정보보호를 통한 노출제어 및 재현자료를 활용한 정보보호 대안 모색에 대해 다룬다. 또한 각각의 주제에 대한 방법론 소개와 함께 활용 사례 및 장단점을 논의하였다. 본 논문이 실제적인 통계적 노출제어 문제를 고민하는 통계인들에게 도움이 되기를 바란다.


The increasing demand from researchers and policy makers for microdata has also increased related privacy and security concerns. During the past two decades, a large volume of literature on statistical disclosure control (SDC) has been published in international journals. This review paper introduces relatively recent SDC approaches to the communities of Korean statisticians and statistical agencies. In addition to the traditional masking techniques (such as microaggregation and noise addition), we introduce an online analytic system, differential privacy, and synthetic data. For each approach, the application example (with pros and cons, as well as methodology) is highlighted, so that the paper can assist statical agencies that seek a practical SDC approach.

KCI등재

5고차원 대용량 자료의 시각화에 대한 고찰

저자 : 이은경 ( Eun-kyung Lee ) , 황나영 ( Nayoung Hwang ) , 이윤동 ( Yoondong Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1061-1075 (15 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 고차원 대용량 자료의 시각화에서 발생할 수 있는 문제점들을 살펴보고 이에 대하여 개발된 방법들에 대하여 논의하였다. 고차원 자료의 경우 2차원 공간상에 표현하기 위하여 중요 변수를 선택해야하며 다양한 시각적 표현 속성과 다면화 방법을 이용하여 좀 더 많은 변수들을 표현할 수 있었다. 또한 관심있는 뷰를 보이는 낮은 차원을 찾는 사영추정방법을 이용할 수 있다. 대용량 자료에서는 점들이 겹쳐지는 문제점을 흩트림과 알파 블렌딩 등을 이용하여 해결할 수 있었다. 또한 고차원 대용량 자료의 탐색을 위하여 개발된 R 패키지인 tabplot과 scagnostics, 그리고 대화형 웹 그래프를 위한 다양한 형태의 R 패키지들을 살펴보았다.


In this paper, we discuss various methods to visualize high dimensional large-scale data and review some is-sues associated with visualizing this type of data. High-dimensional data can be presented in a 2-dimensional space with a few selected important variables. We can visualize more variables with various aesthetic at-tributes in graphics or use the projection pursuit method to find an interesting low-dimensional view. For large-scale data, we discuss jittering and alpha blending methods that solve any problem with overlap-ping points. We also review the R package tabplot, scagnostics, and other R packages for interactive web application with visualization.

KCI등재

6Apache Spark를 활용한 대용량 데이터의 처리

저자 : 고세윤 ( Seyoon Ko ) , 원중호 ( Joong-ho Won )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1077-1094 (18 pages)

다운로드

(기관인증 필요)

초록보기

아파치 스파크는 빠르고 범용성이 뛰어난 클러스터 컴퓨팅 패키지로, 복구 가능한 분산 데이터셋이라는 새로운 추상화를 통해 데이터를 인메모리에 유지하면서도 결함 감내성을 얻을 수 있는 방법을 제공한다. 이러한 추상화는 하드디스크에 직접 데이터를 읽고 쓰는 방식으로 결함 감내성을 제공하는 기존의 대표적인 대용량 데이터 분석 기술인 맵리듀스 프레임워크에 비해 상당한 속도 향상을 거두었다. 특히 로지스틱 회귀 분석이나 K-평균 군집화와 같은 반복적인 기계 학습 알고리즘이나 사용자가 실시간으로 데이터에 관한 질의를 하는 대화형 자료 분석에서 스파크는 매우 효율적인 성능을 보인다. 뿐만 아니라, 높은 범용성을 바탕으로 하여 기계 학습, 스트리밍 자료 처리, SQL, 그래프 자료 처리와 같은 다양한 고수준 라이브러리를 제공한다. 이 논문에서는 스파크의 개념과 프로그래밍 모형에 대해 소개하고, 이를 통해 몇 가지 통계 분석 알고리즘을 구현하는 방법에 대해 소개한다. 아울러, 스파크에서 제공하는 기계 학습 라이브러리인 MLlib과 R 언어 인터페이스인 SparkR에 대해 다룬다.


Apache Spark is a fast and general-purpose cluster computing package. It provides a new abstraction named resilient distributed dataset, which is capable of support for fault tolerance while keeping data in memory. This type of abstraction results in a significant speedup compared to legacy large-scale data framework, MapReduce. In particular, Spark framework is suitable for iterative machine learning applications such as logistic regression and K-means clustering, and interactive data querying. Spark also supports high level libraries for various applications such as machine learning, streaming data processing, database querying and graph data mining thanks to its versatility. In this work, we introduce the concept and programming model of Spark as well as show some implementations of simple statistical computing applications. We also review the machine learning package MLlib, and the R language interface SparkR.

KCI등재

7분위수 회귀나무를 이용한 변수선택 방법 연구

저자 : 장영재 ( Youngjae Chang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1095-1106 (12 pages)

다운로드

(기관인증 필요)

초록보기

Koenker 등 (1978)에 의해 제안 된 분위수 회귀분석법은 독립변수들이 주어졌을 때, 종속변수의 조건부 분위수에 초점을 맞추어 독립변수들과 종속변수의 해당 특정 분위수와의 관계를 분석하는 방법이다. 선형프로그래밍법 등을 이용한 분위수 회귀의 추정 과정을 생각해 볼 때, 고차원 대용량 자료의 경우에는 모형 적합에 어려움을 겪을 수 밖에 없다. 따라서 분위수 회귀의 문제에 있어서도 차원 축소의 문제, 조금 더 폭을 좁혀 생각해보면 변수선택의 문제를 통해 의사 결정에 영향을 미치는 주요 요인들을 파악하거나 적절한 규모의 모형을 적합하는 과정이 중요하다고 할 수 있다. 본 논문에서는 분위수 회귀의 변수선택의 문제를 보다 직관적이고 간단하게 해결하기 위한 방법으로서 회귀나무 모형을 응용하여 한국야구위원회에 등록된 선수들의 연봉과 기록 데이터를 분석해 보았다. 분석 결과, 각 분위수 별로 소수의 주요 변수가 선택되어 차원축소의 효과를 얻을 수 있었다. 또한 해당 분위수별로 선택된 변수도 해석상 의미 있는 것으로 평가할 수 있었다.


The quantile regression method proposed by Koenker et al. (1978) focuses on conditional quantiles given by independent variables, and analyzes the relationship between response variable and independent variables at the given quantile. Considering the linear programming used for the estimation of quantile regression coefficients, the model fitting job might be difficult when large data are introduced for analysis. Therefore, dimension reduction (or variable selection) could be a good solution for the quantile regression of large data sets. Regression tree methods are applied to a variable selection for quantile regression in this paper. Real data of Korea Baseball Organization (KBO) players are analyzed following the variable selection approach based on the regression tree. Analysis result shows that a few important variables are selected, which are also meaningful for the given quantiles of salary data of the baseball players.

KCI등재

8천문학에서의 대용량 자료 분석

저자 : 신민수 ( Min-su Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1107-1116 (10 pages)

다운로드

(기관인증 필요)

초록보기

최근의 탐사 천문학 관측으로부터 대용량 관측 자료가 획득되면서, 기존의 일상적인 자료 분석 방법에 큰 변화가 있었다. 고전적인 통계적인 추론과 더불어 기계학습 방법들이, 자료의 표준화로부터 물리적인 모델을 추론하는 단계까지 자료 분석의 전 과정에서 활용되어 왔다. 적은 비용으로 대형 검출 기기들을 이용할 수 있게 되고, 더불어서 고속의 컴퓨터 네트워크를 통해서 대용량의 자료들을 쉽게 공유할 수 있게 되면서, 기존의 다양한 천문학 자료 분석의 문제들에 대해서 기계학습을 활용하는 것이 보편화되고 있다. 일반적으로 대용량 천문학 자료의 분석은, 자료의 시간과 공간 분포가 가지는 비 균질성 때문에 야기되는 효과를 고려해야 하는 문제를 가진다. 오늘날 증가하는 자료의 규모는 자연스럽게 기계학습의 활용과 더불어 병렬 분산 컴퓨팅을 필요로 하고 있다. 그러나 이러한 병렬 분산 분석환경의 일반적인 자료 분석에서의 활용은 아직 활발하지 않은 상황이다. 천문학에서 기계학습을 사용하는데 있어서, 충분한 학습 자료를 관측을 통해 획득하는 것이 어렵고, 그래서 다양한 출처의 자료를 모아서 학습 자료를 수집해야 하는 것이 일반적이다. 따라서 앞으로 준 지도학습이나 앙상블 학습과 같은 방법의 역할이 중요해 질 것으로 예상된다.


Recent astronomical survey observations have produced substantial amounts of data as well as completely changed conventional methods of analyzing astronomical data. Both classical statistical inference and mod-ern machine learning methods have been used in every step of data analysis that range from data calibration to inferences of physical models. We are seeing the growing popularity of using machine learning methods in classical problems of astronomical data analysis due to low-cost data acquisition using cheap large-scale detectors and fast computer networks that enable us to share large volumes of data. It is common to con-sider the effects of inhomogeneous spatial and temporal coverage in the analysis of big astronomical data. The growing size of the data requires us to use parallel distributed computing environments as well as ma-chine learning algorithms. Distributed data analysis systems have not been adopted widely for the general analysis of massive astronomical data. Gathering adequate training data is expensive in observation and learning data are generally collected from multiple data sources in astronomy; therefore, semi-supervised and ensemble machine learning methods will become important for the analysis of big astronomical data.

KCI등재

9그룹 구조를 갖는 고차원 유전체 자료 분석을 위한 네트워크 기반의 규제화 방법

저자 : 김기풍 ( Kipoong Kim ) , 최지윤 ( Jiyun Choi ) , 선호근 ( Hokeun Sun )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1117-1128 (12 pages)

다운로드

(기관인증 필요)

초록보기

고차원 유전체 자료를 사용하는 유전체 연관 분석에서는 벌점 우도함수 기반의 회귀계수 규제화 방법이 질병 및 표현형질에 영향을 주는 유전자를 발견하는데 많이 이용된다. 특히, 네트워크 기반의 규제화 방법은 유전체 연관성 연구에서의 유전체 경로나 신호 전달 경로와 같은 생물학적 네트워크 정보를 사용할 수 있으므로, Lasso나 Elastic-net과 같은 다른 규제화 방법들과 비교했을 경우 네트워크 기반의 규제화 방법이 보다 더 정확하게 관련 유전자들을 찾아낼 수 있다는 장점을 가지고 있다. 그러나 네트워크 기반의 규제화 방법은 그룹 구조를 갖고 있는 고차원유전체 자료에는 적용시킬 수 없다는 문제점을 가지고 있다. 실제 SNP 데이터와 DNA 메틸화 데이터처럼 대다수의 고차원 유전체 자료는 그룹 구조를 가지고 있으므로 본 논문에서는 이러한 그룹 구조를 가지고 있는 고차원 유전체 자료를 분석하고자 네트워크 기반의 규제화 방법에 주성분 분석(principal component analysis; PCA)과 부분최소 자승법(partial least square; PLS)과 같은 차원 축소 방법을 결합시키는 새로운 분석 방법을 제안하고자 한다. 새롭게 제안한 분석 방법은 몇 가지의 모의실험을 통해 변수 선택의 우수성을 입증하였으며, 또한 152명의 정상인들과 123명의 난소암 환자들로 구성된 고차원 DNA 메틸화 자료 분석에도 사용하였다. DNA 메틸화 자료는 대략 20,000여개의 CpG sites가 12,770개의 유전자에 포함되어 있는 그룹 구조를 가지고 있으며 Illumina Infinium Human Methylation27 BeadChip으로부터 생성되었다. 분석 결과 우리는 실제로 암에 연관된 몇 가지의 유전자를 발견할 수 있었다.


In genetic association studies with high-dimensional genomic data, regularization procedures based on pe-nalized likelihood are often applied to identify genes or genetic regions associated with diseases or traits. A network-based regularization procedure can utilize biological network information (such as genetic path-ways and signaling pathways in genetic association studies) with an outstanding selection performance over other regularization procedures such as lasso and elastic-net. However, network-based regularization has a limitation because cannot be applied to high-dimension genomic data with a group structure. In this article, we propose to combine data dimension reduction techniques such as principal component analysis and a partial least square into network-based regularization for the analysis of high-dimensional genomic data with a group structure. The selection performance of the proposed method was evaluated by extensive simulation studies. The proposed method was also applied to real DNA methylation data generated from Illumina Infinium HumanMethylation27K BeadChip, where methylation beta values of around 20,000 CpG sites over 12,770 genes were compared between 123 ovarian cancer patients and 152 healthy controls. This analysis was also able to indicate a few cancer-related genes.

KCI등재

10뇌기능 연결성 모델링을 위한 통계적 방법

저자 : 김성호 ( Sung-ho Kim ) , 박창현 ( Chang-hyun Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 29권 6호 발행 연도 : 2016 페이지 : pp. 1129-1145 (17 pages)

다운로드

(기관인증 필요)

초록보기

뇌기능 연결성 문제는 뇌의 신경역학적 현상과 밀접한 관련이 있다는 의미에서 뇌과학에서 주요 연구주제이다. 본 논문에서는 기능적 자기공명영상(fMRI)자료를 뇌활동에 대한 반응 자료의 주요 형태로써 선택하였는데, 이fMRI자료는 높은 해상도 때문에 뇌과학 연구에서 선호되는 자료 형태이다. 뇌활동에 대한 생리학적 반응을 측정해서 자료로 사용한다는 전제하에서 뇌의 기능적 연결성을 분석하는 방법들을 고찰하였다. 여기서의 전제란 상태공간 및 측정 모형을 다룬다는것을 의미하는데, 여기서 상태공간 모형은 뇌신경역학을 표현한다고 가정한다. 뇌기능영상자료의 분석은 무엇을 측정하였느냐에 따라서 분석방법과 그 해석이 조금씩 달라진다. 실제 fMRI자료를 고차원 자기회귀모형을 적용해서 분석한 결과를 논문에 포함하였는데, 이 결과를 통해서 서로 다른 도형문제를 푸는데 서로 다른 뇌신경 역학관계가 요구된다는 것을 엿볼 수 있었다.


Functional neuro-connectivity is one of the main issues in brain science in the sense that it is closely related to neurodynamics in the brain. In the paper, we choose fMRI as a main form of response data to brain activity due to its high resolution. We review methods for analyzing functional neuro-connectivity assuming that measurements are made on physiological responses to neuron activation. This means that we deal with a state-space and measurement model, where the state-space model is assumed to represent neurodynamics. Analysis methods and their interpretation should vary subject to what was measured. We included analysis results of real fMRI data by applying a high-dimensional autoregressive model, which indicated that different neurodynamics were required for solving different types of geometric problems.

12

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기