간행물

한국통계학회> 응용통계연구

응용통계연구 update

The Korean Journal of Applied Statistics

  • : 한국통계학회
  • : 자연과학분야  >  통계학
  • : KCI등재
  • :
  • : 연속간행물
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • :

수록정보
수록범위 : 1권1호(1987)~33권6호(2020) |수록논문 수 : 1,917
응용통계연구
33권6호(2020년 12월) 수록논문
최근 권호 논문
| | | |

KCI등재

1효율적인 통계 계산을 위한 파이썬 numba 라이브러리의 소개

저자 : 조윤상 ( Younsang Cho ) , 유동현 ( Donghyeon Yu ) , 손원 ( Won Son ) , 박선철 ( Seoncheol Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 33권 6호 발행 연도 : 2020 페이지 : pp. 665-682 (18 pages)

다운로드

(기관인증 필요)

초록보기

본 논문은 순수하게 파이썬 언어로 작성된 연산에 대하여 just-in-time (JIT) 컴파일을 적용하여 전체 계산 속도를 향상시킬 수 있는 numba 라이브러리에 대한 사용법과 응용에 대하여 소개한다. 실제 통계 계산 문제에 대한 numba 라이브러리의 적용에 대한 예제로 반복문 사용이 요구되는 통계 계산 문제들 중 순열 검정과 정규 혼합 분포의 모수 추정의 EM 알고리즘을 고려하였으며 순수한 파이썬 구문 및 반복문을 활용한 계산 시간과 numba를 활용한 계산 시간을 비교하여 numba 라이브러리 활용의 효율성을 수치적으로 제시하였다.


This paper introduces numba library in Python, which improves computational efficiency of the provided implemented code written by naive Python language by applying just-in-time (JIT) compilation. To apply just-in-time compilation, the numba only needs to use a decorator on a target Python function. We provide implementation examples with numba for the permutation test and the parameter estimation for Gaussian mixture distribution. We also numerically show the efficiency of numba by comparing the total computation times of the implementation using naive python and the implementation using numba for each application.

KCI등재

2mRMR과 수정된 입자군집화 방법을 이용한 다범주 분류를 위한 최적유전자집단 구성

저자 : 이선호 ( Sunho Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 33권 6호 발행 연도 : 2020 페이지 : pp. 683-696 (14 pages)

다운로드

(기관인증 필요)

초록보기

표본의 다범주 표현형을 예측하는데 사용되는 최적의 유전자집단이란 적은 수의 유전자로 표현형을 정확히 예측할 수 있는 유전자들의 모임이다. 특이발현유전자를 검색하는 통계량은 이미 여러 가지가 있고, K-평균 군집화를 곁들여 중복성이 적은 특이발현유전자들을 선택 가능하다. 이들을 바탕으로 적은 수로 정확하게 다범주 분류가 가능한 유전자집단을 구성할 수 있도록 수정한 입자최적화 방법을 제안한다. 널리 알려진 ALL 248례와 SRBCT 83례를 이용하여 제안된 방법으로 최적유전자집단을 찾을 수 있음을 보였다.


The aim of this research is to find an optimal gene set that provides highly accurate multi-class classification with a minimum number of genes. A two-stage procedure is proposed: Based on minimum redundancy and maximum relevance (mRMR) framework, several statistics to rank differential expression genes and K-means clustering to reduce redundancy between genes are used for data filtering procedure. And a particle swarm optimization is modified to select a small subset of informative genes. Two well known multi-class microarray data sets, ALL and SRBCT, are analyzed to indicate the effectiveness of this hybrid method.

KCI등재

3코로나-19에 따른 서울시 생활인구 변화와 동별 반응 차이 분석

저자 : 진주혜 ( Juhae Jin ) , 성병찬 ( Byeongchan Seong )

발행기관 : 한국통계학회 간행물 : 응용통계연구 33권 6호 발행 연도 : 2020 페이지 : pp. 697-712 (16 pages)

다운로드

(기관인증 필요)

초록보기

최근 20년간 세계적으로 새로운 전염병이 반복해서 등장해왔으며 코로나-19에 들어서는 일상에까지 큰 변화와 피해를 주고 있다. 이에 더해 앞으로도 새로운 전염병의 등장을 간과할 수 없게 되면서 경제 타격에 대응하기 위한 정책 발굴이 지속적으로 요구되고 있다. 이러한 상황에서 생활인구는 시민들의 생활 패턴 변화를 드러내는 중요한 지표이다. 본 논문에서는 코로나-19에 의한 일상의 변화를 유동인구 관점에서 감지 및 분류하여 시간적 및 사회환경적 특징을 분석한다. 시간 단위로 측정된 서울시 424개 행정동별 생활인구 데이터를 분류하기 위해 k-shape clustering을 사용하였고, 이후에는 각 군집에 개입분석, One-way ANOVA 등을 적용하여 코로나-19 진행 여파에 따른 군집별 특성 및 생활인구 변화 양상을 자세히 살펴보았다. 결론적으로 국내 코로나 환자 발생 전후의 인구 유출입 변동에 있어 각 군집별로 뚜렷한 특징을 확인하였으며, 코로나-19 관련 사건을 바탕으로 지정한 개입 시점에 대해서도 민감하게 반응하는 군집과 그렇지 않은 군집을 구분할 수 있었다.


New infectious diseases have broken out repeatedly across the world over the last 20 years; COVID-19 is causing drastic changes and damage to daily lives. Furthermore, as there is no denying that new epidemics will appear in the future, there is a continuous need to develop measures aimed towards responding to economic damage. Against this backdrop, the living population is an important indicator that shows changes in citizens' life patterns. This study analyzes time-based and socio-environmental characteristics by detecting and classifying changes in everyday life caused by COVID-19 from the perspective of the floating population. k-shape Clustering is used to classify living population data of each of the 424 dong's in Seoul measured by the hour; then by applying intervention analysis and One-way ANOVA, each cluster's characteristics and aspects of change in the living population occurring in the aftermath of COVID-19 are scrutinized. In conclusion, this study confirms each cluster's obvious characteristics in changes of population flows before and after the confirmation of coronavirus patients and distinguishes groups that reacted sensitively to the intervention times on the basis of COVID-related incidents from those that did not.

KCI등재

4분계점 비대칭과 멱변환 특징을 가진 비정상-변동성 모형

저자 : 최선우 ( Sun Woo Choi ) , 황선영 ( Sun Young Hwang ) , 이성덕 ( Sung Duck Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 33권 6호 발행 연도 : 2020 페이지 : pp. 713-722 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 금융시계열의 특징인 비대칭 변동성을 연구하고 있다. 멱변환을 동시에 고려한 멱변환-비대칭 GARCH 모형을 소개하고 있다. 변동성이 비정상인 모형을 다루고 있으며 오차항으로 표준정규분포와 더불어 표준화 t-분포도 고려하여 변동성 정상/비정상 조건을 제시하고 있다. 미국 주가 시계열인 다우지수 적용사례를 예시하였다.


Contrasted with the standard symmetric GARCH models, we consider a broad class of threshold-asymmetric models to analyse financial time series exhibiting asymmetric volatility. By further introducing power transformations, we add more flexibilities to the asymmetric class, thereby leading to power transformed and asymmetric volatility models. In particular, the paper is concerned with the nonstationary volatilities in which conditions for integrated volatility and explosive volatility are separately discussed. Dow Jones Industrial Average is analysed for illustration.

KCI등재

5Adaptive lasso를 이용하여 추세-정상시계열과 차분-정상시계열을 판별하는 방법에 대한 연구

저자 : 나옥경 ( Okyoung Na )

발행기관 : 한국통계학회 간행물 : 응용통계연구 33권 6호 발행 연도 : 2020 페이지 : pp. 723-738 (16 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 추세-정상시계열과 차분-정상시계열을 판별하는 방법에 대해 연구한다. 두 시계열 모형은 시계열적 특징, 충격의 지속성 여부, 시계열을 정상화시키는 방법 등이 모두 다르므로, 어떤 모형을 선택하냐에 따라 분석 방법이나 해석에 차이가 발생한다. 따라서 시계열 자료를 분석할 때 추세-정상성과 차분-정상성을 판별하는 것은 매우 중요한 일이다. 두 시계열을 구분하는 중요한 기준은 단위근의 존재 여부이므로, 단위근 검정 결과를 활용할 수 있다. 최근 연구 결과들을 살펴보면, 다양한 시계열 모형을 적합시킬 때 뿐만 아니라 비정상 자기회귀모형의 차분 차수를 결정할 때도 adaptive lasso와 같은 벌점화 추정방법을 도입, 사용하고 있다. 본 논문에서도 adaptive lasso를 이용하여 추세-정상시계열과 차분-정상시계열을 판별하는 방법을 제안, 연구를 진행하였다. 단위근 검정을 이용한 분류 방법과 adaptive lasso 추정량을 기초로 한 분류 방법에 대한 비교 모의실험을 수행하였고, 그 결과 추세-정상시계열이 참인 경우는 adaptive lasso 방법의 분류 정확도가 단위근 검정 방법보다 좀 더 우세하며, 차분-정상시계열의 경우에는 반대로 정확도가 떨어지는 것을 확인할 수 있었다.


In this paper, we study a method to discriminate between trend stationary and difference stationary processes. Since a crucial ingredient of this discrimination is to determine the existence of unit root, we can use a unit root testing strategy. So, we introduce a discrimination based on unit root testing and propose the method using the adaptive lasso. Our Monte Carlo simulation experiments show that the adaptive lasso improves the discrimination accuracy when the process is trend stationary, but has lower accuracy than unit root strategy where the process is difference stationary.

KCI등재

6서울 공공자전거 신규 대여소를 위한 수요량 예측 분석

저자 : 김예술 ( Yesool Kim ) , 박시온 ( Sion Park ) , 박건웅 ( Gunwoong Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 33권 6호 발행 연도 : 2020 페이지 : pp. 739-751 (13 pages)

다운로드

(기관인증 필요)

초록보기

서울시는 시민의 건강 증진과 이산화탄소 저감을 통한 저탄소 녹색성장 실현을 목표로 2015년부터 2020년 현재까지 공공자전거 대여소를 확장하고 있다. 매년 공공자전거에 대한 시민들의 접근성과 이용률이 증가하고 있으며, 이에 서울시는 수요와 접근성을 모두 고려한 공공자전거 대여소 신규 입지를 확장하고자 노력하고 있다. 공공자전거 대여소 위치는 주변 지형지물에 영향을 받으며, 수요량은 지역적 특성에 영향을 받으므로 이들을 고려한 신규 대여소 입지를 선정해야 할 필요성이 있다. 따라서 본 연구는 서울시 공공자전거의 새로운 입지 선정을 위하여 2019년 서울시 공공자전거 데이터와 지리정보체계, 대중교통, 인구 등의 데이터를 전처리하여 신규 대여소 거치가 가능한 장소를 선별하고, 랜덤 포레스트를 이용하여 신규 대여소의 이용량을 예측하였다. 이를 바탕으로 평균 경사도, 대중교통과의 거리, 특화 시설과의 거리, 하천과의 거리 등이 자전거 이용량에 영향을 미치는 주요한 요소임을 도출할 수 있었다. 본 결과는 신규 대여소 설치 지역을 결정하는데 객관적인 통계적 지표가 될 것으로 기대한다.


Seoul public bike program facilitates access to bicycles and offers potential for greater mobility and health for users. Furthermore, it would have positive impacts on transport congestion, energy use, and the environment. Hence, it is important to find future rental locations by taking to account both bike-demand and regional imbalance. This paper first finds eligible candidates of rental locations with the required spatial conditions such as a sufficient sidewalk width and accessibility of bike pick-up vehicles. And then, estimates public bike daily usage for each selected location via random forest based on Seoul public bike historical usage, Seoul geographical features, regional characteristics, and populations. This study contributes to a better comprehension of the Seoul public bike program, and would be useful in determining new public bike rental locations.

KCI등재

7통합 비교차 다중 분위수회귀나무 모형을 활용한 AI 면접체계 자료 분석

저자 : 김재오 ( Jaeoh Kim ) , 방성완 ( Sungwan Bang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 33권 6호 발행 연도 : 2020 페이지 : pp. 753-762 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 연구는 대한민국 육군이 선도적으로 도입하고자 노력하고 있는 AI 면접체계의 자료를 통합 비교차 다중 분위수 회귀나무 모형(unified non-crossing multiple quantile tree; UNQRT)을 활용하여 분석한 것이다. 분위수 회귀가 일반적인 선형회귀에 비하여 많은 장점을 가지지만, 선형성 가정은 여전히 많은 현실 문제해결에 있어 지나치게 강한 가정이다. 선형성을 완화한 모형의 하나인 기존 나무모형 기반의 분위수 회귀는 추정된 분위수 함수별로 교차하는 문제와 분위수별로 나무모형을 제시하여 해석력을 저하시키는 문제가 있다. 통합 비교차 다중 분위수회귀나무 모형은 비교차 제약식을 부여한 상태로 다중 분위수 함수를 동시에 추정함으로서 분위수 함수의 교차 문제를 해결하며, 극단 분위수에서 안정된 결과를 기대할 수 있고, 하나의 통합된 나무모형을 제시하여 우수한 해석력이 있다. 본 연구에서는 통합 비교차 다중 분위수회귀나무 모형을 활용하여 육군 AI 면접체계의 결과와 기존 인사자료간 관계를 충분히 탐색하여 의미있는 다양한 결과를 도출하였다.


With an increasing interest in integrating artificial intelligence (AI) into interview processes, the Republic of Korea (ROK) army is trying to lead and analyze AI-powered interview platform. This study is to analyze the AI interview data using a unified non-crossing multiple quantile tree (UNQRT) model. Compared to the UNQRT, the existing models, such as quantile regression and quantile regression tree model (QRT), are inadequate for the analysis of AI interview data. Specially, the linearity assumption of the quantile regression is overly strong for the aforementioned application. While the QRT model seems to be applicable by relaxing the linearity assumption, it suffers from crossing problems among estimated quantile functions and leads to an uninterpretable model. The UNQRT circumvents the crossing problem of quantile functions by simultaneously estimating multiple quantile functions with a non-crossing constraint and is robust from extreme quantiles. Furthermore, the single tree construction from the UNQRT leads to an interpretable model compared to the QRT model. In this study, by using the UNQRT, we explored the relationship between the results of the Army AI interview system and the existing personnel data to derive meaningful results.

KCI등재

8다층모형을 활용한 양파 구중 추정 연구

저자 : 김준기 ( Junki Kim ) , 최성천 ( Seung-cheon Choi ) , 김재휘 ( Jeahwi Kim ) , 서홍석 ( Hong-seok Seo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 33권 6호 발행 연도 : 2020 페이지 : pp. 763-776 (14 pages)

다운로드

(기관인증 필요)

초록보기

양파는 기상여건에 따른 작황의 변동성이 커 생산량 및 가격 변화가 크다. 정부는 양파를 수급 민감 품목으로 지정하여 다양한 수급 안정대책을 마련하고 시행하는데 이를 위해서는 선제적이고 신뢰도 높은 양파 생산량 예측 정보가 필수적이다. 본 연구에서는 양파의 5월 초 지상부 생육정보와 5월 초부터 수확기까지의 기상정보를 이용하여 최종 생구 무게에 미치는 영향을 추정함으로써 생산량 예측의 정확도 개선에 기여하고자 한다. 위계적 특성을 갖고 있는 자료를 통해 개체별 생육요인인 1-수준 자료와 필지별 기상요인인 2-수준 자료, 그리고 두 수준 간 상호작용을 고려한 다층모형을 도입하여 분석하였다. 분석 결과, 5월 초에 엽수, 엽초경, 초장의 생육이 좋을수록 최종 생구 무게는 증가하는 것으로 추정되었다. 5월 초부터 수확기까지의 기상요인에서는 강수량, 고온일수, 탄소동화저해일수가 생구 무게에 음의 효과가 나타났으며, 일교차와 수확전강수량은 양의 효과로 통계적으로 유의하였다. 또한 1-수준과 2-수준의 교호작용항을 고려하여 모형의 적합도와 설명력을 향상시켰다.


Onions show severe volatility in production and price because crop conditions highly depend on the weather. The government has designated onions as a sensitive agricultural product, and prepared various measures to stabilize the supply and demand. First of all, preemptive and reliable information on predicting onion production is essential to implement appropriate and effective measures. This study aims to contribute to improving the accuracy of production forecasting by developing a model to estimate the final weight of onions bulb. For the analysis, multilevel model is used to reflect the hierarchical data characteristics consisting of above-ground growth data in individual units and meteorological data in parcel units. The result shows that as the number of leaf, stem diameter, and plant height in early May increase, the bulb weight increases. The amount of precipitation as well as the number of days beyond a certain temperature inhibiting carbon assimilation have negative effects on bulb weight, However, the daily range of temperature and more precipitation near the harvest season are statistically significant as positive effects. Also, it is confirmed that the fitness and explanatory power of the model is improved by considering the interaction terms between level-1 and level-2 variables.

KCI등재

9COVID-19 바이러스 잠복 시간 분포 추정과 치사율 추정을 위한 생존 분석의 적용

저자 : 기한정 ( Han Jeong Ki ) , 김지은 ( Jieun Kim ) , 김소희 ( Sohee Kim ) , 박주원 ( Juwon Park ) , 이주행 ( Joohaeng Lee ) , 김양진 ( Yang-jin Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 33권 6호 발행 연도 : 2020 페이지 : pp. 777-789 (13 pages)

다운로드

(기관인증 필요)

초록보기

COVID-19는 지난 2019년 12월부터 중국에서 발생하여 전세계적으로 확산된 대유행병이 되었다. 본 연구에서는 한국 질병 관리 본부에서 공개한 오픈 자료를 이용하였으며 시각화 기법을 통해 확진자의 남녀별 지역별 추세를 조사하였다. 또한 평균 바이러스 잠복기간을 추정하기 위해 감염원이 알려진 두 감염 그룹의 증상 발현 시점과 양성 확진 시점을 활용하였다. 하지만 양성 확진자 중 86%가 무증상으로 정확한 증상 발현시점을 알 수 없었다. 또한 주어진 자료에서는 감염시점도 알려져 있지 않아 감염시점과 증상 발현 시점차로 정의되는 잠복기간은 정확하게 측정하기가 어렵다. 이에 생존 분석의 한 기법인 구간 중도 절단을 적용하여 잠복기간의 분포를 추정하였다. 여러가지 모수 분포를 적용한 결과 최적의 분포하에서 평균 잠복 기간은 5.4일 (95% 신뢰구간(4.70,6.01)일)이었다. 본 분석에서는 확진자 표본을 이용하여 치사율과 치유율을 구하기 위해 경쟁 위험 모형을 적용하였다. 분석 결과 50대이상의 치사 위험률은 50대미만 그룹의 30배이상이며 남성 양성 확진자가 사망할 확률이 더 높았다. 또한 여성이고 나이가 젊고 무증상일 때 치유될 가능성이 더 높았다.


COVID-19 has been rapidly spread world wide since late December 2019. In this paper, our interest is to estimate distribution of incubation time defined as period between infection of virus and the onset. Due to the limit of accessibility and asymptomatic feature of COVID-19 virus, the exact infection and onset time are not always observable. For estimation of incubation time, interval censoring technique is implemented. Furthermore, a competing risk model is applied to estimate the case fatality and cure fraction. Based on the result, the mean incubation time is about 5.4 days and the fatality rate is higher for older and male patient and the cure rate is higher at younger,female and asymptomatic patient.

KCI등재

10스마트그리드 환경하의 가정용 AMI 자료를 위한 시계열 군집분석 연구

저자 : 이진영 ( Jin-young Lee ) , 김삼용 ( Sahm Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 33권 6호 발행 연도 : 2020 페이지 : pp. 791-804 (14 pages)

다운로드

(기관인증 필요)

초록보기

스마트그리드 환경하에서 ICT 기술의 발달로 AMI 기기를 통해 가정의 실시간 전력사용량을 수집할 수 있게 됨에 따라 이러한 자료들을 활용하여 보다 더 정확한 가정용 전력사용량 예측을 할 수 있게 되었다. 본 논문에서는 1시간 단위 가정용 전력사용량 자료를 바탕으로 ARIMA, TBATS, NNAR 모형을 사용하여 전력수요를 예측하는 모형을 연구하였는데, 기존과 달리 가구 전체 사용량을 한 번에 예측하는 것이 아닌 유사한 전력사용패턴을 나타내는 가구들을 군집하여 군집별로 예측 모형을 수립하고 각 모형별 예측치를 합산하여 예상 전력사용량을 산출하였다. 특히 전력사용량 자료는 전형적인 시계얼 자료로서 군집분석 방법으로 시계열에 적절한 방법을 선택하였으며 본 논문에서는 동적타임워핑(dynamic time warping)과 Periodogram 기반의 방법을 사용하였다. 연구 결과 사용량이 유사한 가구들을 군집하여 전력사용량을 예측하는 것이 한 번에 예측하는 것보다 예측 성능이 더 우수한 것으로 나타났으며 예측 모형 중에서는 여름철의 경우 NNAR 모형이, 겨울철의 경우 TBATS 모형의 성능이 가장 좋았으며 군집분석 방법은 군집 간 패턴의 차이가 명확히 나타난 동적타임워핑 방법을 사용했을 때 예측 성능의 향상이 가장 많았다.


Residential electricity consumption can be predicted more accurately by utilizing the realtime household electricity consumption reference that can be collected by the AMI as the ICT developed under the smart grid circumstance. This paper studied the model that predicts residential power load using the ARIMA, TBATS, NNAR model based on the data of hour unit amount of household electricity consumption, and unlike forecasting the consumption of the whole households at once, it computed the anticipated amount of the electricity consumption by aggregating the predictive value of each established model of cluster that was collected by the households which show the similiar load profile. Especially, as the typical time series data, the electricity consumption data chose the clustering analysis method that is appropriate to the time series data. Therefore, Dynamic Time Warping and Periodogram based method is used in this paper. By the result, forecasting the residential elecrtricity consumption by clustering the similiar household showed better performance than forecasting at once and in summertime, NNAR model performed best, and in wintertime, it was TBATS model. Lastly, clustering method showed most improvements in forecasting capability when the DTW method that was manifested the difference between the patterns of each cluster was used.

12
권호별 보기
가장 많이 인용된 논문

(자료제공: 네이버학술정보)

가장 많이 인용된 논문
| | | |
1연안해역에서 석유오염물질의 세균학적 분해에 관한 연구

(2006)홍길동 외 1명심리학41회 피인용

다운로드

2미국의 비트코인 규제

(2006)홍길동심리학41회 피인용

다운로드

가장 많이 참고한 논문

(자료제공: 네이버학술정보)

가장 많이 참고한 논문

다운로드

2미국의 비트코인 규제

(2006)홍길동41회 피인용

다운로드

해당 간행물 관심 구독기관

연세대학교 서울대학교 이화여자대학교 고려대학교 중앙대학교(서울)
 68
 42
 38
 27
 20
  • 1 연세대학교 (68건)
  • 2 서울대학교 (42건)
  • 3 이화여자대학교 (38건)
  • 4 고려대학교 (27건)
  • 5 중앙대학교(서울) (20건)
  • 6 성균관대학교 (19건)
  • 7 한양대학교 (18건)
  • 8 숙명여자대학교 (16건)
  • 9 충북대학교 (13건)
  • 10 계명대학교 (12건)

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기