간행물

한국통계학회> 응용통계연구

응용통계연구 update

The Korean Journal of Applied Statistics

  • : 한국통계학회
  • : 자연과학분야  >  통계학
  • : KCI등재
  • :
  • : 연속간행물
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • :

수록정보
수록범위 : 1권1호(1987)~31권4호(2018) |수록논문 수 : 1,770
응용통계연구
31권4호(2018년 08월) 수록논문
최근 권호 논문
| | | |

KCI등재

1가상코호트와 실제코호트 사망력 비교

저자 : 오진호 ( Jinho Oh )

발행기관 : 한국통계학회 간행물 : 응용통계연구 31권 4호 발행 연도 : 2018 페이지 : pp. 427-446 (20 pages)

다운로드

(기관인증 필요)

초록보기

UN의 고령화사회(ageing society) 정의와 통계청의 장래인구추계 (2016)에 따르면 우리나라는 만 30여년 만에 초고령사회(super-aged society)를 맞이하게 되며, 세계 어느 나라와도 비교할 수 없는 빠른 고령화 속도를 보인다. 이러한 유례없는 고령화 속도에 비해서 장기 시계열의 사망관련 데이터 확보와 연금과 복지정책을 고민하는 인식은 뒤처져 있다. 본 연구는 과거 및 미래 예측을 통해 우리나라 1955-2200년까지 245여 연간의 사망률 자료를 추정 예측하여 가상코호트와 실제코호트의 기대수명을 비교함으로써 그 차이가 어느 정도인지를 가늠해 보았다. 더불어 우리나라 고령화수준을 파악하기 위해 국제비교도 하였다. 역 추계(back-projection) 기간의 추정치는 선행연구와 Lee-Carte (LC) 모형으로 비교 분석해 정확성과 객관성을 높였으며, 2016년 이후의 예측치는 LC method extended with rotation (LC-ER) 모형을 활용해 우리나라의 사망률 개선의 교대현상을 반영하였다. 분석결과 60년 동안(1955-2015년) 약 30년에 가까운 기대수명의 증가가 이루어졌고, 2세기(1955-2155)동안 실제코호트의 기대수명이 가상코호트보다 높게 도출되었다. 실제코호트의 기대수명 비교우위는 비교 국가들 모두 공통적인 경향임을 확인하였다. 그리고 일본과 우리나라가 기대수명의 상위를 점하고 있고, 모든 국가들이 85-90세를 기점으로 가상과 실제코호트의 기대수명에 대한 증가속도가 이전보다 높지 않음을 보였다.


Korea will have a super-aged society within only 30 years according to the United Nations' definition of an aging society and the statistics on Korea's Population projections (2016), indicates that Korea has the fastest ageing speed in the world. There is a lack of data on long-term time-series data on death as related to pension and welfare policies compared to the rapid rate of aging. This paper estimates life expectancy over 245 years (from 1955 to 2200) through past and future forecasts as well as compares the expected life expectancy of the synthetic cohort and the real cohort. In addition, an international comparisons were made to understand the level of aging in Korea. Estimates of the back-projection period were compared with previous studies and the LC model to improve accuracy and objectivity. In addition, the predictions after 2016 reflected the declined mortality rate effect of Korea using the LC-ER model. The results showed an increase in life expectancy of about 30 years over 60 years (1955-2015) with an expected life expectancy of the real cohort over the second century (1955-2155) higher than the synthetic cohort. The comparative advantage of life expectancy of real cohorts was confirmed to be a common trend among comparative countries. In addition, Japan and Korea have a higher life expectancy and starting from 85 to 90 years old, all comparative countries show that the growth rate for the life expectancy of synthetic and real cohorts is less than previous years.

KCI등재

2GLS와 Bass 모형을 결합한 하이브리드 모형을 이용한 영화 관객 수 예측

저자 : 김보경 ( Bokyung Kim ) , 임창원 ( Changwon Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 31권 4호 발행 연도 : 2018 페이지 : pp. 447-461 (15 pages)

다운로드

(기관인증 필요)

초록보기

국내 영화 산업 매출은 매년 증가하고 있다. 극장은 영화의 1차 판매 경로이며, 극장을 이용하는 관객 수는 부가판권에 영향을 준다. 따라서 극장을 이용하는 관객의 수는 영화 산업 매출에 직결되는 중요한 요소이다. 본 논문에서 특정일의 관객 수를 예측하기 위하여 다중선형회귀모형과 Bass 모형을 결합한 Hybrid 모형을 고려한다. 두 모형을 결합함으로써 회귀분석의 예측값을 Bass 모형의 예측값으로 보정하였다. 분석에는 개봉일이 모두 다른 세 영화를 이용하였다. All subset regression 방법을 이용해 모든 가능한 조합을 생성하고 5중 교차검증(5-fold cross validation)을 통해 5번 모형을 추정한다. 이 때 제곱근평균오차가 가장 작은 모형으로 예측값을 구한 뒤 Bass 모형의 예측값과 결합해 최종 예측값을 구하게 된다. 과거데이터가 존재할수록 Bass 모형의 가중치는 증가하면서 예측 값에 보정효과를 준다는 것을 확인할 수 있었다.


Domestic film industry sales are increasing every year. Theaters are the primary sales channels for movies and the number of audiences using the theater affects additional selling rights. Therefore, the number of audiences using the theater is an important factor directly linked to movie industry sales. In this paper we consider a hybrid model that combines a multiple linear regression model and the Bass model to predict the audience numbers for a specific day. By combining the two models, the predictive value of the regression analysis was corrected to that of the Bass model. In the analysis, three films with different release dates were used. All subset regression method is used to generate all possible combinations and 5-fold cross validation to estimate the model 5 times. In this case, the predicted value is obtained from the model with the smallest root mean square error and then combined with the predicted value of the Bass model to obtain the final predicted value. With the existence of past data, it was confirmed that the weight of the Bass model increases and the compensation is added to the predicted value.

KCI등재

3대형 데이터에서 VIF회귀를 이용한 신속 강건 변수선택법

저자 : 서한손 ( Han Son Seo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 31권 4호 발행 연도 : 2018 페이지 : pp. 463-473 (11 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 선형회귀모형을 가정한 대형 데이터에서의 변수선택 알고리즘을 다룬다. 방법의 속도와 강건성에 주안점을 둔 여러 알고리즘들이 제안되었다. 그 중에서 streamwise 회귀 접근법을 사용한 VIF회귀는 신속하고 정확하게 수행된다. 그러나 VIF회귀는 최소제곱방법에 의해 모형이 추정되므로 이상치에 민감하다. 변수선택방법의 강건성을 높이기 위해 가중 추정치를 사용한 강건측도가 제안되었으며 강건 VIF회귀도 제안되었다. 본 연구에서는 잠재적 이상치를 탐지하여 제거한 후 VIF회귀를 수행하는, 빠르고 강건한 변수선택 방법을 제안한다. 제안된 방법은 모의실험과 데이터 분석 통해 다른 방법들과 비교된다.


Variable selection algorithms for linear regression models of large data are considered. Many algorithms are proposed focusing on the speed and the robustness of algorithms. Among them variance inflation factor (VIF) regression is fast and accurate due to the use of a streamwise regression approach. But a VIF regression is susceptible to outliers because it estimates a model by a least-square method. A robust criterion using a weighted estimator has been proposed for the robustness of algorithm; in addition, a robust VIF regression has also been proposed for the same purpose. In this article a fast and robust variable selection method is suggested via a VIF regression with detecting and removing potential outliers. A simulation study and an analysis of a dataset are conducted to compare the suggested method with other methods.

KCI등재

4감마 일반화 선형 모형에서의 가능도비 검정과 F-검정 비교연구

저자 : 조성일 ( Seongil Jo ) , 한정섭 ( Jeongseop Han ) , 이우주 ( Woojoo Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 31권 4호 발행 연도 : 2018 페이지 : pp. 475-484 (10 pages)

다운로드

(기관인증 필요)

초록보기

감마 일반화 선형모형은 음이 아니며 치우침이 있는 반응변수에 유용한 모형으로 알려져 있다. 그러나 포아송 분포 또는 이항 분포에 기반한 일반화 선형모형에 비해 적은 관심을 받아왔다. 특히, 회귀계수의 유의성 검정에 대해서는 연구가 면밀히 되어 있지 않다. 본 논문에서는 감마 일반화 선형 모형의 검정에 대해 다양한 통계량들을 알아보고 수치 연구를 통해 그들의 성능을 비교한다. 수치 실험의 결과 부분 이탈도 검정 방법의 문제점이 나타났으며, 가능도비 검정 방법과 F-검정 방법이 좋은 성능을 보임을 확인하였다.


Gamma generalized linear models are useful for non-negative and skewed responses. However, these models have received less attention than Poisson and binomial generalized linear models. In particular, hypothesis testing for the significance of regression coefficients has not been thoroughly studied. In this paper we assess the performance of various test statistics for gamma generalized linear models based on numerical studies. Our results show that the likelihood ratio test and F-type test are generally recommended and that the partial deviance test should be avoided in practice.

KCI등재

5추정된 모수를 사용한 CCC-r 관리도에서 관리상태의 성능

저자 : 김재연 ( Jaeyeon Kim ) , 김민지 ( Minji Kim ) , 이재헌 ( Jaeheon Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 31권 4호 발행 연도 : 2018 페이지 : pp. 485-495 (11 pages)

다운로드

(기관인증 필요)

초록보기

CCC-r 관리도는 고품질공정에서 공정불량률을 관리하는 경우 매우 효율적이라고 알려져 있다. 이 관리도를 사용할 때 관리상태의 공정모수는 일반적으로 알려져 있지 않기 때문에 제1국면의 표본을 추출하여 이를 추정해야 한다. 제2국면에서 관리도의 성능은 제1국면에서 추정한 모수와 관리한계에 영향을 받기 때문에, 추정 오차의 영향을 살펴보는 것은 중요하다. 이 논문에서는 일반적으로 많이 사용하는 평균런길이의 평균(average of average run length) 이외에 평균런길이의 표준편차(standard deviation of average run length)를 사용하여 CCC-r 관리도의 관리상태의 성능을 평가하였다. 그 결과 CCC-r 관리도에서 안정적인 관리상태의 성능을 유지하기 위해서는 이전에 권장하던 제1국면의 표본 크기보다 훨씬 더 큰 표본이 필요하다는 사실을 알 수 있었다.


The CCC-r chart is more effective than traditional attribute control charts for monitoring high-quality processes. In-control process parameters are typically unknown and should be estimated when implementing a CCC-r chart. Phase II control chart performance can deteriorate due to the effect of the estimation error. In this paper, we used the standard deviation of average run length (ARL) as well as the average of ARL to quantify the between-practitioner variability in the CCC-r chart performance. The results indicate that the CCC-r chart requires larger Phase I data than previously recommended in the literature in order to have consistent chart in-control performance among practitioners.

KCI등재

6랜섬웨어 탐지를 위한 동적 분석 자료에서의 변수 선택 및 분류에 관한 연구

저자 : 이승환 ( Seunghwan Lee ) , 황진수 ( Jinsoo Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 31권 4호 발행 연도 : 2018 페이지 : pp. 497-505 (9 pages)

다운로드

(기관인증 필요)

초록보기

최근 랜섬웨어는 일반 PC 사용자에 비해 상대적으로 수준 높은 보안 체계를 갖추고 있는 기업과 정부 기관에 침입하여 상당한 피해를 입히는 등 기존 보안 체계의 허점을 찾아 진화하는 모습을 보이고 있다. 이처럼 계속해서 변화하는 랜섬웨어를 탐지하기 위해 랜섬웨어의 특징을 파악하는 정적 분석과 동적 분석과 관련된 연구가 활발히 이루어지고 있다. 본 연구에서는 582개의 랜섬웨어 샘플과 942개의 정상 샘플 프로그램을 쿠쿠 샌드박스 가상환경 내에서 실행시킨 뒤, PC에서 이루어지는 30,967가지의 행동 여부를 기록한 동적 분석 자료를 활용하여 랜섬웨어 분류에 유의한 변수를 탐색하기 위한 여러 변수 선택 방법의 적용과 랜섬웨어 분류를 위한 기계학습 모형들을 구축하고자 하였다. 변수 선택법으로 LASSO와 이항변수 만으로 이루어진 고차원 자료라는 특성을 활용하기 위한 카이제곱검정을 이용한 변수 선택, 선행 연구에서 이용된 방법인 상호정보를 이용한 변수 선택법을 적용하였으며 기계 학습 모형으로는 능형 로지스틱 회귀, 서포트 벡터 머신, 랜덤 포레스트, XGBoost가 활용되었다. 연구 결과, 정상 프로그램과 구별되는 랜섬웨어 프로그램만의 특징적인 행동을 확인할 수 있었으며 여러 변수 선택법과 기계학습 분류 모형들의 조합 중, 주어진 자료에서 카이제곱검정을 이용한 변수 선택법과 랜덤 포레스트 모형의 조합이 가장 높은 탐지율과 정분류율을 보이는 것을 확인하였다.


Attacking computer systems using ransomware is very common all over the world. Since antivirus and detection methods are constantly improved in order to detect and mitigate ransomware, the ransomware itself becomes equally better to avoid detection. Several new methods are implemented and tested in order to optimize the protection against ransomware. In our work, 582 of ransomware and 942 of normalware sample data along with 30,967 dynamic action sequence variables are used to detect ransomware efficiently. Several variable selection techniques combined with various machine learning based classification techniques are tried to protect systems from ransomwares. Among various combinations, chi-square variable selection and random forest gives the best detection rates and accuracy.

KCI등재

7가중 적응 최근접 이웃을 이용한 결측치 대치

저자 : 염윤진 ( Yunjin Yum ) , 김동재 ( Dongjae Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 31권 4호 발행 연도 : 2018 페이지 : pp. 507-516 (10 pages)

다운로드

(기관인증 필요)

초록보기

결측치를 대치하는 여러가지 단일대치법 중에서 다변량 정규성 등의 모수적 모형이 만족되지 않을 때에도 강건성(robustness)을 지니는 k-최근접 이웃 대치법(k-nearest neighbors; KNN)이 널리 활용된다. KNN대치법에서 자료의 국소적 특징을 반영한 적응 최근접 이웃(adaptive nearest neighbors; ANN) 대치법과 k개의 최근접 이웃들 중 극단값이나 이상값이 있는 경우 이들의 영향에 덜 민감한 가중 k-최근접 이웃(weighted KNN; WKNN) 대치법의 장점을 결합한 가중 적응 최근접 이웃(weighted ANN; WANN) 대치법을 제안하였다. 또한 모의실험을 통하여 기존의 방법들과 제안한 방법을 비교하였다.


Widely used among the various single imputation methods is k-nearest neighbors (KNN) imputation due to its robustness even when a parametric model such as multivariate normality is not satisfied. We propose a weighted adaptive nearest neighbors imputation method that combines the adaptive nearest neighbors imputation method that accounts for the local features of the data in the KNN imputation method and weighted k-nearest neighbors method that are less sensitive to extreme value or outlier among k-nearest neighbors. We conducted a Monte Carlo simulation study to compare the performance of the proposed imputation method with previous imputation methods.

KCI등재

8다변량 자료에서 특이점 검출 및 시각화 - R 스크립트

저자 : 김성수 ( Sung-soo Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 31권 4호 발행 연도 : 2018 페이지 : pp. 517-528 (12 pages)

다운로드

(기관인증 필요)

초록보기

다변량 자료에서 특이점을 검출하고, 검출된 특이점을 시각화와 연결한 R 스크립트를 제공한다. 개발된 R 스크립트는 특이점을 검출하는 방법으로서 1) Robust Mahalanobis distance, 2) High Dimensional data, 3) Densitybased approach 방법을 이용하였다. 특이점을 연결하면서 데이터 구조를 파악하기 위한 시각화 방법으로는 1) multidimensional scaling (MDS)와 minimal spanning tree (MST)를 K-means 군집분석과 연결하여 표시하는 방법, 2) MDS를 fviz cluster와 연결하는 방법, 3) principal component analysis (PCA)를 fviz cluster와 연결한 방법을 이용하였다. 사례분석의 예로서는 Major League Baseball (MLB) 자료에서 류현진이 적극적으로 활동하던 2013년, 2014년 투수자료를 이용하였다. 개발된 R 스트립트는 “http://www.knou.ac.kr/~sskim/ddpoutlier. html (R 스크립트와 R 패키지도 다운로드 받을 수 있다. 실행방법도 설명되어 있다.)”에서 다운받으면 된다.


We provide R scripts to detect outliers in multivariate data and visualization. Detecting outliers is provided using three approaches 1) Robust Mahalanobis distance, 2) High Dimensional data, 3) densitybased approach methods. We use the following techniques to visualize detected potential outliers 1) multidimensional scaling (MDS) and minimal spanning tree (MST) with k-means clustering, 2) MDS with fviz cluster, 3) principal component analysis (PCA) with fviz cluster. For real data sets, we use MLB pitching data including Ryu, Hyun-jin in 2013 and 2014. The developed R scripts can be downloaded at “http://www.knou.ac.kr/~sskim/ddpoutlier.html” (R scripts and also R package can be downloaded here).

KCI등재

9전국 결핵 신환자 의료빅데이터를 이용한 경쟁위험모형 적합

저자 : 김경대 ( Gyeong Dae Kim ) , 노맹석 ( Maeng Seok Noh ) , 김창훈 ( Chang Hoon Kim ) , 하일도 (

발행기관 : 한국통계학회 간행물 : 응용통계연구 31권 4호 발행 연도 : 2018 페이지 : pp. 529-538 (10 pages)

다운로드

(기관인증 필요)

초록보기

결핵은 높은 이환과 사망을 일으키는 질병으로 현대의학의 발달에 따라 발생률과 사망률은 감소하고 있다. 그러나 한 국은 아직까지 OECD 국가 중 결핵 발생률과 사망률이 가장 높다. 이에 따라 한국은 결핵의 예방 및 통제를 위해 여러 정책 사업을 실시하고 있다. 본 연구에서는 공공민간협력(public-private mix) 결핵관리사업이 치료결과에 미치는 영향을 분석하고 결핵환자의 치료 성공에 영향을 미치는 요인을 확인하고자 한다. 질병관리본부에서 관리하는 결핵환자 신고 자료를 이용하여 2012-2015년 전국 결핵 신환자 코호트 약 13만명을 대상으로 분석하였다. 누적 발생 함수(cumulative incidence function)를 이용하여 요인별로 누적 치료 성공률을 비교하였으며. 주 관심사건(치료성공) 및 경쟁사건(사망)을 고려한 두 가지 경쟁위험모형(cause-specific Cox's proportional hazards model and subdistribution hazard model)을 사용하여 분석 결과를 비교하였다.


Tuberculosis causes high morbidity and mortality. However, Korea still has the highest tuberculosis (TB) incidence and mortality among OECD countries despite decreasing incidence and mortality due to the development of modern medicine. Korea has now implemented various policy projects to prevent and control tuberculosis. This study analyzes the effects of public-private mix (PPM) tuberculosis control program on treatment outcomes and identifies the factors that affecting the success of TB treatment. We analyzed 130,000 new tuberculosis patient cohort from 2012 to 2015 using data of tuberculosis patient reports managed by the Disease Control Headquarters. A cumulative incidence function (CIF) compared the cumulative treatment success rates for each factor. We compared the results of the analysis using two popular types of competition risk models (cause-specific Cox's proportional hazards model and subdistribution hazard model) that account for the main event of interest (treatment success) and competing events (death).

1
권호별 보기
가장 많이 인용된 논문

(자료제공: 네이버학술정보)

가장 많이 인용된 논문
| | | |
1연안해역에서 석유오염물질의 세균학적 분해에 관한 연구

(2006)홍길동 외 1명심리학41회 피인용

다운로드

2미국의 비트코인 규제

(2006)홍길동심리학41회 피인용

다운로드

가장 많이 참고한 논문

(자료제공: 네이버학술정보)

가장 많이 참고한 논문

다운로드

2미국의 비트코인 규제

(2006)홍길동41회 피인용

다운로드

해당 간행물 관심 구독기관

연세대학교 서울대학교 덕성여자대학교 한양대학교 고려대학교
 62
 48
 37
 33
 28
  • 1 연세대학교 (62건)
  • 2 서울대학교 (48건)
  • 3 덕성여자대학교 (37건)
  • 4 한양대학교 (33건)
  • 5 고려대학교 (28건)
  • 6 중앙대학교(서울) (23건)
  • 7 건국대학교 (21건)
  • 8 전북대학교 (19건)
  • 9 성균관대학교 (15건)
  • 10 이화여자대학교 (15건)

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기