논문 상세보기

한국통계학회> 응용통계연구> 함수회귀분석을 통한 교통량 예측

KCI등재

함수회귀분석을 통한 교통량 예측

Functional regression approach to traffic analysis

이인주 ( Injoo Lee ) , 이영경 ( Young K. Lee )
  • : 한국통계학회
  • : 응용통계연구 34권5호
  • : 연속간행물
  • : 2021년 10월
  • : 773-794(22pages)
응용통계연구

DOI


목차

1. 서론
2. 방법론
3. 분석
4. 결론
References

키워드 보기


초록 보기

교통량 예측은 지방 행정의 의사결정에 매우 중요한 정보를 제공한다. 교통량 예측을 통해 교통혼잡비용을 줄이고 지역경제를 활성화 함으로써 사회적, 경제적 이익을 창출할 수 있다. 교통량은 미지의 확률적 규칙 하에서 시간의 흐름에 따라 궤적을 가지며 변화하는 함수데이터의 일종이다. 본 논문에서는 세 가지 함수회귀모형을 이용하여 과거에 관측된 교통량 궤적을 기반으로 미래의 관측되지 않은 교통량 궤적을 예측하는 방법을 제시한다. 본 논문에서 소개하는 세가지 방법은 전국 고속도로 영업소 중 서울, 춘천, 강릉 세 개 영업소에서 수집된 고속도로 영업소 데이터에 적용한다. 각 영업소 별로 세가지 방법의 예측오차를 비교함으로써 영업소별 최적 교통량 예측모형을 찾는다.
Prediction of vehicle traffic volume is very important in planning municipal administration. It may help promote social and economic interests and also prevent traffic congestion costs. Traffic volume as a time-varying trajectory is considered as functional data. In this paper we study three functional regression models that can be used to predict an unseen trajectory of traffic volume based on already observed trajectories. We apply the methods to highway tollgate traffic volume data collected at some tollgates in Seoul, Chuncheon and Gangneung. We compare the prediction errors of the three models to find the best one for each of the three tollgate traffic volumes.

UCI(KEPA)

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2021
  • : 1987


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

34권6호(2021년 12월) 수록논문
최근 권호 논문
| | | |

KCI등재

1순열검정을 이용한 FLSA의 사후추론

저자 : 최지은 ( Jieun Choi ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 863-874 (12 pages)

다운로드

(기관인증 필요)

초록보기

FLSA는 총변동벌점을 이용해 구간별상수인 평균 구조를 구현하는 벌점모형으로 다중변화점 탐색을 위해 활용되고 있다. 한편, FLSA는 변화점 탐색에 있어서 점근적 일치성이 만족되지 않으므로 잡음의 크기가 0에 가깝게 수렴하는 경우에도 다수의 거짓 변화점이 식별될 수 있다는 단점이 있다. 이 연구에서는 이러한 FLSA의 문제점을 해결하기 위한 사후추론 방법으로 순열검정 방법을 제안한다. 단일변화점 모형과 관련된 순열검정 방법은 Antoch와 Hušková (2001)에 의해 제안된 바 있다. 이 연구에서는 Antoch와 Hušková (2001)의 검정절차를 확장하여 다중변화점 식별에 사용되는 FLSA와 결합함으로써 다중변화점 모형에 적용할 수 있는 순열검정절차를 제안한다. 모의실험 결과, 제안된 방법은 z-검정과 CUSUM 통계량의 극한분포에 기반을 둔 검정방법에 비해 전반적으로 우수하였으며 거짓 변화점의 식별에 유용함을 확인할 수 있었다.


In this paper, we propose a post-selection inference procedure for the fused lasso signal approximator (FLSA). The FLSA finds underlying sparse piecewise constant mean structure by applying total variation (TV) semi-norm as a penalty term. However, it is widely known that this convex relaxation can cause asymptotic inconsistency in change points detection. As a result, there can remain false change points even though we try to find the best subset of change points via a tuning procedure. To remove these false change points, we propose a post-selection inference for the FLSA. The proposed procedure applies a permutation test based on CUSUM statistic. Our post-selection inference procedure is an extension of the permutation test of Antoch and Hušková (2001) which deals with single change point problems, to multiple change points detection problems in combination with the FLSA. Numerical study results show that the proposed procedure is better than naïve z-tests and tests based on the limiting distribution of CUSUM statistics.

KCI등재

2성근 바인 코풀라 모형을 이용한 고차원 금융 자료의 VaR 추정

저자 : 안광준 ( Kwangjoon An ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 875-887 (13 pages)

다운로드

(기관인증 필요)

초록보기

최대예상손실액(VaR)은 위험관리수단으로 금융에서 시장위험을 측정하는 대표적인 값이다. 본 논문에서는 다양한 자산으로 이루어진 고차원 금융자료에서 자산들 간의 의존성 구조를 잘 설명할 수 있는 성근 바인 코풀라를 이용한 VaR 추정에 대해서 논의한다. 성근 바인 코풀라는 정규 바인 코풀라 모형에 벌점화를 적용한 방법으로 추정하는 모수의 개수를 벌점화를 통해 축소하는 방법이다. 모의 실험 결과 성근 바인 코풀라를 이용한 VaR 추정이 더 작은 표본 외 예측오차를 줌을 살펴볼수 있었다. 또한 최근 5년간의 코스피 60개 종목을 바탕으로 실시한 실증 자료 분석에서도 성근 바인 코풀라 모형이 더 좋은 예측 성능을 보임을 확인할 수 있었다.


Value at Risk (VaR) is the most popular measure for market risk. In this paper, we consider the VaR estimation of portfolio consisting of a variety of assets based on multivariate copula model known as vine copula. In particular, sparse vine copula which penalizes too many parameters is considered. We show in the simulation study that sparsity indeed improves out-of-sample forecasting of VaR. Empirical analysis on 60 KOSPI stocks during the last 5 years also demonstrates that sparse vine copula outperforms regular copula model.

KCI등재

3경험적 영향함수와 표본영향함수 간 차이 보정의 t통계량으로의 확장

저자 : 강현석 ( Hyunseok Kang ) , 김홍기 ( Honggie Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 889-904 (16 pages)

다운로드

(기관인증 필요)

초록보기

본 연구는 Kang과 Kim (2020)의 후속 연구이다. 본 연구에서는 기존 연구에서 직접 유도하지 않았던 통계량의 표본영향함수를 유도한다. 그리고 이 결과를 바탕으로 경험적 영향함수와 표본영향함수는 어떠한 관계를 가지고 있는지 이론적으로 살펴보고, 경험적 영향함수를 통해 표본영향함수를 근사시켜 추정하는 방안에 대해 생각해 본다. 또한, 임의추출한 300개의 데이터를 바탕으로 모의실험을 통해 유도한 함수와 그 관계에 대한 그 타당성도 검증한다. 모의실험 결과 t통계량으로부터 유도한 표본영향함수와 경험적 영향함수와의 관계 및 경험적 영향함수를 통한 표본영향함수의 근사 방안에 대한 타당성도 검증해 냈다. 본 연구는 경험적 영향함수를 이용한 표본영향함수의 근사에서 오차를 줄이기 위한 방안을 제안하고 그 타당성을 검증하였으며, 이를 통해 기존의 연구에서 경험적 영향함수로 표본영향함수를 바로 근사시켰던 연구 방법에 효과적인 근사 방안을 제안한 점에서 의의를 갖는다.


This study is a follow-up study of Kang and Kim (2020). In this study, we derive the sample influence functions of the t-statistic which were not directly derived in previous researches. Throughout these results, we both mathematically examine the relationship between the empirical influence function and the sample influence function, and consider a method to approximate the sample influence function by the empirical influence function. Also, the validity of the relationship between an approximated sample influence function and the empirical influence function is verified by a simulation of a random sample of size 300 from normal distribution. As a result of the simulation, the relationship between the sample influence function which is derived from the t-statistic and the empirical influence function, and the method of approximating the sample influence function through the empirical influence function were verified. This research has significance in proposing both a method which reduces errors in approximation of the empirical influence function and an effective and practical method that evolves from previous research which approximates the sample influence function directly through the empirical influence function by constant revision.

KCI등재

4확률적 reduced K-means 군집분석

저자 : 이승훈 ( Seunghoon Lee ) , 송주원 ( Juwon Song )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 905-922 (18 pages)

다운로드

(기관인증 필요)

초록보기

라벨 없이 진행되는 비지도 학습 중 하나인 군집분석은 자료에 어떤 그룹이 내포되어 있는지 사전 지식이 없을 경우에 군집을 발굴하고, 군집 간의 특성 차이와 군집 안에서의 유사성을 분석하고자 할 때 유용한 방법이다. 기본적인 군집분석 중 하나인 K-means 방법은 변수의 개수가 많아질 때 잘 동작하지 않을 수 있으며, 군집에 대한 해석도 쉽지 않은 문제가 있다. 따라서 고차원 자료의 경우 주성분 분석과 같은 차원 축소 방법을 사용하여 변수의 개수를 줄인 후에 K-means 군집분석을 행하는 Tandem 군집분석이 제안되었다. 하지만 차원 축소 방법을 이용해서 찾아낸 축소 차원이 반드시 군집에 대한 구조를 잘 반영할 것이라는 보장은 없다. 특히 군집의 구조와는 상관없는 변수들의 분산 또는 공분산이 클 때, 주성분 분석을 통한 차원 축소는 오히려 군집의 구조를 가릴 수 있다. 이에 따라 군집분석과 차원 축소를 동시에 진행하는 방법들이 제안되어 왔다. 그 중에서도 본 연구에서는 De Soete와 Carroll (1994)이 제안한 방법론을 확률적인 모형으로 바꿔 군집분석을 진행하는 확률적 reduced K-means를 제안한다. 모의실험 결과 차원 축소를 배제한 군집분석과 Tandem 군집분석보다 더 좋은 군집을 형성함을 알 수 있었고 군집 당 표본 크기에 비해 변수의 개수가 많은 자료에서 기존의 비 확률적 reduced K-means 군집분석에 비해 우수한 성능을 확인했다. 보스턴 자료에서는 다른 군집분석 방법론보다 명확한 군집이 형성됨을 확인했다.


Cluster analysis is one of unsupervised learning techniques used for discovering clusters when there is no prior knowledge of group membership. K-means, one of the commonly used cluster analysis techniques, may fail when the number of variables becomes large. In such high-dimensional cases, it is common to perform tandem analysis, K-means cluster analysis after reducing the number of variables using dimension reduction methods. However, there is no guarantee that the reduced dimension reveals the cluster structure properly. Principal component analysis may mask the structure of clusters, especially when there are large variances for variables that are not related to cluster structure. To overcome this, techniques that perform dimension reduction and cluster analysis simultaneously have been suggested. This study proposes probabilistic reduced K-means, the transition of reduced K-means (De Soete and Caroll, 1994) into a probabilistic framework. Simulation shows that the proposed method performs better than tandem clustering or clustering without any dimension reduction. When the number of the variables is larger than the number of samples in each cluster, probabilistic reduced K-means show better formation of clusters than non-probabilistic reduced K-means. In the application to a real data set, it revealed similar or better cluster structure compared to other methods.

KCI등재

5선형 응답률 모형에서 초모집단 모형의 비모수적 함수 추정을 이용한 무응답 편향 보정 추정

저자 : 심주용 ( Joo-yong Sim ) , 신기일 ( Key-il Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 923-936 (14 pages)

다운로드

(기관인증 필요)

초록보기

표본조사에서는 다수의 무응답이 발생하며 이를 적절히 처리하는 다양한 방법이 개발되었다. 특히 무응답이 관심변수에 영향을 받고 이로 인해 발생한 편향은 추정의 정확성을 크게 떨어뜨리며 무응답 처리를 어렵게 한다. 최근 Chung과 Shin (2017, 2020)은 알려진 모수적 초모집단 모형과 응답률 모형을 이용하여 추정의 정확성을 향상한 추정량을 제안하였다. 본 연구에서는 초모집단 모형의 형태를 일반화하여 비모수적 함수 형태를 설정한 후 이를 기반으로 얻어진 편향을 적절히 처리한 편향 보정 평균추정량을 제안하였다. 모의실험을 통해 본 연구에서 제안한 방법의 우수성을 확인하였다.


A large number of non-responses are occurring in the sample survey, and various methods have been developed to deal with them appropriately. In particular, the bias caused by non-ignorable non-response greatly reduces the accuracy of estimation and makes non-response processing difficult. Recently, Chung and Shin (2017, 2020) proposed an estimator that improves the accuracy of estimation using parametric super-population model and response rate model. In this study, we suggested a bias corrected non-response mean estimator using a nonparametric function generalizing the form of a parametric super-population model. We confirmed the superiority of the proposed estimator through simulation studies.

KCI등재

6부분선형모형에서 LARS를 이용한 변수선택

저자 : 서한손 ( Han Son Seo ) , 윤민 ( Min Yoon ) , 이학배 ( Hakbae Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 937-944 (8 pages)

다운로드

(기관인증 필요)

초록보기

본 연구는 부분선형모형에서 변수선택의 문제를 다룬다. 부분선형모형은 평활화모수 추정과 같은 비모수 추정과 선형설명변수에 대한 추정의 문제를 함께 포함하고 있어 변수선택이 쉽지 않다. 본 연구에서는 빠른 전진선택법인 LARS 를 이용한 변수선택법을 제시한다. 제안된 방법은 LARS에 의하여 선별된 변수들에 대하여 t-검정, 가능한 모든 회귀모형 비교 또는 단계별 선택법을 적용한다. 제안된 방법들의 효율성을 비교하기 위하여 실제데이터에 적용한 예제와 모의실험 결과가 제시된다.


The problem of selecting variables is addressed in partial linear regression. Model selection for partial linear models is not easy since it involves nonparametric estimation such as smoothing parameter selection and estimation for linear explanatory variables. In this work, several approaches for variable selection are proposed using a fast forward selection algorithm, least angle regression (LARS). The proposed procedures use t-test, all possible regressions comparisons or stepwise selection process with variables selected by LARS. An example based on real data and a simulation study on the performance of the suggested procedures are presented.

KCI등재

7가중주성분분석을 활용한 정준대응분석과 가우시안 반응 모형에 의한 정준대응분석의 동일성 연구

저자 : 정형철 ( Hyeong Chul Jeong )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 945-956 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 가중주성분분석으로부터 정준대응분석을 유도하는 Legendre와 Legendre (2012)의 알고리즘을 고찰하였다. 그리고, 가중주성분분석에 기반한 Legendre와 Legendre (2012)의 정준대응분석이 가우시안 반응모형에 기초한 Ter Braak (1986)의 정준대응분석과 동일함을 다루었다. 생태학에서 종의 발현 정도를 잘 설명할 수 있는 가우시안 반응곡선에서 도출된 Ter Braak (1986)의 정준대응분석은 종 패킹 모형(species packing model)이라는 기본 가정을 사용한 후 일반화선형모형과 정준상관분석을 결합시키는 방법으로 도출된다. 그런데 Legendre와 Legendre (2012)의 알고리즘은 이러한 가정없이 Benzecri의 대응분석과 상당히 유사한 방법으로 계산되는 특징을 지닌다. 그러므로 가중주성분석에 기초한 정준대응분석을 사용하면, 결과물 활용에 약간의 유연성을 지닐 수 있게 된다. 결론적으로 본 연구에서는 서로 다른 모형에서 출발한 두 방법이 장소점수(site score), 종 점수(species score) 그리고 환경변수와의 상관관계가 서로 동일함을 보인다.


In this study, we considered the algorithm of Legendre and Legendre (2012), which derives canonical correspondence analysis from weighted principal component analysis. And, it was proved that the canonical correspondence analysis based on the weighted principal component analysis is exactly the same as Ter Braak's (1986) canonical correspondence analysis based on the Gaussian response model. Ter Braak (1986)'s canonical correspondence analysis derived from a Gaussian response curve that can explain the abundance of species in ecology well uses the basic assumption of the species packing model and then conducts generalized linear model and canonical correlation analysis. It is derived by way of binding. However, the algorithm of Legendre and Legendre (2012) is calculated in a method quite similar to Benzecri's correspondence analysis without such assumptions. Therefore, if canonical correspondence analysis based on weighted principal component analysis is used, it is possible to have some flexibility in using the results. In conclusion, this study shows that the two methods starting from different models have the same site scores, species scores, and species-environment correlations.

KCI등재

8중도절단 회귀모형에서 역절단확률가중 방법 간의 비교연구

저자 : 신정민 ( Jungmin Shin ) , 김형우 ( Hyungwoo Kim ) , 신승준 ( Seung Jun Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 957-968 (12 pages)

다운로드

(기관인증 필요)

초록보기

역중도절단확률가중(inverse censoring probability weighting, ICPW)은 생존분석에서 흔히 사용되는 방법이다. 중도절단 회귀모형과 같은 ICPW 방법의 응용에 있어서 중도절단 확률의 정확한 추정은 핵심적인 요소라고 할 수 있다. 본 논문에서는 중도절단 확률의 추정이 ICPW 기반 중도절단 회귀모형의 성능에 어떠한 영향을 주는지 모의실험을 통하여 알아보았다. 모의실험에서는 Kaplan-Meier 추정량, Cox 비례위험(proportional hazard) 모형 추정량, 그리고 국소 Kaplan-Meier 추정량 세 가지를 비교하였다. 국소 KM 추정량에 대해서는 차원의 저주를 피하기 위해 공변량의 차원축소 방법을 추가적으로 적용하였다. 차원축소 방법으로는 흔히 사용되는 주성분분석(principal component analysis, PCA)과 절단역회귀(sliced inverse regression) 방법을 고려하였다. 그 결과 Cox 비례위험 추정량이 평균 및 중위수 중도절단 회귀모형 모두에서 중도절단 확률을 추정하는 데 가장 좋은 성능을 보여주었다.


Inverse censoring probability weighting (ICPW) is a popular technique in survival data analysis. In applications of the ICPW technique such as the censored regression, it is crucial to accurately estimate the censoring probability. A simulation study is undertaken in this article to see how censoring probability estimate influences model performance in censored regression using the ICPW scheme. We compare three censoring probability estimators, including Kaplan-Meier (KM) estimator, Cox proportional hazard model estimator, and local KM estimator. For the local KM estimator, we propose to reduce the predictor dimension to avoid the curse of dimensionality and consider two popular dimension reduction tools: principal component analysis and sliced inverse regression. Finally, we found that the Cox proportional hazard model estimator shows the best performance as a censoring probability estimator in both mean and median censored regressions.

KCI등재

9AMI로부터 측정된 전력사용데이터에 대한 군집 분석

저자 : 안효정 ( Hyojung Ann ) , 임예지 ( Yaeji Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 969-977 (9 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 Hierarchical K-means 군집화 알고리즘을 이용해 서울의 A아파트 가구들의 전력 사용량 패턴을 군집화 하였다. 차원을 축소해주면서 패턴을 파악할 수 있는 Hierarchical K-means 군집화 알고리즘은 기존 K-means 군집화 알고리즘의 단점을 보완하여 최근 대용량 전력 사용량 데이터에 적용되고 있는 방법론이다. 본 연구에서는 여름 저녁 피크 시간대의 시간당 전력소비량 자료에 대해 군집화 알고리즘을 적용하였으며, 다양한 군집 개수와 level에 따라 얻어진 결과를 비교하였다. 결과를 통해 사용량에 따라 패턴이 군집화 됨을 확인하였으며, 군집화 유효성 지수들을 통해 이를 비교하였다.


We cluster the electricity consumption of households in A-apartment in Seoul, Korea using Hierarchical K-means clustering algorithm. The data is recorded from the advanced metering infrastructure (AMI), and we focus on the electricity consumption during evening weekdays in summer. Compare to the conventional clustering algorithms, Hierarchical K-means clustering algorithm is recently applied to the electricity usage data, and it can identify usage patterns while reducing dimension. We apply Hierarchical K-means algorithm to the AMI data, and compare the results based on the various clustering validity indexes. The results show that the electricity usage patterns are well-identified, and it is expected to be utilized as a major basis for future applications in various fields.

KCI등재

10음향 장면 분류를 위한 경량화 모형 연구

저자 : 임소영 ( Soyoung Lim ) , 곽일엽 ( Il-youp Kwak )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 6호 발행 연도 : 2021 페이지 : pp. 979-993 (15 pages)

다운로드

(기관인증 필요)

초록보기

음향 장면 분류는 오디오 파일이 녹음된 환경이 어디인지 분류하는 문제이다. 이는 음향 장면 분류와 관련한 대회인 DCASE 대회에서 꾸준하게 연구되었던 분야이다. 실제 응용 분야에 음향 장면 분류 문제를 적용할 때, 모델의 복잡도를 고려하여야 한다. 특히 경량 기기에 적용하기 위해서는 경량 딥러닝 모델이 필요하다. 우리는 경량 기술이 적용된 여러 모델을 비교하였다. 먼저 log mel-spectrogram, deltas, delta-deltas 피쳐를 사용한 합성곱 신경망(CNN) 기반의 기본 모델을 제안하였다. 그리고 원래의 합성곱 층을 depthwise separable convolution block, linear bottleneck inverted residual block과 같은 효율적인 합성곱 블록으로 대체하고, 각 모델에 대하여 Quantization를 적용하여 경량 모델을 제안하였다. 경량화 기술을 고려한 모델은 기본 모델에 대비하여 성능이 비슷하거나 조금 낮은 성능을 보였지만, 모델 사이즈는 503KB에서 42.76KB로 작아진 것을 확인하였다.


Acoustic scene classification (ASC) categorizes an audio file based on the environment in which it has been recorded. This has long been studied in the detection and classification of acoustic scenes and events (DCASE). In this study, we considered the problem that ASC faces in real-world applications that the model used should have low-complexity. We compared several models that apply light-weight techniques. First, a base CNN model was proposed using log mel-spectrogram, deltas, and delta-deltas features. Second, depthwise separable convolution, linear bottleneck inverted residual block was applied to the convolutional layer, and Quantization was applied to the models to develop a low-complexity model. The model considering low-complexity was similar or slightly inferior to the performance of the base model, but the model size was significantly reduced from 503 KB to 42.76 KB.

1
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1층별 응답률을 사용한 멱배정 방법의 확장

저자 : 박현아 ( Hyeonah Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 671-683 (13 pages)

다운로드

(기관인증 필요)

초록보기

멱배정의 전체 효율은 최적배정보다 감소하지만, 층별 표본을 골고루 배정하는 기법이며 조사 현장에서는 제곱근 비례배정으로 많이 사용된다. 그리고 실제조사에서는 무응답을 고려하여 이론적 공식에서 나오는 것보다 더 많은 표본크기를 추출한다. 본 연구에서는 층별 표본크기를 결정함에 있어서 멱배정 방법에 층별 응답률의 정보를 추가하여 배정하는 기법을 연구한다. 제안된 배정기법들을 비례, 최적, 제곱근 비례 배정과 비교하며 응답률이 추가된 비례, 최적배정과도 비교하는 것을 모의실험을 통해 살펴봄으로써 배정방법들의 장단점을 살펴본다.

KCI등재

2경제활동인구조사 자료를 위한 다중대체 방식 연구

저자 : 박민정 ( Min-jeong Park ) , 배윤종 ( Yoonjong Bae ) , 김정연 ( Joungyoun Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 685-696 (12 pages)

다운로드

(기관인증 필요)

초록보기

경제활동인구조사는 고용 관련 통계를 생성하는 국가조사로서, 국민의 경활상태(취업/실업/비경활)를 파악하는 것이 주요 목적이다. 정확한 통계를 내기 위해 무응답률을 낮추는 것이 중요하고, 이미 발생한 무응답을 보완하기 위한 방법으로 무응답 대체가 가능하다. 경제활동인구조사는 응답 방식이 순차적 흐름을 따라가기 때문에 구조적인 무응답이 존재한다. 또한 전체 가구원내 무응답 항목이 하나라도 있으면 해당 가족 구성원 전체를 무응답 처리하기에 최종 자료에는 항목 무응답이 아닌 단위 무응답만 존재한다는 특징이 있다. 본 연구에서는 구조적 무응답 이해 및 연계자료를 통한 과거 자료의 활용 등을 통해 기존의 방법보다 효과적인 무응답 대체 모형을 제시하고자 한다. 대체 모형의 성능을 일치도/비일치도를 기반으로 평가한다. 이를 위해, 2019년 11월 경제활동인구조사 자료를 기반으로 모의실험을 실시한다. 총 59,996명의 응답자 중 일부를 랜덤하게 선택한 뒤, 경활상태를 판정하는데 결정적인 설명변수 6개와 경활상태를 무응답 처리한다. 기존 무응답 대체 모형에서 사용하였던 설명 변수 이외에 산업변수와 종사상지위 변수를 추가함으로써 모형을 개선한다. 이는 과거자료의 연계 및 활용을 가정한 것으로, 기존의 모형모다 성능이 향상되는 것을 확인한다. 또한, 경활상태별 무응답자 수에 대한 다양한 시나리오를 고려한다.

KCI등재

3상대오차예측을 이용한 자동차 보험의 손해액 예측: 패널자료를 이용한 연구

저자 : 박흥선 ( Heungsun Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 697-710 (14 pages)

다운로드

(기관인증 필요)

초록보기

상대오차를 이용한 예측법은 상대오차(혹은 퍼센트오차)가 중요시되는 분야, 특히 계량경제학이나 소프트웨어 엔지니어링, 또는 정부기관 공식통계 부분에서 기존 예측방법 외에 선호되는 예측방법이다. 그 동안 상대오차를 이용한 예측법은 선형 혹은 비선형 회귀분석 뿐 아니라, 커널회귀를 이용한 비모수 회귀모형, 그리고 정상시계열분석에 이르기까지 그 범위가 확장되어 왔다. 그러나, 지금까지의 분석은 고정효과(fixed effect)만을 고려한 것이어서 임의효과(random effect)에 관한 상대오차 예측법에 대한 확장이 필요하였다. 본 논문의 목적은 상대오차예측법을 일반화선형혼합모형(GLMM)에 속한 감마회귀(gamma regression), 로그정규회귀(lognormal regression), 그리고 역가우스회귀(inverse gaussian regression)의 패널자료(panel data)에 적용시키는데 있다. 이를 위해 실제 자동차 보험회사의 손해액 자료를 사용하였고, 최량예측량과 최량상대오차예측량을 각각 적용-비교해 보았다.

KCI등재

4불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택

저자 : 장서인 ( Shuin Jang ) , 여인권 ( In-kwon Yeo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 711-721 (11 pages)

다운로드

(기관인증 필요)

초록보기

이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.

KCI등재

5시계열 모형과 기계학습 모형을 이용한 풍력 발전량 예측 연구

저자 : 박수진 ( Sujin Park ) , 이진영 ( Jin-young Lee ) , 김삼용 ( Sahm Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 723-734 (12 pages)

다운로드

(기관인증 필요)

초록보기

빠르게 발전하고 있는 재생에너지 중 하나인 풍력에너지는 기후변화 대응에 맞추어 개발 및 투자가 이루어지고있다. 신재생에너지 정책과 발전소 설치가 추진됨에 따라 국내 풍력 보급이 점차 확대되어 수요를 정확히 예측하기 위한 시도들이 확대되고 있다. 본 논문에서는 전남지역과 경북지역의 풍력 발전량 예측을 위하여 시계열 기법인 ARIMA, ARIMAX 모형과 기계학습 모형인 SVR, Random Forest, XGBoost 모형들을 비교 분석하였다. 모형의 예측 결과를 비교하기 위한 지표로서 mean absolute error (MAE)와 mean absolute percentage error (MAPE)를 사용하였다. 2018년 1월 1일부터 2020년 10월 24일까지의 시간별 원 데이터를 차분한 후 모형을 훈련시켜 2020년 10월 25일부터 2020년 10월 31일까지의 168시간에 대한 풍력 발전량을 예측하였다. 모형의 예측력 비교 결과, Random Forest와 XGBoost 모형이 전남지역, 경북지역 순으로 가장 우수한 성능을 보였다. 향후 연구에서는 기계학습뿐 아니라 최근 활발한 연구가 이루어지는 데이터 마이닝 기법 기반의 풍력 발전량 예측을 시도할 것이다.

KCI등재

6제1형 우측중도절단된 로그정규 수명 자료를 모니터링하는 누적합 관리도

저자 : 최민재 ( Minjae Choi ) , 이재헌 ( Jaeheon Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 735-744 (10 pages)

다운로드

(기관인증 필요)

초록보기

제품의 수명을 유지시키는 것은 품질관리의 주요 목표 중 하나이다. 실제 공정에서는 시간 및 비용의 문제로 인해 모든 표본의 수명을 측정할 수 없는 경우가 많이 발생하기 때문에, 대부분 중도절단된 자료를 포함시켜 표본을 구성한다. 이 논문에서는 제1형의 우측중도절단된 수명 자료가 로그정규분포를 따르는 경우, 제품 수명의 평균을 모니터링하는 두 가지 누적합 관리도 절차를 제안한다. 하나는 우도비에 기초한 누적합 관리도이고, 다른 하나는 이항분포에 기초한 누적합 관리도 절차이다. 모의실험을 통해 평균런길이를 비교하는 방법으로 제안된 두 관리도 절차의 성능을 비교하였다. 모의실험 결과, 중도절단율이 낮은 경우, 형상모수값이 작은 경우, 평균의 감소 변화량이 큰 경우에는 우도비 누적합 관리도가 더 효율적이며, 반대로 중도절단율이 높은 경우, 형상모수값이 큰 경우, 평균의 감소 변화량이 적은 경우에는 이항 누적합 관리도가 더 효율적인 것으로 나타났다.

KCI등재

7기계학습을 활용한 주식 가격의 이동 방향 예측

저자 : 김용환 ( Yonghwan Kim ) , 송성주 ( Seongjoo Song )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 745-760 (16 pages)

다운로드

(기관인증 필요)

초록보기

금융시장에서 주식 가격 자체 또는 가격의 방향성에 대한 예측은 오래 전부터 관심의 대상이 되어 왔기에 여러 방면에서 다양한 연구가 이어져 왔다. 특히 1960년대에 들어서며 많은 연구가 진행되었고 예측가능성에 대해 찬반의 의견들이 있었는데, 1970년대에 나타난 효율적 시장 가설이 지지를 받으면서 주식 가격의 예측은 불가능하다는 의견이 주를 이루었다. 그러나 최근 기계학습 등 예측기술의 발달로 인해 주식 시장에서 미래를 예측해 보려는 새로운 시도가 이어져, 주식시장의 효율성을 부정하고 높은 예측력을 주장하는 연구들이 등장하고 있다.
이 논문에서는 과거 연구들을 평가방법 별로 정리하고, 새로운 주장의 신빙성을 확인하기 위해 이차판별분석, support vector machine, random forest, extreme gradient boost, 심층신경망 등 다양한 기계학습 모형을 적용하여 한국유가증권시장에 상장된 종목 중 삼성전자, LG화학, Naver 주식 가격의 방향성을 예측해보았다. 이때, 널리 사용되는 기술적 지표 변수들과 더불어 price earning ratio, price book-value ratio 등 회계지표를 활용한 변수와, 은닉마르코프모형의 출력값 변수를 사용하였다. 분석결과, 이번 연구의 조건 하에서는 통계적으로 유의미한 예측력을 제시하는 모형이 존재하지 않았고, 현 시점에서 단기 주가 방향성의 예측은 어렵다고 판단되었다. 비교적 단순한 이차판별분석 모형과 회계지표를 활용한 변수를 추가한 모형이 상대적으로 높은 예측력을 보였다는 점에서, 복잡한 모형을 시도하기 보다는 주식 가격에 대한 투자자들의 의견 및 심리가 반영될 수 있는 다양한 변수를 개발하여 활용한다면 향후 유의미한 예측이 가능할 수도 있을 것이다.

KCI등재

8통계모형을 이용하여 모의실험 결과 분석하기

저자 : 김지현 ( Ji-hyun Kim ) , 김봉성 ( Bongseong Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 761-772 (12 pages)

다운로드

(기관인증 필요)

초록보기

모의실험 결과를 보통 표나 그림으로 보고한다. 하지만 모의실험이 다양한 조건에서 실시되었고 실험조건마다 추정량의 성능 우위에 대한 결과가 다르면 표와 그림만으로 추정량의 성능을 비교하기가 어렵다. 또한 실행시간이 오래 걸리는 모의실험의 경우 모의실험 반복횟수를 크게 하기 어렵다. 회귀모형을 이용하여 모의실험 결과를 분석하면 보다 체계적이고 효과적으로 추정량의 성능을 비교할 수 있다. 이때 실험조건과 추정량에 따라 성능의 변동이 다를 수 있으므로 회귀모형에서 오차항의 이분산성을 허용해야 하며, 여러 개의 추정량을 동시에 비교해야 하므로 다중비교를 실시해야 한다. 모의실험 결과에 대한 분석이라는 맥락에서 이분산성과 다중비교에 대한 배경이론을 소개하고 예시를 통해 구체적 분석방법도 제시한다.

KCI등재

9함수회귀분석을 통한 교통량 예측

저자 : 이인주 ( Injoo Lee ) , 이영경 ( Young K. Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 773-794 (22 pages)

다운로드

(기관인증 필요)

초록보기

교통량 예측은 지방 행정의 의사결정에 매우 중요한 정보를 제공한다. 교통량 예측을 통해 교통혼잡비용을 줄이고 지역경제를 활성화 함으로써 사회적, 경제적 이익을 창출할 수 있다. 교통량은 미지의 확률적 규칙 하에서 시간의 흐름에 따라 궤적을 가지며 변화하는 함수데이터의 일종이다. 본 논문에서는 세 가지 함수회귀모형을 이용하여 과거에 관측된 교통량 궤적을 기반으로 미래의 관측되지 않은 교통량 궤적을 예측하는 방법을 제시한다. 본 논문에서 소개하는 세가지 방법은 전국 고속도로 영업소 중 서울, 춘천, 강릉 세 개 영업소에서 수집된 고속도로 영업소 데이터에 적용한다. 각 영업소 별로 세가지 방법의 예측오차를 비교함으로써 영업소별 최적 교통량 예측모형을 찾는다.

KCI등재

10관리도를 활용한 국민청원 토픽 모니터링 연구

저자 : 이희연 ( Heeyeon Lee ) , 최지은 ( Jieun Choi ) , 이성임 ( Sungim Lee ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 795-806 (12 pages)

다운로드

(기관인증 필요)

초록보기

최근 온라인 채널을 통한 텍스트 자료가 방대해 지면서 이를 요약하고 분석하는 연구에 관한 관심이 커지고 있는 추세이다. 먼저 텍스트 자료에 대한 기본적인 분석 중 하나는 어떤 주제나 내용을 포함하고 있는지 잠재된 토픽을 추출하는 것이다. 연구자가 일일이 모든 자료를 읽고 내용을 요약할 수도 있겠지만, 대용량 데이터를 다루는 경우에는 결코 쉽지 않기 때문에, 통계적 모형을 사용하여 토픽을 추출하는 토픽모형 방법들이 제안되어 왔다 (Blei와 Lafferty, 2007; Blei 등, 2003). 시간에 따라 수집된 텍스트 데이터로부터 토픽의 변화를 모니터링하기 위하여, 본 연구에서는 잠재적 디리슈레 할당(latent Dirichlet allocation) 모형을 통해 토픽을 분류하고 그 결과를 바탕으로 한 토픽 지수를 제안하였다. 또한, 이를 통계적 공정관리의 대표적 도구인 관리도에 적용하여 시간 경과에 따른 토픽의 변화를 모니터링하는 데 적용해 보았다. 실제 데이터로 2018년 3월 5일부터 2020년 3월 5일 사이에 청와대 국민청원 온라인 게시판에 접수된 텍스트 데이터를 사용하였으며, 토픽 지수를 모니터링함으로써 토픽에 대한 이상변화를 탐지할 수 있음을 살펴 보았다.

12
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기