논문 상세보기

한국통계학회> 응용통계연구> 언론보도사례를 통해 본 통계발표상의 문제

KCI등재

언론보도사례를 통해 본 통계발표상의 문제

Problems with the publication of statistics in the press

조진섭 ( Sinsup Cho )
  • : 한국통계학회
  • : 응용통계연구 34권4호
  • : 연속간행물
  • : 2021년 08월
  • : 557-574(18pages)
응용통계연구

DOI


목차

1. 서론
2. 공식통계의 작성 및 발표상의 문제점
3. 여론조사 결과의 보도상의 문제점
4. 언론보도상의 그래프의 오용사례 및 해결책
5. 결론
감사의 글
References

키워드 보기


초록 보기

공식통계 및 사회조사통계 정보들이 언론에 보도되는 과정에서 발생하는 여러 가지 문제점들을 사례중심으로 살펴보고 이의 해결방안에 대해 알아보았다.
In this paper we investigate the problems revealed when the statistics are published in the press.

UCI(KEPA)

I410-ECN-0102-2022-300-000787010

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2022
  • : 2020


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

35권3호(2022년 06월) 수록논문
최근 권호 논문
| | | |

KCI등재

1설명변수가 랜덤인 선형 프로파일 연구

저자 : 김다은 ( Daeun Kim ) , 이성임 ( Sungim Lee ) , 임요한 ( Johan Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 335-346 (12 pages)

다운로드

(기관인증 필요)

초록보기

통계적 공정관리에서 프로파일 관리도란 다수의 품질 특성치 간 함수관계의 변화를 탐지하는 것을 말한다. 두 변수 간 선형의 관계가 있는 경우, 선형 프로파일을 가정하고 절편과 기울기가 일정한지 모니터링한다. 이때 선형 프로파일에 관한 대부분의 기존 연구에서는 모든 프로파일에서 설명변수의 관측치가 동일하다고 가정한다. 그러나 프로파일마다 설명변수의 값이 랜덤하게 관측되는 경우도 존재한다. 본 논문에서는 단순 선형 프로파일 모니터링에서 설명변수가 프로파일마다 랜덤하게 관측된다는 가정하에 기존의 방법을 확장 적용하고자 한다. 모의실험을 통해 제안한 방법의 탐지 성능을 확인하고 네트워크 침입 탐지 알고리즘 성능을 비교하기 위한 NSL-KDD 데이터를 이용하여 제안된 침입 탐지 결과를 비교해 보았다.


Profile control chart aims to detect a change in the functional relationship of multivariate characteristics in the statistical process control. In monitoring two variables, a linear profile is of interest composed of the intercept and slope of one variable (response variable) against the other (explanatory variable). The previous studies on monitoring of the linear profile mostly assume that the explanatory variables are the same for all profiles. However, there are also cases where they vary depending on profiles. This paper intends to extend the monitoring method to where explanatory variables are di_erent for each profile.We compare the new method's performance through simulation and apply it to monitoring a network intrusion using NSL-KDD data.

KCI등재

2비대칭 금융 시계열을 위한 다중 임계점 변동성 모형

저자 : 이효령 ( Hyo Ryoung Lee ) , 황선영 ( Sun Young Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 347-356 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 금융 시계열 비대칭 변동성을 모형화하기 위해서 다중 임계점을 가진 비대칭-ARCH 점화식(A-ARCH(1))을 제안하고 있다. 특히 임계점이 두 개인 간단한 모형에 초점을 맞추어 설명하고 있으며 미국 S\&P500 자료 분석을 통해 예시하였다. 다양한 A-ARCH(1) 모형의 예측력 비교를 위해 모수적-붓스트랩을 활용하여 예측오차의 평가 및 예측구간의 정확도를 설명하였다.


This article is concerned with asymmetric volatility models for financial time series. A generalization of standard single-threshold volatility model is discussed via multiple-threshold in which we specialize to twothreshold case for ease of presentation. An empirical illustration is made by analyzing S&P500 data from NYSE (New York Stock Exchange). For comparison measures between competing models, parametric bootstrap method is used to generate forecast distributions from which summary statistics of CP (Coverage Probability) and PE (Prediction Error) are obtained. It is demonstrated that our suggestion is useful in the field of asymmetric volatility analysis.

KCI등재

3절단자료에 대한 Tobit과 Heckit 모형의 이해와 활용

저자 : 김정환 ( Jeonghwan Kim ) , 장민아 ( Mina Jang ) , 조형준 ( Hyungjun Cho )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 357-370 (14 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 Tobit 모형과 Heckit 모형을 소개한다. 이러한 모형은 절단된 자료의 분석에 사용되는데, 이때 절단된 자료란 연속형 자료가 아닌 특정 지점에서 절단이 발생하게 되거나 일정한 지점에서 개체가 양의 확률로 개체의 다수가 분포, 다른 영역에서는 연속형의 형태로 분포하는 자료를 의미한다. 이때 절단된 형태의 자료라는 특성을 고려하여 일반적인 선형회귀모형을 적합하는 경우 발생하는 문제점을 교정하고자 Tobit 및 Heckit 모형을 사용하나, 두 모형의 차이점이 명확하게 고려되지 않고 종종 혼용된 채 사용되었다. 따라서 여기서는 절단된 자료의 형태를 가정별로 세분화하여 모의자료를 통해 먼저 모형의 적합성을 비교하였으며, 이후 실제 자료를 바탕으로 모형을 적합하였다. 그 결과 절단 여부에 영향을 주는 잠재변수가 없는 경우 Tobit 및 Heckit 모형 모두 잘 적합되나 Tobit 모형이 간소하면서도 참값에 더 근접하게 적합되는 것을 확인하였다. 하지만 절단 여부에 영향을 주는 잠재변수가 존재하는 경우에는 Heckit 모형만 적합이 잘 되는 것을 확인하였다.


In this paper, Tobit and Heckit models are introduced. These models have been used for analyzing censored data. Censoring occurs at a specific point and a large number of observations are distributed with a positive probability at a certain point. Censoring can occur due to observing limitation or exogenous variables. Tobit and Heckit models are used to correct sample selection bias, which can occur when an ordinary linear regression model is fitted to censored data. However, the difference between the two models is not clearly accounted for; hence, they have often been used interchangeably. Therefore, the suitability of the models was validated through simulated data, and demonstrated through real data. As the result, it was confirmed that both Tobit and Heckit models are well-fitted to the data censored due to observing limitation, although Tobit model was fitted parsimoniously. In contrast, only Heckit model is well-fitted to the data censored due to exogenous variables.

KCI등재

41 추세필터의 변화점 식별에 있어서의 비일치성

저자 : 유동현 ( Donghyeon Yu ) , 임요한 ( Johan Lim ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 371-384 (14 pages)

다운로드

(기관인증 필요)

초록보기

구간별 상수 구조를 가지는 관측값으로부터 변화점을 식별하기 위해 FLSA가 자주 사용되고 있다. FLSA는 총변동벌점을 이용하기 때문에 평균 수준이 단조성을 가지는 경우에는 변화점 식별에서의 일치성이 보장되지 않는다는 특징이 있다. ℓ1 추세필터는 오차제곱합과 기울기 차이에 대한 ℓ1 벌점의 합을 목적함수로 가지는 구간별 선형 구조 추정방법으로 구간별 선형 구조에서의 변화점을 식별하기 위해 활용할 수 있다. 한편 ℓ1 추세필터의 경우에도 총변동벌점을 이용하므로 FLSA와 마찬가지로 변화점 식별에 있어서 비일치성을 보일 것으로 예상할 수 있는데 이와 관련된 연구는 아직까지 많이 이루어져 있지 않다. 이 연구에서는 모의실험을 통해 구간별 선형 모형에서 변화점을 식별하기 위해 사용되는 ℓ1 추세필터의 비일치성에 대해 살펴본다. 또 구간별 선형 구조를 가지는 데이터에서 변화점을 정확하게 식별하기 위해서는 관측값에 ℓ1추세필터를 적용하는 것보다 관측값을 차분하여 FLSA를 적용하는 것이 바람직한 경우들이 있음을 확인해본다.


The fused LASSO signal approximator (FLSA) can be applied to find change points from the data having piecewise constant mean structure. It is well-known that the FLSA is inconsistent in change points detection. This inconsistency is due to a total-variation denoising penalty of the FLSA. ℓ1 trend filter, one of the popular tools for finding an underlying trend from data, can be used to identify change points of piecewise linear trends. Since the ℓ1 trend filter applies the sum of absolute values of slope di_erences, it can be inconsistent for change points recovery as the FLSA. However, there are few studies on the inconsistency of the ℓ1 trend filtering. In this paper, we demonstrate the inconsistency of the ℓ1 trend filtering with a numerical study.

KCI등재

5단변량 시계열 모형들의 단순 결합의 예측 성능

저자 : 이선홍 ( Seonhong Lee ) , 성병찬 ( Byeongchan Seong )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 385-393 (9 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 시계열 예측 분야에서 잘 알려져 있는 단변량 시계열 모형들을 이용하여, 그들의 단순 조합이 어떤 예측력을 보여주는지 연구한다. 고려된 단변량 시계열 모형으로는, 지수평활 및 ARIMA(autoregressive integrated moving average) 모형들과 그들의 확장된 형태인 모형들 그리고 예측의 벤치마크 모형으로 자주 사용되는 비계절 및 계절 랜덤워크 모형이다. 단순 조합의 방법은 중앙값과 평균을 이용하였으며, 검증을 위하여 사용된 데이터셋은 3,003개의 시계열 자료로 구성된 M3-competition 자료이다. 예측 성능을 sMAPE(symmetric mean absolute percentage error)와 MASE(mean absolute scaled error)로 평가한 결과, 단변량 시계열 모형들의 단순 조합이 아주 우수한 예측력을 가지고 있음을 확인하였다.


In this paper, we consider univariate time series models that are well known in the field of forecasting and we study on forecasting performance for their simple combinations. The univariate time series models include exponential smoothing methods and ARIMA (autoregressive integrated moving average) models, their extended models, and non-seasonal and seasonal random walk models, which is frequently used as benchmark models for forecasting. The median and mean are simply used for the combination method, and the data set used for performance evaluation is M3-competition data composed of 3,003 various time series data. As results of evaluating the performance by sMAPE (symmetric mean absolute percentage error) and MASE (mean absolute scaled error), we assure that the simple combinations of the univariate models perform very well in the M3-competition dataset.

KCI등재

6다변량 장기 종속 시계열에서의 이상점 탐지

저자 : 김경희 ( Kyunghee Kim ) , 유승연 ( Seungyeon Yu ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 395-406 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 장기 종속 다변량 시계열 자료에 대한 이상점 탐지 기법을 연구한다. 기존 다변량 시계열 이상점 탐지 방법은 단기 종속 시계열 모형인 VARMA에 기반한 방법으로, 장기억성을 띈 다변량 시계열 자료에는 적합하지 않다. 자기회귀 모형을 통해서 장기 종속성, 즉 장기억성을 고려하기 위해서는 높은 차수의 모형이 필요하고, 이는 곧 추정의 불안성으로 이어지기에 장기억성을 효율적으로 다룰 수 없기 때문이다. 따라서, 본 논문은 이러한 문제를 보완하고자 VHAR 구조에 기반한 이상점 탐지 방법을 제시하고자 한다. 또한 더욱 정확한 추론을 위해서 로버스트한 방법을 이용하여 VHAR 계수를 추정하였고 이를 활용하여 이상점을 탐지하였다. 모의실험 결과 우리가 제안한 방법론이 기존 VARMA에 기반한 방법론보다 이상점 탐지에 더 효과적임을 살펴볼 수 있었다. 주가지수에 대한 실증자료 분석에서도 기존의 방법론은 탐지하지 못하는 추가 이상점을 찾음을 확인할 수 있었다.


This paper studies the outlier detection method for multivariate long memory time series. The existing outlier detection methods are based on a short memory VARMA model, so they are not suitable for multivariate long memory time series. It is because higher order of autoregressive model is necessary to account for long memory, however, it can also induce estimation instability as the number of parameter increases. To resolve this issue, we propose outlier detection methods based on the VHAR structure. We also adapt the robust estimation method to estimate VHAR coefficients more efficiently. Our simulation results show that our proposed method performs well in detecting outliers in multivariate long memory time series. Empirical analysis with stock index shows RVHAR model finds additional outliers that existing model does not detect.

KCI등재

7계층적 군집분석을 이용한 반도체 웨이퍼의 불량 및 불량 패턴 탐지

저자 : 정주원 ( Joowon Jeong ) , 정윤서 ( Yoonsuh Jung )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 407-419 (13 pages)

다운로드

(기관인증 필요)

초록보기

반도체는 제조 공정이 복잡하고 길어 결함이 발생될 때 빠른 탐지와 조치가 이뤄져야 결함으로 인한 손실을 최소화할 수 있다. 테스트 공정을 거쳐 구성된 웨이퍼 빈 맵(WBM)의 체계적인 패턴을 탐지하고 분류함으로써 문제의 원인을 유추할 수 있다. 이 작업은 수작업으로 이뤄지기 때문에 대량의 웨이퍼를 단 시간에 처리하는 데 한계가 있다. 본 논문은 웨이퍼 빈 맵의 정상 여부를 구분하기 위해 계층적 군집 분석을 활용한 새로운 결함 패턴 탐지 방법을 제시한다. 제시하는 방법은 여러 장점이 있다. 군집의 수를 알 필요가 없으며 군집분석의 조율 모수가 적고 직관적이다. 동일한 크기의 웨이퍼와 다이(die)에서는 동일한 조율 모수를 가지므로 대량의 웨이퍼도 빠르게 결함을 탐지할 수 있다. 소량의 결함 데이터만 있어도 그리고 데이터의 결함 비율을 가정하지 않더라도 기계학습 모형을 훈련할 수 있다. 제조 특성상 결함 데이터는 구하기 어렵고 결함의 비율이 수시로 바뀔 수 있기 때문에 필요하다. 또한 신규 패턴 발생시에도 안정적으로 탐지한다. 대만 반도체 기업에서 공개한 실제 웨이퍼 빈 맵 데이터(WM-811K)로 실험하였다. 계층적 군집 분석을 이용한 결함 패턴 탐지는 불량의 재현율이 96.31\%로 기존의 공간 필터(spatial filter)보다 우수함을 보여준다. 결함 분류는 혼합 유형에 장점이 있는 계층적 군집 분석을 그대로 사용한다. 직선형과 곡선형의 긁힘(scratch) 결함의 특징에 각각 주성분 분석의 고유값과 2차 다항식의 결정계수를 이용하고 랜덤 포레스트 분류기를 이용한다.


The semiconductor fabrication process is complex and time-consuming. There are sometimes errors in the process, which results in defective die on the wafer bin map (WBM). We can detect the faulty WBM by finding some patterns caused by dies. When one manually seeks the failure on WBM, it takes a long time due to the enormous number of WBMs. We suggest a two-step approach to discover the probable pattern on the WBMs in this paper. The first step is to separate the normal WBMs from the defective WBMs. We adapt a hierarchical clustering for de-noising, which nicely performs this work by wisely tuning the number of minimum points and the cutting height. Once declared as a faulty WBM, then it moves to the next step. In the second step, we classify the patterns among the defective WBMs. For this purpose, we extract features from the WBM. Then machine learning algorithm classifies the pattern. We use a real WBM data set (WM-811K) released by Taiwan semiconductor manufacturing company.

KCI등재

8Chatterjee의 ξ 계수에 대한 탐색적자료분석

저자 : 장대흥 ( Dae-heung Jang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 421-434 (14 pages)

다운로드

(기관인증 필요)

초록보기

hatterjee (2021)는 새로운 상관계수 ξ 를 제안하였다. 두 가지 질문 (1. Anscombe's quartet 데이터셋에 대하여 ξ 계수는 구별이 가능한가?, 2. 다양한 종류의 산점도에서 데이터의 개수에 따라 ξ 계수 값의 변화는 어떠한가?)을 중심으로 ξ 계수에 대한 탐색적자료분석을 시도하였다. 세 가지 측도 (ξ 계수, 피어슨상관계수, 상호정보)를 서로 비교하였다.


Chatterjee (2021) proposed a new correlation coefficient ξ. Focusing on two questions (1. Is ξ coefficient distinguishable for Anscombe's quartet data set?, 2. How does the ξ coefficient value change according to the number of data for various kinds of scatterplots?), an exploratory data analysis is attempted for ξ coefficient. We can compare three measures (ξ coefficient, Pearson's correlation coefficient and mutual information).

KCI등재

9코로나19 신속진단검사는 얼마나 정확한가?

저자 : 여인권 ( In-kwon Yeo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 435-443 (9 pages)

다운로드

(기관인증 필요)

초록보기

이 논문에서는 질병관리청에서 제공한 코로나 진단검사 관련 자료를 이용하여 신속진단키트의 민감도 및 특이도에 따른 확진 비율과 신속검사에서 음성이 나왔을 때 실제로는 확진이었을 확률에 대해 알아본다. 또한 양성 반응 중 실제 확진의 확률을 알 때 민감도와 특이도 간의 관계를 유도하고 이를 통해 질병관리청의 자료에 따른 신속진단키트의 실제 민감도가 얼마나 되는지 알아 본다.


In this paper, using Covid-19 diagnostic data provided by the Korea Disease Control and Prevention Agency (KDCA), we examine the probability of confirmed cases and the probability of actually being confirmed when the rapid test is negative according to the sensitivity and specificity of the rapid diagnostic kit. When we know the conditional probability of confirmation given a positive test, we induce the relationship between sensitivity and specificity, and compute the actual sensitivity of the rapid diagnosis kit based on the data of KDCA.

KCI등재

10고차원 선형 및 로지스틱 회귀모형에 대한 변분 베이즈 방법 소개

저자 : 장인송 ( Insong Jang ) , 이경재 ( Kyoungjae Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 3호 발행 연도 : 2022 페이지 : pp. 445-455 (11 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 고차원 희소 회귀분석을 위한 기존의 베이지안 방법들을 소개하고, 다양한 모의실험 세팅에서 성능을 비교한다. 특히, 확장 가능하고 정확한 베이지안 추론을 가능하게 하는 변분 베이즈 방법(variational Bayes method) (Ray와 Szabó, 2021)에 중점을 둔다. 시뮬레이션 자료를 기반으로 한 희소 고차원 선형 회귀분석을 실시하고 변분 베이즈 방법의 성능을 다른 베이지안 및 빈도론 방법들과 비교한다. 로지스틱 회귀분석에서 변분 베이즈 방법의 실제 성능을 확인하기 위해 백혈병 유전자 발현 자료를 사용하여 실자료 분석을 수행한다.


In this paper, we introduce existing Bayesian methods for high-dimensional sparse regression models and compare their performance in various simulation scenarios. Especially, we focus on the variational Bayes approach proposed by Ray and Szabó (2021), which enables scalable and accurate Bayesian inference. as a method to solve the computational problems of existing Bayesian methods in high-dimensional situations, and conduct a study comparing it with other variable selection methods through data analysis. Based on simulated data sets from sparse high-dimensional linear regression models, we compare the variational Bayes approach with other Bayesian and frequentist methods. In high-dimensional linear regression using simulation data, we conduct a study comparing the performance between the variational Bayes and various frequentist and Bayesian methods. To check the practical performance of the variational Bayes in logistic regression models, a real data analysis is conducted using leukemia data set.

1
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1혼합자료에서 독립성검정에 의한 연관성 측정

저자 : 이승천 ( Seung-chun Lee ) , 허문열 ( Moon Yul Huh )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 523-536 (14 pages)

다운로드

(기관인증 필요)

초록보기

두 확률변수의 연관성을 측정하는 측도는 많이 있으나, 이러한 측도는 같은 유형인 변수들 간의 관계를 측정하기 위한 것으로 여러 가지 유형의 변수들이 혼재되어 있는 혼합자료에서 사용하기는 곤란하다 본 논문에서는 두 확률변수의 독립성 검정을 통해 구한 p-값으로 혼합자료에서 사용될 수 있는 새로운 연관성 측도를 구하였으며, 이렇게 구하여진 연관성 측도가 혼합자료에서 변수들 간의 연관성을 비교하는데 유용하게 사용될 수 있음을 보였다.

KCI등재

2관리도에서 Markov연쇄의 적용: 복습 및 새로운 응용

저자 : 박창순 ( Changsoon Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 537-556 (20 pages)

다운로드

(기관인증 필요)

초록보기

통계적 공정관리절차의 특성은 해석적 해를 얻기가 어려운 경우가 많이 있으나 Markov연쇄를 적용하면 가능한 경우가 많이 있다. 이 논문에서는 공정 통계량이 Markov특성을 따르는 경우, Markov연쇄를 생성하는 방법과 이를 이용한 공정관리 절차의 특성을 도출하는 방법에 대해 설명하고 있다. 관리도의 통계적 설계, 경제적 설계 및 변량 표본 추출비 설계 등의 특성 규명을 위한 Markov연쇄의 적용에 대한 기존의 알려진 방법을 복습하고 또한 새로운 공정관리 분야인 재조정 관리도에의 적용방법에 대한 연구결과도 보여주고 있다. 공정관리의 특성연구에서 해석적 해가 가능한 경우에도 이 과정이 복잡하여 Markov연쇄를 병행 사용하면 특성 규명이 명확해지며, 모의실험보다는 짧은 시간에 더 정밀한 결과를 얻을 수 있어 널리 이용되고 있다.

KCI등재

3언론보도사례를 통해 본 통계발표상의 문제

저자 : 조진섭 ( Sinsup Cho )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 557-574 (18 pages)

다운로드

(기관인증 필요)

초록보기

공식통계 및 사회조사통계 정보들이 언론에 보도되는 과정에서 발생하는 여러 가지 문제점들을 사례중심으로 살펴보고 이의 해결방안에 대해 알아보았다.

KCI등재

4통계학 용어의 증보

저자 : 허명회 ( Myung-hoe Huh )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 575-578 (4 pages)

다운로드

(기관인증 필요)

초록보기

통계학 용어의 국문화에 관련하여 1980년대 이래 한국통계학회의 활동을 돌아보고 2000년 이래 대두된 새 용어들을 제안한다. 기계학습과 관련된 통계학 용어가 속히 정립되어야 하고 전통적 용어들에 대하여도 지속적인 업데이트가 필요하다.

KCI등재

5이항자료에 대한 예측구간

저자 : 류제복 ( Jea-bok Ryu )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 579-588 (10 pages)

다운로드

(기관인증 필요)

초록보기

신뢰구간 추정에 널리 사용되고 있는 Wald, Agresti-Coull, 그리고 베이지안 방법인 Jeffrey와 Bayes-Laplace를 예측구간에 적용하였다. 네 가지 방법의 수치적 비교를 위해서 포함확률, 평균포함확률, 평균제곱오차의 제곱근, 그리고 평균기대폭을 사용하였다. 비교결과 Wald 방법은 신뢰구간에서와 마찬가지로 예측구간에서도 바람직하지 않았고 신뢰구간에서 선호되던 Agresti-Coull 방법은 예측구간에서는 너무 보수적이라 적절치 않다. 반면에 Jeffrey와 Bayes-Laplace 방법은 적절하였고, 특히 Jeffrey 방법은 신뢰구간의 경우에서와 마찬가지로 예측구간에서도 바람직하였다.

KCI등재

6다중회귀에서 회귀계수 추정량의 특성

저자 : 강명욱 ( Myung-wook Kahng )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 589-597 (9 pages)

다운로드

(기관인증 필요)

초록보기

단순회귀와 다중회귀에서 회귀계수의 의미는 차이가 있고 회귀계수의 추정값은 같지 않을 뿐 아니라 그 부호가 서로 다른 경우도 발생한다. 회귀모형에서 설명변수의 상대적 기여도의 파악은 회귀분석의 수행의 중요한 부분이다. 표준화 회귀모형에서 표준화 회귀계수는 해당 설명변수를 제외한 나머지 설명변수의 값이 고정되어있는 상황에서 설명변수가 표준편차만큼 증가하였을 때 반응변수가 표준편차를 기준으로 얼마나 변화했는가로 해석할 수 있지만 표준화 회귀계수의 크기가 각 설명변수의 상대적 중요도를 나타내는 척도라고 할 수 없음은 잘 알려져 있다. 본 논문에서는 다중회귀에서 회귀계수의 추정량을 상관계수와 결정계수의 함수로 나타내고 이를 추가적인 설명력과 추가적인 결정계수의 관점에서 생각해 본다. 또한 다양한 산점도에서의 상관계수와 회귀계수 추정값의 관계를 알아보고 설명변수가 두 개인 경우에 구체적으로 적용해 본다.

KCI등재

7불균형자료를 위한 판별분석에서 HDBSCAN의 활용

저자 : 이보희 ( Bo-hui Lee ) , 김태헌 ( Tae-heon Kim ) , 최용석 ( Yong-seok Choi )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 599-609 (11 pages)

다운로드

(기관인증 필요)

초록보기

군집간의 개체 수의 차이가 큰 자료들을 불균형자료라고 한다. 불균형자료의 판별분석에서 다수 범주의 개체를 잘 분류하는 것 보다 소수 범주의 개체를 잘 분류하는 것이 더 중요하다. 그러나 개체 수가 상대적으로 작은 소수 범주의 개체를 개체 수가 상대적으로 많은 다수 범주의 개체로 오분류하는 경우가 많다. 본 연구에서는 이를 해결하기 위해 HDBSCAN과 SMOTE를 결합한 방법을 제안한다. HDBSCAN을 이용하여 소수 범주의 노이즈와 다수 범주의 노이즈를 제거하고 SMOTE를 적용하여 새로운 자료를 만들어낸다. 기존의 방법들과 성능을 비교하기 위하여 AUC와 F1 점수를 이용하였고 그 결과 대부분의 경우에 HDBSCAN과 SMOTE를 결합한 방법이 높은 성능 지표를 보였고, 불균형자료를 분류하는데 있어 뛰어난 방법으로 나타났다.

KCI등재

8비대칭-비정상 변동성 모형 평가를 위한 모수적-붓스트랩

저자 : 최선우 ( Sun Woo Choi ) , 윤재은 ( Jae Eun Yoon ) , 이성덕 ( Sung Duck Lee ) , 황선영 ( Sun Young Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 611-622 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 변동성의 비대칭성과 비정상성을 동시에 고려하고 있다. 다양한 변동성 모형을 분석하고 있으며 모수적-붓스트랩을 통한 예측분포를 이용하여 변동성 모형의 예측성능을 비교하고 있다. 오차항 분포로서 표준정규분포 및 표준화 t-분포를 고려하였으며 1-시차 후 예측과 2-시차 후 예측을 미국의 다우지수 사례를 통해 설명하였다.

KCI등재

9최대 전력수요 예측을 위한 시계열모형 비교

저자 : 권숙희 ( Sukhui Kwon ) , 김재훈 ( Jaehoon Kim ) , 손석만 ( Seokman Sohn ) , 이성덕 ( Sungduck Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 623-632 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 여러가지 시계열 모형 중 평활법(가법계절지수, 승법계절지수), 계절 ARIMA 모형, AR-ARCH 그리고 AR-GARCH 회귀모형을 이용하여 최대 전력수요를 예측하는 방법을 연구하였다. 이 때 가중평균모형으로 추세를 갖는 시계열 모형과 온도에 대한 회귀 모형을 적절한 가중치로 예측 정확도를 높이는 방법도 연구하였다. 결과적으로 AR-GARCH 회귀모형으로 예측하는 것이 가중 우수함을 보였다.

KCI등재

10통계공학을 위한 Python 패키지 응용

저자 : 장대흥 ( Dae-heung Jang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 633-658 (26 pages)

다운로드

(기관인증 필요)

초록보기

통계공학은 실험계획법, 품질관리/품질경영, 신뢰성공학으로 구성된다. Python은 무료로 개방되어 있는 패키지로서 머신러닝, 데이터사이언스, 공학 및 그래픽 관련 패키지가 방대하다. 우리는 이러한 Python 패키지를 통계공학을 위한 기본 패키지로 유용하게 사용할 수 있다. 본 논문에서는 통계공학을 위한 Python 패키지 응용을 살펴보고 통계공학 관련 종합 Python projects가 필요함을 제안하였다.

12
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기