논문 상세보기

한국통계학회> 응용통계연구> 다중회귀에서 회귀계수 추정량의 특성

KCI등재

다중회귀에서 회귀계수 추정량의 특성

Comments on the regression coefficients

강명욱 ( Myung-wook Kahng )
  • : 한국통계학회
  • : 응용통계연구 34권4호
  • : 연속간행물
  • : 2021년 08월
  • : 589-597(9pages)
응용통계연구

DOI


목차

1. 서론
2. 다중회귀모형과 회귀계수
3. 표준화 회귀계수의 특성과 잔차산점도
4. 예제
5. 결론
References

키워드 보기


초록 보기

단순회귀와 다중회귀에서 회귀계수의 의미는 차이가 있고 회귀계수의 추정값은 같지 않을 뿐 아니라 그 부호가 서로 다른 경우도 발생한다. 회귀모형에서 설명변수의 상대적 기여도의 파악은 회귀분석의 수행의 중요한 부분이다. 표준화 회귀모형에서 표준화 회귀계수는 해당 설명변수를 제외한 나머지 설명변수의 값이 고정되어있는 상황에서 설명변수가 표준편차만큼 증가하였을 때 반응변수가 표준편차를 기준으로 얼마나 변화했는가로 해석할 수 있지만 표준화 회귀계수의 크기가 각 설명변수의 상대적 중요도를 나타내는 척도라고 할 수 없음은 잘 알려져 있다. 본 논문에서는 다중회귀에서 회귀계수의 추정량을 상관계수와 결정계수의 함수로 나타내고 이를 추가적인 설명력과 추가적인 결정계수의 관점에서 생각해 본다. 또한 다양한 산점도에서의 상관계수와 회귀계수 추정값의 관계를 알아보고 설명변수가 두 개인 경우에 구체적으로 적용해 본다.
In simple and multiple regression, there is a difference in the meaning of regression coefficients, and not only are the estimates of regression coefficients different, but they also have different signs. Understanding the relative contribution of explanatory variables in a regression model is an important part of regression analysis. In a standardized regression model, the regression coefficient can be interpreted as the change in the response variable with respect to the standard deviation when the explanatory variable increases by the standard deviation in a situation where the values of the explanatory variables other than the corresponding explanatory variable are fixed. However, the size of the standardized regression coefficient is not a proper measure of the relative importance of each explanatory variable. In this paper, the estimator of the regression coefficient in multiple regression is expressed as a function of the correlation coefficient and the coefficient of determination. Furthermore, it is considered in terms of the effect of an additional explanatory variable and additional increase in the coefficient of determination. We also explore the relationship between estimates of regression coefficients and correlation coefficients in various plots. These results are specifically applied when there are two explanatory variables.

UCI(KEPA)

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2021
  • : 1977


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

34권5호(2021년 10월) 수록논문
최근 권호 논문
| | | |

KCI등재

1층별 응답률을 사용한 멱배정 방법의 확장

저자 : 박현아 ( Hyeonah Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 671-683 (13 pages)

다운로드

(기관인증 필요)

초록보기

멱배정의 전체 효율은 최적배정보다 감소하지만, 층별 표본을 골고루 배정하는 기법이며 조사 현장에서는 제곱근 비례배정으로 많이 사용된다. 그리고 실제조사에서는 무응답을 고려하여 이론적 공식에서 나오는 것보다 더 많은 표본크기를 추출한다. 본 연구에서는 층별 표본크기를 결정함에 있어서 멱배정 방법에 층별 응답률의 정보를 추가하여 배정하는 기법을 연구한다. 제안된 배정기법들을 비례, 최적, 제곱근 비례 배정과 비교하며 응답률이 추가된 비례, 최적배정과도 비교하는 것을 모의실험을 통해 살펴봄으로써 배정방법들의 장단점을 살펴본다.


Power allocation is a technique that evenly allocates samples for each stratum, although the overall efficiency of the allocation is less than that of optimal allocation, and it is often used as a square root proportional allocation in real survey. Also, considering the non-response that occurs in real survey, a larger sample size is used than that in the theoretical formula. In this study, in determining the sample size for each stratum, we study the new methods of allocating by adding information on the response rate per each stratum to power allocation method. The proposed allocation methods are compare with proportional, optimal, and square root proportional allocation in simulation. In addition, the comparison with the proportional and optimal allocation to which the response rate was added is examined through simulation. As a result, we examine the advantages and disadvantages of the allocation methods.

KCI등재

2경제활동인구조사 자료를 위한 다중대체 방식 연구

저자 : 박민정 ( Min-jeong Park ) , 배윤종 ( Yoonjong Bae ) , 김정연 ( Joungyoun Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 685-696 (12 pages)

다운로드

(기관인증 필요)

초록보기

경제활동인구조사는 고용 관련 통계를 생성하는 국가조사로서, 국민의 경활상태(취업/실업/비경활)를 파악하는 것이 주요 목적이다. 정확한 통계를 내기 위해 무응답률을 낮추는 것이 중요하고, 이미 발생한 무응답을 보완하기 위한 방법으로 무응답 대체가 가능하다. 경제활동인구조사는 응답 방식이 순차적 흐름을 따라가기 때문에 구조적인 무응답이 존재한다. 또한 전체 가구원내 무응답 항목이 하나라도 있으면 해당 가족 구성원 전체를 무응답 처리하기에 최종 자료에는 항목 무응답이 아닌 단위 무응답만 존재한다는 특징이 있다. 본 연구에서는 구조적 무응답 이해 및 연계자료를 통한 과거 자료의 활용 등을 통해 기존의 방법보다 효과적인 무응답 대체 모형을 제시하고자 한다. 대체 모형의 성능을 일치도/비일치도를 기반으로 평가한다. 이를 위해, 2019년 11월 경제활동인구조사 자료를 기반으로 모의실험을 실시한다. 총 59,996명의 응답자 중 일부를 랜덤하게 선택한 뒤, 경활상태를 판정하는데 결정적인 설명변수 6개와 경활상태를 무응답 처리한다. 기존 무응답 대체 모형에서 사용하였던 설명 변수 이외에 산업변수와 종사상지위 변수를 추가함으로써 모형을 개선한다. 이는 과거자료의 연계 및 활용을 가정한 것으로, 기존의 모형모다 성능이 향상되는 것을 확인한다. 또한, 경활상태별 무응답자 수에 대한 다양한 시나리오를 고려한다.


The Korean Economically Active Population Survey (KEAPS) is a national survey that produces employment-related statistics. The main purpose of the survey is to find out the economic activity status (employed/ unemployed / non-employed) of the people. KEAPS has a unique characteristics caused by the survey method. In this study, through understanding of structural non-response and utilization of past data, we would like to present an improved imputation model. The performance of the proposed model is compared with the existing model through simulation. The performance of the imputation models is evaluated based on the degree of mathing/nonmatching rates. For this, we employ the KEAPS data in November 2019. For the randomly selected ones among the total 59,996 respondents, the six explanatory variables, which are critical in determining the economic activity states, are treated as non-response. The proposed model includes industry variable and job status variable in addition to the explanatory variables used in the precedent research. This is based on the linkage and utilization of past data. The simulation results confirm that the proposed model with additional variables outperforms the existing model in the precedent research. In addition, we consider various scenarios for the number of non-responders by the economic activity status.

KCI등재

3상대오차예측을 이용한 자동차 보험의 손해액 예측: 패널자료를 이용한 연구

저자 : 박흥선 ( Heungsun Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 697-710 (14 pages)

다운로드

(기관인증 필요)

초록보기

상대오차를 이용한 예측법은 상대오차(혹은 퍼센트오차)가 중요시되는 분야, 특히 계량경제학이나 소프트웨어 엔지니어링, 또는 정부기관 공식통계 부분에서 기존 예측방법 외에 선호되는 예측방법이다. 그 동안 상대오차를 이용한 예측법은 선형 혹은 비선형 회귀분석 뿐 아니라, 커널회귀를 이용한 비모수 회귀모형, 그리고 정상시계열분석에 이르기까지 그 범위가 확장되어 왔다. 그러나, 지금까지의 분석은 고정효과(fixed effect)만을 고려한 것이어서 임의효과(random effect)에 관한 상대오차 예측법에 대한 확장이 필요하였다. 본 논문의 목적은 상대오차예측법을 일반화선형혼합모형(GLMM)에 속한 감마회귀(gamma regression), 로그정규회귀(lognormal regression), 그리고 역가우스회귀(inverse gaussian regression)의 패널자료(panel data)에 적용시키는데 있다. 이를 위해 실제 자동차 보험회사의 손해액 자료를 사용하였고, 최량예측량과 최량상대오차예측량을 각각 적용-비교해 보았다.


Relative error prediction is preferred over ordinary prediction methods when relative/percentile errors are regarded as important, especially in econometrics, software engineering and government official statistics. The relative error prediction techniques have been developed in linear/nonlinear regression, nonparametric regression using kernel regression smoother, and stationary time series models. However, random effect models have not been used in relative error prediction. The purpose of this article is to extend relative error prediction to some of generalized linear mixed model (GLMM) with panel data, which is the random effect models based on gamma, lognormal, or inverse gaussian distribution. For better understanding, the real auto insurance data is used to predict the claim size, and the best predictor and the best relative error predictor are comparatively illustrated.

KCI등재

4불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택

저자 : 장서인 ( Shuin Jang ) , 여인권 ( In-kwon Yeo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 711-721 (11 pages)

다운로드

(기관인증 필요)

초록보기

이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.


In this paper, we propose the method of adjusting thresholds using impurity indices in classification analysis on imbalanced data. Suppose the minority category is Positive and the majority category is Negative for the imbalanced binomial data. When categories are determined based on the commonly used 0.5 basis, the specificity tends to be high in unbalanced data while the sensitivity is relatively low. Increasing sensitivity is important when proper classification of objects in minority categories is relatively important. We explore how to increase sensitivity through adjusting thresholds. Existing studies have adjusted thresholds based on measures such as G-Mean and F1-score, but in this paper, we propose a method to select optimal thresholds using the chi-square statistic of CHAID, the Gini index of CART, and the entropy of C4.5. We also introduce how to get a possible unique value when multiple optimal thresholds are obtained. Empirical analysis shows what improvements have been made compared to the results based on 0.5 through classification performance metrics.

KCI등재

5시계열 모형과 기계학습 모형을 이용한 풍력 발전량 예측 연구

저자 : 박수진 ( Sujin Park ) , 이진영 ( Jin-young Lee ) , 김삼용 ( Sahm Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 723-734 (12 pages)

다운로드

(기관인증 필요)

초록보기

빠르게 발전하고 있는 재생에너지 중 하나인 풍력에너지는 기후변화 대응에 맞추어 개발 및 투자가 이루어지고있다. 신재생에너지 정책과 발전소 설치가 추진됨에 따라 국내 풍력 보급이 점차 확대되어 수요를 정확히 예측하기 위한 시도들이 확대되고 있다. 본 논문에서는 전남지역과 경북지역의 풍력 발전량 예측을 위하여 시계열 기법인 ARIMA, ARIMAX 모형과 기계학습 모형인 SVR, Random Forest, XGBoost 모형들을 비교 분석하였다. 모형의 예측 결과를 비교하기 위한 지표로서 mean absolute error (MAE)와 mean absolute percentage error (MAPE)를 사용하였다. 2018년 1월 1일부터 2020년 10월 24일까지의 시간별 원 데이터를 차분한 후 모형을 훈련시켜 2020년 10월 25일부터 2020년 10월 31일까지의 168시간에 대한 풍력 발전량을 예측하였다. 모형의 예측력 비교 결과, Random Forest와 XGBoost 모형이 전남지역, 경북지역 순으로 가장 우수한 성능을 보였다. 향후 연구에서는 기계학습뿐 아니라 최근 활발한 연구가 이루어지는 데이터 마이닝 기법 기반의 풍력 발전량 예측을 시도할 것이다.


Wind energy is one of the rapidly developing renewable energies which is being developed and invested in response to climate change. As renewable energy policies and power plant installations are promoted, the supply of wind power in Korea is gradually expanding and attempts to accurately predict demand are expanding. In this paper, the ARIMA and ARIMAX models which are Time series techniques and the SVR, Random Forest and XGBoost models which are machine learning models were compared and analyzed to predict wind power generation in the Jeonnam and Gyeongbuk regions. Mean absolute error (MAE) and mean absolute percentage error (MAPE) were used as indicators to compare the predicted results of the model. After subtracting the hourly raw data from January 1, 2018 to October 24, 2020, the model was trained to predict wind power generation for 168 hours from October 25, 2020 to October 31, 2020. As a result of comparing the predictive power of the models, the Random Forest and XGBoost models showed the best performance in the order of Jeonnam and Gyeongbuk. In future research, we will try not only machine learning models but also forecasting wind power generation based on data mining techniques that have been actively researched recently.

KCI등재

6제1형 우측중도절단된 로그정규 수명 자료를 모니터링하는 누적합 관리도

저자 : 최민재 ( Minjae Choi ) , 이재헌 ( Jaeheon Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 735-744 (10 pages)

다운로드

(기관인증 필요)

초록보기

제품의 수명을 유지시키는 것은 품질관리의 주요 목표 중 하나이다. 실제 공정에서는 시간 및 비용의 문제로 인해 모든 표본의 수명을 측정할 수 없는 경우가 많이 발생하기 때문에, 대부분 중도절단된 자료를 포함시켜 표본을 구성한다. 이 논문에서는 제1형의 우측중도절단된 수명 자료가 로그정규분포를 따르는 경우, 제품 수명의 평균을 모니터링하는 두 가지 누적합 관리도 절차를 제안한다. 하나는 우도비에 기초한 누적합 관리도이고, 다른 하나는 이항분포에 기초한 누적합 관리도 절차이다. 모의실험을 통해 평균런길이를 비교하는 방법으로 제안된 두 관리도 절차의 성능을 비교하였다. 모의실험 결과, 중도절단율이 낮은 경우, 형상모수값이 작은 경우, 평균의 감소 변화량이 큰 경우에는 우도비 누적합 관리도가 더 효율적이며, 반대로 중도절단율이 높은 경우, 형상모수값이 큰 경우, 평균의 감소 변화량이 적은 경우에는 이항 누적합 관리도가 더 효율적인 것으로 나타났다.


Maintaining the lifetime of a product is one of the objectives of quality control. In real processes, most samples are constructed with censored data because, in many situations, we cannot measure the lifetime of all samples due to time or cost problems. In this paper, we propose two cumulative sum (CUSUM) control charting procedures to monitor the mean of type I right-censored lognormal lifetime data. One of them is based on the likelihood ratio, and the other is based on the binomial distribution. Through simulations, we evaluate the performance of the two proposed procedures by comparing the average run length (ARL). The overall performance of the likelihood ratio CUSUM chart is better, especially this chart performs better when the censoring rate is low and the shape parameter value is small. Conversely, the binomial CUSUM chart is shown to perform better when the censoring rate is high, the shape parameter value is large, and the change in the mean is small.

KCI등재

7기계학습을 활용한 주식 가격의 이동 방향 예측

저자 : 김용환 ( Yonghwan Kim ) , 송성주 ( Seongjoo Song )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 745-760 (16 pages)

다운로드

(기관인증 필요)

초록보기

금융시장에서 주식 가격 자체 또는 가격의 방향성에 대한 예측은 오래 전부터 관심의 대상이 되어 왔기에 여러 방면에서 다양한 연구가 이어져 왔다. 특히 1960년대에 들어서며 많은 연구가 진행되었고 예측가능성에 대해 찬반의 의견들이 있었는데, 1970년대에 나타난 효율적 시장 가설이 지지를 받으면서 주식 가격의 예측은 불가능하다는 의견이 주를 이루었다. 그러나 최근 기계학습 등 예측기술의 발달로 인해 주식 시장에서 미래를 예측해 보려는 새로운 시도가 이어져, 주식시장의 효율성을 부정하고 높은 예측력을 주장하는 연구들이 등장하고 있다.
이 논문에서는 과거 연구들을 평가방법 별로 정리하고, 새로운 주장의 신빙성을 확인하기 위해 이차판별분석, support vector machine, random forest, extreme gradient boost, 심층신경망 등 다양한 기계학습 모형을 적용하여 한국유가증권시장에 상장된 종목 중 삼성전자, LG화학, Naver 주식 가격의 방향성을 예측해보았다. 이때, 널리 사용되는 기술적 지표 변수들과 더불어 price earning ratio, price book-value ratio 등 회계지표를 활용한 변수와, 은닉마르코프모형의 출력값 변수를 사용하였다. 분석결과, 이번 연구의 조건 하에서는 통계적으로 유의미한 예측력을 제시하는 모형이 존재하지 않았고, 현 시점에서 단기 주가 방향성의 예측은 어렵다고 판단되었다. 비교적 단순한 이차판별분석 모형과 회계지표를 활용한 변수를 추가한 모형이 상대적으로 높은 예측력을 보였다는 점에서, 복잡한 모형을 시도하기 보다는 주식 가격에 대한 투자자들의 의견 및 심리가 반영될 수 있는 다양한 변수를 개발하여 활용한다면 향후 유의미한 예측이 가능할 수도 있을 것이다.


Prediction of a stock price has been a subject of interest for a long time in financial markets, and thus, many studies have been conducted in various directions. As the efficient market hypothesis introduced in the 1970s acquired supports, it came to be the majority opinion that it was impossible to predict stock prices. However, recent advances in predictive models have led to new attempts to predict the future prices.
Here, we summarize past studies on the price prediction by evaluation measures, and predict the direction of stock prices of Samsung Electronics, LG Chem, and NAVER by applying various machine learning models. In addition to widely used technical indicator variables, accounting indicators such as Price Earning Ratio and Price Book-value Ratio and outputs of the hidden Markov Model are used as predictors. From the results of our analysis, we conclude that no models show significantly better accuracy and it is not possible to predict the direction of stock prices with models used. Considering that the models with extra predictors show relatively high test accuracy, we may expect the possibility of a meaningful improvement in prediction accuracy if proper variables that reflect the opinions and sentiments of investors would be utilized.

KCI등재

8통계모형을 이용하여 모의실험 결과 분석하기

저자 : 김지현 ( Ji-hyun Kim ) , 김봉성 ( Bongseong Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 761-772 (12 pages)

다운로드

(기관인증 필요)

초록보기

모의실험 결과를 보통 표나 그림으로 보고한다. 하지만 모의실험이 다양한 조건에서 실시되었고 실험조건마다 추정량의 성능 우위에 대한 결과가 다르면 표와 그림만으로 추정량의 성능을 비교하기가 어렵다. 또한 실행시간이 오래 걸리는 모의실험의 경우 모의실험 반복횟수를 크게 하기 어렵다. 회귀모형을 이용하여 모의실험 결과를 분석하면 보다 체계적이고 효과적으로 추정량의 성능을 비교할 수 있다. 이때 실험조건과 추정량에 따라 성능의 변동이 다를 수 있으므로 회귀모형에서 오차항의 이분산성을 허용해야 하며, 여러 개의 추정량을 동시에 비교해야 하므로 다중비교를 실시해야 한다. 모의실험 결과에 대한 분석이라는 맥락에서 이분산성과 다중비교에 대한 배경이론을 소개하고 예시를 통해 구체적 분석방법도 제시한다.


Simulation results for the comparison of estimators of interest are usually reported in tables or plots. However, if the simulations are conducted under various conditions for many estimators, the comparison can be difficult to be made with tables or plots. Furthermore, for algorithms that take a long time to run, the number of iterations of the simulation is costly to to be increased. The analysis of simulation results using regression models allows us to compare the estimators more systematically and effectively. Since variances in performance measures may vary depending on the simulation conditions and estimators, the heteroscedasticity of the error term should be allowed in the regression model. And multiple comparisons should be made because multiple estimators should be compared simultaneously. We introduce background theories of heteroscedasticity and multiple comparisons in the context of analyzing simulation results. We also present a concrete example.

KCI등재

9함수회귀분석을 통한 교통량 예측

저자 : 이인주 ( Injoo Lee ) , 이영경 ( Young K. Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 773-794 (22 pages)

다운로드

(기관인증 필요)

초록보기

교통량 예측은 지방 행정의 의사결정에 매우 중요한 정보를 제공한다. 교통량 예측을 통해 교통혼잡비용을 줄이고 지역경제를 활성화 함으로써 사회적, 경제적 이익을 창출할 수 있다. 교통량은 미지의 확률적 규칙 하에서 시간의 흐름에 따라 궤적을 가지며 변화하는 함수데이터의 일종이다. 본 논문에서는 세 가지 함수회귀모형을 이용하여 과거에 관측된 교통량 궤적을 기반으로 미래의 관측되지 않은 교통량 궤적을 예측하는 방법을 제시한다. 본 논문에서 소개하는 세가지 방법은 전국 고속도로 영업소 중 서울, 춘천, 강릉 세 개 영업소에서 수집된 고속도로 영업소 데이터에 적용한다. 각 영업소 별로 세가지 방법의 예측오차를 비교함으로써 영업소별 최적 교통량 예측모형을 찾는다.


Prediction of vehicle traffic volume is very important in planning municipal administration. It may help promote social and economic interests and also prevent traffic congestion costs. Traffic volume as a time-varying trajectory is considered as functional data. In this paper we study three functional regression models that can be used to predict an unseen trajectory of traffic volume based on already observed trajectories. We apply the methods to highway tollgate traffic volume data collected at some tollgates in Seoul, Chuncheon and Gangneung. We compare the prediction errors of the three models to find the best one for each of the three tollgate traffic volumes.

KCI등재

10관리도를 활용한 국민청원 토픽 모니터링 연구

저자 : 이희연 ( Heeyeon Lee ) , 최지은 ( Jieun Choi ) , 이성임 ( Sungim Lee ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 5호 발행 연도 : 2021 페이지 : pp. 795-806 (12 pages)

다운로드

(기관인증 필요)

초록보기

최근 온라인 채널을 통한 텍스트 자료가 방대해 지면서 이를 요약하고 분석하는 연구에 관한 관심이 커지고 있는 추세이다. 먼저 텍스트 자료에 대한 기본적인 분석 중 하나는 어떤 주제나 내용을 포함하고 있는지 잠재된 토픽을 추출하는 것이다. 연구자가 일일이 모든 자료를 읽고 내용을 요약할 수도 있겠지만, 대용량 데이터를 다루는 경우에는 결코 쉽지 않기 때문에, 통계적 모형을 사용하여 토픽을 추출하는 토픽모형 방법들이 제안되어 왔다 (Blei와 Lafferty, 2007; Blei 등, 2003). 시간에 따라 수집된 텍스트 데이터로부터 토픽의 변화를 모니터링하기 위하여, 본 연구에서는 잠재적 디리슈레 할당(latent Dirichlet allocation) 모형을 통해 토픽을 분류하고 그 결과를 바탕으로 한 토픽 지수를 제안하였다. 또한, 이를 통계적 공정관리의 대표적 도구인 관리도에 적용하여 시간 경과에 따른 토픽의 변화를 모니터링하는 데 적용해 보았다. 실제 데이터로 2018년 3월 5일부터 2020년 3월 5일 사이에 청와대 국민청원 온라인 게시판에 접수된 텍스트 데이터를 사용하였으며, 토픽 지수를 모니터링함으로써 토픽에 대한 이상변화를 탐지할 수 있음을 살펴 보았다.


Recently, as text data through online channels have become vast, there is a growing interest in research that summarizes and analyzes them. One of the fundamental analyses of text data is to extract potential topics. Although the researcher may read all the data and summarize the contents one by one, it is not easy to deal with large amounts of data. Blei and Lafferty (2007) and Blei et al. (2003) proposed topic modeling methods for extracting topics using a statistical model. Since the text data is generally collected over time, it is worthwhile to monitor the topic's changes. In this study, we propose a topic index based on the results of the topic model. In addition, a control chart, a representative tool for statistical process management, is applied to monitor the topic index over time. As a practical example, we use text data collected from Blue House National Petition boards between March 5, 2018, and March 5, 2020.

12
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1혼합자료에서 독립성검정에 의한 연관성 측정

저자 : 이승천 ( Seung-chun Lee ) , 허문열 ( Moon Yul Huh )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 523-536 (14 pages)

다운로드

(기관인증 필요)

초록보기

두 확률변수의 연관성을 측정하는 측도는 많이 있으나, 이러한 측도는 같은 유형인 변수들 간의 관계를 측정하기 위한 것으로 여러 가지 유형의 변수들이 혼재되어 있는 혼합자료에서 사용하기는 곤란하다 본 논문에서는 두 확률변수의 독립성 검정을 통해 구한 p-값으로 혼합자료에서 사용될 수 있는 새로운 연관성 측도를 구하였으며, 이렇게 구하여진 연관성 측도가 혼합자료에서 변수들 간의 연관성을 비교하는데 유용하게 사용될 수 있음을 보였다.

KCI등재

2관리도에서 Markov연쇄의 적용: 복습 및 새로운 응용

저자 : 박창순 ( Changsoon Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 537-556 (20 pages)

다운로드

(기관인증 필요)

초록보기

통계적 공정관리절차의 특성은 해석적 해를 얻기가 어려운 경우가 많이 있으나 Markov연쇄를 적용하면 가능한 경우가 많이 있다. 이 논문에서는 공정 통계량이 Markov특성을 따르는 경우, Markov연쇄를 생성하는 방법과 이를 이용한 공정관리 절차의 특성을 도출하는 방법에 대해 설명하고 있다. 관리도의 통계적 설계, 경제적 설계 및 변량 표본 추출비 설계 등의 특성 규명을 위한 Markov연쇄의 적용에 대한 기존의 알려진 방법을 복습하고 또한 새로운 공정관리 분야인 재조정 관리도에의 적용방법에 대한 연구결과도 보여주고 있다. 공정관리의 특성연구에서 해석적 해가 가능한 경우에도 이 과정이 복잡하여 Markov연쇄를 병행 사용하면 특성 규명이 명확해지며, 모의실험보다는 짧은 시간에 더 정밀한 결과를 얻을 수 있어 널리 이용되고 있다.

KCI등재

3언론보도사례를 통해 본 통계발표상의 문제

저자 : 조진섭 ( Sinsup Cho )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 557-574 (18 pages)

다운로드

(기관인증 필요)

초록보기

공식통계 및 사회조사통계 정보들이 언론에 보도되는 과정에서 발생하는 여러 가지 문제점들을 사례중심으로 살펴보고 이의 해결방안에 대해 알아보았다.

KCI등재

4통계학 용어의 증보

저자 : 허명회 ( Myung-hoe Huh )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 575-578 (4 pages)

다운로드

(기관인증 필요)

초록보기

통계학 용어의 국문화에 관련하여 1980년대 이래 한국통계학회의 활동을 돌아보고 2000년 이래 대두된 새 용어들을 제안한다. 기계학습과 관련된 통계학 용어가 속히 정립되어야 하고 전통적 용어들에 대하여도 지속적인 업데이트가 필요하다.

KCI등재

5이항자료에 대한 예측구간

저자 : 류제복 ( Jea-bok Ryu )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 579-588 (10 pages)

다운로드

(기관인증 필요)

초록보기

신뢰구간 추정에 널리 사용되고 있는 Wald, Agresti-Coull, 그리고 베이지안 방법인 Jeffrey와 Bayes-Laplace를 예측구간에 적용하였다. 네 가지 방법의 수치적 비교를 위해서 포함확률, 평균포함확률, 평균제곱오차의 제곱근, 그리고 평균기대폭을 사용하였다. 비교결과 Wald 방법은 신뢰구간에서와 마찬가지로 예측구간에서도 바람직하지 않았고 신뢰구간에서 선호되던 Agresti-Coull 방법은 예측구간에서는 너무 보수적이라 적절치 않다. 반면에 Jeffrey와 Bayes-Laplace 방법은 적절하였고, 특히 Jeffrey 방법은 신뢰구간의 경우에서와 마찬가지로 예측구간에서도 바람직하였다.

KCI등재

6다중회귀에서 회귀계수 추정량의 특성

저자 : 강명욱 ( Myung-wook Kahng )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 589-597 (9 pages)

다운로드

(기관인증 필요)

초록보기

단순회귀와 다중회귀에서 회귀계수의 의미는 차이가 있고 회귀계수의 추정값은 같지 않을 뿐 아니라 그 부호가 서로 다른 경우도 발생한다. 회귀모형에서 설명변수의 상대적 기여도의 파악은 회귀분석의 수행의 중요한 부분이다. 표준화 회귀모형에서 표준화 회귀계수는 해당 설명변수를 제외한 나머지 설명변수의 값이 고정되어있는 상황에서 설명변수가 표준편차만큼 증가하였을 때 반응변수가 표준편차를 기준으로 얼마나 변화했는가로 해석할 수 있지만 표준화 회귀계수의 크기가 각 설명변수의 상대적 중요도를 나타내는 척도라고 할 수 없음은 잘 알려져 있다. 본 논문에서는 다중회귀에서 회귀계수의 추정량을 상관계수와 결정계수의 함수로 나타내고 이를 추가적인 설명력과 추가적인 결정계수의 관점에서 생각해 본다. 또한 다양한 산점도에서의 상관계수와 회귀계수 추정값의 관계를 알아보고 설명변수가 두 개인 경우에 구체적으로 적용해 본다.

KCI등재

7불균형자료를 위한 판별분석에서 HDBSCAN의 활용

저자 : 이보희 ( Bo-hui Lee ) , 김태헌 ( Tae-heon Kim ) , 최용석 ( Yong-seok Choi )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 599-609 (11 pages)

다운로드

(기관인증 필요)

초록보기

군집간의 개체 수의 차이가 큰 자료들을 불균형자료라고 한다. 불균형자료의 판별분석에서 다수 범주의 개체를 잘 분류하는 것 보다 소수 범주의 개체를 잘 분류하는 것이 더 중요하다. 그러나 개체 수가 상대적으로 작은 소수 범주의 개체를 개체 수가 상대적으로 많은 다수 범주의 개체로 오분류하는 경우가 많다. 본 연구에서는 이를 해결하기 위해 HDBSCAN과 SMOTE를 결합한 방법을 제안한다. HDBSCAN을 이용하여 소수 범주의 노이즈와 다수 범주의 노이즈를 제거하고 SMOTE를 적용하여 새로운 자료를 만들어낸다. 기존의 방법들과 성능을 비교하기 위하여 AUC와 F1 점수를 이용하였고 그 결과 대부분의 경우에 HDBSCAN과 SMOTE를 결합한 방법이 높은 성능 지표를 보였고, 불균형자료를 분류하는데 있어 뛰어난 방법으로 나타났다.

KCI등재

8비대칭-비정상 변동성 모형 평가를 위한 모수적-붓스트랩

저자 : 최선우 ( Sun Woo Choi ) , 윤재은 ( Jae Eun Yoon ) , 이성덕 ( Sung Duck Lee ) , 황선영 ( Sun Young Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 611-622 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 변동성의 비대칭성과 비정상성을 동시에 고려하고 있다. 다양한 변동성 모형을 분석하고 있으며 모수적-붓스트랩을 통한 예측분포를 이용하여 변동성 모형의 예측성능을 비교하고 있다. 오차항 분포로서 표준정규분포 및 표준화 t-분포를 고려하였으며 1-시차 후 예측과 2-시차 후 예측을 미국의 다우지수 사례를 통해 설명하였다.

KCI등재

9최대 전력수요 예측을 위한 시계열모형 비교

저자 : 권숙희 ( Sukhui Kwon ) , 김재훈 ( Jaehoon Kim ) , 손석만 ( Seokman Sohn ) , 이성덕 ( Sungduck Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 623-632 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 여러가지 시계열 모형 중 평활법(가법계절지수, 승법계절지수), 계절 ARIMA 모형, AR-ARCH 그리고 AR-GARCH 회귀모형을 이용하여 최대 전력수요를 예측하는 방법을 연구하였다. 이 때 가중평균모형으로 추세를 갖는 시계열 모형과 온도에 대한 회귀 모형을 적절한 가중치로 예측 정확도를 높이는 방법도 연구하였다. 결과적으로 AR-GARCH 회귀모형으로 예측하는 것이 가중 우수함을 보였다.

KCI등재

10통계공학을 위한 Python 패키지 응용

저자 : 장대흥 ( Dae-heung Jang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 633-658 (26 pages)

다운로드

(기관인증 필요)

초록보기

통계공학은 실험계획법, 품질관리/품질경영, 신뢰성공학으로 구성된다. Python은 무료로 개방되어 있는 패키지로서 머신러닝, 데이터사이언스, 공학 및 그래픽 관련 패키지가 방대하다. 우리는 이러한 Python 패키지를 통계공학을 위한 기본 패키지로 유용하게 사용할 수 있다. 본 논문에서는 통계공학을 위한 Python 패키지 응용을 살펴보고 통계공학 관련 종합 Python projects가 필요함을 제안하였다.

12
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기