논문 상세보기

한국통계학회> 응용통계연구> 가중 문맥벡터와 X-means 방법을 이용한 변형 다의어스킵그램

KCI등재

가중 문맥벡터와 X-means 방법을 이용한 변형 다의어스킵그램

Modified multi-sense skip-gram using weighted context and x-means

정현우 ( Hyunwoo Jeong ) , 이은령 ( Eun Ryung Lee )
  • : 한국통계학회
  • : 응용통계연구 34권3호
  • : 연속간행물
  • : 2021년 06월
  • : 375-385(11pages)
응용통계연구

DOI


목차

1. 서론
2. 기존 방법 설명
3. 제안 방법 설명
4. 실증예제에 기반한 모의실험
5. 결론
References

키워드 보기


초록 보기

최근 자연어 처리 문제에서의 단어 임베딩은 아주 큰 주목을 받고 있는 연구 주제이며 스킵그램은 성공적인 단어 임베딩 기법 중 하나이다. 주변단어들 정보를 이용해서 단어들의 의미를 학습하여 단어 임베딩 벡터를 할당하며 텍스트 자료를 효과적으로 분석할 수 있게 한다. 그러나 벡터 공간 모델의 한계로 인해 기본적인 단어 임베딩 방법들은 모든 단어가 하나의 의미를 가지고 있다는 것을 가정한다. 다의어, 즉 하나 이상의 의미를 가진 단어가 실생활에서 존재하기 때문에 Neelakantan 등 (2014)은 군집분석 기법을 이용하여 다의어의 여러 의미들에 해당하는 의미 임베딩 벡터를 찾기 위해 MSSG (multi-sense skip-gram)를 제안했다. 본 논문에서는 MSSG의 통계적 성능을 개선시킬 수 있는 변형된 MSSG 방법을 제안한다. 먼저, 가중치를 활용한 가중문맥 벡터를 제안한다. 나아가, 군집의 수, 즉 다의어의 의미 수를 자료에서 자동적으로 추정해주는 x-means 방법을 활용한 알고리즘을 제안한다. 본 논문에서 수행한 실증자료를 기반한 모의실험에서 제안한 방법은 기존 방법에 비해 우수한 성능을 보여주었다.
In recent years, word embedding has been a popular field of natural language processing research and a skip-gram has become one successful word embedding method. It assigns a word embedding vector to each word using contexts, which provides an effective way to analyze text data. However, due to the limitation of vector space model, primary word embedding methods assume that every word only have a single meaning. As one faces multi-sense words, that is, words with more than one meaning, in reality, Neelakantan (2014) proposed a multi-sense skip-gram (MSSG) to find embedding vectors corresponding to the each senses of a multi-sense word using a clustering method. In this paper, we propose a modified method of the MSSG to improve statistical accuracy. Moreover, we propose a data-adaptive choice of the number of clusters, that is, the number of meanings for a multi-sense word. Some numerical evidence is given by conducting real data-based simulations.

UCI(KEPA)

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2021
  • : 1963


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

34권4호(2021년 08월) 수록논문
최근 권호 논문
| | | |

KCI등재

1혼합자료에서 독립성검정에 의한 연관성 측정

저자 : 이승천 ( Seung-chun Lee ) , 허문열 ( Moon Yul Huh )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 523-536 (14 pages)

다운로드

(기관인증 필요)

초록보기

두 확률변수의 연관성을 측정하는 측도는 많이 있으나, 이러한 측도는 같은 유형인 변수들 간의 관계를 측정하기 위한 것으로 여러 가지 유형의 변수들이 혼재되어 있는 혼합자료에서 사용하기는 곤란하다 본 논문에서는 두 확률변수의 독립성 검정을 통해 구한 p-값으로 혼합자료에서 사용될 수 있는 새로운 연관성 측도를 구하였으며, 이렇게 구하여진 연관성 측도가 혼합자료에서 변수들 간의 연관성을 비교하는데 유용하게 사용될 수 있음을 보였다.


Although there exist numerous measures of association, most of them are lacking in generality in that they do not intend to measure the association between heterogeneous type of random variables. On the other hand, many statistical analyzes dealing with complex data sets require a very sophisticate measure of association. In this note, the p-value of independence tests is utilized to obtain a measure of association. The proposed measure of association have some consistency in measuring association between various types of random variables.

KCI등재

2관리도에서 Markov연쇄의 적용: 복습 및 새로운 응용

저자 : 박창순 ( Changsoon Park )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 537-556 (20 pages)

다운로드

(기관인증 필요)

초록보기

통계적 공정관리절차의 특성은 해석적 해를 얻기가 어려운 경우가 많이 있으나 Markov연쇄를 적용하면 가능한 경우가 많이 있다. 이 논문에서는 공정 통계량이 Markov특성을 따르는 경우, Markov연쇄를 생성하는 방법과 이를 이용한 공정관리 절차의 특성을 도출하는 방법에 대해 설명하고 있다. 관리도의 통계적 설계, 경제적 설계 및 변량 표본 추출비 설계 등의 특성 규명을 위한 Markov연쇄의 적용에 대한 기존의 알려진 방법을 복습하고 또한 새로운 공정관리 분야인 재조정 관리도에의 적용방법에 대한 연구결과도 보여주고 있다. 공정관리의 특성연구에서 해석적 해가 가능한 경우에도 이 과정이 복잡하여 Markov연쇄를 병행 사용하면 특성 규명이 명확해지며, 모의실험보다는 짧은 시간에 더 정밀한 결과를 얻을 수 있어 널리 이용되고 있다.


Properties of statistical process control procedures may not be derived analytically in many cases; however, the application of a Markov chain can solve such problems. This article shows how to derive the properties of the process control procedures using the generated Markov chains when the control statistic satisfies the Markov property. Markov chain approaches that appear in the literature (such as the statistical design and economic design of the control chart as well as the variable sampling rate design) are reviewed along with the introduction of research results for application to a new control procedure and reset chart. The joint application of a Markov chain approach and analytical solutions (when available) can guarantee the correct derivation of the properties. A Markov chain approach is recommended over simulation studies due to its precise derivation of properties and short calculation times.

KCI등재

3언론보도사례를 통해 본 통계발표상의 문제

저자 : 조진섭 ( Sinsup Cho )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 557-574 (18 pages)

다운로드

(기관인증 필요)

초록보기

공식통계 및 사회조사통계 정보들이 언론에 보도되는 과정에서 발생하는 여러 가지 문제점들을 사례중심으로 살펴보고 이의 해결방안에 대해 알아보았다.


In this paper we investigate the problems revealed when the statistics are published in the press.

KCI등재

4통계학 용어의 증보

저자 : 허명회 ( Myung-hoe Huh )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 575-578 (4 pages)

다운로드

(기관인증 필요)

초록보기

통계학 용어의 국문화에 관련하여 1980년대 이래 한국통계학회의 활동을 돌아보고 2000년 이래 대두된 새 용어들을 제안한다. 기계학습과 관련된 통계학 용어가 속히 정립되어야 하고 전통적 용어들에 대하여도 지속적인 업데이트가 필요하다.


The author reviews the past 40-year activities on Korean translation of statistical terms within the Korean Statistical Society since 1980's and proposes a number of recent terms of statistical machine learning.

KCI등재

5이항자료에 대한 예측구간

저자 : 류제복 ( Jea-bok Ryu )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 579-588 (10 pages)

다운로드

(기관인증 필요)

초록보기

신뢰구간 추정에 널리 사용되고 있는 Wald, Agresti-Coull, 그리고 베이지안 방법인 Jeffrey와 Bayes-Laplace를 예측구간에 적용하였다. 네 가지 방법의 수치적 비교를 위해서 포함확률, 평균포함확률, 평균제곱오차의 제곱근, 그리고 평균기대폭을 사용하였다. 비교결과 Wald 방법은 신뢰구간에서와 마찬가지로 예측구간에서도 바람직하지 않았고 신뢰구간에서 선호되던 Agresti-Coull 방법은 예측구간에서는 너무 보수적이라 적절치 않다. 반면에 Jeffrey와 Bayes-Laplace 방법은 적절하였고, 특히 Jeffrey 방법은 신뢰구간의 경우에서와 마찬가지로 예측구간에서도 바람직하였다.


Wald, Agresti-Coull, Jeffreys, and Bayes-Laplace methods are commonly used for confidence interval of binomial proportion are applied for prediction intervals. We used coverage probability, mean coverage probability, root mean squared error, and mean expected width for numerical comparisons. From the comparisons, we found that Wald is not proper as for confidence interval and Agresti-Coull is too conservative to differ from confidence interval. However, Jeffrey and Bayes-Laplace are good for prediction interval and Jeffrey is especially desirable as for confidence interval.

KCI등재

6다중회귀에서 회귀계수 추정량의 특성

저자 : 강명욱 ( Myung-wook Kahng )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 589-597 (9 pages)

다운로드

(기관인증 필요)

초록보기

단순회귀와 다중회귀에서 회귀계수의 의미는 차이가 있고 회귀계수의 추정값은 같지 않을 뿐 아니라 그 부호가 서로 다른 경우도 발생한다. 회귀모형에서 설명변수의 상대적 기여도의 파악은 회귀분석의 수행의 중요한 부분이다. 표준화 회귀모형에서 표준화 회귀계수는 해당 설명변수를 제외한 나머지 설명변수의 값이 고정되어있는 상황에서 설명변수가 표준편차만큼 증가하였을 때 반응변수가 표준편차를 기준으로 얼마나 변화했는가로 해석할 수 있지만 표준화 회귀계수의 크기가 각 설명변수의 상대적 중요도를 나타내는 척도라고 할 수 없음은 잘 알려져 있다. 본 논문에서는 다중회귀에서 회귀계수의 추정량을 상관계수와 결정계수의 함수로 나타내고 이를 추가적인 설명력과 추가적인 결정계수의 관점에서 생각해 본다. 또한 다양한 산점도에서의 상관계수와 회귀계수 추정값의 관계를 알아보고 설명변수가 두 개인 경우에 구체적으로 적용해 본다.


In simple and multiple regression, there is a difference in the meaning of regression coefficients, and not only are the estimates of regression coefficients different, but they also have different signs. Understanding the relative contribution of explanatory variables in a regression model is an important part of regression analysis. In a standardized regression model, the regression coefficient can be interpreted as the change in the response variable with respect to the standard deviation when the explanatory variable increases by the standard deviation in a situation where the values of the explanatory variables other than the corresponding explanatory variable are fixed. However, the size of the standardized regression coefficient is not a proper measure of the relative importance of each explanatory variable. In this paper, the estimator of the regression coefficient in multiple regression is expressed as a function of the correlation coefficient and the coefficient of determination. Furthermore, it is considered in terms of the effect of an additional explanatory variable and additional increase in the coefficient of determination. We also explore the relationship between estimates of regression coefficients and correlation coefficients in various plots. These results are specifically applied when there are two explanatory variables.

KCI등재

7불균형자료를 위한 판별분석에서 HDBSCAN의 활용

저자 : 이보희 ( Bo-hui Lee ) , 김태헌 ( Tae-heon Kim ) , 최용석 ( Yong-seok Choi )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 599-609 (11 pages)

다운로드

(기관인증 필요)

초록보기

군집간의 개체 수의 차이가 큰 자료들을 불균형자료라고 한다. 불균형자료의 판별분석에서 다수 범주의 개체를 잘 분류하는 것 보다 소수 범주의 개체를 잘 분류하는 것이 더 중요하다. 그러나 개체 수가 상대적으로 작은 소수 범주의 개체를 개체 수가 상대적으로 많은 다수 범주의 개체로 오분류하는 경우가 많다. 본 연구에서는 이를 해결하기 위해 HDBSCAN과 SMOTE를 결합한 방법을 제안한다. HDBSCAN을 이용하여 소수 범주의 노이즈와 다수 범주의 노이즈를 제거하고 SMOTE를 적용하여 새로운 자료를 만들어낸다. 기존의 방법들과 성능을 비교하기 위하여 AUC와 F1 점수를 이용하였고 그 결과 대부분의 경우에 HDBSCAN과 SMOTE를 결합한 방법이 높은 성능 지표를 보였고, 불균형자료를 분류하는데 있어 뛰어난 방법으로 나타났다.


Data with a large difference in the number of objects between clusters are called unbalanced data. In discriminant analysis of unbalanced data, it is more important to classify objects in minority categories than to classify objects in majority categories well. However, objects in minority categories are often misclassified into majority categories. In this study, we propose a method that combined hierarchical DBSCAN (HDBSCAN) and SMOTE to solve this problem. Using HDBSCAN, it removes noise in minority categories and majority categories. Then it applies SMOTE to create new data. Area under the roc curve (AUC) and F1 scores were used to compare performance with existing methods. As a result, in most cases, the method combining HDBSCAN and synthetic minority oversampling technique (SMOTE) showed a high performance index, and it was found to be an excellent method for classifying unbalanced data.

KCI등재

8비대칭-비정상 변동성 모형 평가를 위한 모수적-붓스트랩

저자 : 최선우 ( Sun Woo Choi ) , 윤재은 ( Jae Eun Yoon ) , 이성덕 ( Sung Duck Lee ) , 황선영 ( Sun Young Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 611-622 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 변동성의 비대칭성과 비정상성을 동시에 고려하고 있다. 다양한 변동성 모형을 분석하고 있으며 모수적-붓스트랩을 통한 예측분포를 이용하여 변동성 모형의 예측성능을 비교하고 있다. 오차항 분포로서 표준정규분포 및 표준화 t-분포를 고려하였으며 1-시차 후 예측과 2-시차 후 예측을 미국의 다우지수 사례를 통해 설명하였다.


With a wide recognition that financial time series typically exhibits asymmetry patterns in volatility so called leverage effects, various asymmetric GARCH(1; 1) processes have been introduced to investigate asymmetric volatilities. A lot of researches have also been directed to non-stationary volatilities to deal with frequent high ups and downs in financial time series. This article is concerned with both asymmetric and non-stationary GARCH-type models. As a subsequent paper of Choi et al. (2020), we review various asymmetric and non-stationary GARCH(1; 1) processes, and in turn propose how to compare competing models using a parametric bootstrap methodology. As an illustration, Dow Jones Industrial Average (DJIA) is analyzed.

KCI등재

9최대 전력수요 예측을 위한 시계열모형 비교

저자 : 권숙희 ( Sukhui Kwon ) , 김재훈 ( Jaehoon Kim ) , 손석만 ( Seokman Sohn ) , 이성덕 ( Sungduck Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 623-632 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 여러가지 시계열 모형 중 평활법(가법계절지수, 승법계절지수), 계절 ARIMA 모형, AR-ARCH 그리고 AR-GARCH 회귀모형을 이용하여 최대 전력수요를 예측하는 방법을 연구하였다. 이 때 가중평균모형으로 추세를 갖는 시계열 모형과 온도에 대한 회귀 모형을 적절한 가중치로 예측 정확도를 높이는 방법도 연구하였다. 결과적으로 AR-GARCH 회귀모형으로 예측하는 것이 가중 우수함을 보였다.


Through this study, we studied how to consider environment variables (such as temperatures, weekend, holiday) closely related to electricity demand, and how to consider the characteristics of Korea electricity demand. In order to conduct this study, Smoothing method, Seasonal ARIMA model and regression model with AR-GARCH errors are compared with mean absolute error criteria. The performance comparison results of the model showed that the predictive method using AR-GARCH error regression model with environment variables had the best predictive power.

KCI등재

10통계공학을 위한 Python 패키지 응용

저자 : 장대흥 ( Dae-heung Jang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 4호 발행 연도 : 2021 페이지 : pp. 633-658 (26 pages)

다운로드

(기관인증 필요)

초록보기

통계공학은 실험계획법, 품질관리/품질경영, 신뢰성공학으로 구성된다. Python은 무료로 개방되어 있는 패키지로서 머신러닝, 데이터사이언스, 공학 및 그래픽 관련 패키지가 방대하다. 우리는 이러한 Python 패키지를 통계공학을 위한 기본 패키지로 유용하게 사용할 수 있다. 본 논문에서는 통계공학을 위한 Python 패키지 응용을 살펴보고 통계공학 관련 종합 Python projects가 필요함을 제안하였다.


Statistical engineering contains design of experiments, quality control/ management, and reliability engineering. Python is a free software environment for machine learning, data science, and graphics. Python package has many functions and libraries for statistical engineering. We can use Python package as a useful tool for statistical engineering. This paper shows applications of Python package for statistical engineering and suggests a total Python projects for statistical engineering.

12
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1단어 임베딩 기법을 이용한 한글의 의미 변화 파악

저자 : 선현석 ( Hyunseok Sun ) , 이영석 ( Yung-seop Lee ) , 임창원 ( Changwon Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 3호 발행 연도 : 2021 페이지 : pp. 281-294 (14 pages)

다운로드

(기관인증 필요)

초록보기

최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서 저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 본 연구에서는 대통령 연설 기록문과 신문기사 공공데이터를 활용하여 한글 단어들이 시간에 따라 어떻게 의미가 변화되어가는지를 통계적 기법을 통해 발굴하였다. 이를 이용하여 한글의 통시적 변화 연구에 활용할 수 있는 방안을 제시한다. 기존 언어학자나 원어민의 직관에 의해 연구되던 한글의 이론적 언어 현상 연구에서 벗어나 누구나 사용할 수 있는 공공문서를 통해 수치화된 값을 도출하고 단어의 의미변화 현상을 설명하고자 한다.

KCI등재

2고차원 관측자료에서의 Q-학습 모형에 대한 이중강건성 연구

저자 : 이효빈 ( Hyobeen Lee ) , 김예지 ( Yeji Kim ) , 조형준 ( Hyungjun Cho ) , 최상범 ( Sangbum Choi )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 3호 발행 연도 : 2021 페이지 : pp. 295-313 (19 pages)

다운로드

(기관인증 필요)

초록보기

동적 치료 요법(dynamic treatment regimes; DTRs)은 다단계 무작위 시험에서 개인에 맞는 치료를 제공하도록 설계된 의사결정 규칙이다. 모든 개인이 동일한 유형의 치료를 처방받는 고전적인 방법과 달리 DTR은 시간이 지남에 따라 변할 수 있는 개별 특성을 고려한 환자 맞춤형 치료를 제공한다. 최적의 치료 규칙을 파악하기 위한 회귀 기반 알고리즘 중 하나인 Q-학습 방법은 쉽게 구현될 수 있기 때문에 더욱 인기를 끌고 있다. 그러나 Q-학습 알고리즘의 성능은 Q-함수를 제대로 설정했는지의 여부에 크게 의존한다. 본 논문에서는 고차원 데이터가 수집되는 DTRs 문제에 대한 다양한 이중강건 Q-학습 알고리즘을 연구하고 가중 최소제곱 추정 방법을 제안한다. 이중강건성(double-robustness)은 반응변수에 대한 모형 혹은 처리변수에 대한 모형 둘 중 하나만 제대로 설정되어도 불편추정량을 얻을 수 있음을 의미한다. 다양한 모의실험 연구를 통해 제안된 방법이 여러 시나리오 하에서도 잘 작동함을 확인하였으며 실제 데이터 예제를 통해 방법론에 대한 예시를 제시하였다.

KCI등재

3오토인코더를 이용한 딥러닝 기반 추천시스템 모형의 비교 연구

저자 : 이효진 ( Hyo Jin Lee ) , 정윤서 ( Yoonsuh Jung )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 3호 발행 연도 : 2021 페이지 : pp. 315-331 (17 pages)

다운로드

(기관인증 필요)

초록보기

추천 시스템은 고객의 데이터를 이용하여 개인 맞춤화된 상품을 추천한다. 추천 시스템은 협업 필터링, 콘텐츠 기반 필터링 그리고 이 두 가지를 합친 하이브리드 방법의 세 가지로 크게 나누어진다. 이 연구에서는 딥러닝 방법론에 기초한 오토인코더를 이용한 추천 시스템에 대한 소개와 그 모형들의 비교 연구를 진행한다. 오토인코더는 데이터 행렬에 0이 많은 경우의 문제를 효과적으로 다룰 수 있는 딥러닝 기반의 비지도학습 모형이다. 이 연구에서는 세 개의 실제 데이터를 이용하여 다섯 가지 종류의 오토인코더 기반 모형들을 비교한다. 처음의 세 개 모형은 협업 필터링에 속한 모형이고 나머지 두 개의 모형은 하이브리드 모형이다. 실제 데이터는 고객의 평점 데이터이고, 대부분의 평점이 없어서 희박성 비율이 높다는 특징이 있다.

KCI등재

4코호트 효과를 고려한 확률적 사망률 예측 모형의 비교 연구

저자 : 김순영 ( Soon-young Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 3호 발행 연도 : 2021 페이지 : pp. 333-359 (27 pages)

다운로드

(기관인증 필요)

초록보기

지난 50여 년 동안 우리나라의 사망률 감소 패턴에 대한 탐색적 연구에 의하면 연령별 사망률이 모든 연령에서 감소했지만, 특정한 사망률이 개선되고 있는 패턴은 연령과 기간에 따라 다르다는 것을 알 수 있다. 여자가 남자보다 사망률 개선이 뚜렷하고 특히 시간이 지나면서 특정그룹에서의 사망률 개선이 두드러짐에 따라 전반적으로 사망 시간 추세에 구조적인 변화가 존재함을 확인하였다. 이에 본 연구에서는 우리나라 여자 사망률 자료를 이용하여 미래 사망률 예측을 위해 코호트 효과를 고려한 다양한 확률적 사망률 모형을 살펴보았다. 또한 분석 결과를 바탕으로 2067년까지 연령별 사망률과 예측기대수명을 작성하고 통계청(KOSIS)에서 제공하는 장래 연령별 사망률과 기대수명과 비교하였다. 자료이용기간에 따라 최적의 모형이 상이하나 적합력과 예측력을 전반적으로 고려했을 때 우리나라 여자 사망률은 코호트 효과를 고려한 PLAT 모형이 적절하다 볼 수 있을 것이다.

KCI등재

5혼합효과 영과잉 포아송 회귀모형을 이용한 대전광역시 코로나 발생 동향 분석

저자 : 김광희 ( Gwanghee Kim ) , 이은지 ( Eunjee Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 3호 발행 연도 : 2021 페이지 : pp. 361-374 (14 pages)

다운로드

(기관인증 필요)

초록보기

본 연구는 대전광역시에서 나타난 확진자 증가 현상을 분석하여 COVID-19의 확산을 방지할 대책 마련에 도움이 되고자 계획되었다. 확진자 증가의 원인이 시민들의 잦은 이동과 장기간 지속한 사회적 거리두기로 인한 피로와 방심에 있다고 보고, 각 행정동의 주별 확진자 수를 반응변수로, 생활 속 거리두기로 전환된 시점으로부터 흐른 시간, 행정동의 버스 하차 인원을 설명변수로 하여 이들의 관계를 모형화하였다. 행정동별 확진자 수가 주 단위로 반복측정 되었고, 포아송분포로 기대되는 0보다 더 많은 0이 관측될 수 있기 때문에혼합효과 영과잉 포아송 회귀모형을 적용하였다. 행정동의 성격에 따라 확진자 발생 동향이 다를 수 있어서서 서로 유사한 성격을 갖는 행정동을 군집화하여이를 범주형 설명변수로 사용하였다. 또한 버스 하차 인원의 효과가 행정동의 성격에 따라 달라질 수 있다는 점을 고려하여 두 변수 간의 교호작용항을 포함하였고 상대적으로 번화한 행정동에서 그 효과가 유의한 것으로 나타났다 (유의수준=0.1). 모형 적합 결과 인구수의 증가와 번화한 행정동이라는 요인, 그리고 버스 하차 인원의 증가가 확진자 수의 증가와 중요한 연관 관계를 가진다는 것을 보였다. 한편, 추정된 모형에 따르면 인구수와 버스 하차량이 고정되었을 때 번화한 집단의 확진자 수가 그렇지 않은 집단에 비해 훨씬 적을 것으로 기대되었는데, 이는 코로나 고위험 지역에 대한 시 차원의 강력한 대응이 효과를 발휘한 것으로 해석할 수 있다.

KCI등재

6가중 문맥벡터와 X-means 방법을 이용한 변형 다의어스킵그램

저자 : 정현우 ( Hyunwoo Jeong ) , 이은령 ( Eun Ryung Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 3호 발행 연도 : 2021 페이지 : pp. 375-385 (11 pages)

다운로드

(기관인증 필요)

초록보기

최근 자연어 처리 문제에서의 단어 임베딩은 아주 큰 주목을 받고 있는 연구 주제이며 스킵그램은 성공적인 단어 임베딩 기법 중 하나이다. 주변단어들 정보를 이용해서 단어들의 의미를 학습하여 단어 임베딩 벡터를 할당하며 텍스트 자료를 효과적으로 분석할 수 있게 한다. 그러나 벡터 공간 모델의 한계로 인해 기본적인 단어 임베딩 방법들은 모든 단어가 하나의 의미를 가지고 있다는 것을 가정한다. 다의어, 즉 하나 이상의 의미를 가진 단어가 실생활에서 존재하기 때문에 Neelakantan 등 (2014)은 군집분석 기법을 이용하여 다의어의 여러 의미들에 해당하는 의미 임베딩 벡터를 찾기 위해 MSSG (multi-sense skip-gram)를 제안했다. 본 논문에서는 MSSG의 통계적 성능을 개선시킬 수 있는 변형된 MSSG 방법을 제안한다. 먼저, 가중치를 활용한 가중문맥 벡터를 제안한다. 나아가, 군집의 수, 즉 다의어의 의미 수를 자료에서 자동적으로 추정해주는 x-means 방법을 활용한 알고리즘을 제안한다. 본 논문에서 수행한 실증자료를 기반한 모의실험에서 제안한 방법은 기존 방법에 비해 우수한 성능을 보여주었다.

KCI등재

7랜덤 투영 앙상블 기법을 활용한 적응 최근접 이웃 판별분류기법

저자 : 강종경 ( Jongkyeong Kang ) , 전명식 ( Myoungshic Jhun )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 3호 발행 연도 : 2021 페이지 : pp. 387-396 (10 pages)

다운로드

(기관인증 필요)

초록보기

판별분류분석에서 널리 이용되는 k-최근접 이웃 분류 방법은 고정된 이웃의 수만을 고려하여 자료의 국소적 특징을 반영하지 못하는 한계가 있다. 이에 자료의 국소적 구조를 고려하여 이웃의 개수를 선택하는 적응 최근접이웃방법이 개발된 바 있다. 고차원 자료의 분석에 있어서는 k-최근접 이웃 분류를 사용하기 전에 랜덤 투영 기법 등을 활용하여 차원 축소를 수행하는 것이 일반적이다. 이렇게 랜덤 투영시킨 다수의 분류 결과들을 면밀히 조합하여 투표를 통해 최종 할당을 하는 기법이 최근 개발된 바 있다. 본 연구에서는 고차원 자료에서의 분석을 위해 적응 최근접이웃방법과 랜덤 투영 앙상블 기법을 조합한 새로운 판별분류 기법을 제안하였다. 제안된 방법은 기존에 개발된 방법에 비해 분류 정확성 측면에서 더 뛰어남을 모의실험 및 실제 사례 분석을 통해 확인하였다.

KCI등재

8평균-분산 가속화 실패시간 모형에서 벌점화 변수선택

저자 : 권지훈 ( Ji Hoon Kwon ) , 하일도 ( Il Do Ha )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 3호 발행 연도 : 2021 페이지 : pp. 397-411 (15 pages)

다운로드

(기관인증 필요)

초록보기

가속화 실패시간모형은 로그 생존시간과 공변량간의 선형적 관계를 묘사해 준다. 가속화 실패시간모형에서 생존시간의 평균뿐만 아니라 변동성에도 영향을 미치는 공변량 효과를 추론하는 것은 흥미가 있다. 이를 위해 생존시간의 평균뿐만 아니라 분산을 모형화 하는 것이 필요하며, 이러한 모형을 평균-분산 가속화 실패시간모형이라 부른다. 본 논문에서는 벌점 가능도함수를 이용하여 평균-분산 가속화 실패시간모형에서 회귀모수에 대한 변수선택 절차를 제안한다. 여기서 벌점함수로서 LASSO, ALASSO, SCAD 그리고 HL (계층가능도)와 같은 네 가지 벌점함수를 연구한다. 제안된 변수선택 절차를 통해 중요한 공변량의 선택 뿐만 아니라 회귀모수의 추정을 동시에 제공할 수 있다. 제안된 방법의 성능은 모의실험을 통해 평가하고, 하나의 임상 예제자료를 통해 제안된 방법을 예증하고자 한다.

KCI등재

9통합 칼리브레이션 가중치 산출 비교연구

저자 : 박인호 ( Inho Park ) , 김수진 ( Sujin Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 3호 발행 연도 : 2021 페이지 : pp. 413-424 (12 pages)

다운로드

(기관인증 필요)

초록보기

이단추출은 개체와 집락 단수준별 모집단 특성을 함께 추정할 수 있게 해준다. 단위수준별 보조정보가 함께 주어질 때, 단위수준별 정보 및 가중치 구성을 통합적으로 고려한 칼리브레이션 가중치를 산출한다면 단위수준별 특성은 물론 수준간의 다변량적 특성도 적절히 반영할 수 있을 것이다. 본 연구는 Estevao와 Särndal (2006)과 Kim (2019)이 고려한 통합 칼리브레이션 가중치 산출 방법에 대해 살펴보았다. 간단한 모의실험을 통해 기존의 통합 칼리브레이션 가중치 산출방법의 효율성을 비교하였다. 이 중 복합보조정보를 개체화한 후 단일단계의 칼리브리이션 조정으로 가중치를 산출하되 집락가중치가 집락 내 개체가중치 평균이 되도록 정의하는 방법과 단위수준별 보조정보를 이용한 수준별 칼리브레이션 조정을 상호 반복적으로 수행하되 집락가중치가 집락 내 개체가중도치 평균이 되도록 하는 방법이 조정전 가중치의 변동량을 크게 늘리지 않고도 수준간 다변량적 특성을 잘 반영할 수 있음을 확인할 수 있었다. 집락과 개체의 상호간 보조정보에 대한 총합추정의 적합도 측면에서 매우 양호하였고, 칼리브레이션 조정에 포함되지 않는 조사특성들의 총합추정에 대한 상대편향 및 상대 평균 제곱근 오차가 작게 나타났다.

KCI등재

10Mann-Kendall 비모수 검정과 Sen's slope를 이용한 최근 40년 남한지역 계절별 평균기온의 경향성 분석

저자 : 진대현 ( Dae-hyun Jin ) , 장성환 ( Sung-hwan Jang ) , 김희경 ( Hee-kyung Kim ) , 이영섭 ( Yung-seop Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 3호 발행 연도 : 2021 페이지 : pp. 425-433 (9 pages)

다운로드

(기관인증 필요)

초록보기

범지구적 이상기후의 잦은 출현으로 기상 변화에 대한 관련 연구가 활발히 진행되고 있지만, 장기간 축적된 기상자료를 이용한 경향성 분석 연구는 부족하였다. 본 연구에서는 비모수적 분석방법을 이용해 40년간 종관기상관측장비(ASOS)로 부터 축적된 기온 시계열 자료의 경향성을 분석하였다. 남한지역의 연평균 기온과 계절별 평균기온 시계열 자료에 대한 Mann-Kendall 검정 결과 상승 경향성이 존재하는 것으로 나타났다. 또한 Pettitt 검정을 적용해 탐색된 변동점을 전후로 경향성의 정도를 파악할 수 있는 Sen's slope를 계산한 결과, 변동점 이후의 최근 자료에서 기온의 상승 경향성이 더욱 큰 것을 확인하였다.

12
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기