간행물

통계연구 update

The Statictical Review

  • : 성균관대학교 응용통계연구소
  • : 자연과학분야  >  통계학
  • :
  • :
  • : 연속간행물
  • : 격년
  • : 2586-6958
  • :
  • :

수록정보
수록범위 : 1권0호(1993)~22권0호(2022) |수록논문 수 : 198
통계연구
22권0호(2022년 03월) 수록논문
최근 권호 논문
| | | |

저자 : 김소현

발행기관 : 성균관대학교 응용통계연구소 간행물 : 통계연구 22권 0호 발행 연도 : 2022 페이지 : pp. 1-13 (13 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 완전 무작위 실험(randomized experiment)에서 개개인이 같은 집단 내의 다른 사람과 상호 영향이 있는 모형에서의 인과추론에 대해서 살펴본다. 4개의 인과 추정량과 각각의 분산을 다루며, 정규 분포 근사를 사용하여 각 추정량의 신뢰 구간을 소개한다. 또한 두 단계로 이루어진 완전 무작위 실험에서 구해진 모의실험 데이터를 통하여 실제로 그 추정량과 분산, 신뢰 구간을 구하는 과정을 소개한다.

저자 : 김현정

발행기관 : 성균관대학교 응용통계연구소 간행물 : 통계연구 22권 0호 발행 연도 : 2022 페이지 : pp. 14-30 (17 pages)

다운로드

(기관인증 필요)

초록보기

본 논문은 자연어 처리기술 중 음악 생성에 활발하게 사용되는 순환신경망(recurrent neural network) 기술에 대해 알아보고 해당 기술의 보완을 위한 long short-term memory(LSTM)과 현 연구 동향을 살펴본다. 또한 이러한 기술들을 통해 기존 곡들을 학습하고 자동으로 곡을 작사해내는 프로그램을 구현해 적용해 보았다. 하나의 곡은 작사, 작곡 두 가지가 어우러져야 하나 본 연구에서는 작사에 한정하여 진행하였다.

저자 : 서혜린

발행기관 : 성균관대학교 응용통계연구소 간행물 : 통계연구 22권 0호 발행 연도 : 2022 페이지 : pp. 31-38 (8 pages)

다운로드

(기관인증 필요)

초록보기

여러 개의 단일 모형들을 결합해 예측 성능을 높히는 앙상블 방법 중 하나로 스태킹 방법이 Wolpert (1992)에 의해 제안되었다. 교차검증 기반 스태킹 방법은 기존의 스태킹 방법이 동일한 데이터로 여러 모형을 학습시킴으로써 발생하는 과적합 문제를 개선한다는 장점이 있다. 본 연구에서는 워싱턴 공공 자전거 수요 예측을 위해 교차검증 기반 스태킹 방법을 적용하고자 한다. 본 연구에서는 랜덤 포레스트 회귀, 인공신경망, 서포트 벡터 머신 회귀 등의 기계 학습 모형을 베이스 모형으로 이용하고 최종 모형으로 다중선형 회귀분석을 이용한 교차검증 기반 스태킹 방법을 고려하고, 개별 모형들과 성능을 비교한다.

저자 : 박지현

발행기관 : 성균관대학교 응용통계연구소 간행물 : 통계연구 22권 0호 발행 연도 : 2022 페이지 : pp. 39-50 (12 pages)

다운로드

(기관인증 필요)

초록보기

코로나-19 확산으로 인한 정책들로 인구 이동의 흐름에도 변화가 도래하였다. 본 연구에서는 코로나 이전 2019년과 2020년 지하철역 승, 하차 인원수의 차이를 계층적 군집 분석으로 군집화하여 지하철역별 특성과 코로나로 인한 유동인구의 변화를 알아보고자 한다.
그 결과 총 4개의 군집으로 분류되었으며, 대학가로 분류된 군집에서 유동인구의 변화가 두드러지게 나타났고, 복합단지로 분류된 군집에서 유동인구의 변화가 가장 미미하게 나타났다. 이러한 역별 특성을 토대로 차후 코로나와 같은 펜데믹 상황에서의 정책 수립에 도움이 되고자 한다.

저자 : 장현지

발행기관 : 성균관대학교 응용통계연구소 간행물 : 통계연구 22권 0호 발행 연도 : 2022 페이지 : pp. 51-62 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 한국경제 신문의 뉴스 기사 스크래핑 데이터와 개인 투자자의 KOSPI 순매수대금 데이터를 사용하여 주가 예측에 활용할 수 있는 주가 감성 사전의 구축을 시도한다. Python의 KoNLPy 패키지를 사용하여 뉴스 기사의 형태소 분석을 진행하고, TF-IDF 방법을 통해 유의미한 단어들의 중요도를 추출한다. 이후 개인 투자자의 KOSPI 순매수대금을 반응변수로 하여 릿지(Ridge) 회귀를 적합하면 그 결과 얻어지는 회귀 계수가 각 단어들의 감성 점수가 되며, 이를 활용해 특정 날짜의 주가 감성 점수를 도출해낼 수 있다.

저자 : 김경희

발행기관 : 성균관대학교 응용통계연구소 간행물 : 통계연구 22권 0호 발행 연도 : 2022 페이지 : pp. 63-76 (14 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 성별과 연령대에 따라 서울시민카드 이용자의 유입과 이탈에 대해 분석한다. 먼저 ARMA 모형 (Auto Regressive Moving Average Model) 적합에서 얻은 추정 값를 활용해 자료에 대한 단변량 시계열 이상치 탐지 (outlier detection)을 시행한다. 이후 DTW (Dynamic Time Warping) 클러스터링을 통해 묶인 군집을 파악한다. 성별과 연령에 따른 서울시민카드 주별 이용 빈도에 대한 자료의 이상치 탐지 결과와 DTW 클러스터링 결과를 기반으로 이용자의 유입 및 탈퇴에 대한 이해를 높여 서울시민카드 사용 발전에 도움이 되고자 한다.

저자 : 김동영

발행기관 : 성균관대학교 응용통계연구소 간행물 : 통계연구 22권 0호 발행 연도 : 2022 페이지 : pp. 77-88 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 2014년 1월부터 2020년 12월까지 일단위로 관측된 미세먼지 농도에 대한 분석과 예측을 고려한다. 국내외적으로 미세먼지에 대한 관심과 우려가 증가하고 있기 때문에 미세먼지 농도에 대한 보다 정확한 예측을 통해 미세먼지 주의보 또는 경보에 대한 정확성을 높이고자 한다. 시간에 따라 관측된 자료에 대해서 단변량 시계열 분석에 외생변수를 함께 고려하여 분석하려는 시도가 많아지고 있다. 이러한 분석에 있어서 단변량 시계열에 외생변수를 추가하는 ARMAX (ARMA with eXogenous) 모형과, 다변량 시계열로 모형을 적합하는 VAR (Vector Auto regressive model) 모형 2가지 방법이 존재한다. 본 연구에서는 해당 모형들에 대해서 적절한 차수를 결정하고, 학습 기간을 결정하였으며 이를 통해 1일 뒤 예측값에 대한 모델 간의 예측 성능을 평가하였다.

저자 : 김민경

발행기관 : 성균관대학교 응용통계연구소 간행물 : 통계연구 22권 0호 발행 연도 : 2022 페이지 : pp. 89-102 (14 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 세계 3대 사인으로 꼽히는 심장병의 발생을 예측하고자 기존에 자주 활용되는 로지스틱 회귀 (logistic regression)모형과 여러 개의 예측모형을 결합하는 방법인 앙상블 (ensemble) 기법을 이용한 모형들의 예측성능을 비교하고자 한다. 널리 사용되는 앙상블 기법인 배깅 (bagging), 부스팅 (boosting), 랜덤포레스트 (random forest)모형과 함께 Jerome H. Friedman (2001)에 의해 제안된 XGBoost (eXtreme Gradient Boosting)모형의 성능을 비교한다. UCI (University of California Irvine)에서 제공한 심장병 데이터 (Heart disease data)에 적합 된 예측모형의 예측력을 AUC (Area Under the Curve)를 이용해 평가한 결과, XGBoost모형의 예측력이 가장 높았으며 그 외 앙상블 기법을 활용한 모형들이 로지스틱 회귀모형보다 우수한 결과를 보여주었다.

저자 : 김지환

발행기관 : 성균관대학교 응용통계연구소 간행물 : 통계연구 22권 0호 발행 연도 : 2022 페이지 : pp. 103-117 (15 pages)

다운로드

(기관인증 필요)

초록보기

본 연구에서는 축소 (Shrinkage) 방법의 대표적인 예시인 Lasso (Least Absolute Shrinkage and Selection Operator) 벌점을 활용한 통계적 학습 모형을 신용평가 분석 예제에 적용하여 그 성과를 비교한다. Lasso 벌점과 Group Lasso 벌점을 적용한 로지스틱 회귀모형 (Logistic Regression Model), 그리고 트리계열 모형을 활용한 Rulefit을 알아본다. 비교를 위해 Best Subset Selection에 기반한 로지스틱 회귀모형과 CART (Classification And Regression Trees), 그리고 부스팅 (Boosting) 모형을 사용한다. 위 모델들의 이론적인 배경을 살펴보고, AUC (Area Under the ROC Curve)와 ME (Misclassification Error Rate)를 기준으로 실제 데이터인 'German Credit Data'에 관한 예측 성과를 비교한다.

1
권호별 보기

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기