논문 상세보기

한국통계학회> 응용통계연구> 패널조사에서 비연속 응답 그룹 편향 보정을 위한 복합가중값

KCI등재

패널조사에서 비연속 응답 그룹 편향 보정을 위한 복합가중값

Composite estimation type weighting adjustment for bias reduction of non-continuous response group in panel survey

최형아 ( Hyunga Choi ) , 김영원 ( Youngwon Kim )
  • : 한국통계학회
  • : 응용통계연구 32권3호
  • : 연속간행물
  • : 2019년 06월
  • : 375-389(15pages)

DOI


목차

1. 서론
2. 비연속 응답 및 횡단 가중값 작성방법
3. 비연속 응답 그룹에 대한 적정가중값 산출 방법
4. 모의실험
5. 실증분석
6. 결론
References

키워드 보기


초록 보기

패널 자료는 자료가 축적되는 만큼 그 가치가 증대된다. 이와 동시에 장기추적에 따른 표본이탈은 자료의 신뢰성을 떨어뜨린다. 국내·외 대부분의 패널조사에서 가중값 보정을 통해 표본 이탈 문제를 해결하고 있다. 본 논문에서는 패널자료에서 차수별 응답여부에 따라 연속 응답 그룹과 비연속 응답 그룹으로 나누고, 비연속 응답 그룹에 대한 적정 가중값 산출방법을 검토하였다. 연속/비연속 응답그룹을 구분하여 비연속 응답 그룹의 응답자 특성을 반영한 복합추정 방식의 가중값 작성방법을 제안하고, 그룹의 구분 없이 작성하였던 기존의 가중값 작성방법과 새로 제안한 복합추정 방식의 가중값 산출방법의 효율성을 모의실험과 실증분석을 통해 살펴보았다. 결과적으로 새로 제안한 복합추정 방식의 가중값 산출방법은 기존 방법 보다 편향을 대폭 감소시킴을 모의실험을 통해 볼 수 있었다. 한편, 제시한 가중값 작성방법을 한국고용정보원 고령화연구패널에 적용한 결과도 제시하였다.
Sample attrition according to a long-term tracking reduces the representativeness of the sample data in a panel study. Most panel surveys in South Korea and other countries have prepared response adjustment weights in order to solve problems regarding representativeness due to sample attrition. In this paper, we divided the panel data into continuous response group and non-continuous response group according to response patterns and considered a weighting adjustment method to reduce the bias of the non-continuous response group. A simulation indicated that the proposed composite estimation type weighting method, which reflected the characteristics of non-continuous response groups, could be more efficient than other weighting methods in terms of reducing non-response bias. As a case study, the proposed methods are applied to the Korean Longitudinal Study of Ageing (KLoSA) data of the Korea Employment Information Service.

UCI(KEPA)

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2019
  • : 1823


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

발행기관 최신논문
| | | | 다운로드

1종양 이질성을 검정을 위한 통계적 방법론 연구

저자 : 이동녘 ( Dong Neuck Lee ) , 임창원 ( Changwon Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 32권 3호 발행 연도 : 2019 페이지 : pp. 331-348 (18 pages)

다운로드

(기관인증 필요)

초록보기

전이성 종양의 성장패턴 차이와 변화율에 따른 종양 이질성(tumor heterogeneity)을 파악하는 것은 종양세포의 약물에 대한 민감성을 파악하고 적절한 치료법을 찾아내기 위해 중요하다. 일반적으로 N개의 표본의 집단이 구분된다면 t-test 혹은 ANOVA 분석을 통해 집단별 평균의 차이에 대한 검정이 가능하다. 그러나 본 논문에서 다루는 데이터와 같이 집단이 구분되지 않는 경우 이러한 방법들은 사용될 수 없다. 표본들 사이의 이질성을 검정하기 위한 통계적 방법들이 연구되어 왔다. 최소 조합 t-검정 방법은 그 중 하나이다. 본 논문에서는 상이한 비율로 데이터를 양분하는 조합도 고려하는 최대 조합 t-검정 방법을 제안한다. 한편, 표본의 이질성을 검정하는 것이 군집분석에서 최적의 군집의 개수가 2개 이상인지를 검정하는 것과 같음에 착안하여 새로운 방법을 제안한다. 최대 조합 t-검정과 gap통계량을 이용하면 이전에 제안된 방법보다 개선된 제1종의 오류를 범할 확률과 검정력을 갖는다는 것을 모의실험을 통해 확인하였고 실제 자료 분석을 통해 결과를 도출하였다.

2이분형 자료의 분류문제에서 불균형을 다루기 위한 표본재추출 방법 비교

저자 : 박근우 ( Geun U Park ) , 정인경 ( Inkyung Jung )

발행기관 : 한국통계학회 간행물 : 응용통계연구 32권 3호 발행 연도 : 2019 페이지 : pp. 349-374 (26 pages)

다운로드

(기관인증 필요)

초록보기

이분형 자료의 분류에서 자료의 불균형 정도가 심한 경우 분류 결과가 좋지 않을 수 있다.이런 문제 해결을 위해 학습 자료를 변형시키는 등의 연구가 활발히 진행되고 있다. 본 연구에서는 이러한 이분형 자료의 분류문제에서 불균형을 다루기 위한 방법들 중 표본재추출 방법들을 비교하였다. 이를 통해 자료에서 희소계급의 탐지를 보다 효과적으로 하는 방법을 찾고자 하였다. 모의실험을 통하여 여러 오버샘플링, 언더샘플링, 오버샘플링과 언더샘플링 혼합방법의 총 20가지를 비교하였다. 분류문제에서 대표적으로 쓰이는 로지스틱 회귀분석, support vector machine, 랜덤포레스트 모형을 분류기로 사용하였다. 모의실험 결과, 정확도가 0.5 이상이면서 민감도가 높았던 표본재추출방법은 random under sampling (RUS)였다. 그 다음으로 민감도가 높았던 방법은 오버샘플링 ADASYN (adaptive synthetic sampling approach)이었다. 이를 통해 RUS 방법이 희소계급값을 찾기 위한 방안으로는 적합했다는 것을 알 수 있었다. 몇 가지 실제 자료에 적용한 결과도 모의실험의 결과와 비슷한 양상을 보였다.

3패널조사에서 비연속 응답 그룹 편향 보정을 위한 복합가중값

저자 : 최형아 ( Hyunga Choi ) , 김영원 ( Youngwon Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 32권 3호 발행 연도 : 2019 페이지 : pp. 375-389 (15 pages)

다운로드

(기관인증 필요)

초록보기

패널 자료는 자료가 축적되는 만큼 그 가치가 증대된다. 이와 동시에 장기추적에 따른 표본이탈은 자료의 신뢰성을 떨어뜨린다. 국내·외 대부분의 패널조사에서 가중값 보정을 통해 표본 이탈 문제를 해결하고 있다. 본 논문에서는 패널자료에서 차수별 응답여부에 따라 연속 응답 그룹과 비연속 응답 그룹으로 나누고, 비연속 응답 그룹에 대한 적정 가중값 산출방법을 검토하였다. 연속/비연속 응답그룹을 구분하여 비연속 응답 그룹의 응답자 특성을 반영한 복합추정 방식의 가중값 작성방법을 제안하고, 그룹의 구분 없이 작성하였던 기존의 가중값 작성방법과 새로 제안한 복합추정 방식의 가중값 산출방법의 효율성을 모의실험과 실증분석을 통해 살펴보았다. 결과적으로 새로 제안한 복합추정 방식의 가중값 산출방법은 기존 방법 보다 편향을 대폭 감소시킴을 모의실험을 통해 볼 수 있었다. 한편, 제시한 가중값 작성방법을 한국고용정보원 고령화연구패널에 적용한 결과도 제시하였다.

4에어비앤비(Airbnb) 웹 로그 데이터를 이용한 고객 행동 예측

저자 : 안효인 ( Hyoin An ) , 최유리 ( Yuri Choi ) , 오래은 ( Raeeun Oh ) , 송종우 ( Jongwoo Song )

발행기관 : 한국통계학회 간행물 : 응용통계연구 32권 3호 발행 연도 : 2019 페이지 : pp. 391-404 (14 pages)

다운로드

(기관인증 필요)

초록보기

그동안의 고객 행동에 대한 예측은 주로 고객이 가지는 고정적인 특성을 이용해왔다. 최근에는 점차 고객들의 활동이 오프라인에서 온라인으로 이동하면서 각 고객의 웹 로그를 추적하는 일이 가능해졌다. 그러나 방대한 양의 웹 로그 데이터를 수집할 수 있게 된 반면, 이에 대한 연구는 로그 데이터를 정리하거나 기술적인 특성만을 설명하는 것에 그쳤다. 본 연구에서는 웹사이트 Kaggle에서 제공하는 Airbnb 고객들의 성별, 연령 등의 기본 정보 및 웹 로그가 포함된 데이터셋을 이용하여 첫 숙소 예약까지 걸리는 개인의 의사 결정 시간을 예측하였다. Lasso, SVM, Random Forest, XGBoost 등 다양한 방법론을 활용하여 최적의 모형을 찾고, 웹 로그 데이터의 유무에 따른 예측오차를 비교하여 웹 로그의 효용성을 확인하였다. 결과적으로 오분류율이 약 20%로 낮은 랜덤 포레스트 분류모형을 최적모형으로 선택하였다. 또한, 웹 로그 데이터를 이용하여 고객 개개인의 행동을 예측한 결과 사용하지 않은 경우와 비교해 예측의 정확도가 최대 두 배 더 높아진 것을 확인할 수 있었다.

5주거용 건물의 전력 사용량에 대한 시계열 분석 및 예측

저자 : 박경미 ( Kyeongmi Park ) , 김재희 ( Jaehee Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 32권 3호 발행 연도 : 2019 페이지 : pp. 405-421 (17 pages)

다운로드

(기관인증 필요)

초록보기

얼마나 많은 에너지를 사용하느냐에 대한 예측은 사회에서 중요한 이슈이다. 특히 주거 건물은 건물의 특성상 다른 건물에 비해 예측하기 힘들다. 본 논문에서는 주거용 건물의 전력 사용량에 대한 시계열 분석의 방법들을 설명하고자 한다. 일반적으로 온도는 전력 사용량과 밀접한 관련이 있다고 알려져 있다. 변수들 사이에 공적분 관계가 존재한다면, 시간에 따른 오차를 조정하는 방법인 오차수정모형을 적용한다. 전력 사용량과 온도를 포함한 변수들 사이에 공적분 관계가 있음을 보이고, 새로운 온도 반응 함수를 정의하여 온도 효과를 고려한 오차수정모형을 적용하고자 한다.

6토픽 분석을 이용한 학생부종합전형의 쟁점 분석

저자 : 홍영희 ( Younghee Hong )

발행기관 : 한국통계학회 간행물 : 응용통계연구 32권 3호 발행 연도 : 2019 페이지 : pp. 423-434 (12 pages)

다운로드

(기관인증 필요)

초록보기

지난 2018년, 우리사회를 뜨겁게 달구었던 이슈 중 하나로 대입제도 개편에 관한 논쟁을 꼽을 수 있겠다. 그 중에서도 학생부종합전형에 대한 쟁점이 무엇인가를 파악하기 위해 감시와 비판이라는 언론의 기능에 주목하여 관련 뉴스기사에 대한 토픽 분석을 시도해 보았다. 그 결과 수능체제 개편 논의가 비중있는 주제로 등장하여 수능시험에 대한 한국 사회의 민감성을 보여 주었다. 학생부종합전형과 직접적 관련이 있는 주제로는 학생부종합전형의 세부적인 선발 요소에 대한 논의가 등장하였고, 대입전형의 공정성에 관한 논의와 밀접한 관계를 보였다.

7주성분분석으로 추정한 한·중·일 3국의 정체성

저자 : 박흥선 ( Heungsun Park ) , 한민 ( Min Han ) , 양운철 ( Un-chul Yang ) , 이은지 ( Eunji Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 32권 3호 발행 연도 : 2019 페이지 : pp. 435-450 (16 pages)

다운로드

(기관인증 필요)

초록보기

한·중·일 3국에 대한 연구는 정치, 경제, 외교를 비롯한 여러 분야에서 지정학적 관점을 비롯한 여러 방법으로 분석되어 왔다. 최근에 한·중·일 3국 간 경제적, 문화적 교류는 어느 때보다 활발한 상태이지만, 정치, 외교분야에서 피할 수 없는 갈등은 점점 심화되고 있다. 본 연구는 최근에 한·중·일 3국에서 실시한 설문조사를 토대로 국가 정체성에 대한 종합지수를 주성분분석을 통해 제시하였으며, 이들이 한·중·일 3국의 협력과 갈등에 어떤 영향을 주고 있는지를 조사해 보았다. 그 결과, 자국에 대한 애착도는 흔히 예상했던 것과 달리 국가 간 갈등에 유의한 영향을 끼치지 않았다. 반면에, 이웃 나라에 대해 친근감이 증가할수록 국가 간 갈등에 덜 민감하게 반응하며, 국가 간 협력에 대해서는 더 긍정적인 반응을 보였다.

8텍스트 데이터 분석을 위한 근접성 데이터의 생성과 군집화

저자 : 정민지 ( Min-ji Jung ) , 신상민 ( Sang Min Shin ) , 최용석 ( Yong-seok Choi )

발행기관 : 한국통계학회 간행물 : 응용통계연구 32권 3호 발행 연도 : 2019 페이지 : pp. 451-462 (12 pages)

다운로드

(기관인증 필요)

초록보기

문서-용어 빈도행렬은 텍스트 마이닝 분야에서 보편적으로 사용되는 데이터의 한 유형으로, 여러 개체들이 제공하는 문서를 기반으로 만들어진다. 그러나 대다수의 연구자들은 개체 정보에 무게를 두지 않고 여러 문서에서 공통적으로 등장하는 공통용어 중 핵심적인 용어를 효과적으로 찾아내는 방법에 집중하는 경향을 보인다. 공통용어에서 핵심어를 선별할 경우 특정 문서에서만 등장하는 중요한 용어들이 공통용어 선정단계에서부터 배제될 뿐만 아니라 개별 문서들이 갖는 고유한 정보가 누락되는 등의 문제가 야기된다. 본 연구에서는 이러한 문제를 극복할 수 있는 데이터를 근접성 데이터라 정의한다. 그리고 근접성 데이터를 생성할 수 있는 12가지 방법 중 개체 군집화의 관점에서 가장 최적화된 방법을 제안한다. 개체 특성 파악을 위한 군집화 알고리즘으로는 다차원척도법과 K-평균 군집분석을 활용한다.

1
주제별 간행물
간행물명 수록권호

KCI등재

응용통계연구
32권 3호 ~ 32권 3호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
26권 3호 ~ 26권 3호

KCI등재

응용통계연구
32권 2호 ~ 32권 2호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
26권 2호 ~ 26권 2호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
26권 1호 ~ 26권 1호

KCI등재

응용통계연구
32권 1호 ~ 32권 1호

KCI등재

응용통계연구
31권 6호 ~ 31권 6호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
25권 6호 ~ 25권 6호

KCI등재

응용통계연구
31권 5호 ~ 31권 5호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
25권 5호 ~ 25권 5호

KCI등재

응용통계연구
31권 4호 ~ 31권 4호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
25권 4호 ~ 25권 4호

KCI등재

응용통계연구
31권 3호 ~ 31권 3호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
25권 3호 ~ 25권 3호

KCI등재

응용통계연구
31권 2호 ~ 31권 2호

통계연구
20권 0호 ~ 20권 0호

KCI등재

CSAM(Communications for Statistical Applications and Methods)
25권 2호 ~ 25권 2호

KCI등재

한국데이터정보과학회지
28권 4호 ~ 28권 4호

KCI등재

응용통계연구
31권 1호 ~ 31권 1호

KCI등재

한국데이터정보과학회지
29권 1호 ~ 29권 1호
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기