논문 상세보기

한국통계학회> 응용통계연구> 위험요인이 포함된 시공간 모형을 이용한 5대 강력범죄 분석

KCI등재

위험요인이 포함된 시공간 모형을 이용한 5대 강력범죄 분석

Spatio-temporal analysis with risk factors for five major violent crimes

전영은 ( Young Eun Jeon ) , 강석복 ( Suk-bok Kang ) , 서정인 ( Jung-in Seo )
  • : 한국통계학회
  • : 응용통계연구 35권5호
  • : 연속간행물
  • : 2022년 10월
  • : 619-629(11pages)
응용통계연구

DOI


목차

1. 서론
2. 시공간 모형
3. 분석 결과
4. 논의 및 결론
References

키워드 보기


초록 보기

5대 강력범죄(살인, 강도, 강간·강제추행, 절도, 폭력)는 사회 구성원들의 안전을 위협하는 대표 범죄들로 일상생활에서 자주 발생한다. 이러한 범죄들은 사회 구성원들의 삶의 질을 떨어뜨리는 등 부정적인 영향을 미친다. 대한민국의 수도인 서울의 경우, 지방에 있는 많은 인구가 서울로 이동하면서 서울의 인구 밀도는 증가하고, 이로 인해 5대 강력범죄 발생 위험성도 증가하고 있다. 본 연구에서는 이러한 위험성을 줄이기 위해 세 가지의 시공간 모형을 이용하여 서울의 5대 강력범죄 발생에 대한 상대위험도를 모델링하였다. 게다가, 상대위험도에 유의한 영향을 미치는 위험요인을 살펴보기 위해 다양한 위험요인을 포함하였다. 최적의 모형을 선택하기 위해 편차정보기준을 이용하였으며, 최적의 모형을 중심으로 다양한 시각화를 포함한 분석 결과를 제공하였다. 본 연구는 각 자치구의 상대위험도와 5대 강력범죄에 대한 위험에 유의한 영향을 미치는 위험요인을 분석함으로써, 사람들의 안전한 일상생활을 유지하기 위한 효율적인 전략을 수립하는 데 도움을 준다.
The five major violent crimes including murder, robbery, rape·forced indecent act, theft, and violence are representative crimes that threaten the safety of members of society and occur frequently in real life. These crimes have negative effects such as lowering the quality of citizens’ life. In the case of Seoul, the capital of Korea, the risk for the five major violent crimes is increasing because the population density of Seoul is increasing as a large number of people in the provinces move to Seoul. In this study, to reduce this risk, the relative risk for the occurrence of the five major violent crimes in Seoul is modeled using three spatio-temporal models. In addition, various risk factors are included to identify factors that significantly affect the relative risk of the five major violent crimes. The best model is selected in terms of the deviance information criterion, and the analysis results including various visualizations for the best model are provided. This study will help to establish efficient strategies to sustain people’s safe everyday living by analyzing important risk factors affecting the risk of the five major violent crimes and the relative risk of each region.

UCI(KEPA)

간행물정보

  • : 자연과학분야  > 통계학
  • : KCI등재
  • :
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • : 학술지
  • : 연속간행물
  • : 1987-2022
  • : 2042


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

35권6호(2022년 12월) 수록논문
최근 권호 논문
| | | |

KCI등재

1KNOCKOFF를 이용한 성근 VHAR 모형의 FDR 제어

저자 : 박민수 ( Minsu Parka ) , 이재원 ( Jaewon Leea ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 685-701 (17 pages)

다운로드

(기관인증 필요)

초록보기

FDR은 1종 오류를 제어하는 매우 보수적인 FWER과 달리 더 자유로운 변수 판단을 제공하여 고차원 자료의 추론에 있어 널리 쓰이고 있다. 본 논문은 Barber와 Candès (2015)가 제안한 knockoff 방법론을 사용하여 FDR을 일정 수준으로 제어하면서 고차원 장기억 시계열 모형인 성근 VHAR 모형을 추정하는 방법을 제안한다. 또한 기존의 방법론인 AL (adaptive Lasso)와의 모의실험을 통한 비교 연구를 통해서 장단점을 비교하였다. 그 결과 AL이 성근 일치성을 보이는 등 전체적으로 좋은 성질을 가지고 있지만, FDR의 관점에서는 비교적 높은 값을 주는 것을 관찰했다. 즉 AL은 0인 계수를 0이 아닌 계수로 추정하려는 경향이 있었다. 반면, knockoff 방법론은 FDR을 일정 수준으로 유지하였지만 표본의 수가 작을 경우 매우 보수적으로 0이 아닌 계수를 찾아냄을 관찰할 수 있었다. 하지만, 모형이 희박할 수록 knockoff의 성능이 크게 향상됨을 확인할 수 있어 표본의 개수가 크고 성근 모형일 경우 knockoff 방법론이 우수함을 살펴볼 수 있었다.


FDR is widely used in high-dimensional data inference since it provides more liberal criterion contrary to FWER which is known to be very conservative by controlling Type-1 errors. This paper proposes a sparse VHAR model estimation method controlling FDR by adapting the knockoff introduced by Barber and Cand`es (2015).We also compare knocko_ with conventional method using adaptive Lasso (AL) through extensive simulation study. We observe that AL shows sparsistency and decent forecasting performance, however, AL is not satisfactory in controlling FDR. To be more specific, AL tends to estimate zero coefficients as non-zero coefficients. On the other hand, knockoff controls FDR sufficiently well under desired level, but it finds too sparse model when the sample size is small. However, the knockoff is dramatically improved as sample size increases and the model is getting sparser.

KCI등재

2베이지안 다변량 선형 모형을 이용한 청소년 패널 데이터 분석

저자 : 이인선 ( Insun Lee ) , 이근백 ( Keunbaik Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 703-724 (22 pages)

다운로드

(기관인증 필요)

초록보기

다변량 경시적 자료 분석은 반복 측정된 자료에 존재하는 상관관계를 올바르게 추정하면서 자료를 분석해야 한다. 경시적 연구에서는 다변량 경시적 자료가주로 생성되지만, 기존통계적 모형은 대부분단변량으로 분석되어 다변량 경시적 자료에 존재하는 복잡한 상관관계를 제대로 설명하지 못하게 된다. 따라서 본 논문에서는 복잡한 상관관계를 설명하기 위해 공분산 행렬을 모형화하는 다양한 방법에 대해 고찰한다. 그 중 수정된 콜레스키 분해, 수정된 콜레스키 블록분해와 초구분해를 살펴본다. 그리고 일반화 자기회귀모수 행렬이 가지는 희박성 문제를 해결하기 위해 베이지안 방법을 이용하여 청소년 패널 데이터를 분석한다. 청소년 패널 데이터는 다변량 경시적 자료이며, 반응 변수로는 학교 적응도, 학업 성취도, 휴대전화 의존도를 고려한다. 자기 상관 구조와 혁신 표준 편차 구조를 달리 가정하여 여러 모형을 비교한다. 가장 적합한 모형에 대해 학교 적응도와 학업 성취도에 대해 모든 설명 변수가 유의미하며, 휴대전화 의존도가 반응 변수일 때 사교육 시간을 제외한 모든 설명 변수가 유의미한 것으로 나타난다.


Although longitudinal studies mainly produce multivariate longitudinal data, most of existing statistical models analyze univariate longitudinal data and there is a limitation to explain complex correlations properly. Therefore, this paper describes various methods of modeling the covariance matrix to explain the complex correlations. Among them, modified Cholesky decomposition, modified Cholesky block decomposition, and hypersphere decomposition are reviewed. In this paper, we review these methods and analyze Korean children and youth panel (KCYP) data are analyzed using the Bayesian method. The KCYP data are multivariate longitudinal data that have response variables: School adaptation, academic achievement, and dependence on mobile phones. Assuming that the correlation structure and the innovation standard deviation structure are different, several models are compared. For the most suitable model, all explanatory variables are significant for school adaptation, and academic achievement and only household income appears as insignificant variables when cell phone dependence is a response variable.

KCI등재

33개의 모수영역을 모니터링하는 EWMA 관리도

저자 : 김유경 ( Yukyung Kim ) , 이재헌 ( Jaeheon Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 725-737 (13 pages)

다운로드

(기관인증 필요)

초록보기

통계적 공정 모니터링에서 관리 상태일 때 품질 특성치의 모수값은 하나 값으로 지정하는 경우가 대부분이다. 그러나 관리 상태로부터 공정 모수의 작은 변화는 실제적으로 크게 중요하지 않은 경우, 품질 특성치의 모수 영역은 관리 상태, 무관심, 그리고 이상 상태의 세 영역으로 구성될 수 있다. 이 논문에서는 3 개의 모수 영역이 있는 공정에 적용할 수 있는 두 가지 지수가중 이동평균(exponentially weighted moving average; EWMA) 관리도 절차를 제안하고, 제안된 절차의 성능을 Shewhart 관리도 및 누적합(cumulative sum; CUSUM) 관리도와 비교하여 그 효율을 평가하였다.


In the standard assumption of statistical process monitoring (SPM) under consideration, the in-control region of the control parameter of quality characteristic consists of a single point. However, if small deviations from the ideal situation may not be of practical importance, the parametric space can consist of three regions: In-control, indifference, and out-of-control. In this paper, we propose two exponentially weighted moving average (EWMA) charting procedures applicable to the situation with three parameter regions, and compare the efficiency of the proposed procedures with the Shewhart chart and the cumulative sum (CUSUM) chart.

KCI등재

4토픽 모형을 이용한 텍스트 데이터의 단어 선택

저자 : 장우솔 ( Woosol Jang ) , 김예은 ( Ye Eun Kim ) , 손원 ( Won Son )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 739-754 (16 pages)

다운로드

(기관인증 필요)

초록보기

텍스트 데이터는 일반적으로 많은 변수를 포함하고 있으며 변수들 사이의 연관성도 높아 통계 분석의 정확성, 효율성 등에서 문제가 생길 수 있다. 이러한 문제점에 대처하기 위해 목표 변수가 주어진 지도 학습에서는 목표 변수를 잘 설명할 수 있는 단어들을 선택하여 이 단어들만 통계 분석에 이용하기도 한다. 반면, 비지도 학습에서는 목표 변수가 주어지지 않으므로 지도 학습에서와 같은 단어 선택 절차를 활용하기 어렵다. 이 연구에서는 토픽 모형을 이용하여 지도 학습에서의 목표 변수를 대신할 수 있는 토픽을 생성하고 각 토픽별로 연관성이 높은 단어들을 선택하는 단어 선택 절차를 제안한다. 제안된 절차를 실제 텍스트 데이터에 적용한 결과, 단어 선택 절차를 이용하면 많은 토픽에서 공통적으로 자주 등장하는 단어들을 제거함으로써 토픽을 더 명확하게 식별할 수 있었다. 또한, 군집 분석에 적용한 결과, 군집과 범주 사이에 높은 연관성을 가지는 군집 분석 결과를 얻을 수 있는 것으로 나타났다. 목표 변수에 대한 정보없이 토픽 모형을 이용하여 선택한 단어들을 분류 분석에 적용하였을 때 목표 변수를 이용하여 단어들을 선택한 경우와 비슷한 분류 정확성을 얻을 수 있음도 확인하였다.


Usually, text data consists of many variables, and some of them are closely correlated. Such multi-collinearity often results in inefficient or inaccurate statistical analysis. For supervised learning, one can select features by examining the relationship between target variables and explanatory variables. On the other hand, for unsupervised learning, since target variables are absent, one cannot use such a feature selection procedure as in supervised learning. In this study, we propose a word selection procedure that employs topic models to find latent topics. We substitute topics for the target variables and select terms which show high relevance for each topic. Applying the procedure to real data, we found that the proposed word selection procedure can give clear topic interpretation by removing high-frequency words prevalent in various topics. In addition, we observed that, by applying the selected variables to the classifiers such as naïve Bayes classifiers and support vector machines, the proposed feature selection procedure gives results comparable to those obtained by using class label information.

KCI등재

5금융 시계열 변동성 추정을 위한 준-우도 이노베이션의 멱변환

저자 : 정선아 ( Sunah Chung ) , 황선영 ( Sun Young Hwang ) , 이성덕 ( Sung Duck Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 6호 발행 연도 : 2022 페이지 : pp. 755-764 (10 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 금융 시계열 변동성 추정을 위한 준-모수(quasi-likelihood) 방법을 다루고 있다. 모형식에서 오차항의 분포를 미 지 (unknown)로 하여 준-우도 함수를 통한 모수 추정을 하는 경우 이노베이션의 지정을 멱변환을 통해 구성하였다. 고정된 멱변환에 대한 프로파일-정보 행렬을 비교하여 최대값을 제공하는 멱변환을 제안하였다. 이차원 이노베이션으로의 확장을 다루었으며 코로나 펜데믹 기간의 높은 변동성을 보이는 국내 9개 주가 자료 분석을 통해 방법론을 예시하고 있다.


This paper is concerned with power transformations in estimating GARCH volatility. To handle a semiparametric case for which the exact likelihood is not known, quasi-likelihood (QL) rather than maximumlikelihood method is investigated to best estimate GARCH via maximizing the information criteria. A power transformation is introduced in the innovation generating QL estimating functions and then optimum power is selected by maximizing the profile information. A combination of two different power transformations is also studied in order to increase the parameter estimation efficiency. Nine domestic stock prices data are analyzed to order to illustrate the main idea of the paper. The data span includes Covid-19 pandemic period in which financial time series are really volatile.

1
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1단변량 및 다변량 함수 데이터에 대한 분산분석의 활용

저자 : 김미정 ( Mijeong Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 579-591 (13 pages)

다운로드

(기관인증 필요)

초록보기

함수 데이터는 다양한 분야에서 수집되고 있으며, 집단 간의 함수 데이터를 비교해야하는 경우가 종종 발생한다. 이럴 경우 점별 분산분석 방법을 이용하여 설명하기에는 무리가 있으며, 통합된 결과를 제시할 필요가 있다. 이에 대한 다양한 연구가 제안되었으며, 최근에 R 패키지 fdANOVA로 구현되었다. 이 논문에서 우선 분산분석 및 다변량 분산분석을 설명하고, 최근에 제안된 다양한 단변량 및 다변량 함수 데이터 분산분석을 설명하고자 한다. 또한 R 패키지 fdANOVA의 사용 방법을 설명하고, 이 패키지를 이용하여 서울과 부산 지역의 주별 기온을 단변량 함수 데이터 분산분석을 통해 비교하고, 손글씨 이미지를 다변량 함수 데이터로 변환하여 다변량 함수 데이터 분산분석을 이용하여 비교하고자 한다.

KCI등재

2불량 웨이퍼 탐지를 위한 함수형 부정 탐지 지지 벡터기계

저자 : 박민형 ( Minhyoung Park ) , 신승준 ( Seung Jun Shin )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 593-601 (9 pages)

다운로드

(기관인증 필요)

초록보기

빈번하지는 않지만 한번 발생하면 상대적으로 큰 손실을 가져오는 사례를 통칭하여 부정 사례(Fraud)라고 부르며, 부정 탐지의 문제는 많은 분야에서 활용된다. 부정 사례는 정상 사례에 비해 상대적으로 관측치가 매우 적고 오분류의 비용이 월등히 크기 때문에 일반적인 이항분류 기법을 바로 적용할 수 없다. 이러한 경우에 활용할 수 있는 방법이 부정 탐지 지지 벡터기계(FDSVM)이다. 본 논문에서는 공변량이 함수형일 때 활용 가능한 함수형 부정 탐지 지지 벡터기계(F2DSVM)를 제안하였다. 제안된 방법을 사용하면 함수형 공변량을 가진 데이터에서 사용자가 목표하는 부정 탐지의 성능을 만족시키는 제약하에서 최적의 예측력을 가지는 분류기를 학습시킬 수 있다. 뿐만아니라, 통상적인 SVM과 마찬가지로, F2DSVM도 자취해의 조각별 선형성을 보일 수 있으며 이를 바탕으로 효율적인 자취해 알고리즘을 활용할 수 있고 분류기의 학습 시간을 크게 단축시킬 수 있다. 마지막으로, 반도체 웨이퍼 불량 탐지 문제에 제안된 F2DSVM을 적용해 보았고, 그 활용 가능성을 확인하였다.

KCI등재

3전후 재건사업을 안정적으로 진행하려면? - 베이지안 계층모형을 이용한 테러 예측

저자 : 엄승현 ( Seunghyun Eom ) , 장원철 ( Woncheol Jang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 603-617 (15 pages)

다운로드

(기관인증 필요)

초록보기

2001년 9.11 테러 이후 미국은 테러와의 전쟁을 선포하면서 아프가니스탄과 이라크침공하여 단기간에 정규전 승리를 이끌었다. 하지만 이후 발생한 다수의 테러를 통제하지 못해 전후 국가 재건을 돕는 안정화 작전에 상당시간이 소요되면서, 전후 테러활동의 분석에 대한 관심이 높아지게 되었다. 본 연구에서는 시공간 종속성을 반영하는 베이지안 계층 모형을 이용해 2003년부터 2010년까지 이라크에서 발생한 테러 자료를 기반으로시·공간 요인, 자치구별 인구·종교와 같은 예측 변수들과 자치구별 테러 빈도수와의 관계를 분석하고, 2011년의 테러 위협을 예측하였다. 이렇게 구한 예측치를 바탕으로 해당지역 담당 군 지휘관이 효율적인 부대 배치를 통해 테러방지에 활용할 수 있을 것으로 기대된다.

KCI등재

4위험요인이 포함된 시공간 모형을 이용한 5대 강력범죄 분석

저자 : 전영은 ( Young Eun Jeon ) , 강석복 ( Suk-bok Kang ) , 서정인 ( Jung-in Seo )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 619-629 (11 pages)

다운로드

(기관인증 필요)

초록보기

5대 강력범죄(살인, 강도, 강간·강제추행, 절도, 폭력)는 사회 구성원들의 안전을 위협하는 대표 범죄들로 일상생활에서 자주 발생한다. 이러한 범죄들은 사회 구성원들의 삶의 질을 떨어뜨리는 등 부정적인 영향을 미친다. 대한민국의 수도인 서울의 경우, 지방에 있는 많은 인구가 서울로 이동하면서 서울의 인구 밀도는 증가하고, 이로 인해 5대 강력범죄 발생 위험성도 증가하고 있다. 본 연구에서는 이러한 위험성을 줄이기 위해 세 가지의 시공간 모형을 이용하여 서울의 5대 강력범죄 발생에 대한 상대위험도를 모델링하였다. 게다가, 상대위험도에 유의한 영향을 미치는 위험요인을 살펴보기 위해 다양한 위험요인을 포함하였다. 최적의 모형을 선택하기 위해 편차정보기준을 이용하였으며, 최적의 모형을 중심으로 다양한 시각화를 포함한 분석 결과를 제공하였다. 본 연구는 각 자치구의 상대위험도와 5대 강력범죄에 대한 위험에 유의한 영향을 미치는 위험요인을 분석함으로써, 사람들의 안전한 일상생활을 유지하기 위한 효율적인 전략을 수립하는 데 도움을 준다.

KCI등재

5희박 벡터 자기 회귀 모형의 로버스트 추정

저자 : 김동영 ( Dongyeong Kim ) , 백창룡 ( Changryong Baek )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 631-644 (14 pages)

다운로드

(기관인증 필요)

초록보기

본 논문은 고차원 시계열 자료에 이상점이 존재하는 경우 희박벡터자기회귀모형(sparse VAR; sVAR)의 모수를 강건하게 추정하는 방법에 대해서 연구하였다. 먼저 Xu 등 (2008)이 독립인 자료에서 밝혔듯이 adaptive lasso 방법이 sVAR 모형에서도 어느 정도의 강건함을 가짐을 모의 실험을 통해 알 수 있었다. 하지만, 이상점의 개수가 증가하거나 이상점의 영향력이 커지는 경우 효율성이 현저히 저하되는 현상도 관찰할 수 있었다. 따라서 이를 개선하기 위해서 최소절대편차(least absolute deviation; LAD)와 Huber 함수를 기반으로 벌점화 시키는 adaptive lasso를 이용하여 sVAR 모형을 추정하는 방법을 본 논문에서는 제안하고 그 성능을 검토하였다. 모의 실험을 통해 제안한 로버스트 추정 방법이 이상점이 존재하는 경우에 모수 추정을 더 정확하게 하고 예측 성능도 뛰어남을 확인했다. 또한 해당 방법론들을 전력사용량 데이터에 적용한 결과 이상점으로 의심되는 시점들이 존재하였고, 이를 고려하여 강건하게 추정하는 제안한 방법론이 더 좋은 예측 성능을 보임을 확인할 수 있었다.

KCI등재

6R에서 자동화 예측 함수에 대한 성능 비교

저자 : 오지우 ( Jiu Oh ) , 성병찬 ( Byeongchan Seong )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 645-655 (11 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 R에서 시계열 자료 예측을 위한 자동화 함수에 대하여 고찰하고 그 예측 성능을 비교합니다. 대표적인 시계열 예측 방법인 지수 평활 모형과 ARIMA (autoregressive integrated moving average) 모형을 대상으로 하였으며, 이들의 모형화 및 예측 자동화를 가능하게 하는 R의 4가지 자동화 함수인 forecast::ets(), forecast::auto.arima(), smooth::es()와 smooth::auto.ssarima()를 대상으로 하였습니다. 이들의 예측 성능을 비교하기 위하여 3,003가지의 시계열로 구성되어 있는 M3-Competition자료와 3가지의 정확성 척도를 사용하였습니다. 4가지 자동화 함수는 모형화의 다양성 및 편리성, 예측 정확도 및 실행 시간 등에서 각자 장단점이 있음을 확인하였습니다.

KCI등재

7Note on the estimation of informative predictor subspace and projective-resampling informative predictor subspace

저자 : Jae Keun Yoo

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 657-666 (10 pages)

다운로드

(기관인증 필요)

초록보기

정보적 설명 변수 공간은 일반적인 충분차원축소 방법들이 요구하는 가정들이 만족하지 않을 때 중심부분공간을 추정하기 위해 유용하다. 최근 Ko와 Yoo (2022)는 다변량 회귀에서 Li 등 (2008)이 제시한 투영-재표본 방법론을 사용하여 정보적 설명 변수 공간이 아닌 투영-재표본 정보적 설명 변수 공간을 새로이 정의하였다. 이 공간은 기존의 정보적 설명 변수 공간에 포함되지만 중심 부분 공간을 포함한다. 본 논문에서는 다변량 회귀에서 정보적 설명 변수 공간을 직접적으로 추정할 수 있는 방법을 제안하고, 이를 Ko와 Yoo (2022)가 제시한 방법과 이론적으로 그리고 모의실험을 통해 비교하고자 한다. 모의실험에 따르면 Ko-Yoo 방법론이 본 논문에서 제시한 추정 방법보다 더 정확하게 중심 부분 공간을 추정하고, 추정값들의 변동이 적다는 측면에서 보다 더 효율적임을 알 수 있다.

KCI등재

8기계학습 접근법에 기반한 유전자 선택 방법들에 대한 리뷰

저자 : 이하정 ( Hajoung Lee ) , 김재직 ( Jaejik Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 35권 5호 발행 연도 : 2022 페이지 : pp. 667-684 (18 pages)

다운로드

(기관인증 필요)

초록보기

유전자 발현 데이터는 각 유전자에 대해 mRNA 양의 정도를 나타내고, 그러한 유전자 발현량에 대한 분석은 질병 발생에 대한 메커니즘을 이해하고 새로운 치료제와 치료 방법을 개발하는데 중요한 아이디어를 제공해오고 있다. 오늘날 DNA 마이크로어레이와 RNA-시퀀싱과 같은 고출력 기술은 수천 개의 유전자 발현량을 동시에 측정하는 것을 가능하게 하여 고차원성이라는 유전자 발현 데이터의 특징을 발생시켰다. 이러한 고차원성으로 인해 유전자 발현 데이터를 분석하기 위한 학습 모형들은 과적합 문제에 부딪히기 쉽고, 이를 해결하기 위해 차원 축소 또는 변수 선택 기술들이 사전 분석 단계로써 보통 사용된다. 특히, 사전 분석 단계에서 우리는 유전자 선택법을 이용하여 부적절하거나 중복된 유전자를 제거할 수 있고 중요한 유전자를 찾아낼 수도 있다. 현재까지 다양한 유전자 선택 방법들이 기계학습의 맥락에서 개발되어왔다. 본 논문에서는 기계학습 접근법을 사용하는 최근의 유전자 선택 방법들을 집중적으로 살펴보고자 한다. 또한, 현재까지 개발된 유전자 선택 방법들의 근본적인 문제점과 앞으로의 연구 방향에 대해 논의하고자 한다.

1
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기