간행물

한국정보처리학회> 정보처리학회논문지. 소프트웨어 및 데이터 공학

정보처리학회논문지. 소프트웨어 및 데이터 공학 update

KIPS Transactions on Software and Data Engineering

  • : 한국정보처리학회
  • : 공학분야  >  전자공학
  • : KCI등재
  • :
  • : 연속간행물
  • : 월간
  • : 2287-5905
  • : 2734-0503
  • :

수록정보
수록범위 : 1권1호(2012)~10권9호(2021) |수록논문 수 : 644
정보처리학회논문지. 소프트웨어 및 데이터 공학
10권9호(2021년 09월) 수록논문
최근 권호 논문
| | | |

KCI등재

1향상된 교차 버전 결함 예측을 위한 베이지안 최적화 프레임워크

저자 : 최정환 ( Jeongwhan Choi ) , 류덕산 ( Duksan Ryu )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 9호 발행 연도 : 2021 페이지 : pp. 339-348 (10 pages)

다운로드

(기관인증 필요)

초록보기

최근 소프트웨어 결함 예측 연구는 교차 프로젝트 간의 결함 예측뿐만 아니라 교차 버전 프로젝트 간의 결함 예측 또한 이루어지고 있다. 종래의 교차 버전 결함 예측 연구들은 WP(Within-Project)로 가정한다. 하지만, CV(Cross-Version) 환경에서는 프로젝트 버전 간의 분포 차이의 중요성을 고려한 연구들이 없다. 본 연구에서는 다른 버전 간의 분포 차이까지 고려하는 자동화된 베이지안 최적화 프레임워크를 제안한다. 이를 통해 분포차이에 따라 전이 학습(Transfer Learning) 수행 여부를 자동으로 선택하여 준다. 해당 프레임워크는 버전 간의 분포 차이, 전이 학습과 분류기(Classifier)의 하이퍼파라미터를 최적화하는 기법이다. 실험을 통해 전이 학습 수행 여부를 분포차 기준으로 자동으로 선택하는 방법이 효과적이라는 것을 알 수 있다. 그리고 최적화를 이용하는 것이 성능 향상에 효과가 있으며 이러한 결과 소프트웨어 인스펙션 노력을 감소할 수 있다는 것을 확인할 수 있다. 이를 통해 교차 버전 프로젝트 환경에서 신규 버전 프로젝트에 대하여 효과적인 품질 보증 활동 수행을 지원할 것으로 기대된다.


In recent software defect prediction research, defect prediction between cross projects and cross-version projects are actively studied. Cross-version defect prediction studies assume WP(Within-Project) so far. However, in the CV(Cross-Version) environment, the previous work does not consider the distribution difference between project versions is important. In this study, we propose an automated Bayesian optimization framework that considers distribution differences between different versions. Through this, it automatically selects whether to perform transfer learning according to the difference in distribution. This framework is a technique that optimizes the distribution difference between versions, transfer learning, and hyper-parameters of the classifier. We confirmed that the method of automatically selecting whether to perform transfer learning based on the distribution difference is effective through experiments. Moreover, we can see that using our optimization framework is effective in improving performance and, as a result, can reduce software inspection effort. This is expected to support practical quality assurance activities for new version projects in a cross-version project environment.

KCI등재

2CAM과 Selective Search를 이용한 확장된 객체 지역화 학습데이터 생성 및 이의 재학습을 통한 WSOL 성능 개선

저자 : 고수연 ( Sooyeon Go ) , 최영우 ( Yeongwoo Choi )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 9호 발행 연도 : 2021 페이지 : pp. 349-358 (10 pages)

다운로드

(기관인증 필요)

초록보기

최근 CAM[1]을 이용해서 이미지의 객체에 대한 주의 영역 또는 지역화(Localization) 영역을 찾는 방법이 WSOL의 연구로서 다양하게 수행되고 있다. CAM을 이용한 객체의 히트(Heat) 맵에서 주의 영역 추출은 객체의 특징이 가장 많이 모여 있는 영역만을 주로 집중해서 객체의 전체적인 영역을 찾지 못하는 단점이 있다. 여기서는 이를 개선하기 위해서 먼저 CAM과 Selective Search[6]를 함께 이용하여 CAM 히트맵의 주의 영역을 확장하고, 확장된 영역에 가우시안 스무딩을 적용하여 재학습 데이터를 만든 후, 이를 학습하여 객체의 주의 영역이 확장되는 방법을 제안한다. 제안 방법은 단 한 번의 재학습만이 필요하며, 학습 후 지역화를 수행할 때는 Selective Search를 실행하지 않기 때문에 처리 시간이 대폭 줄어든다. 실험에서 기존 CAM의 히트맵들과 비교했을 때 핵심 특징 영역으로부터 주의 영역이 확장되고, 확장된 주의 영역 바운딩 박스에 대한 Ground Truth와의 IOU 계산에서 기존 CAM보다 약 58%가 개선되었다.


Recently, a method of finding the attention area or localization area for an object of an image using CAM (Class Activation Map)[1] has been variously carried out as a study of WSOL (Weakly Supervised Object Localization). The attention area extraction from the object heat map using CAM has a disadvantage in that it cannot find the entire area of the object by focusing mainly on the part where the features are most concentrated in the object. To improve this, using CAM and Selective Search[6] together, we first expand the attention area in the heat map, and a Gaussian smoothing is applied to the extended area to generate retraining data. Finally we train the data to expand the attention area of the objects. The proposed method requires retraining only once, and the search time to find an localization area is greatly reduced since the selective search is not needed in this stage. Through the experiment, the attention area was expanded from the existing CAM heat maps, and in the calculation of IOU (Intersection of Union) with the ground truth for the bounding box of the expanded attention area, about 58% was improved compared to the existing CAM.

KCI등재

3아파트 하자 보수 시설공사 세부공종 머신러닝 분류 시스템에 관한 연구

저자 : 김은혜 ( Eunhye Kim ) , 지홍근 ( HongGeun Ji ) , 김지나 ( Jina Kim ) , 박은일 ( Eunil Park ) , 엄재용 ( Jay Y. Ohm )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 9호 발행 연도 : 2021 페이지 : pp. 359-366 (8 pages)

다운로드

(기관인증 필요)

초록보기

대한민국 건설사들은 아파트 하자 정보를 축적하고 보수작업을 관리하기 위한 시스템을 운영하는데 상당한 인력과 비용을 투자하고 있다. 본 연구에서는 하자 접수 상세내용 텍스트 데이터를 이용하여 하자 보수 시설공사에 따른 세부공종을 분류하는 머신러닝 모델을 제안한다. 두 가지 단어 임베딩(Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF))과 두 가지 분류기(Support Vector Machine, Random Forest)를 통해 한국어로 작성된 65만건 이상의 하자 접수데이터로부터 하자보수 시설공사 세부공종을 분류했다. 특히, 이번 연구에서는 특정 시설공사(마감공사)의 9개 세부공종(가전제품, 도배공사, 도장공사, 미장공사, 석공사, 수장공사, 옥내가구공사, 주방기구공사, 타일공사)을 분류하는 이진 분류 모델과 다중 분류 모델을 연구했다. 그 결과, TF-IDF와 Random Forest를 사용한 두가지 분류 모델에서 90%이상의 정확도, 정밀도, 재현율 및 F1점수를 확인했다.


A number of construction companies in Korea invest considerable human and financial resources to construct a system for managing apartment defect data and for categorizing repair tasks. Thus, this study proposes machine learning models to automatically classify defect complaint text-data into one of the sub categories of 'finishing work' (i.e., one of the defect repair tasks). In the proposed models, we employed two word representation methods (Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF)) and two machine learning classifiers (Support Vector Machine, Random Forest). In particular, we conducted both binary- and multi- classification tasks to classify 9 sub categories of finishing work: home appliance installation work, paperwork, painting work, plastering work, interior masonry work, plaster finishing work, indoor furniture installation work, kitchen facility installation work, and tiling work. The machine learning classifiers using the TF-IDF representation method and Random Forest classification achieved more than 90% accuracy, precision, recall, and F1 score. We shed light on the possibility of constructing automated defect classification systems based on the proposed machine learning models.

KCI등재

4해외지수와 투자자별 매매 동향에 따른 딥러닝 기반 주가 등락 예측

저자 : 김태승 ( Tae Seung Kim ) , 이수원 ( Soowon Lee )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 9호 발행 연도 : 2021 페이지 : pp. 367-374 (8 pages)

다운로드

(기관인증 필요)

초록보기

주가 예측은 경제, 통계, 컴퓨터 공학 등 여러 분야에서 연구되는 주제이며, 특히 최근에는 기본적 지표나 기술적 지표 등 다양한 지표로부터 인공지능 모델을 학습하여 주가의 변동을 예측하는 연구들이 활발해 지고 있다. 본 연구에서는 S&P500 등의 해외지수, 과거 KOSPI 지수, 그리고 KOSPI 투자자별 매매 동향으로부터 KOSPI의 등락을 예측하는 딥러닝 모델을 제안한다. 제안 모델은 주가 등락 예측을 위하여 비지도 학습 방법인 적층 오토인코더를 이용하여 잠재변수를 추출하고, 추출된 잠재변수로부터 시계열 데이터 학습에 적합한 LSTM 모델로 학습하여 당일 시가 대비 종가의 등락을 예측하며, 예측된 값을 기반으로 매수 또는 매도를 결정한다. 본 연구에서 제안하는 모델과 비교 모델들의 수익률 및 예측 정확도를 비교한 결과 제안 모델이 비교 모델들 보다 우수한 성능을 보였다.


Stock price prediction is a subject of research in various fields such as economy, statistics, computer engineering, etc. In recent years, researches on predicting the movement of stock prices by learning artificial intelligence models from various indicators such as basic indicators and technical indicators have become active. This study proposes a deep learning model that predicts the ups and downs of KOSPI from overseas indices such as S&P500, past KOSPI indices, and trading trends by KOSPI investors. The proposed model extracts a latent variable using a stacked auto-encoder to predict stock price fluctuations, and predicts the fluctuation of the closing price compared to the market price of the day by learning an LSTM suitable for learning time series data from the extracted latent variable to decide to buy or sell based on the value. As a result of comparing the returns and prediction accuracy of the proposed model and the comparative models, the proposed model showed better performance than the comparative models.

KCI등재

5영상 데이터 특징 커버리지 기반 딥러닝 모델 검증 기법

저자 : 임창남 ( Chang-nam Lim ) , 박예슬 ( Ye-seul Park ) , 이정원 ( Jung-won Lee )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 10권 9호 발행 연도 : 2021 페이지 : pp. 375-384 (10 pages)

다운로드

(기관인증 필요)

초록보기

딥러닝 기법은 영상 처리 분야에서 높은 성능을 입증 받아 다양한 분야에서 적용되고 있다. 이러한 딥러닝 모델의 검증에 가장 널리 사용되는 방법으로는 홀드아웃 검증 방법, k-겹 교차 검증 방법, 부트스트랩 방법 등이 있다. 이러한 기존의 기법들은 데이터 셋을 분할하는 과정에서 클래스 간의 비율에 대한 균형을 고려하지만, 같은 클래스 내에서도 존재하는 다양한 특징들의 비율은 고려하지 않고 있다. 이러한 특징들을 고려하지 않을 경우, 일부 특징에 편향된 검증 결과를 얻게 될 수 있다. 따라서 본 논문에서는 기존 검증 방법들을 개선하여 영상 분류를 위한 데이터 특징 커버리지 기반의 딥러닝 모델 검증 기법을 제안한다. 제안하는 기법은 딥러닝 모델의 학습과 검증을 위한 훈련 데이터 셋과 평가 데이터 셋이 전체 데이터 셋의 특징을 얼마나 반영하고 있는지 수치로 측정할 수 있는 데이터 특징 커버리지를 제안한다. 이러한 방식은 전체 데이터 셋의특징을 모두 포함하도록 커버리지를 보장하여 데이터 셋을 분할할 수 있고, 모델의 평가 결과를 생성한 특징 군집 단위로 분석할 수 있다. 검증 결과, 훈련 데이터 셋의 데이터 특징 커버리지가 낮아질 경우, 모델이 특정 특징에 편향되게 학습하여 모델의 성능이 낮아지며, Fashion-MNIST의 경우 정확도가 8.9%까지 차이나는 것을 확인하였다.


Deep learning techniques have been proven to have high performance in image processing and are applied in various fields. The most widely used methods for validating a deep learning model include a holdout verification method, a k-fold cross verification method, and a bootstrap method. These legacy methods consider the balance of the ratio between classes in the process of dividing the data set, but do not consider the ratio of various features that exist within the same class. If these features are not considered, verification results may be biased toward some features. Therefore, we propose a deep learning model validation method based on data feature coverage for image classification by improving the legacy methods. The proposed technique proposes a data feature coverage that can be measured numerically how much the training data set for training and validation of the deep learning model and the evaluation data set reflects the features of the entire data set. In this method, the data set can be divided by ensuring coverage to include all features of the entire data set, and the evaluation result of the model can be analyzed in units of feature clusters. As a result, by providing feature cluster information for the evaluation result of the trained model, feature information of data that affects the trained model can be provided.

1
권호별 보기

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기