닫기
216.73.216.214
216.73.216.214
close menu
KCI 등재
LLM 기반 영어 말하기 자동 평가: 다차원 채점 및 피드백 생성 프레임워크
Automated English speaking assessment with large language models: A framework for multi-dimensional scoring and feedback generation
김종인, 전형배, 박전규
DOI http://dx.doi.org/10.13064/KSSS.2025.17.3.071

기존의 자동화된 영어 말하기 평가 시스템은 단편적인 점수 생성에만 집중하여 학습자에게 의미 있는 개선 지침을 제공하는 능력이 제한적이다. 이러한 한계를 해결하기 위해 본 연구는 정량적 점수 예측과 정성적 피드백 생성을 동시에 수행하는 LLM 기반 통합 평가 모델을 제안한다. 제안 모델은 Whisper, BEATs, QFormer를 결합하여 다차원적 음성 특징을 추출하고, ChatGPT로 생성한 훈련 데이터를 활용하여, Llama 기반 instruction tuning을 통해 4개 영역(과업 완성도, 전달력, 정확성, 적절성)의 점수 예측과 구체적인 피드백 및 첨삭 문장을 생성한다. 실험 결과, 인간 평가자와의 상관관계는 영역별로 Pearson 상관계수 0.730–0.789를 나타냈으며, LLM-as-a-Judge 방법론으로 검증한 피드백 품질은 모든 평가 범주에서 평균 4.0점 이상을 기록하였다.

Traditional automated English speaking assessment systems are limited in their ability to provide meaningful improvement guidance to learners, as they typically focus solely on generating overall scores. To address this limitation, this study proposes an integrated LLM-based assessment model that simultaneously performs quantitative score prediction and qualitative feedback generation for comprehensive English speaking evaluation. The model combines Whisper, BEATs, and QFormer for multidimensional audio feature extraction, utilizes ChatGPT-generated training data for Llama-based instruction tuning, and employs large language models to predict scores across four domains (task completion, delivery, accuracy, appropriateness) while generating specific feedback and corrections. Experimental results demonstrate reasonable correlations with human evaluators (Pearson correlation coefficients ranging from 0.730 to 0.789) and feedback quality with average scores above 4.0 points in all evaluation categories as validated by LLM-as-a-Judge methodology.

×