중노년층의 치매 선별을 위한 심리검사인 K-MMSE는 문항 점수를 단순 합산한 총점으로 인지능력의 수준을 평가하고 치매 위험군을 선별한다. 그러나 인지능력의 수준과 문항 점수 사이의 관계를 선형적으로 가정하느냐 비선형적으로 가정하느냐, 문항에 따른 가중치를 부여하느냐 그렇지 않으냐에 따라 산출되는 검사점수와 선별 분류 결과가 달라질 수 있다. 총점을 검사점수로 사용하기 위해서는 선형성과 비가중이 전제되어야 하지만 많은 심리검사들은 이러한 가정에 부합하지 않는다. 본 연구는 중노년층 6,548명을 대상으로 실시한 K-MMSE 자료를 이용하여 서로 다른 가정에 따라 산출한 네 가지 검사점수 간의 유사성과 분류 일치도를 확인하였다. 선형성을 가정하는 고전검사이론 기반의 검사점수 사이에서, 그리고 비선형성을 가정하는 문항반응이론 기반의 검사점수 사이에서 피어슨 상관계수가 높게 나타났다. 비가중 산출 방식인 총점과 부분점수모형 점수는 선형성 가정 여부가 일치하지 않음에도 분류 결과가 완전히 일치했지만 가중 산출 방식인 요인점수와 일반화부분점수모형 점수는 분류 일치도가 가장 낮았다. 또한 합산점수 분포의 비대칭성이 클수록 각 방식 간 검사점수의 유사성과 분류 일치도가 낮아지는 양상을 확인하였다. 마지막으로 검사의 특성과 목적에 부합하는 검사점수 산출 방식 선택에 대한 고려사항을 논의하였다.
Traditionally, K-MMSE, a psychological assessment tool used for dementia screening, has been used to evaluate cognitive ability based on summative scores. However, aspects such as whether the relationship between cognitive ability and test scores is assumed to be linear or non-linear and whether item-weight is considered or not may lead to different test scores and different classification. Use of the total score as a test score requires linear relationship and item unweighting, but many psychological tests do not meet these assumptions. The current study examined similarity and classification agreements among test scores derived from different scoring methods, by using K-MMSE data sourced from 6,548 middle-aged and older adults. The Pearson correlation coefficients were high between the scores based on the classical test theory with linearity assumption and between the scores based on the item response theory with nonlinearity assumption. The unweighted scores of total and partial credit model were completely consistent in their classification despite the inconsistency in linearity assumption, but the weighted scores from factor analysis and generalized partial credit model, had the lowest classification agreement. We also found that the greater the asymmetry in the distribution of the total score, the lower the similarity of test scores and classification agreement based on different scoring methods. Lastly, it was emphasized that the selection of appropriate scoring methods should be consistent with the objectives of the test.