본 논문에서는 서식 문서를 짧은 처리 시간에 정확히 분류함으로써 실제 환경에서 응용할 수 있는 서식 분류 방법을 제안한다. 제안하는 방법은 서식 문서 이미지 전체를 다루기보다는 처리하고자 하는 서식 문서에서 서식 구조가 많이 다른 곳을 찾아서 매칭 영역으로 결정하고, 그 영역들에 대해서만 비교를 수행함으로서 계산 시간을 줄이고 인식률을 높인다. 선분 추출시 오류를 고려하기 위하여 기존 인쇄 문자와 채워진 데이터, 그리고 매칭 영역의 크기 정보를 페널티 함수로 반영하여 매칭 영역 선택시 고려한다. 본 방법은 구조적으로 많이 다르고, 양질의 특징을 포함하는 적은 수의 매칭 영역을 선택함으로써 처리 시간을 줄일 수 있음은 물론 높은 서식 분류율을 얻을 수 있다.
In this paper, we are proposing an efficient method of classifying form that is applicable in real life. Our method identifies a small number of matching areas by their distinctive images with respect to their layout structure and then by using a DP (Dynamic Programming) matching to match only these local regions. The penalty for each local area is computed by using the pre-printed text, filled-in data, and the size of the local area to prevent extracting erroneous lines. Our approach of searching and matching only a small number of structurally distinctive local regions would overcome the problems caused by the lengthy computation time and low recognition rate.