Abstract
Many researches on recognition of Korean characters have been undertaken. But while the majority are done on Korean character recognition, tasks for developing document recognition system have seldom been challenged. In this paper, I designed a recognizer of Korean courtesy amounts to improve error correction in recognized character string. From the very first step of Korean character recognition, we face the enormous scale of data. We have 2350 characters in Korean. Almost the previous researches tried to recognize about 1000 frequently-used characters, but the recognition rates show under 80%. Therefore using these kinds of recognizers is not efficient, so we designed a statistical multiple recognizer which recognize 16 Korean characters used in courtesy amounts. By using multiple recognizer, we can prevent an increase of errors. For the Postprocessor of Korean courtesy amounts, we use the properties of Korean character strings. There are syntactic rules in character strings of Korean courtesy amounts. By using this property, we can correct errors in Korean courtesy amounts. This kind of error correction is restricted only to the Korean characters representing the unit of the amounts. The first candidate of Korean character recognizer show !!i.49% of recognition rate and up to the fourth candidate show 99.72%. For Korean character string which is postprocessed, recognizer of Korean courtesy amounts show 96.42% of reliability. In this paper, we suggest a method to improve the reliability of Korean courtesy amounts recognition by using the Korean character recognizer which recognize limited numbers of characters and the postprocessor which correct the errors in Korean character strings.
한글 인식에 관한 기존의 연구는 한글 낱자 인식에 치우쳐 왔고, 실제 문서 인식 시스템 개발을 위한 연구는 거의 이루어지지 않았다. 그래서, 본 논문에서는 인식된 문자열의 오류 교정에 관한 연구로서 한글 금액열 인식기를 개발하였다. 한글 낱자 인식에서 문제가 되는 부분은 데이터의 방대함 때문에 발생한다. 컴퓨터상에서 표현될 수 있는 한글 낱자의 개수는 2000여 자 이상이다. 따라서, 기존의 연구들은 이러한 문제점을 해결하기 위해서 실생활에서 많이 쓰이는 낱자에 대해서만 실험을 했다. 하지만, 실험 대상 낱자의 개수를 1000여 자 정도로 줄였어도, 여전히 80%대 이하의 저조한 인식률을 보이고 있다. 이렇게 인식률이 저조한 범용 한글 낱자 인식기를 한글 금액 인식이라는 제한된 상황에서 사용하는 것은 적합하지 않다. 따라서, 본 연구에서는 한글 금액에 사용되는 16자의 한글 낱자만 인식할 수 있는 인식기를 제안하였다. 제안한 한글 낱자 인식기는 통계적 인식기를 사용한 다중 인식기 형태로 만들었고, 이를 통해 개별적인 특징으로 인한 인식률의 저하를 방지할 수 있다. 금액의 후처리는 한글 금액열 내에 내재되어 있는 금액에 대한 구조적인 규칙 정보를 이용하였다. 이 규칙을 이용하여 한글 금액의 후처리는 한글 금액열 내에 내재되어 있는 금액애 대한 구조적인 규칙 정보를 이용하였다. 이규칙을 이용하여 한글 금액의 인식 단위에 대한 인식 결과의 오류 보정을 할 수 있다. 실험 결과 제안한 한글 낱자 인식기의 1후보까지 인식률은 95.49%였고, 4후보까지 인식률은 99.72%였다. 그리고, 후처리기의 처리를 거친 금액열에 대해서는 신뢰도가 96.42%였다. 본 논문에서는 사용된 낱자의 개수가 적고, 구조안에 규칙 정보가 존재하는 한글 문자열의 경우에 제한된 글자를 인식하는 낱자 인식기와 오류를 교정할 수 있는 후처리기로 문자열 인식의 신뢰도를 향상시킬수 있는 방법을 제안하였다.