Automatic Recognition and Normalization System of Korean Time Expression using the individual time units

시간의 단위별 처리를 이용한 자동화된 한국어 시간 표현 인식 및 정규화 시스템

  • Received : 2010.02.19
  • Accepted : 2010.10.06
  • Published : 2010.12.31

Abstract

Time expressions are a very important form of information in different types of data. Thus, the recognition of a time expression is an important factor in the field of information extraction. However, most previously designed systems consider only a specific domain, because time expressions do not have a regular form and frequently include different ellipsis phenomena. We present a two-level recognition method consisting of extraction and transformation phases to achieve generality and portability. In the extraction phase, time expressions are extracted by atomic time units for extensibility. Then, in the transformation phase, omitted information is restored using basis time and prior knowledge. Finally, every complete atomic time unit is transformed into a normalized form. The proposed system can be used as a general-purpose system, because it has a language- and domain-independent architecture. In addition, this system performs robustly in noisy data like SMS data, which include various errors. For SMS data, the accuracies of time-expression extraction and time-expression normalization by using the proposed system are 93.8% and 93.2%, respectively. On the basis of these experimental results, we conclude that the proposed system shows high performance in noisy data.

시간 정보는 문서나 문장 등에서 매우 중요한 정보로 사용되기 때문에 다양한 종류의 데이터에서 시간 정보의 인식은 매우 중요하다. 시간 정보는 일정한 형태를 가진 것으로 간주되지만 실제 사용되는 시간 표현은 매우 다양하고 복잡하며 정보의 일부가 빈번하게 생략되는 경우가 발생한다. 본 연구에서는 시간 표현의 추출뿐만 아니라 추출된 표현을 정규화된 표준 형식으로 변환하는 범용 시간 표현 추출 및 변환 시스템을 제안한다. 다양한 시간 표현의 추출과 변환에 필요한 노력을 줄이고 새로운 데이터에 대한 확장성을 보장하기 위해 기본 시간 단위를 정의하였다. 추출단계에서는 기본 시간 단위의 조합으로 구성된 사전을 사용하여 가능한 시간 표현들을 추출한다. 정규화 변환 단계에서는 인접 추출 정보와 기준 시간 등을 사용하여 생략된 기본 시간 단위 정보를 복원하고 최종적으로 모든 기본 시간 정보들은 통합되어 정규화된 표준 형식으로 변환된다. 제안한 시스템은 모바일 기기 등의 잡음 환경에서 강인한 성능을 보장하며 영역이나 언어에 대해 독립적이므로 많은 영역에서 응용이 가능하다. 본 연구는 실험에서 다량의 오류가 포함된 SMS 데이터에서 시간 표현 추출 정확도 93.8%, 시간 표현 변환 정확율 93.2%을 보임으로써 오류에 강인하면서도 높은 성능을 유지함을 증명하였다.

Keywords