Automatic Generation of Information Extraction Rules Through User-interface Agents

사용자 인터페이스 에이전트를 통한 정보추출 규칙의 자동 생성

  • 김용기 (한양대학교 컴퓨터공학과) ;
  • 양재영 (오픈베이스 기술연구) ;
  • 최중민 (한양대학교 컴퓨터공학과)
  • Published : 2004.04.01

Abstract

Information extraction is a process of recognizing and fetching particular information fragments from a document. In order to extract information uniformly from many heterogeneous information sources, it is necessary to produce information extraction rules called a wrapper for each source. Previous methods of information extraction can be categorized into manual wrapper generation and automatic wrapper generation. In the manual method, since the wrapper is manually generated by a human expert who analyzes documents and writes rules, the precision of the wrapper is very high whereas it reveals problems in scalability and efficiency In the automatic method, the agent program analyzes a set of example documents and produces a wrapper through learning. Although it is very scalable, this method has difficulty in generating correct rules per se, and also the generated rules are sometimes unreliable. This paper tries to combine both manual and automatic methods by proposing a new method of learning information extraction rules. We adopt the scheme of supervised learning in which a user-interface agent is designed to get information from the user regarding what to extract from a document, and eventually XML-based information extraction rules are generated through learning according to these inputs. The interface agent is used not only to generate new extraction rules but also to modify and extend existing ones to enhance the precision and the recall measures of the extraction system. We have done a series of experiments to test the system, and the results are very promising. We hope that our system can be applied to practical systems such as information-mediator agents.

정보추출은 한 문서에서 그 문서의 중심적 의미를 나타내는 특정 구성요소를 인식하여 추출하는 작업으로서, 이질적인 여러 정보소스로부터 균일화된 정보추출을 수행하기 위해서는 각 정보소스에 맞는 정보추출 규칙을 생성해야 한다. 기존 정보추출 규칙의 생성 방법에는 전문가에 의한 수동 생성 방법과 에이전트 프로그램에 의한 자동 생성 방법이 있는데, 수동 생성은 규칙의 정확성은 보장되나 확장성과 효율성에 문제가 있고, 자동 생성은 확장성은 있으나 규칙 생성 자체의 어려움과 생성된 규칙의 신뢰성이 문제점으로 대두된다. 본 논문에서는 이러한 두 가지 방법의 문제점을 보완하여 추출 규칙의 정확성과 확장성을 동시에 제공하기 위해 지도 학습(supervised teaming)을 적용한 정보추출 규칙 생성 기법을 제안한다. 본 논문에서 제시하는 방법은 사용자 인터페이스 에이전트를 사용하여 정보추출 규칙 생성을 위한 단서 정보를 사용자로부터 받고 이 정보를 바탕으로 에이전트가 XML로 표현된 규칙을 생성하는 것이다. 결과적으로 정보추출 규칙의 수동 생성과 자동 생성을 혼합한 형태가 된다. 사용자 인터페이스 에이전트는 규칙의 생성 뿐 아니라 기존의 규칙을 수정하거나 확장하는데도 이용된다. 구인 광고와 논문모집 공고와 관련된 정보소스에 대해 이 방법을 테스트한 결과 다른 기법에서 추출하지 못했던 정보를 추출할 수 있었고, 성능 면에서도 80% 이상의 정확도와 재현 율을 보였다. 본 시스템은 추후 정보 중재자 에이전트와 같은 응용 분야에 적용시킬 수 있을 것으로 기대한다.

Keywords

References

  1. S. Huffman, 'Learning information extraction pattern from examples,' IJCAI-95 Workshop on New Approaches to Learning for Natural Language Processing, pp.127-142. 1995
  2. N. Kushmerick, 'Wrapper induction for information extraction,' Proc. IJCAI-95, pp.729-735, 1995
  3. S. Soderland, D. Fisher, and W. Lehnert, 'Automatically learned vs. hand-crafted text analysis rules,' Tech. Rep. TE-44, Center for Intelligent Information Retrieval, Univ. of Massachusetts, 1997
  4. J. Hammer, H. Garcia-Molina, S. Nestorov, R. Yemeni, M. Breunig, and V. Vassalos, 'Templatebased wrappers in the TSIMMIS system,' Proc. ACM SIGMOD Int. Conf. on Management of Data, Tucson, pp.532-535, 1997 https://doi.org/10.1145/253260.253395
  5. N. Kushmerick, 'Wrapper induction: efficiency and expressiveness,' Artif. Intell. vol.118, pp.15-68, 2000 https://doi.org/10.1016/S0004-3702(99)00100-9
  6. J. Yang, J. Kim, K. Doh, and J. Choi, 'Wrapper generation by using XML-based domain knowledge for intelligent information extraction,' Lecture Notes in AI vol.2417, pp.472-481, 2002
  7. 서희경, 양재영, 최중민, '준구조화 정보소스에 대한 지식기반 Wrapper 학습 에이전트', 정보과학회 논문지: 소프트웨어 및 응용, 제29권 1-2호, pp.42-52, 2002
  8. T. Mitchell, Machine Learning, McGraw-Hill, 1997
  9. E. Riloff, 'Automatically constructing a dictionary for information extraction tasks,' Proc. AAAI-93, pp.811-816, 1993
  10. J. Kim and D. Moldovan, 'Acquisition of linguistic patterns for knowledge-based information extraction,' IEEE Trans. Know. and Data Eng., vol.7, no.5, pp.713-724, 1995 https://doi.org/10.1109/69.469825
  11. S. Soderland, 'Learning information extraction rules for semi-structured and free text,' Machine Learning vol.34 no.1-3, pp.233-272, 1999 https://doi.org/10.1023/A:1007562322031
  12. M. Califf and R. Mooney, 'Relational learning of pattern-match rules for information extraction,' Working Papers of ACL-97 Workshop on Natural Language Learning, pp.9-15, 1997
  13. D. Freitag, 'Information extraction from HTML: Application of a general learning approach,' Proc. AAAI-98, pp.517-523, 1998
  14. C. Hsu and M. Dung, 'Generating finite-state transducers for semi -- structured data extraction from the Web,' J. of Inf. Sys., vol.23, no.8, pp.521-538, 1998 https://doi.org/10.1016/S0306-4379(98)00027-1
  15. I. Muslea, S. Minton, and C. Knoblock, 'A hierarchical approach to wrapper induction', Proc. Agents-99, pp.190-197, 1999 https://doi.org/10.1145/301136.301191
  16. 김용기, 양재영, 최중민, '정보추출을 위한 학습 가능한 인터페이스 에이전트', 정보과학회 2001 가을 학술발표논문집(II), pp.61-63, 2001
  17. L. Liu, C. Pu, and W. Han, 'XWRAP: An XML-enabled wrapper construction system for Web information sources', Proc. 16th Int. Conf. on Data Eng., pp.611-621, 2000 https://doi.org/10.1109/ICDE.2000.839475
  18. I. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 1999