정보 추출을 위한 트리거에서 HTML이미지 태그 정보의 이용

Application of the HTML Image Tag on Triggers for Describing Rules for Information Extraction

  • 김연정 (한양대학교 컴퓨터공학과) ;
  • 박제현 (한양대학교 컴퓨터공학과) ;
  • 최중민 (한양대학교 컴퓨터공학과)
  • Kim, Yeon-Jung (Dept. of Computer Science and Engineering Hanyang University) ;
  • Park, Jea-Hyun (Dept. of Computer Science and Engineering Hanyang University) ;
  • Choi, Joong-Min (Dept. of Computer Science and Engineering Hanyang University)
  • 발행 : 2005.07.01

초록

웹 문서를 대상으로 하는 정보 추출이나 웹 마이닝에 관한 연구가 활발히 진행되면서 특히, 웹에서 나타나는 구조적 패턴을 이용해 정보를 추출하는 방법에 대한 연구가 이루어지고 있다. 하지만 구조적 패턴을 이용할 수 없는 경우 텍스트에 의존한 추출기를 생성할 수 밖에 없는데 웹 문서에서 시각적 요소가 강해지면서 트리거가 단순 텍스트가 아닌 이미지로 처리되는 경우가 있다. 기존의 연구들은 트리거를 단순 텍스트로 보는 관점에서의 연구가 많았고 이러한 접근 방법은 트리거가 이미지인 경우에 정확한 정보를 추출해 낼 수 없었다. 이 논문에서는 트리거가 텍스트가 아닌 이미지인 경우에도 필요한 정보를 잘 추출해 내기 위한 방법에 관해 제안하고자 한다.

키워드