한국정보과학회:학술대회논문집 (Proceedings of the Korean Information Science Society Conference)
- 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
- /
- Pages.721-723
- /
- 2005
- /
- 1598-5164(pISSN)
정보 추출을 위한 트리거에서 HTML이미지 태그 정보의 이용
Application of the HTML Image Tag on Triggers for Describing Rules for Information Extraction
- Kim, Yeon-Jung (Dept. of Computer Science and Engineering Hanyang University) ;
- Park, Jea-Hyun (Dept. of Computer Science and Engineering Hanyang University) ;
- Choi, Joong-Min (Dept. of Computer Science and Engineering Hanyang University)
- 발행 : 2005.07.01
초록
웹 문서를 대상으로 하는 정보 추출이나 웹 마이닝에 관한 연구가 활발히 진행되면서 특히, 웹에서 나타나는 구조적 패턴을 이용해 정보를 추출하는 방법에 대한 연구가 이루어지고 있다. 하지만 구조적 패턴을 이용할 수 없는 경우 텍스트에 의존한 추출기를 생성할 수 밖에 없는데 웹 문서에서 시각적 요소가 강해지면서 트리거가 단순 텍스트가 아닌 이미지로 처리되는 경우가 있다. 기존의 연구들은 트리거를 단순 텍스트로 보는 관점에서의 연구가 많았고 이러한 접근 방법은 트리거가 이미지인 경우에 정확한 정보를 추출해 낼 수 없었다. 이 논문에서는 트리거가 텍스트가 아닌 이미지인 경우에도 필요한 정보를 잘 추출해 내기 위한 방법에 관해 제안하고자 한다.
키워드