Browse > Article
http://dx.doi.org/10.5391/JKIIS.2008.18.1.086

A Study on Focused Crawling of Web Document for Building of Ontology Instances  

Chang, Moon-Soo (서경대학교 소프트웨어학과)
Publication Information
Journal of the Korean Institute of Intelligent Systems / v.18, no.1, 2008 , pp. 86-93 More about this Journal
Abstract
The construction of ontology defines as complicated semantic relations needs precise and expert skills. For the well defined ontology in real applications, plenty of information of instances for ontology classes is very critical. In this study, crawling algorithm which extracts the fittest topic from the Web overflowing over by a great number of documents has been focused and developed. Proposed crawling algorithm made a progress to gather documents at high speed by extracting topic-specific Link using URL patterns. And topic fitness of Link block text has been represented by fuzzy sets which will improve a precision of the focused crawler.
Keywords
Focused Crawling; Ontology; Web Document; URL Pattern; Link Filtering; Topic Fitness;
Citations & Related Records
Times Cited By KSCI : 3  (Citation Analysis)
연도 인용수 순위
1 Soumen Chakrabarti, Martin van den Berg and Byron Dom, "Focused crawling: a new approach to topic-specific Web resource discovery," Computer Networks, Vol.31, No.11-16, pp.1623-1640, 1999   DOI   ScienceOn
2 김기주, 최영식, "포커스드 크롤러를 이용한 웹 검색 및 모니터링 개인화 시스템," 한국인터넷정보학회 춘계학술발표대회 논문집, 제5권 1호, pp.297-300, 2004
3 김중태, 시맨틱 웹, 디지털미디어리서치, 2006
4 정한민, 성원경, "과학기술 용어에 대한 용어 생명 주기 고찰," 한국콘텐츠학회 종합학술대회 논문집, 제4권 2호, pp.84-89, 2006
5 조광제, 김준태, "하이퍼링크 정보를 이용한 HTML 문서의 자동 분류," 한국정보과학회 학술발표논문집, 제24권 2호(II), pp.277-280, 1997
6 하은용, 최선완, "정확도 높은 검색 엔진을 위한 문서 수집 방법," 한국정보과학회 학술발표논문집, 제26권 2호(III), pp.471-473, 1999
7 김원우, 변영태, "Link와 Clustering을 이용한 적극적 문서 수집 기법," 한국지능정보시스템학회 학술대회논문집, 제1권, pp.393-398, 2001   과학기술학회마을
8 G. Almpanidis, C. Kotropoulos and I. Pitas, "Combine text and link analysis for focused crawling - An application for vertical search engines," Information Systems, Vol.32, No.6, pp.886-908, 2007   DOI   ScienceOn
9 이정훈, 전서현, 김선희, "웹 문서 수집을 위한 효율적인 문서 분류," 한국정보과학회 학술발표논문집, 제33권 2호(B), pp.397-401, 2006
10 김성진, 이상호, "웹 로봇 구현 및 한국 웹 통계보고," 한국정보처리학회논문지C, 제10권, 4호, pp.509-518, 2003
11 정준영, 장문수, "URL 패턴을 이용한 웹문서의 선 택적 자동 수집 방안," 퍼지 및 지능 시스템학회 추 계학술대회, 제17권 2호, pp41-44, 2007
12 조창희, 이남용, 강진범, 양재영, 최중민, "주변정보 분할을 이용한 주제 중심 웹 문서 수집기," 정보처리학회논문지B, 제12권 6호, pp.697-702, 2005   과학기술학회마을   DOI
13 장문수, 강선미, "도메인지식의 계층화를 통한 온톨로지 인스턴스의 속성정보 추출", 퍼지 및 지능시스템학회 논문지, 제17권 3호, pp.291-296, 2007   과학기술학회마을   DOI
14 Lawrence Page, Sergey Brin, Rajeev Motwani and Terry Winograd, "The PageRank Citation Ranking: Bringing Order to the Web," Stanford InfoLab Publication Server, 1999