Web Site Construction Using Internet Information Extraction

인터넷 정보 추출을 이용한 웹문서 구조화

  • 박은주 (안동대학교 컴퓨터공학) ;
  • 임한규 (안동대학교 전자정보산업학부)
  • Published : 2001.06.01

Abstract

In this paper, we suggest the algorithm that inserts or deletes documents into web sites without creating tag. This algorithm uses tag which links between documents to automatically inset or delete the web documents. This study extracts the texts in the ... tag of the document to put into the structure as a type of graph creating the link as a node m of sub-node. That is, in this case of configurating new link between web documents, this algorithm allows to insert or delete the node to or from the graph without creating the tag. In the case of deleting the document, it removes the broken link connecting the sub-nodes of deleted node newly to its parent node.

본 논문은 웹사이트에서 문서를 삽입하거나 삭제할 경우, 태그를 생성하는 수동적인 방법을 사용하지 않고, 자동적인 방법으로 문서를 삽입·삭제하는 알고리즘을 제안한다. 자동적인 방법으로 문서를 삽입·삭제하기 위하여 문서의 HTML 태그 중 문서와 문서를 연결하여 주는 태그를 사용한다. 그래프 구조의 상하계층은 한 문서의 ...태그사이의 텍스트들을 추출하여 추출된 텍스트를 이 문서의 하위노드의 노드명으로 링크를 생성하는 방법을 사용한다. 웹문서들간의 링크를 새로이 설정하고자 하는 경우 태그를 생성하지 않고 구조화된 그래프 형태를 이용하여, 그래프에서 노드를 삽입하거나 삭제한 후 새로운 구조를 웹에 적용한다. 문서를 삭제할 때에는 삭제될 노드와 링크되어 있는 노드들에 대하여 삭제되는 노드의 부모노드와의 링크를 새로이 선정해 줌으로써 단절 링크를 없애준다.

Keywords