• Title/Summary/Keyword: 링크 추출

Search Result 211, Processing Time 0.023 seconds

Link Extraction and Validation for Web-page Maintenance (웹 페이지 관리를 위한 링크 추출과 검증)

  • 엄정섭;유대승;심민석;이명재
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.427-429
    • /
    • 2001
  • 웹의 발전에 따라 거대해진 웹사이트들은 서로 복잡하게 얽혀진 링크들로 인해 웹 개발과 유지보수에 큰 어려움이 따른다. 효율적인 웹 개발과 유지보수를 위해서는 웹에서 가장 중요한 정보의 단위인 링크정보들을 추출할 수 있는 방법이 요구된다. 본 논문에서는 웹 브라우저 요청에 의해 반환된 HTTP 헤더분석과 HTML 문서의 태그분석을 통해 링크들을 추출하여 “끊어진 링크”를 찾고, 추출된 “링크요소”들과 서버에 저장된 파일들을 비교하여 “사용되지 않는 파일”들을 찾아주는 “링크 분석기”시스템을 개발함으로 써 웹 개발과 유지보수에 있어서 가장 기본적이면서도 중요한 링크관리에 대한 방법을 제시한다

  • PDF

OCTOPUS : 다중링크상태분석기

  • Lee, Geun-U
    • ETRI Journal
    • /
    • v.14 no.3
    • /
    • pp.16-30
    • /
    • 1992
  • SMX-1 시스팀과 같이 다수의 신호링크들이 운용되면서 신호망의 시험 및 운용이 이루어질 때 부분적인 분석 검증이 아닌 시스팀의 전반적인 검증에서부터 망차원에서의 동작여부를 판단하여 시스팀을 수정, 보완해가야 할 필요성이 있다. 그러나, 범용의 링크상태분석기를 사용하는 것은 한정된(1 또는 2 링크)신호링크만을 제공하기 때문에 다수의 신호링크에 대한 실시간 상태분석을 할 수 없는 점, 이미 정해진 메시지만을 추출/검색할 수 있기때문에 사용자가 원하는 형태의 니모닉 검색/추출이 되지 않는 기능상의 미비점, 다수의 신호링크를 제공하기 위해서 고가의 링크상태 분석기를 여러대 구입하는 것은 중복구매로 인한 예산문제 등 많은 문제점들이 있다. OCTOPUS는 이러한 문제점들을 해결하기위해 제안된 다중링크상태분석기로서, 상태분석시 다수의 신호링크를 제공할 수 있고, 사용자가 원하는 형태의 니모닉 검색/추출이 가능하며, SMX-1 연구결과인 부산물을 이용한다는 측면과, No. 7 레벨2 프로토콜을 이용한 레벨2 비가용원인이유 파악기능제공, 유사한 형태의 HDLC(데이터링크 프로토콜) 처리기능등을 제공할 수 있다는 것이 장점이다. OCTOPUS의 하드웨어는 자체 개발된 SMX-1시스팀의 하드웨어를 사용하며 그위에 링크상태 분석기용 소프트웨어를 탑재하게 된다.

  • PDF

Retrieval of XML Documents Using Link Information (링크 정보를 활용한 XML 문서의 검색)

  • Moon, Chan-Ho;Kang, Hyun-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.04a
    • /
    • pp.45-49
    • /
    • 2000
  • 다양한 정보 형태를 가진 전자 문서의 효과적인 관리를 위해 XML과 관련된 연구들이 활발히 진행되고 있다. 그러나 XML과 관련된 대부분의 연구들은 XML 문서들을 저장, 관리 및 검색할 수 있는 XML 저장 관리 시스템을 대상으로 하고 있다. 본 논문에서는, 실제 Web 상에 분산되어 저장된 전자 문서들 중 하이퍼링크로 연결된 XML 문서들을 대상으로 사용자 질의에 대해 효율적인 검색을 지원해주기 위해, XML 링크 정보를 추출하여 참조하는 검색 질의 처리 방안을 제시한다. 이를 위해 링크 정보를 저장하는 링크 정보 관리 테이블의 구조, 링크 정보를 활용한 XML 문서의 검색 모델, XML 문서의 검색 질의 처리 방안, 그리고 링크 정보의 갱신을 질의 처리 중에 부가적으로 수행하는 방안을 기술하였다. 주어진 사용자 질의에 대한 처리 과정 중 링크와 관련된 질의 처리에 대해 추출된 링크 정보를 이용하여 부질의를 생성하고 처리할 수 있도록 하였다.

  • PDF

Web Structure Mining by Extracting Hyperlinks from Web Documents and Access Logs (웹 문서와 접근로그의 하이퍼링크 추출을 통한 웹 구조 마이닝)

  • Lee, Seong-Dae;Park, Hyu-Chan
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.11 no.11
    • /
    • pp.2059-2071
    • /
    • 2007
  • If the correct structure of Web site is known, the information provider can discover users# behavior patterns and characteristics for better services, and users can find useful information easily and exactly. There may be some difficulties, however, to extract the exact structure of Web site because documents one the Web tend to be changed frequently. This paper proposes new method for extracting such Web structure automatically. The method consists of two phases. The first phase extracts the hyperlinks among Web documents, and then constructs a directed graph to represent the structure of Web site. It has limitations, however, to discover the hyperlinks in Flash and Java Applet. The second phase is to find such hidden hyperlinks by using Web access log. It fist extracts the click streams from the access log, and then extract the hidden hyperlinks by comparing with the directed graph. Several experiments have been conducted to evaluate the proposed method.

A Method of Link Extraction on Non-standard Links in Web Crawling (웹크롤러의 비표준 링크에 관한 링크 추출 방안)

  • Jeong, Jun-Yeong;Jang, Mun-Su;Gang, Seon-Mi
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.79-82
    • /
    • 2008
  • 웹크롤러는 웹페이지 내의 URL링크를 추적하여 다른 문서를 수집한다. 국내의 상당수 웹사이트는 웹 표준에 맞지 않는 링크방식으로 웹문서를 연결하고 있다. 일반적인 웹크롤러는 링크의 비표준적인 사용을 가정하지 않기 때문에 이러한 문서는 수집할 수 없다. 비표준적인 링크가 가능한 것은 사용자의 실수에 강인한 마크업 언어인 HTML에 자바스크립트 기능이 추가되면서 자바스크립트의 변칙적인 사용이 허용되었기 때문이다. 본 논문에서는 230여개의 웹사이트를 조사하여 기존 웹크롤러에서 해결하지 못한 링크 추출 문제를 찾아내고, 이를 수집하기 위한 알고리즘을 제안한다. 또한 자바스크립트 문제 해결을 위한 무거운 자바스크립트 엔진을 대신하여 필요한 기능만으로 구성된 모듈을 사용함으로써 효율적인 문서 수집기 모델을 제안한다.

  • PDF

Web site construction using tag extraction (< a href > 태그 추출을 이용한 웹 문서 구조화)

A Method to Block Spam Mail Automatically Through the Connection to Link URL (링크 유알엘 접속을 통한 스팸메일 자동 차단 방법에 관한 연구)

  • Jung, Nam-Cheol
    • Journal of Digital Contents Society
    • /
    • v.8 no.4
    • /
    • pp.451-458
    • /
    • 2007
  • In this paper, I developed a method whereby spam mail is automatically blocked through the connection to link URL. The blocking system works as follows. First, the system extracts information of URL linked to electronic mail which was delivered from any server on the internet. Next, the system lets itself be connected to the web pages through this URL. Last, the system blocks the electronic mail if those web pages contain any key word which was defined as a clue to spam mail.

  • PDF

Performance Improvement of a Search Engine Using Semantic Category and Hyperlink (의미 카테고리와 하이퍼링크를 이용한 검색엔진의 성능 향상)

  • 김형일;김준태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.649-651
    • /
    • 2004
  • 현재, 웹의 정보는 사용자들이 원하는 모든 정보를 담고 있다고 할 수 있으나, 방대한 웹에서 사용자가 원하는 정보를 정확히 추출하기란 어려운 문제이다. 이러한 정보 추출의 어려움은 방대한 정보량과 정보추출 방식과 직결된다. 웹에서 정보를 정확히 추출하여도 일반적인 검색엔진들의 웹 페이지 순위 결정 방식을 따르게 되면, 사용자에게 중요한 페이지를 상위에 위치시키기란 쉬운 일이 아니다. 본 논문에서는 질의어의 모호성을 해결하기 위해 워드넷 기반 사용자 인터페이스를 설계하고, 웹 페이지의 가중치에 의미 카테고리 빈도 확률과 하이퍼링크 가중치를 이용한 웹 페이지의 가중치 결정 방식을 제안한다.

  • PDF

Improved Link Analysis Algorithm Using Document Feature Information (문서 내의 주제정보를 이용한 개선된 링크분석 알고리즘)

  • 박기림;장유진;김민구;박승규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.7-9
    • /
    • 2003
  • 최근 인터넷을 대상으로 하는 정보검색의 방법 중 하이퍼링크 정보를 이용한 방법이 각광받고 있다. 그리고 하이퍼링크 정보이외에 문서내에 존재하는 다양한 정보를 이용하여 검색 성능을 향상시키고자 하는 시도가 지속적으로 이루어지고 있다. 본 연구에서는 문서와 문서 사이의 유사도를 이용하여 하이퍼링크의 가중치를 부설하여 검색 성능을 향상시킨 방법을 개선하여 문서내의 주제정보를 추출하고 주제 단위의 유사도를 이용하여 하이퍼링크의 가중치를 새롭게 부여하여 링크분석 알고리즘에 적용하였다. 본 연구에서 제안한 방법이 문서사이의 유사도를 이용한 방법보다 뛰어난 성능을 나타내고 있음이 입증되었다.

  • PDF

Web Site Construction Using Internet Information Extraction (인터넷 정보 추출을 이용한 웹문서 구조화)