• 제목/요약/키워드: web Graph

검색결과 218건 처리시간 0.028초

웹 문서와 접근로그의 하이퍼링크 추출을 통한 웹 구조 마이닝 (Web Structure Mining by Extracting Hyperlinks from Web Documents and Access Logs)

  • 이성대;박휴찬
    • 한국정보통신학회논문지
    • /
    • 제11권11호
    • /
    • pp.2059-2071
    • /
    • 2007
  • 웹 사이트의 구조가 정확하게 주어진다면, 정보 제공자의 입장에서는 사용자의 행위 패턴이나 특성을 효과적으로 파악할 수 있어 보다 나은 서비스를 제공할 수 있고, 사용자의 입장에서는 더욱 쉽고 정확하게 유용한 정보를 찾을 수 있을 것이다. 하지만 웹상의 문서들은 빈발하게 수정되기 때문에 웹 사이트의 구조를 정확하게 추출하는 것은 상당한 어려움이 있다. 본 논문에서는 이러한 웹 사이트의 구조를 자동으로 추출하는 알고리즘을 제안한다. 제안하는 알고리즘은 두 단계로 구성된다. 첫 번째 단계는 웹 문서를 분석하여 그들 간의 하이퍼링크를 추출하고 이를 웹 사이트의 구조를 나타내는 방향 그래프로 표현한다. 하지만 플래시나 자바 애플릿에 포함된 하이퍼링크는 추출할 수 없는 한계가 있다. 두 번째 단계에서는 이러한 숨겨진 하이퍼링크를 추출하기 위하여 웹 사이트의 접근로그를 이용한다. 즉, 접근로그로부터 각 사용자의 클릭스트림을 추출한 후, 첫 번째 단계에서 생성한 그래프와 비교하여 숨겨진 하이퍼링크를 추출한다. 본 논문에서 제안한 알고리즘의 성능을 평가하기 위하여 다양한 실험을 수행하였고, 이러한 실험을 통하여 웹 사이트의 구조를 보다 정확하게 추출할 수 있음을 확인하였다.

웹 문서 정보추출과 자연어처리를 통한 온톨로지 자동구축에 관한 연구 (A Study of Automatic Ontology Building by Web Information Extraction and Natural Language Processing)

  • 김명관;이영우
    • 한국인터넷방송통신학회논문지
    • /
    • 제9권3호
    • /
    • pp.61-67
    • /
    • 2009
  • 인터넷의 발달로 전자문서가 증가함에 따라, 정보검색기술의 중요성도 함께 증가하게 되었다. 본 연구는 비정형 텍스트 웹 문서로부터 사용자가 요구하는 핵심 의미 지식을 추출하기 위하여 LGG(Local Grammar Graph) 구축에 기반 하여 보다 효율적이고 정확한 지식구축을 가능하게 한다. 주가등락이라는 특정 분야의 패턴을 추출하여 만든 패턴 문법을 사용해서 OWL(Web Ontology Language) 기반의 온톨로지를 구축하였다. 특정 분야의 온톨로지를 구축함으로써 기존 검색에서 할 수 없었던 지식의 의미 검색이 가능하며 나아가 사용자가 원하는 질의에 대한 정보의 추론이 가능할 것이다.

  • PDF

웹 뉴스의 기사 추출과 요약 (Text Extraction and Summarization from Web News)

  • 한광록;선복근;유형선
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.1-10
    • /
    • 2007
  • 뉴스 콘텐츠 등 웹을 통해 제공되는 많은 정보들은 불필요한 클러터를 많이 포함하고 있다. 이러한 클러터들은 문서의 요약, 추출, 검색과 같은 자동화된 정보처리 시스템의 구축을 어렵게 한다. 본 논문에서는 웹 뉴스 콘텐츠를 추출하고 이를 요약하는 시스템을 구축하고자 한다. 추출 시스템은 HTML로 된 뉴스 콘텐츠를 입력받아 DOM 트리와 유사한 요소 트리를 구축하며, 이 요소 트리에서 HTML 태그의 하이퍼링크 속성을 갖는 클러터를 제외하면서 본문을 추출한다. 추출 시스템을 통해 추출된 본문은 요약시스템으로 전달되어 핵심 문장이 추출된다. 요약 시스템은 공기관계 그래프를 이용하여 구성한다. 본 논문에서 구현한 시스템을 통해 추출된 요약 문장은 SMS와 같은 메시지 서비스를 통하여 PDA이나 모바일 폰 등에 전송될 수 있을 것으로 기대된다.

  • PDF

인터넷 정보 추출을 이용한 웹문서 구조화 (Web Site Construction Using Internet Information Extraction)

Hierarchical Web Structuring Using Integer Programming

  • 이우기;김승;김한도;강석호
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2004년도 추계학술대회 및 정기총회
    • /
    • pp.51-67
    • /
    • 2004
  • World Wide Web is nearly ubiquitous and the tremendous growing number of Web information strongly requires a structuring framework by which an overview visualization of Web sites has provided as a visual surrogate for the users. We have a viewpoint that the Web site is a directed graph with nodes and arcs where the nodes correspond to Web pages and the arcs correspond to hypertext links between the Web pages. In dealing with the WWW, the goal in this paper is not to derive a naive shortest path or a fast access method, but to generate an optimal structure based on the context centric weight. We modeled a Web site formally so that a integer programming model can be formulated. Even if changes such as modification of the query terms, the optimized Web site structure can be maintained in terms of sensitivity.

  • PDF

기능적 의미에 기반한 복합 웹 서비스 자동 구성 (Automated Generation of Composite Web Services based on Functional Semantics)

  • 신동훈;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제11권9호
    • /
    • pp.1310-1323
    • /
    • 2008
  • 최근 들어 복합 웹 서비스를 자동으로 구성하기 위한 많은 연구들이 진행되었다. 이들 연구의 대부분은 서비스의 기능을 고려하지 않고 단순히 웹 서비스들의 입력과 출력을 연결하여 복합 웹 서비스를 구성한다. 그러므로 사용자의 의도에 부합하지 않는 복합 웹 서비스를 생성할 수 있다. 또한 가용한 웹 서비스의 모든 조합을 고려하기 때문에 시간 복잡도가 매우 크다. 이러한 문제를 해결하기 위해, 본 논문에서는 웹 서비스의 기능적 의미를 명시적으로 기술하고 이를 기반으로 복합 웹 서비스를 자동으로 구성하는 방법을 제안한다. 제안된 방법은 서비스 간의 입, 출력 의존성 및 기능 정보를 그래프 구조를 사용하여 조직화한다. 그리고 그래프 구조에서 사용자가 요구하는 기능을 제공하는 핵심 서비스와 입, 출력 타입 간의 변환을 지원하는 부가 서비스를 찾아 이들 간의 조합으로 복합 웹 서비스를 구성한다. 제안된 방법은 웹 서비스의 기능을 고려함으로써 구성된 복합 웹 서비스의 의미적 정확성을 높이고, 의미적으로 연관성이 있는 서비스들 간의 조합만을 고려함으로써 시간 복잡도를 줄인다.

  • PDF

Remote Diagnosis of Hypertension through HTML-based Backward Inference

  • Song, Yong-Uk;Chae, Young-Moon;Cho, Kyoung-Won;Ho, Seung-Hee
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.496-507
    • /
    • 2001
  • An expert system for the diagnosis and indication of hypertension is implemented through HTML-based backward inference. HTML-based backward inference is performed using the hypertext function of HTML, and many HTML files, which are hyperlinked to each other based on the backward rules, should be prepared beforehand. The development and maintenance of the HTML files are conducted automatically using the decision graph. Still, the drawing and input of the decision graph is a time consuming and tedious job if it is done manually. So, automatic generator of the decision graph for the diagnosis and indication of hypertension was implemented. The HTML-based backward inference ensures accessibility, multimedia facilities, fast response, stability, easiness, and platform independency of the expert system. So, this research reveals that HTML-based inference approach can be used for many Web-based intelligent site with fast and stable performance.

  • PDF

공통 Phrase의 관계 그래프와 Suffix Tree 문서 모델을 이용한 문서 군집화 기법 (Document Clustering with Relational Graph Of Common Phrase and Suffix Tree Document Model)

  • 조윤호;이상근
    • 한국콘텐츠학회논문지
    • /
    • 제9권2호
    • /
    • pp.142-151
    • /
    • 2009
  • 기존의 문서 군집화 기법 NSTC은 문서 군집화 과정 내에서 TF-IDF를 이용하여 문서간 유사도를 측정한다. 본 논문에서는 TF-IDF가 아닌, 공통 Phrase의 관계 그래프를 이용한 새로운 문서간 유사도 측정을 제안한다. 이 방법은 문서 집합 내의 공통 Phrase들의 관계를 나타낸 관계 그래프를 통해 공통 Phrase의 가중치를 부여하는 방법을 제시한다. 또한 실험을 통해 NSTC와 비교하여 본 논문에서 제안한 문서간 유사도 측정 기법이 문서 군집화에 더욱 효과적임을 보였다.

SGS: Splicing Graph Server

  • Bollina, Durgaprasad;Lee, Bernett T.K.;Ranganathan, Shoba
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.47-50
    • /
    • 2005
  • SGS (Splicing Graph Server) is as web application based on the MVC architecture with a Java platform. The specifications of the implemented design pattern are closely associated with the specific requirements of splicing graphs for analyzing alternative splice variants from a single gene. The paper presents the use of MVC architecture using JavaBeans as a model, with a JSP viewer and the servlet as the controller for this bioinformatics web application, with the open source apache/tomcat application server and a MySql database management system.

  • PDF

MMR, 클러스터링, 완전연결기법을 이용한 요약방법 비교 (Comparisons of MMR, Clustering and Perfect Link Graph Summarization Methods)

  • 유준현;변동률;박순철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1319-1322
    • /
    • 2003
  • We present a web document summarizer, simpler more condense than the existing ones, of a search engine. This summarizer generates summaries with a statistic-based summarization method using Clustering or MMR technique to reduce redundancy in the results, and that generates summaries using Perfect Link Graph. We compare the results with the summaries generated by human subjects. For the comparison, we use FScore. Our experimental results verify the accuracy of the summarization methods.

  • PDF