• 제목/요약/키워드: 웹문서

검색결과 1,600건 처리시간 0.04초

지식 정보를 이용한 웹 문서 순위 결정 방법 (A Web Document Ranking Method Using Knowledge Information)

  • 이용현;변영태;구연건
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.135-137
    • /
    • 1998
  • 다양하고 방대한 양의 정보가 산재해 있는 웹의 정보 소스들 중 특정 도메인에 해당하는 문서를 판단하는 방법과 효과적인 검색을 지원하기 위한 웹 문서 순위 결정 방법을 제안한다. 웹에 산재되어 있는 정보들은 특정 도메인에 적합한 문서들만을 저장하기 위해 특정 지식 베이스를 기반으로 하는 지식 정보를 이용하여 문서의 평가 작업을 한다. 또한 효과적인 검색을 지원하기 위한 웹 문서 순위 결정 방법으로 두 단계의 처리를 거친다. 첫째, 사용자로부터 주어진 질의에 대해 그 질의를 이루고 있는 각 단어들에 대한 상대적인 중요도를 반영한 P-norm 모델을 적용하여 문서의 순위를 결정한다. 두 번째 단계로 관련 문서들간의 유용한 링크 정보를 이용한 재조정 작업에 의해 문서의 순위를 결정하는 방법을 제시한다. 본 논문에서 제시한 방법에 의해 적절한 문서의 판단과 더 나은 정보의 제공을 수행할 수 있는 효과적인 정보 검색 기능을 가진다. 정보 탐색자에게 정확하고 효과적인 정보를 제공할 수 있게 되었고, 일반적인 웹 검색 방법과의 비교에 의해 검색 효율이 향상됨을 보인다.

  • PDF

다중 구조적응 자기구성지도의 퍼지결합을 이용한 웹 문서 분류 (Web Documents Classification with Fuzzy Integration of Multiple Structure-Adaptive Self-Organizing Maps)

  • 김경중;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.371-373
    • /
    • 2003
  • 웹 문서를 분류하는 목적은 특정 주제별로 중요한 문서들을 구분하려는 것과 사용자의 선호도를 바탕으로 개인화를 하려는 것으로 나누어 볼 수 있다. 특히, 웹의 효율적인 탐색을 위해 사용자가 관심 있어 할 웹 문서를 분류하는 것은 중요하다 일반적으로 하나의 웹 문서는 특징 추출방법에 의해 문서 벡터로 표시되며 사용자의 선호여부나 주제번호를 클래스로 삼는다. 사용자가 선호도를 표시한 웹 문서를 사용하여 새로운 웹 문서의 선호 여부를 예측하기 위해 자기 구성지도(SOM)를 사용하면, 시각적으로 구조를 보여주어 데이터 사이의 관계를 효과적으로 이해할 수 있다. 그러나 SOM은 노드의 개수와 구조를 자동적으로 결정하지 못하는 단점이 있기 때문에, SOM의 장점을 활용하면서 자동적으로 구조를 결정하기 위해 구조적응 자기구성지도(SASOM)를 이용한다. 보다 나은 성능과 다양한 해석을 위해, 여러 개의 SASOM을 서로 다른 특징추출 방법을 이용하여 학습시킨 후 사용자가 주관적으로 분류기의 중요도를 결정할 수 있는 퍼지적분을 사용하여 결합하였다. UCI Syskill & Webert 데이터에 대한 실험결과 기존의 DT, MLP, naive Bayes 분류기 보다 향상된 성능을 보였다.

  • PDF

< a href > 태그 추출을 이용한 웹 문서 구조화 (Web site construction using tag extraction)

웹 스키마를 이용한 HTML 문서의 XML 변환 (XML Conversion of HTML Documents Using Web Schema)

  • 오금용;박동문;황인준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.175-177
    • /
    • 2001
  • 최근에 웹(Web) 사용의 지속적이 증가로 인하여 정보가 급증하고, 이로 인하여 웹은 정보교환의 의미뿐아니라 정보 저장이라는 중요한 의미를 지니게 되었다. 하지만 현재 많은 웹 페이지들이 HTML(Hyper Text Markup Language)문서로 제작되어 있어 정보관리의 의미에서 많은 부족함이 있고 이를 보완하기 위한 방법 중에 하나가 구조적이고 기능적 언어로 부상하고 있는 XML(exTensive Markup Language)을 기반으로 하여 문서를 제작하거나 변환하는 것이다. 본 논문은 HTML문서를 XML문서로 변환하는데 있어HTML문서 구조를 분석하고 분석결과를 토대로 형성되는 웹 스키마(Schema)를 이용하여 구조 중심의 변환이 이루어지도록 하는 방법에 대해서 제안한다.

  • PDF

웹 환경에서 XLink를 이용한 통합 GML 문서 처리 기법 (A Processing Technigue of Integrated GML Using XLink on the Web)

  • 유병섭;박순영;정원일;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1741-1744
    • /
    • 2002
  • 최근 일반인들의 웹 사용이 급증함에 따라 웹 관련 어플리케이션이 증가하게 되었다. GIS 분야에서 웹 GIS라는 분야가 등장하게 되었고 많은 연구가 진행되어 왔다. OGC(Open GIS Consortium)에서는 GIS 데이터의 상호운용성을 웹 환경에서 지원하고, 서로 다른 타입의 지리정보의 접근을 위해 웹 맵서버 인터페이스 구현 명세(Web Map Server Interfaces Implementation Specification)를 제안하였다. 제안된 웹 맵 서버의 통합방법 중에서 XLink를 이용한 통합방법은 웹 맵 서버 통합방법보다 서버의 응답 시간을 줄였으나 클라이언트의 문서 처리시간이 증가하였다. 본 논문에서는 이러한 점을 해결하기 위하여 클라이언트에서 XLink로 표현된 통합문서를 각각 개별적으로 처리하는 개별 문서처리 기법을 제안한다. 본 논문의 개별 문서처리 기법은 클라이언트에서 XLink된 문서들을 각 문서별로 개별적인 파싱을 수행하고, 파싱된 결과를 동시에 처리한다.

  • PDF

시맨틱 웹을 위한 온톨로지 파서의 설계 (A Design of Ontology Parser for Semantic Web)

  • 이미경;박천수;손주찬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.1109-1112
    • /
    • 2003
  • 시맨틱 웹은 웹 상의 정보에 의미를 부여하여 컴퓨터가 문서의 의미를 해석할 수 있도록 하기 위한 목적으로 제안된 것이다. 시맨틱 웹의 잘 정의된 의미를 다루기 위해서 RDF/RDFS, DAML+OIL, OWL 등의 웹 온톨로지 언어가 필요하다. 본 논문에서는 시맨틱 웹에서 사용되는 온톨로지 문서들을 이용하는 온톨로지 기반 지식 엔진 시스템에서 코어 엔진의 Ontology Access Layer에 해당되는 부분으로 웹 온톨로지 문서를 읽어서 Ontology Object Model로 생성해주는 기능을 하는 온톨로지 파서를 설계하였다. 논문에서 설계한 온톨로지 파서는 RDF, DAML+OIL, OWL 웹 온톨로지 문서들을 파싱하여 Ontology Object Model 을 생성한다. 그리고 파싱에 필요한 API를 제공해주며 문서를 읽고 저장해준다. 온톨로지 문서들의 Triple 값을 필요로 하는 시스템을 위해서 문서들의 Triple 형태의 결과 값도 제공해준다.

  • PDF

XML을 이용한 웹 문서 수집기 설계 및 구현 (Design and implementation of web-robot using XML)

  • 이새벽;임희석
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2008년도 추계학술발표논문집
    • /
    • pp.49-52
    • /
    • 2008
  • 웹2.0, RIA(Rich Internet Application)의 발전으로 웹 기반 서비스가 다양해지고 기존의 응용프로그램 역시 웹 기반 인터페이스로 제공되면서 사용자 또한 단순 사용자가 아닌 서비스를 제공하는 컨슈머(Consumer)의 형태가 되었다. 따라서 웹 문서는 더욱 방대해 지고 검색, 분류, 색인 등을 위해서 웹문서의 수집이 새로운 형태로 필요하게 되었다. 그러나 기존의 데이터베이스 사용 방법이나, 문서의 전문을 파일형식으로 저장하는 방법은 웹문서를 이용하여 다양한 컨텐츠를 제공하기에 적합하지 않다. 그러므로 본 연구는 웹 문서를 파싱(Parsing)하여 필요한 부분을 XML파일 형태로 저장하여, 재사용성을 높이는데 초점을 맞추어 HTML을 파싱하고 자동으로 임의의 파일을 수집하는 문서수집기를 구현하게 되었다.

  • PDF

웹 문서 변경 예측 (Estimation of Web Page Change Behavior)

  • 김성진
    • 인터넷정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.149-158
    • /
    • 2007
  • 본 논문은 웹 문서의 다운로드 가능 여부와 내용 변경 여부를 예측하는 도구를 기술한다. 웹 데이터베이스 관리자는 자신이 관리하는 웹 문서 집합을 최신 상태로 유지하려고 할 때, 예측 도구를 통하여 다운로드되지 않거나 변경되지 않았을 웹 문서에 대한 불필요한 요청을 감소시킬 수 있다. 본 논문에서는 웹 문서들의 과거 변경이 미래 변경과 매우 밀접한 관련이 있음을 가정한다. 본 논문에서는 약 300만개의 웹 문서들을 2일 주기로 100일 동안 관찰하여 변경 경향을 분석하고, 관찰된 문서들의 다운로드 가능 여부와 내용 변경 여부를 예측한다. 예측 결과는 실제의 변경 사실과 비교 평가되었다.

  • PDF

온톨로지의 개념구조에 의한 웹페이지의 의미적 분류 (Semantic Classification of Web Pages using Ontology Concept Structure)

  • 송무희;임수연;박승배;강동진;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.487-489
    • /
    • 2005
  • 본 논문에서는 온톨로지의 개념구조를 이용한 웹페이지의 의미적 분류방법을 제안한다. 웹 문서들이 가지는 용어 정보들과 어휘들 간의 개념 구조를 파악하여 온톨로지를 확장시키면서 이를 문서분류에 적용하여 의미적 분류가 이루어지게 한다. 문서 분류는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고 이러한 자질들을 통해 미리 정의된 2개 이상의 카테고리에 문서의 내용을 파악하여 가장 관련이 있는 카테고리로 할당하는 것이다. 본 논문에서는 웹 문서에서 추출한 용어 정보들의 유사도와 온톨로지 카테고리의 유사도를 계산하여 웹 문서를 분류하여 문서 분류를 위한 실험데이터나 학습과정 없이 바로 실시간으로 문서분류가 이루어지며, 결과적으로 온톨로지와 문서들이 가지는 고유한 의미와 관계의 식별을 통하여 보다 더 정확하게 문서분류를 가능하게 해준다.

  • PDF

문장 분석 및 온톨로지를 이용한 Focused Crawler (Focused Crawler using Ontology and Sentence Analysis)

  • 최광복;김현주;강진범;홍광희;양재영;최중민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.100-102
    • /
    • 2004
  • 월드 와이드 웹의 보편화로 인하여 급속하게 증가하고 변화하는 웹 문서는 검색엔진으로 하여금 색인된 웹 문서와 현재의 웹 문서의 일관성을 유지할 수 없을 정도이다. 이러한 문제를 해결하기 위한 방법으로 연구되고 있는 것이 특정한 주제를 정하고 정해진 주제에 관련된 문서를 수집할 수 있는 focused crawler가 제시되고 있다. 지금까지 다양한 접근방법의 focused crawler가 개발되었지만, 모두 웹 링크를 이용하여 연결되어 있는 문서를 평가하는 처리과정을 거치고 있다. 그러나 이러한 과정은 다양한 내용을 포함하고 있는 문서일 경우 관련내용이 존재함에도 문서가 버려지거나 사용되더라도 문서상의 모든 링크를 사용하여 처리하는 비효율적인 문제점이 발생한다. 이 논문에서는 웰 문서 내부에 포함되어 있는 정보를 온톨로지를 이용하여 평가함으로써 다양한 내용을 가진 문서에서 사용자가 원하는 정보를 찾을 수 있을 뿐만 아니라 정보와 관련된 링크만을 사용하여 보다 효율적이고 정확한 문서를 수집하고자 한다.

  • PDF