• 제목/요약/키워드: web documents

검색결과 832건 처리시간 0.034초

관계형 데이타베이스 기반의 RDF와 OWL의 저장 및 질의처리 (RDF and OWL Storage and Query Processing based on Relational Database)

  • 정호영;김정민;정준원;김종남;임동혁;김형주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권5호
    • /
    • pp.451-457
    • /
    • 2005
  • 컴퓨터의 발전에도 불구하고 수많은 전자 문서가 범람하는 현재와 같은 상황에서 원하는 정보를 얻기는 더욱 어려워지고 있다. 이와 같은 상황에서 데이타를 얼마나 빠르게 처리하는지 보다 얼마나 의미 있는 정보를 얻을 수 있는지가 중요한 문제가 되고 있다. 이에 웹 자원에 대해 지식기반의 메타 데이타를 기술하고 이를 이용한 지능적인 정보 처리를 목적으로 하는 것이 시멘틱 웹이다 또한 시멘틱 웹이 발전함에 따라 웹 자원 못지않게 지식자원에 대한 중요성도 커질 수 밖에 없다. 본 논문에서는 시멘틱 웹을 기술하는 W3C표준 언어인 OWL에 대해 효율적이고 의미 있는 질의처리를 제공할 수 있는 데이터 베이스의 저장 시스템 및 OWL-QL 질의 처리기를 제공한다.

한국어 시소러스를 이용한 웹 문서 추천 에이전트 (A Web-document Recommending System using the Korean Thesaurus)

  • 서민혜;이성욱;서정연
    • 한국정보통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.103-109
    • /
    • 2009
  • 우리는 사용자의 행동을 관찰하고 학습하여 사용자 대신에 문서를 수집 분석함으로써 사용자에게 필요한 정보만을 추출하여 제공하는 웹 문서 추천 에이전트 시스템을 개발한다. 또한 우리는 이 시스템에 한국어 시소러스를 이용한 질의어 확장 방법의 적용을 제안한다. 한국어 시소러스를 이용한 질의어 확장을 위해, 새로운 웹 문서를 검색하기 위해 생성된 질의어를 한국어 시소러스를 통하여 그 하의어들을 찾아 후보 집합을 생성해 주고, TF-IDF와 상호 정보량을 이용하여 후보 집합 안에 있는 단어 들 중에서 질의어와 가장 많은 관련 정보를 가지고 있는 단어를 추출함으로써 질의어를 확장해 주었다. 확장되지 않은 질의어만으로 웹 문서를 추천하게 되면 추천된 웹 문서의 수는 극히 제한적이지만, 질의어를 확장함으로써 보다 더 많은 유용한 웹 문서를 사용자에게 추천 및 제공 할 수 있다.

웹 프락시 서버를 위한 적응형 캐시 교체 정책 (An Adaptive Cache Replacement Policy for Web Proxy Servers)

  • 최승락;김미영;박창섭;조대현;이윤준
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권6호
    • /
    • pp.346-353
    • /
    • 2002
  • 월드 와이드 웹 사용의 폭발적인 증가는 네트워크 트래픽과 서버 부하의 급격한 증가를 초래 하였다. 이러한 문제를 해결하기 위해 웹 프락시 캐싱 기술은 빈번히 요청되는 웹 문서를 사용자와 인접한 위치에 설치된 프락시(proxy)에 저장한다. 캐시 성능을 결정짓는 가장 중요한 요소는 캐시 교체 정책으로서, 가까운 미래에 빈번히 요청될 문서들을 저장하기 위해 사용된다. 캐시 교체 정책이 문서의 인기도를 정확히 예측하기 위해서는 웹 프락시 워크로드의 특성을 반영하는 것이 중요하다. 시간 지역성과 Zipf 빈도 분포는 웹 프락시 워크로드에서 빈번히 관찰되는 특성으로서 문서의 인기도를 예측하기 위한 중요한 속성들이다. 본 논문은 1) LFU를 기반으로 하여 Zipf 빈도 분포를 반영하며, 2) 문서들의 시간에 따른 인기도 감소를 효율적으로 측정하여 시간 지역성을 적응적으로 반영하는 적응형 LFU(ALFU) 캐시 교체 정책을 제안한다. 트레이스 기반의 모의 실험을 통해 다른 교체 정책들과 ALFU를 비교 분석한다. 실험 결과, ALFU는 다른 교체 정책보다 우수한 성능을 보였다.

리서치 에이전트시스템에서의 지능적 프로파일 구축을 위한 개선된 확산 활성화 네트워크 (Modified Spreading Activation Network for Intelligent Profile Construction in Research Agent System)

  • 조영임;김유신
    • 한국멀티미디어학회논문지
    • /
    • 제6권6호
    • /
    • pp.1111-1119
    • /
    • 2003
  • 과학기술 연구는 인터넷에서부터 최신의 정보를 필요로 한다. 하지만 인터넷의 방대한 양의 정보를 검색하고 개개인의 연구자에 따른 정보를 추출해 내는 것은 복잡하고 반복된 과정이다. 이 논문에서 우리는 이러한 리서치 과정을 돕는 에이전트(PREA)시스템을 제안한다. 이 시스템은 주로 사용자의 관심사항을 시스템을 사용하는 과정에서 관찰하고 지능적으로 프로파일을 구축하게 된다. 그러나 프로파일을 사용자 중심으로 보다 시각적, 실시간으로 구축하기 위해서 이 논문에서는 기존의 확산 활성화 네트워크(Spreading Activation Network)을 개선한 확산 활성화 네트워크(MSAN: Modified Spreading Activation Network)를 이 용하고자 한다. 이렇게 함으로써 사용자의 관심사를 의 미 망으로 구축해서 보다 효율적 인 정 보검 색 이 가능해 진다. 또한 관련된 여러 실험을 하였는데, 그 결과 일반적인 상업 웹 검색엔진보다 PREA시스템이 맞춤형 정보검색에 보다 효율적임을 알 수 있었다.

  • PDF

STW를 이용한 웹 문서 장르 분류에 관한 연구 (A Research for Web Documents Genre Classification using STW)

  • 고병규;오군석;김판구
    • 정보화연구
    • /
    • 제9권4호
    • /
    • pp.413-422
    • /
    • 2012
  • 웹 문서의 지속적인 증가로 인해 텍스트 기반, Page Rank 등의 방법으로 한 연구들이 증가하고 있다. 특히 웹 문서 내 URL 정보, HTML Tag 정보 등을 활용하는 연구들이 다시 주목을 받고 있다. 따라서 웹 문서 장르 분류를 위해 앞서 언급한 웹 문서 내 특징 요소들을 바탕으로 본 논문에서는 STW(Semantic Term Weight)를 적용하여 웹 문서 장르 분류하는 연구를 기술한다. 웹 문서 장르 분류에 사용되는 데이터 셋은 학습 문서와 테스트 문서로 구성되고, SVM 알고리즘을 사용하여 웹 문서 분류 실험을 수행한다. 학습 과정을 위해 20-Genre-collection corpus 내 1,000여개의 문서를 선정하여 SVM 알고리즘을 통해 학습하였고, 테스트 과정에서 사용된 데이터 셋은 KI-04 corpus를 사용하였다. 테스트 과정 후 STW를 사용한 실험과 STW를 사용하지 않은 실험으로 분류하여 정확도를 측정하였다. 또한 이를 바탕으로 1,212개의 테스트 문서를 분류하였다. 그 결과 STW를 사용한 실험 이 그렇지 않은 실험 보다 약 10.2% 높은 정확도를 보였다.

온톨로지 기반의 사용자 의도를 고려한 맞춤형 검색 서비스 (Ontology-based User Customized Search Service Considering User Intention)

  • 김수경;김건우
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.129-143
    • /
    • 2012
  • 웹 기술의 급속한 발전은 기업들이 관리해야 하는 정보량의 폭발적인 증가를 초래하였다. 이와 더불어 보다 정확한 정보를 찾기 위한 검색 엔진 솔루션 시장의 규모도 더불어 크게 증가하였다. 하지만 대부분의 검색엔진들은 사용자의 검색 의도를 고려하지 않고 사용자가 입력한 특정 키워드를 포함하는 문서들을 반환하는 방법을 채택하고 있어, 실제 사용자가 원하는 정보를 찾는데 까지는 부가적인 시간과 노력이 요구된다. 본 연구에서는 이러한 문제를 해결 하기 위한 중요 기술인 적합성을 만족시키기 위해 재현율과 정확율을 높일 수 있는 방법을 제안하였다. 우선 검색어의 재현율을 높일 수 있도록 유사어 관계 확장을 위한 온톨로지 스키마 모델을 제안하고 이를 기반으로 한 추론을 통해 검색어의 확장을 제시하였다. 확장된 검색어들을 이용하여 문서 검색을 하기 위한 다단계 유사도 검색 순위화 알고리즘을 제안하였다. 설계된 온톨로지 스키마와 온톨로지 저장소의 데이터를 기반으로 추론과 유사도 검색 순위화 엔진이 포함된 웹사이트 형식의 사용자 의도 적응형 검색 솔루션을 구현하였다. 구현된 검색 솔루션을 통해 다양한 검색어를 입력하여 제안 방법의 타당성을 입증하였고 사용자 의도를 고려한 맞춤형 검색 솔루션의 필요성을 설명하였다.

정확도 높은 검색 엔진을 위한 문서 수집 방법 (A Document Collection Method for More Accurate Search Engine)

  • 하은용;권희용;황호영
    • 정보처리학회논문지A
    • /
    • 제10A권5호
    • /
    • pp.469-478
    • /
    • 2003
  • 인터넷상의 정보 검색 엔진들은 웹 로봇을 이용해서 인터넷에 연결되어 있는 수 많은 웹 서버들을 주기적 또는 비주기적으로 방무나여 자체적인 인텍싱 방법에 따라 자료를 추출하고 분류해서 검색 엔진의 기초가 되는 데이터 베이스를 구축하고 변겨아는 작업을 계속하고 있다. 이런 일련의 작업은 인터넷 상에 분산되어 있는 막대한 정보를 쉽고 정확하게 찾을 수 있는 게이트 사이트로서의 역할을 담당하기 위한 전략적인 목적으로 진행되고 있다. 수천만 이상의 웹 사이트들을 상대로 하는 정보 수집은 검색 엔진 사이트 중심으로 기존 데이터의 수정과 삭제 등과 같은 데이터 베이스 유지 관리와 신규 사이트들에 대한 자료 수집 작업이 이루어지고 있다. 이러한 작업은 웹 서버에 대한 사전 지식 없이 정보 추출을 위해 웹 로봇을 실행하므로 인터넷 상에 수많은 요구가 전송되고 이는 인터넷 트래픽을 증가 시키는 원인이 되고 있다. 따라서 웹 서버가 사전에 자신이 공개할 문서에 대한 변경 정보를 웹 로봇에게 통보하고 웹 로봇은 이 정보를 이용해서 웹 서버의 해당 문서에 대한 정보 수집 작업을 한다면 불필요한 인터넷 트래픽을 감소시킬 수 있을 뿐만 아니라 검색 엔진의 정보의 신뢰도도 높아지고 웹 서버의 해당 문서에 대한 정보수집 작업을 한다면 불필요한 인터넷 트래픽을 감소 시킬 수 있을 뿐만 아니라 검색 엔진의 정보의 신뢰도도 높아지고 웹 서버의 시스템 부하와 검색 엔진의 시스템 부하를 줄일 수 있는 효과를 가질 수 있을 것이다. 본 논문에서는 웹 서버상의 웹 문서 파일의 변동 사항을 자동으로 검사하고 변동 사항들을 종합 정리해서 변경 문서에 대한 정보를 통보 받기 원하는 등록된 각 웹 로봇에게 전송하는 검사 통보 시스템을 설계 구현하였다. 웹 로봇을 운영하는 검색 엔진에서는 통보된 요약 정보를 이용해서 웹 서버로부터 해당 문서를 전송 받아 필요로 하는 인덱스 정보를 추출해서 데이터베이스를 구축하는 효율적인 웹 로봇을 설계 구현하였다.

HTML 태그페턴을 이용한 웹정보추출시스템 (Web Information Extraction using HTML Tag Pattern)

  • 박병권
    • 한국정보시스템학회:학술대회논문집
    • /
    • 한국정보시스템학회 2005년도 춘계학술대회 발표 논문집
    • /
    • pp.79-92
    • /
    • 2005
  • To query the vast amount of web pages which are available i]l the Internet, it is necessary to extract the encoded information in the web pages for converting it into structured data (e.g. relational data for SQL) or semistructured data (e.g. XML data for XQuery), In this paper, we propose a new web information extraction system, PIES, to convert web information into XML documents. PIES is based on a user-specified target schema and HTML tag pattern descriptions. The web information is extracted by the pattern descriptions and validated by the target schema. We designed a new language to describe extraction rules, and a new regular expression to describe HTML tag patterns. We implemented PIES and applied it to the US patent web site to evaluate its correctness. It successfully extracted more than thousands of US patent data and converted them into XML documents.

  • PDF

웹 기반 e-catalog 시스템에서의 e-catalog 관리자 개발 (Development of e-Catalog manager in Web-based e-Catalog System)

  • 장민제;박세형;하성도
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 2003년도 춘계학술대회 논문집
    • /
    • pp.885-889
    • /
    • 2003
  • The e-catalog system consists of e-catalog database. e-catalog manager. and a web server, and provides e-catalog web service by displaying e-catalog documents that contain web 3D images. product specifications and manuals. Various web contents such as the 3D images of products, which offer basic viewpoints/movement handles and function simulations, product specifications, product manuals and product features, can be integrated into e-catalog documents in XML format through image manipulation and database connection by using the e-catalog manager tool. By reducing time and cost for publication and management of an e-catalog web service, the competitiveness of companies is expected to be intensified in the perspective of e-business activities.

  • PDF

웹 의존형 라이브러리의 RRS 디자인에 관한 연구 (The Study on the RRS Designs in the Web-based Libraries)

  • 김선호
    • 한국문헌정보학회지
    • /
    • 제36권2호
    • /
    • pp.231-241
    • /
    • 2002
  • 웹 의존형 라이브러리의 RRS를 이용하는 이용자는 자신이 선택한 웹 문서에 신속하게 그리고 정확하게 접근하기를 원한다. 이용자의 이러한 요구는 RRS의 디자인과 밀접한 관계를 갖고 있으며, 간단하게 사용하고 편리하게 접근할 수 있는 구조를 가진 최적의 RRS 디자인은 이용자 뿐만 아니라 도서관에도 커다란 도움을 줄 수 있을 것이다. 이 글에서는 웹 의존형 라이브러리의 RRS 유형과 관련해서, 216가지의 대안을 제시하였다. 웹 디자이너나 사서가 RRS를 새롭게 또는 갱신하고자 할 경우에, 이러한 대안들은 기초 자료로서 많은 도움을 줄 것이다.