• 제목/요약/키워드: 문서검색

검색결과 1,719건 처리시간 0.028초

중첩 클러스터를 이용한 피드백 문서의 재샘플링 기법 (Resampling Feedback Documents Using Overlapping Clusters)

  • 이경순
    • 정보처리학회논문지B
    • /
    • 제16B권3호
    • /
    • pp.247-256
    • /
    • 2009
  • 대부분의 잠정적 적합피드백기법들은 질의에 대해 검색된 상위검색문서들이 적합하다고 가정하고, 그 문서들을 질의 확장을 위한 피드백 문서로 이용하고 있다. 그러나 초기검색결과에는 상당한 양의 부적합 문서를 포함하고 있는 것이 현실이다. 이 논문에서는 보다 좋은 피드백 문서를 선택하기 위해서 중첩클러스터를 이용한 피드백문서의 재샘플링 기법을 제안한다. 주요 아이디어는 질의 중심적인 초기검색문서집합에 대해서 중첩이 허용된 문서클러스터를 이용하여 문서들 사이의 관계를 반영하여 질의에 핵심역할을 하는 지배적 문서를 찾고, 이 문서들을 반복적으로 피드백 하여 질의가 내포하는 핵심 주제를 강조하는 것이다. 대규모 실험집합인 TREC GOV2와 WT10g에 대한 실험비교에서, 최근 잠정적 적합피드백 기법들 중에서 가장 좋은 성능을 보이고 있는 적합모델보다 재샘플링기법이 우수한 성능향상을 보였다. 제안기법에 대한 검증을 위해서 피드백문서에 포함된 적합문서의 정도를 나타내는 적합밀도를 측정하였다. 재샘플링 기법이 TREC 실험집합에 대해서 적합모델에 비해 높은 적합밀도를 보였고, 이 결과 적합피드백에서 검색성능을 향상시키게 되었다. 이는 제안 기법이 잠정적 적합피드백에서 유효한 방법임을 알 수 있다.

한국어 정보검색 시스템을 위한 다양한 적합성 피드백 방법의 실험 (Relevance Feedback Experiments for Korean Information Retrieval Systems)

  • 박수현;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권5호
    • /
    • pp.682-691
    • /
    • 1999
  • 정보검색 시스템의 검색 효율 향상을 위해서 다양한 적합성 피드백 방법이 개발되었다. 그러나 한국어 정보검색 시스템을 위한 적합성 피드백에 대한 연구는 거의 이루어지지 않은 실정이다. 이 논문에서는 기존에 개발된 적합성 피드백 방법을 한국어 정보 시스템에 적용하여 검색 효율을 비교하고, 새로운 적합성 피드백 방법을 개발 적용하여 기존의 방법들과 검색 효율을 비교분석하였다. 적합성 피드백은 원질의문을 확장할 단어 선택과 선택된 단어 가중치 부여로 이루어진다. 원질의문이 입력되면 검색된 적합문서에서 원질의문을 단어와 밀접한 관계가 있는 단어를 선택하기 위하여 가중치를 부가한후, 원질의문에 추가하여 질의문을 확장한다. 이 논문에서는 원질의문 확장을 위한 단어 선택과 단어 가중치 부여를 위해 3가지 값을 사용한다. 첫째, TF는 적합문서 내의 단어 빈도의 총합이다. 둘째, idf는 해당 문서집단의 역문헌빈도이다. 셋째, r/R은 검색된 적합문서 중에서 해당단어가 있는 적합문서의 비율을 나타낸다. TF와 idf는 정보검색 시스템에서 일반적으로 사용되고있는 값이고 r/R은 이 논문에서 제안한 새로운 값이다.

높은 검색 효과를 위한 다른 특성을 갖는 가중치 기법의 이용 (Using Different Properties of Weighting Schemes for High Retrieval Effectiveness)

  • 이준호
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1995년도 제2회 학술대회 논문집
    • /
    • pp.33-36
    • /
    • 1995
  • 질의 또는 문서에 대한 상이한 표현 방법 또는 상이한 검색 기법은 서로 다른 집합의 문서들을 검색함이 알려져 왔다. 최근 이러한 특성을 이용하여 다양한 표현 방법 또는 검색 기법을 결합함으로써 보다 높은 검색 효과를 얻을 수 있음이 입증되었다. 본 논문에서는 질의와 문서에 대한 하나의 표현과 하나의 검색 기법하에서 서로 다른 특성을 갖는 가중치 기법을 결합함으로써 보다 높은 검색 효과를 얻을 수 있음을 기술한다. 문서의 형태를 분류하고 가중치기법의 특성을 기술한 후, 이를 기반으로 하여 서로 다른 특성을 갖는 가중치 기법은 서로 다른 형태의 문서를 검색함을 설명한다. 또한 실험을 통하여 서로 다른 특성을 갖는 가중치 기법을 결합함으로써 보다 높은 검색 효과를 얻을 수 있음을 입증한다.

  • PDF

메타 검색엔진을 위한 HTML 문서 변경 탐지기의 설계 및 구현 (Design and Implementation of an HTML Pages Modification Detector for Meta-search Engines)

  • 박상위;오정석;이상호
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.345-354
    • /
    • 2002
  • 검색엔진의 HTML문서는 수시로 변경되고 있으며, 이는 각 검색엔진의 결과 문서를 통합하여 사용자에게 제공하는 메타 검색엔진의 기능을 저하시키는 요인이 된다. 이에 대한 해결방법으로 본 논문에서는 HTML 문서의 변경을 탐지하는 HTML문서 변경 탐지기를 설계하고 구현한다. 문서 변경 탐지기는 문서 구조를 추출하기 위해 위치 정보 알고리즘과 수정된 Jaak Vilo 알고리즘을 사용하고, 그 결과로 패턴을 추출한다. 문서 변경 탐지기는 HTML문서에서 반복적으로 출현하는 구조를 표현하는 패턴을 사용한다. 또한, 문서 변경 탐지기의 정확성을 측정하기 위하여 문서 변경에 대한 전략을 세우고 이를 기반으로 실험을 수행한다.

인터넷 멀티미디어 전자 문서 질의 언어의 세계 (Design of A Query Language Internet Electronic Documents)

  • 김용훈;연제원;장동준;조정수;이강찬;이규철;김완석
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 추계학술발표논문집
    • /
    • pp.407-412
    • /
    • 1998
  • 21세기는 고도의 정보화 사회가 될 것이다. 이러한 정보화의 사회의 가장 중요한 요소는 수많은 문서 정보를 전자 문서로 만들고 관리하는 것인데, 최근 들어 OIS(Office Information System), 디지털 도서관, CALS/EC 등의 다양한 응용 분야에서 일한 전자 문서의 저장, 처리, 검색이 요구되고 있다. 이러한 상황에서 다양한 전자 문서의 표준들이 나오고 있고, 그 중 차세대 전자 문서의 표준의 선두로서 XML이 대두되고 있다. 따라서 최근에는 XML 문서를 저장하고 검색하는 다양한 응용들이 개발중이고, 이러한 응용들은 XML 문서의 다양한 문서 정보를 모두 만족할 수 있는 검색 기능들을 요구하고 있다. 본 논문에서는 이러한 다양한 XML 응용들의 요구에 따라서 XML 문서가 지닌 다양한 문서 정보에 대해서 검색할 수 있는 XML 질의 언어의 개발에 목적이 있다.

  • PDF

문서의 효율적인 검색을 위한 HTML 문서 변환 시스템 (HTML Document Conversion System for Effective Retrieval of Text Document)

  • 김수의;장대용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.184-186
    • /
    • 2000
  • 이 연구에서는 텍스트 문서를 웹에서 HTML 문서 형태로 효율적으로 검색할 수 있는 변환 시스템을 개발하였다. 웹상에 사용자가 원하는 부분만을 HTML 문서 형태로 제공하도록 문서의 논리적인 구조를 파악하며 그 구조에 대한 정보와 각 논리 단위에 해당하는 부분의 범위 정보를 저장할 수 있도록 관계형 데이터베이스 스키마를 개발하였다. 개발한 시스템은 문서의 목차 테이블을 자동으로 구축하고 목차 테이블의 각 항목에 하이퍼링크를 설정한다. 문서를 웹에서 검색하기 위한 첫 화면은 목차 테이블이며, 그 중 한 항목이 클릭되면 그 항목의 내용이 제공되고, 만약 그 하위에 속하는 항목들이 있다면 그들에 대한 링크를 역시 제공한다. 이러한 방법으로 한 문서의 전체를 그 논리 구조에 따라 사용자가 원하는 대로 검색할 수 있다. 이 시스템은 멀티미디어 타입의 문서를 하이퍼미디어 문서 형식으로 변환할 수 있도록 확장하여 보완 개발될 수 있고, 장래에 전자 출판과 전자 도서관에 응용될 수 있다.

  • PDF

마코프 논리 기반의 시맨틱 문서 검색 (Semantic Document-Retrieval Based on Markov Logic)

  • 황규백;봉성용;구현서;백은옥
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.663-667
    • /
    • 2010
  • 본 논문은 질의 문서와 의미가 유사한 문서를 검색하는 문제를 다룬다. 이 문제에 대한 기본적인 접근법은 각 문서를 bag-of-words 형태로 표현한 후, 코사인 유사도 등의 거리 기준에 기반하여 유사 문서를 판별하는 것이다. 그러나, 이처럼 문서에 출현하는 단어에만 의존하는 검색 방법은 의미적 유사성을 제대로 반영하기 어렵다는 단점을 가진다. 본 논문에서는 이러한 문제를 극복하기 위해 데이터 기반의 감독 학습(supervised learning) 기법과 관련 온톨로지 정보를 마코프 논리(Markov logic)에 기반하여 결합한다. 구체적으로, 단어들 사이에 존재하는 관계를 표현한 온톨로지와 유사도가 태깅된 문서 데이터에서 마코프 논리 망(Markov logic network)을 학습하며, 학습된 마코프 논리 망과 문서 데이터 및 새로 주어진 질의 문서에 대한 추론을 통해 질의 문서와 의미적으로 유사한 문서를 검색하는 기법을 제안한다. 제안하는 접근법은 서울시의 민원서비스 홈페이지에서 수집된 실제 민원 데이터에 적용되었으며, 적용 결과, 단순한 문서 간 거리에 기반한 유사 문서 검색 기법에 비해 월등히 높은 정확도를 보였다.

사용자 중심의 멀티미디어 데이터 검색 방안 (Multimedia data search method for User)

  • 정성주;박희숙;김성록;조우현
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.202-205
    • /
    • 2003
  • 인터넷의 보급으로 사용자는 일반문서에 대한 검색뿐만 아니라 멀티미디어 데이터에 대한 검색도 할 수 있게 되었다. 기존 포탈사이트의 검색은 주로 html 문서위주로 제공되고 있으며, 검색방법은 html 문서의 단어, 구를 이용하는 검색방식을 주로 사용하고 있다. 멀티미디어 데이터에 대한 검색 또한 데이터 제공자(Data provider)가 제시한 검색어구를 바탕으로 이루어진다. 본 논문에서는 사용자(User)에게 관심이 있는 멀티미디어 데이터 부가정보를 인덱스로 유지하고 구성하여 제공하는 XML 트리 형식의 검색 시스템을 제안한다.

  • PDF

개인화된 정보 필터링 에이전트를 위한 유전 알고리즘 (Genetic algorithm for personalized information filtering agent)

  • 손윤희;박상호
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.423-428
    • /
    • 2001
  • 유전 알고리즘을 이용한 정보 필터링 에이전트는 기존의 검색엔진에서 찾고자 하는 문서에 대해 검색된 문서의 유사도가 낮은 문제점을 해결한다. 본 논문에서는 HTML 태그의 중요도 가중치와 HTML 태그 안의 위치에 대한 가중치를 유전 알고리즘을 이용하여 학습한다. 여기서 학습된 가중치가 높은 태그와 태그 안의 위치 그리고 출현하는 빈도수에 대한 중요도 가중치를 다시 유전 알고리즘을 이용하여 학습하고 여기서 학습된 가중치로 검색된 문서를 필터링하여 정보 검색 성능을 향상시킬 수 있는 방법을 제안한다. 이 때 태그의 중요도 가중치 값을 학습하는 방법으로 하나의 태그를 유전자로 매핑하고 일련의 태그 집합을 염색체로 표현한 유전 알고리즘을 이용한다. 태그 안의 위치에 대한 중요도 가중치 값도 같은 방법을 이용한다. 여기서 나온 태그와 위치 그리고 빈도 수에 대한 중요도 가중치 값을 다시 유전자 알고리즘 이용하여 계산하다. 이 값으로 검색된 문서를 필터링하여 기존의 정보검색보다 검색자가 원하는 검색문서에 상당한 정확율을 제공하는 방법을 제안한다.

  • PDF

SGML/XML 검색 시스템의 설케 및 구현 (Design and Implementation of a SGML/XML Document Retrieval System)

  • 고승규;조승기;최윤철;고견
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 추계학술발표논문집
    • /
    • pp.99-102
    • /
    • 2000
  • 이기종 간의 문서 교환 표준으로 제안되 SGML은 문서의 구조정보를 표현할 수 있는 장점으로 인해 CALS(Commerce At Light Speed), EC(Electronic Commerce), EDI(Electronic Data Interchange), 전자 도서관(Digital Library) 등 여러 분야에서 사용되고 있다. 이렇게 SGML이 여러 분야에서 사용됨에 따라 많은 SGML 문서 중에서 원하는 문서를 효율적으로 찾아줄 수 있는 검색 시스템의 필요성이 증가하고 있다. 이에 본 연구실에서는 기본적인 구조 검색을 지원하는 SGML 문서 관리시스템을 기개발하였다. 그러나 이 시스템은 구조 검색을 효과적으로 지원하기 못하기 때문에 본 연구에서는 구조 검색의 기능을 정의하고, 이를 지원하는 새로운 구조 질의어를 정의하였다. 또한 이러한 구조 검색을 효과적으로 지원하기 위한 구조 색인을 정의하였다. 그리고 구조 검색 방식으로 세가지 방식을 각각 구현 및 실험하여 그 중에서 성능이 뛰어난 절충식을 이용하여 검색 시스템을 구현하였다.

  • PDF