• 제목/요약/키워드: 문서 검색

검색결과 1,719건 처리시간 0.033초

메타 검색엔진을 위한 페이지 변경 탐지기 설계 (Design of A Page Modification Detector for Meta-search Engines)

  • 박상위;오정석;이상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.205-207
    • /
    • 2001
  • 웹 상의 HTML 문서들은 수시로 변경되고 있으며, 정보를 검색하는 웹사이트 또한 예외는 아니다. 다수의 웹 검색엔진들의 결과를 통합하는 메타 검색엔진은 각 검색엔진의 정보 변경에 민감해야 된다. 본 논문은, 수시로 변경되는 검색엔진들의 HTML 문서 정보를 메타 검색 엔진에 반영하기 위해, 자동적으로 검색엔진들의 질의 형태 변경과 검색 엔진의 검색 결과 HTML 문서의 구조 변경 탐지는 질의 결과가 반복되는 HTML 태그(tags) 문서 구조를 패턴(pattern)으로 이용한다. 패턴 발견 알고리즘은 문자열에서 규칙적으로 발생하는 패턴을 찾아내는 Jaak Vilo 알고리즘을 기반으로 HTML 문서를 처리할 수 있도록 확장하였다. 발견된 HTML 문서 패턴과 기존의 검색 엔진 HTML 페이지의 구조적 패턴 정보를 비교하여 문서 구조 변경을 탐지한다.

  • PDF

시소러스 및 요약화일을 이용한 문서 검색시스템 (The development of a document retrieval system using thesaurus and signature file)

  • 정상철;신동욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.400-408
    • /
    • 1994
  • 본 논문에서는 요약화일을 이용하여 복합명사를 효율적으로 처리하며 시소러스를 이용하여 검색하는 한글문서 검색시스템을 제안한다. 본 한글문서 검색 시스템은 한글문서를 대상으로 색인하는 자동색인기와 사용자의 질의를 받아 관련된 문서를 검색하는 검색기로 구성된다. 자동색인기는 우선 한글문서를 대상으로 최장일치 방법으로 명사들을 출출한 후 복합명사의 패턴을 분석하여 복합명사의 가능성이 높은 것들을 복합명사화한다. 두번째로 이들 복합명사들을 1+2SP 방식으로 코딩한 후 요약화일 방법을 이용하여 요약화일을 작성한다. 검색기는 사용자 질의어를 받아 명사들을 추출한 후 시소러스를 이용하여 질의어를 확장한다. 다음 확장된 질의어를 1+2SP 방식으로 코딩한 후 관련된 문서를 검색한다. 본 논문에서는 한국통신에서 만든 코퍼스를 이용하여 제안된 방법의 성능을 평가하였는데 복합명사 처리 및 시소러스 이용방식이 효율적임이 입증되었다. 또한 KAIST에서 개발한 문서검색 시스템보다 동일한 코퍼스로 실험하였을 경우 재현률 및 정확률이 $7{\sim}8%$ 정도 앞서 기존의 시스템보다도 성능이 우수하다는 것이 밝혀졌다.

  • PDF

데이터 결합이 웹 문서 검색성능에 미치는 영향 연구 (A Study on the Effect of Data Fusion on the Retrieval Effectiveness of Web Documents)

  • 박옥화;정영미
    • 정보관리연구
    • /
    • 제38권1호
    • /
    • pp.1-19
    • /
    • 2007
  • 이 연구에서는 최근 검색성능을 향상시키기 위한 전략으로 사용되는 데이터 결합기법을 웹 문서 검색에 적용하고, 실험을 통해 문서표현 방법의 결합이 검색성능에 미치는 영향을 분석하였다. 문서 표현 방법으로는 내용기반 표현, 링크기반 표현,URL 등을 선정하고, 단일 표현 방법에 의한 검색결과와 표현방법의 결합을 통한 검색결과를 비교하였다. 분석결과 다른 문서표현 방법의 결합이 웹 문서의 검색성능을 향상시키지는 못하는 것으로 나타났다.

문서 클러스터링에 의한 효율적인 병렬 정보검색 시스템 (An Efficient Parallel Information Retrieval System using Document Clustering)

  • 강유경;류광렬;정상화
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권2호
    • /
    • pp.157-167
    • /
    • 2001
  • 본 논문은 고품질의 정보를 신속하게 제공할 수 있으면서 가격대 성능비가 우수한 병렬 정보 검색 시스템을 제시하고 있다. 본 검색 시스템은 문서 라이브러리를 여러 개의 클러스터로 세분화하고 검색 시 클러스터 단위로 프로세서에 할당함으로써 작업 단위를 적절한 규모로 하였을 뿐만 아니라, 문서의 점수 계산 시 프로세서 간 통신이 전혀 필요치 않게 하였다. 검색은 1차로 클러스터 레벨에서 관련 클러스터들을 찾는 것으로 시작하여 2차로 관련 클러스터 내에서 실제 문서를 찾는 방식으로 이루어진다. 이러한 계층적인 검색 구조로 인하여 1차 검색 후 여과가 가능하므로 전체적인 검색의 부하를 줄일 수 있다. 또한 문서의 클러스터가 가능한 한 유사한 문서군이 되도록 함으로써 불필요한 클러스터가 검색될 가능성을 최소화하여 성능을 높였다. 본 검색 시스템은 분산메모리 MIMD 구조의 다중 트랜스퓨터 시스템에서 구현되었으며, 실험 결과 무작위적으로 클러스터링한 경우에 비해 유사 문서군으로 클러스터링한 접근 방법이 우수함을 확인하였다.

  • PDF

용어 선별 기법에 의한 유사 문서 판별 시스템 (Text Similarity Decision System by Term Selection Method)

  • 장성호;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.534-536
    • /
    • 2003
  • 대부분의 정보 검색 시스템은 문서 내어서 추출된 모든 용어를 이용해서 문서간 유사도 계산이나 문서 분류, 문서 클러스터링 등에 활용한다. 그러나 실질적으로 문서 내외 모든 용어를 추출해야만 이러한 정보 검색 시스템을 활용할 수 있는 것은 아니며, 오히려 용어 빈도수 같은 가중치가 낮은 용어를 용어 추출에서 제외시킴으로써 모든 용어 추출로 인해서 발생하는 시간과 공간을 많이 소비하는 문제를 해결할 수 있다. 또한 정확하고 자동적인 문서 분류를 위한 문서 클러스터링보다 유사 문서 검색의 활용은 검색효율의 증가를 가져 올 수 있다. 본 논문에서는 유사 문서 판별 시스템을 이용해 용어 추출의 효율성을 실험하였으며, 모든 용어를 추출한 경우보다 중요 용어만 추출한 경우에 더 좋은 성능을 보였다.

  • PDF

온톨로지를 통한 추론형 시멘틱 검색 시스템에 관한 연구 (Ontology Based Semantic Search System Using Inference)

  • 하상범;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.625-627
    • /
    • 2004
  • 시멘틱 웹의 등장으로 온톨로지를 통하여 에이전트가 이해할 수 있는 의미(semantic)를 갖는 문서를 생성하는 것이 가능해졌다. 이러한 시멘틱 웹의 영역은 비즈니스 업무 효율을 증가시키고 이를 통해 이윤을 극대화시키는 방법으로 시멘틱 검색을 통한 정보검색시스템으로 확대적용 될 수 있다. 데이터베이스를 활용하여 문서를 저장하고 데이터베이스의 질의문물 사용하거나 일반적인 키워드기반의 정보검색 기법을 사용하여 자료를 검색하는 기존의 시스템은 다양한 분야에서 많이 연구되어 왔다. 본 논문에서는 온톨로지를 기반으로 추론을 적용한 시멘틱 검색시스템에 대하여 문서검색에 초점을 맞추어 연구 결과를 제안한다. 본 논문에서 제안하는 방식은 기존의 데이터베이스 질의문으로 검색이 불가능하거나 정보관리 시스템에서 단순히 키워드 매칭으로 검색되지 않는 문서에 대해서 본 시스템이 온톨로지라 추론을 통하여 문서의 검색에 가능함을 보인다. 이러한 방식은 자연어처리 검색과 유사한 검색영역을 갖는다. 이는 문서의 검색에 있어 단순히 키워드의 유사도에 의존하지 않고 Description Logic을 바탕으로 구성된 온톨로지에 미리 정의 되어있는 의미를 바탕으로 생성된 메타데이타를 가지고 추론을 하기 때문에 가능하다 또한 기존의 정보관리 시스템에서 채용한 데이터베이스를 통한 질의응답 시스템을 적용하여 온톨로지 표현언어에 대해 질의 응답이 가능한 DQL 인터페이스와 연동을 통하여 본 시스템의 속도와 효율성을 극대화시킨다.

  • PDF

XML 문서 검색을 위한 한국어 질의 처리 시스템 (Korean Query Processing System for XML Document Retrieval)

  • 박춘용;이현영;윤보현;강현규;이용석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.161-163
    • /
    • 2000
  • 인터넷 문서의 표준 사양인 XML 문서가 늘어나면서 XML 문서를 효과적으로 관리고 검색하기 위한 시스템이 개발되고 있다. 그러나 정형화된 질의언어를 사용한 XML 문서의 검색 방법은 질의언어의 구조를 이해하고 사용법을 숙지해야 하는 어려움이 있어 일반 사용자에게는 적합하지 않다. 따라서 사용자가 쉽게 사용할 수 있으면서도 정확한 결과를 가지는 시스템이 요구된다. 본 논문에서는 XML 문서를 검색하기 위해 자연어로 질의를 입력하면 이를 XML 구조 검색을 위한 XQL 언어로 자동 변환해 주는 시스템을 제안한다. 제안한 시스템은 자연어를 이용하기 때문에 사용하기가 쉽고 XML 문서 구조가 변경되어도 쉽게 확장할 수 있는 장점을 가진다.

  • PDF

문서 단편화 기법을 이용한 XML 변환기의 설계 및 구현 (Development of an XML Converter using Document Fragmentation Method)

  • 정창후;최윤수;주원균;진두석;김광영;이민호;서정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.214-216
    • /
    • 2004
  • 최근 다양한 응용 분야에서 점차 증가하고 있는 XML 문서에 대한 효과적 검색을 위해서 많은 검색 시스템들이 제안되고 있다. 그러나 이러한 검색 시스템은 XML 문서의 구조적 특성을 명확하게 알지 못하거나 질의어 작성에 익숙하지 못한 사용자에게 XML 문서를 검색하는데 많은 어려움을 주고 있다. 이러한 문제를 해결하기 위해 본 논문은 복잡한 계층의 XML 문서를 의미 있는 엘리먼트를 중심으로 계층을 단순화시켜서 검색에 이용할 수 있도록 도와주는 XML 문서 변환기를 제안한다. XML 문서 변환기는 XML 문서의 부모-자식 관계, 형제 관계 등의 계층 정보를 유지하면서 문서를 단편화 시켜주는 도구이다. XML 문서 변환기와 더불어 이것을 이용하여 구현된 XML 문서 검색 시스템의 계층적 출력 인터페이스에 대하여 함께 설명하도록 한다.

  • PDF

효율적인 XML 검색을 위한 재질의 시스템 설계 (Design of Query Reformulation System for Efficient Retrieval of XML Documents)

  • 정유나;황인준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.238-240
    • /
    • 2001
  • XML이 확산되면서 이를 저장하고 검색하는 XML DB와 검색 앤진들이 만들어졌다. 그러나, 이들 대부분의 시스템에서 초기 질의만으로 문서를 검색하고, 그 대상도 질의 조건에 완전히 정합되는 문서로만 제한하고 있다. 그러나, 사용자가 데이터에 대한 정확한 정보가 없는 경우에는 자신의 요구를 제대로 표현하기가 힘들고 또, 한번의 질의로 사용자 요구에 정확하게 부합되는 문서를 검색하기도 매우 어렵다. 따라서, 본 논문에서는 질의 조건에 부분적으로 정합되는 문서도 검색하고, 사용자 피드백을 받아서 조기 질의를 사용자 요구에 좀 더 근접만 문서들을 검색할 수 있도록 수정하여 재질의를 하는 시스템을 설계하였다.

  • PDF

비트맵 인덱싱 기반 유사한 XML 문서 검색 기법 (A Search Method of Similar XML Documents based on Bitmap Indexing)

  • 이재민;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.15-18
    • /
    • 2004
  • XML 검색을 위한 기존의 비트맵 인덱싱은 XML을 문서, 경로, 단어로 구성된 3차원 비트맵 인덱스에 매핑하고 이를 이용해 정보를 추출함으로써 뛰어난 성능을 입증하였다. 그러나 이것은 유사 문서를 수집하고 검색하기 위해 경로 전체를 인덱스 구성의 단위로 사용함으로써 유사 경로를 인식하지 못하는 문제를 초래하였으며 유사 경로를 인식하지 못함으로 인해 유사 문서 검색의 치명적인 성능 저하가 발생하게 되었다. 이에 따라 본 논문에서는 기존의 XML 검색을 위한 비트맵 인덱싱이 유사 경로를 인식하지 못하는 문제점을 해결하기 위해 유사 경로 탐색을 위한 새로운 비트맵 인덱스를 설계하고 이를 통해 효과적으로 유사 문서를 검색할 수 있는 기법을 제안한다. 제안된 기법은 노드들을 단위로 하는 새로운 비트맵 인덱스를 구성하고 구성된 인덱스의 중심을 통해 유사 경로 탐색을 위한 클러스터들을 선별적으로 검색한다. 그리고 유사 경로 탐색을 통해 추출된 경로들을 유사 문서 검색에 활용함으로써 비트맵 인덱싱의 빠른 성능을 그대로 유지하면서 기존의 XML 검색을 위한 비트맵 인덱싱이 유사 경로를 인식하지 못함으로써 발생하는 유사 문서 탐색의 성능 저하를 효과적으로 해결한다.

  • PDF