• 제목/요약/키워드: Boolean retrieval

검색결과 58건 처리시간 0.026초

불리언 질의 재구성에서 의사결정나무의 학습 성능 감도 분석 (Sensitivity Analysis of Decision Tree's Learning Effectiveness in Boolean Query Reformulation)

  • 윤정미;김남호;권영식
    • 한국경영과학회지
    • /
    • 제23권4호
    • /
    • pp.141-149
    • /
    • 1998
  • One of the difficulties in using the current Boolean-based information retrieval systems is that it is hard for a user, especially a novice, to formulate an effective Boolean query. One solution to this problem is to let the system formulate a query for a user from his relevance feedback documents in this research, an intelligent query reformulation mechanism based on ID3 is proposed and the sensitivity of its retrieval effectiveness, i.e., recall, precision, and E-measure, to various input settings is analyzed. The parameters in the input settings is the number of relevant documents. Experiments conducted on the test set of Medlars revealed that the effectiveness of the proposed system is in fact sensitive to the number of the initial relevant documents. The case with two or more initial relevant documents outperformed the case with one initial relevant document with statistical significances. It is our conclusion that formulation of an effective query in the proposed system requires at least two relevant documents in its initial input set.

  • PDF

퍼지개념을 적용한 질의식의 분석과 문헌정보 검색에 관한 연구 (An Experimental Study on Fuzzy Document Retrieval System)

  • 이승채
    • 한국문헌정보학회지
    • /
    • 제21권
    • /
    • pp.249-290
    • /
    • 1991
  • Theoretical developments in the information retrieval have offered a number of alternatives to traditional Boolean retrieval. Probability theory and fuzzy set theory have played prominent roles here. Fuzzy set theory is an attempt to generalize traditional set theory by permitting partial membership in a set and this means recognizing different degrees to which a document can match a request. In this study, an experimentation of a document retrieval system using the fuzzy relation matrix of the keywords is described and the results are offered. The queries composed of keywords and Boolean operaters AND, OR, NOT were processed in the retrieval method, and the method was implemented on the PC of 32bit level (30 MHz) in an experimental system. The measurement of the recall ratio and precision ratio verified the effectiveness of the proposed fuzzy relation matrix of keywords and retrieval method. Compared to traditional crisp method in the same document database, the recall ratio increased $10\%$ high although the precision ratio decreased slightly. The problems, in this experiment, to be resolved are first, the design of the automatic data input and fuzzy indexing modules, through which the system . can have the ability of competition and usefulness. Second, devising a systematic procedure for assigning fuzzy weights to keywords in documents and in queries.

  • PDF

확장 불리언 질의에 대한 비용 기반 최적화 (Cost-based Optimization of Extended Boolean Queries)

  • 박병권
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.29-40
    • /
    • 2001
  • 본 논문에서는 역색인 파일을 미용하여 학장 불리언 질의를 처리할 때 최소 비용의 질의 처리 방법을 구해 주는 질의 최적화 알고리즘을 제시한다. 확장 불리언 질의를 처리하는 방법은 질의를 구성하는 키위드의 처리 순서에 따라 여러 가지가 있을 수 있으므로 확장 불리언 질의 최적화 문제는 결국 최적 키워드 처리 순서를 구하는 문제로 귀결된다. 본 논문에서는 이 문제가 데이터베이스 질의 최적화에서 최적 조인 순서를 구하는 문제와 구조적으로 유사함을 보이고 이 분야의 연구 결과를 이용하여 문제를 해결한다. 즉, 확장 불리언 질의 처리에 대한 비용 모델을 수립하고 키워드 선택률과 역색인 파일 접근 비용을 이용하여 키워드 순위 개념을 도입한 후 이를 이용하여 최적 키워드 처리 순서를 구하는 알고리즘을 도출한다. 그리고 도출한 질의 최적화 알고리즘의 최적성을 증명하고. 실험을 통하여 실제로 최소비용의 질의 처리 방법을 구함을 보이고, 질의 최적화를 하지 않을 경우와 비교하였을 때 그 성능이 월등히 우수함을 보인다. 본 논문에서 제시한 질의 최적화 알고리즘은 정보검색시스템의 질의 처리 성능 향상에 큰 기여를 하리라 믿는다.

  • PDF

한국어 대화체 문장 분석을 이용한 메타 정보검색 (Meta Information Retrieval using Sentence Analysis of Korean Dialogue Style)

  • 박인철
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권10호
    • /
    • pp.703-712
    • /
    • 2003
  • 오늘날 통신의 발전에 따라 인터넷상에 존재하는 정보의 양이 많아지고, 필요한 정보를 효율적으로 찾아내는 정보 검색 시스템의 중요성이 크게 대두되고 있다. 대부분의 정보 검색 시스템에서는 단순한 키워드나 키워드를 이용한 불리언 질의어를 바탕으로 필요한 문서를 검색해 내고 있다. 그러나, 키워드를 이용한 정보 검색은 사용자의 편의성 및 주어진 질의어에 대한 이해의 정확성 측면에서 우리가 일상생활에서 사용하는 대화체 문장을 이용한 질의어에 비해 많은 어려움을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 한국어 대화체 문장의 정보 검색을 위한 메타질의어처리시스템을 설계하고 구현한다. 본 논문에서 제안한 한국어 대화체 문장 분석을 이용한 정보 검색은 주어진 질의어에 대해 형태소 분석과 구문 분석 및 시소러스를 이용한 질의어의 확장을 통해 사용자가 원하는 질의어를 포함하는 새로운 질의어를 형성해 내며, 질의어에 포함된 중의성도 부분적으로 해결할 수 있었다.

  • PDF

시소러스의 연관성 정보를 이용한 문서의 순위 결정 방법 (Document ranking methods using term dependencies from a thesaurus)

  • 이준호
    • 정보관리학회지
    • /
    • 제10권2호
    • /
    • pp.3-22
    • /
    • 1993
  • 최근 시소러스를 기반으로 하는 불리안 검색 시스템에서 문서의 순위 결정에 사용 될 수 있는 Relevance, R-distance, K-distance와 같은 방법들이 개발되었다. 이러한 방법들은 색인어들 사이의 연관성 정보를 이용하여 문서들의 순위를 결정함으로써 많은 경우에 높은 검색 효율을 제공할 지라도, 불리안 연산자 AND, OR, NOT에 대한 연산 방법이 문제점으로 지적되어왔다. 본 논문에서는 개선된 퍼지 집합 모델과 확장된 불리안 모델을 시소러스가 제공하는 색인어들 사이의 연관성 정보를 효율적으로 이용할 수 있도록 확장함으로써, 기존 방법들의 문제점을 극복하는 새로운 순위 결정 방법 KB-FSM과 KB-EBM을 제안한다. 또한 KB-FSM과 KB-EBM이 Relevance, R-distance, K-distance보다 문서들의 순위를 보다 정확하게 결정함을 성능 비교를 통하여 입증한다.

  • PDF

지식(知識) 베이스를 이용한 한국어(韓國語) 질문 처리(處理) 시스템에 관한 연구 (A Study on Korean Question Processing System Using Knowledge Base)

  • 김판준
    • 정보관리연구
    • /
    • 제24권3호
    • /
    • pp.1-30
    • /
    • 1993
  • 문헌정보(文獻情報)를 검색하고자 하는 이용자가 한국어(韓國語) 자연언어로 직접 검색(檢索) 시스템에 접근할 수 있도록 한국어 질문을 현재 정보검색(情報檢索) 시스템에서 많이 사용되고 있는 정형탐색문(불탐색문)으로 변환하는 한국어 질문처리(質間處理) 시스템을 설계하였다.

  • PDF

주제별 분산 지식베이스에 의한 개념기반 정보검색시스템의 성능향상에 관한 연구 (A Study on the Improvement of Performance of Concept-Based Information Retrieval Model Using a Distributed Subject Knowledge Base)

  • 노영희
    • 정보관리학회지
    • /
    • 제19권1호
    • /
    • pp.47-69
    • /
    • 2002
  • 개념기반 정보검색기법은 불리언 검색기법의 문제점을 해소했다고 평가받고 있는 단순 매칭함수 기법이나 P-norm 검색기법보다 높은 성능을 보여주고 있다. 그러나 개념화장에 필수적인 의미망 지식베이스를 구축하는데 시간이 너무 오래 걸리는 단점이 있다. 본 연구에서는 이러한 문제를 해결하기 위해 주제범주별로 지식베이스를 분산 구축함으로써 지식베이스 구축에 소요되는 시간을 단축하면서도 검색성능이 떨어지지 않도록 하는 방안을 모색하고자 하였다.

전자정보자원의 검색시스템에 관한 연구 - 부산.울산.경남지역 대학도서관을 중심으로 - (A Study on the Retrieval Systems for Digital Information Resources : Focused on the University Libraries in Busan, Ulsan, Gyeongnam Districts)

  • 도태현
    • 한국도서관정보학회지
    • /
    • 제39권4호
    • /
    • pp.261-281
    • /
    • 2008
  • 이 연구에서는 부산 울산 경남지역의 대학도서관 전자정보자원 검색시스템과 전자정보자원 제공처의 검색시스템을 분석하였다. 도서관 검색시스템의 접근점과 검색조건들(검색어의 조합방식, 검색어 일치방식, 검색의 상세수준)은 서로 다르고 통일성이 없었다. 제공처 검색시스템의 접근점은 그 종류가 불필요할 정도로 많고 서로 달랐으나 검색조건들은 비교적 정밀하였다. 이러한 결과를 토대로 전자정보자원 검색시스템의 개선을 위한 제언을 하였다.

  • PDF

자동화목록 검색시스템의 현황과 표준화 방안 - 부산.울산.경남지역 대학도서관 목록의 분석을 중심으로 - (Survey and Suggestion for Standardization of Online Catalog Retrieval Systems: Focused on the University Library Catalogs in Busan, Ulsan, Gyeongnam District)

  • 도태현
    • 한국도서관정보학회지
    • /
    • 제38권4호
    • /
    • pp.357-376
    • /
    • 2007
  • 이 연구는 부산 울산, 경남 지역 23개 대학도서관의 온라인목록 검색시스템을 분석하였다. 이 도서관 목록들의 검색을 위한 자료 유형 구분, 검색을 위한 접근점, 자료검색의 조건들(검색어 조합방식, 검색어 일치방식, 검색의 상세 수준)은 다양하고 서로 달랐다. 이러한 결과와 그 평가를 토대로 온라인목록 검색시스템의 자료 유형 구분, 접근점 종류, 검색조건 표준화를 위한 방안을 제시하였다.

  • PDF

자연어 질의 분석과 검색어 확장에 기반한 웹 정보 검색 (Web Information Retrieval based on Natural Language Query Analysis and Keyword Expansion)

  • 윤성희;장혜진
    • 정보관리학회지
    • /
    • 제21권2호
    • /
    • pp.235-248
    • /
    • 2004
  • 웹 문서 정색을 위해 키워드와 불리언 연산식을 사용하는 것에 비해 자연어 질의 문장을 입력하는 방법은 검색 시스템 사용자에게 훨씬 이상적인 인터페이스이다. 본 논문은 사용자가 입력하는 자연어 질의 문장을 구문 분석하고 그 구문 구조에 기반하여 검색어를 확장하는 다중 검색 기법을 제안한다. 구문 트리를 순회하여 구조적으로 연관된 복합 명사를 조합하거나 분할하는 과정을 거치고, 이형 표기 및 축약 표기 용어들에 대해 확장 다중 검색함으로써 웹 정보 검색 시스템의 재현율과 정확도를 높일 수 있다.