• 제목/요약/키워드: 불리언 검색

검색결과 37건 처리시간 0.023초

구문 분석에 기반한 자연어 질의로부터의 불리언 질의 생성 (Boolean Formulation of Korean Natural Language Queries Using Syntactic Analysis)

  • 박미화;원형석;이원일;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-80
    • /
    • 1998
  • 본 연구는 자연어 질의의 형태 및 구문 정보를 바탕으로 불리언 질의를 생성하는데 그 목적을 둔다. 일반적으로 대부분의 상용정보검색시스템은 입력형식을 검색성능이 종은 불리언 형태로 하고 있으나, 일반 사용자는 자신이 원하는 정보를 불리언 형태로 표현하는데 익숙하지 않다. 그러므로 본 정보검색시스템은 자연어 질의를 기본 입력형태로 하여 사용자의 편의성을 높이고, 이 질의를 범주문법에 기반한 구문분석 결과에 의해 복합명사를 고려한 불리언 형태로 변환하여 검색을 수행함으로써 시스템의 검색 성능의 향상을 도모하였다. 정보검색 실험용 데이터 모음인 KTSET2.0으로 실험한 결과 본 논문에서 제안한 자연어 질의로부터 자동 생성된 불리언 질의의 검객성능이 KTSET2.0에서 제공하는 수동으로 추출한 불리언 질의보다 8% 더 우수한 성능을 보였고, 기존 자연어질의 시스템이 수용해온 방법인 형태소 분석을 거쳐 불용어를 제거한 후 Vector 모델을 적용하여 검색을 수행한 경우보다는 23% 더 나은 성능을 보였다.

  • PDF

태그결합을 이용한 불리언 검색에서 순위화된 검색결과를 제공하기 위한 시스템 설계 및 구현 (Design and Implementation of Tag Coupling-based Boolean Query Matching System for Ranked Search Result)

  • 김용;주원균
    • 정보관리학회지
    • /
    • 제29권4호
    • /
    • pp.101-121
    • /
    • 2012
  • 불리언 검색만을 제공하는 정보시스템들은 순위화된 검색 결과를 제공하지 않아 이용자들이 많은 시간을 들여 수많은 결과를 일일이 확인해야하는 단점이 있다. 따라서 본 연구에서는 불리언 검색 모델의 단점을 극복하기 위한 방법으로써 불리언 검색에서 적용되고 있는 색인 가중치 정보 대신에 태그 간의 결합 관계 정보를 이용하여 순위화된 검색 결과를 제공하기 위한 시스템을 제안한다. 본 연구에서 제안하고 있는 방법은 일반적인 키워드 질의 대신에 문서를 질의로 사용하기 때문에 해당 문서에서 질의로 사용하는 핵심태그를 추출한다. 질의 생성 과정에서는 태그결합도에 따라 다양한 그룹의 불리언 질의를 생성하고, 매칭 과정에서는 해당 질의어 그룹 간에 차별성 정보와 태그 중요도 정보를 이용하여 순위화를 처리한다. 본 연구에서 제안하고 있는 방법의 유용성을 평가하기 위하여 선정된 연구정보와 관련된 동향분석정보를 추출하는 과정에 적용하여 실험을 수행하였다. 또한 제안된 방법에 대한 이용자 평가를 위하여 다수의 이용자들을 대상으로 약 1년간 서비스를 제공하였으며 그 결과 높은 이용자 만족도를 확보할 수 있다고 조사되었다.

정보검색을 위한 자연언어 질의어의 불리언 질의로의 변환 (A System for converting natural language queries Into boolean queries for Information Retrieval)

  • 서광준;최기선;나동열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.258-261
    • /
    • 1994
  • 자연언어 인터페이스는 초보자나 비숙련가의 입장에서는 새로운 시스템의 적응에 있어서 어떤 학습도 필요하지 않다는 장점이 있다. 이 연구에서는 불리언 질의를 처리하는 정보검색 시스템의 자연언어 인터페이스를 구혐하였다. 즉, 한국어 자연언어 질의를 불리언 질의로 변환해주는 시스템이다. 접근 방법은 먼저 자연언어 질의를 구문 해석한 후에, 그 결과인 문자의 의존 구조와 불용어 정보를 사용하여 기본적인 불리언 질의를 만든다음, 시소러스를 이용하여 불리언 질의를 확장한다. 여기에서 사용한 구문 해석 방법은 기존 문법에 기반한 방법이다. 변환 시스템은 SPARC-II 호환기종에서 구현되었으며, 약 5만 단어의 사전을 사용한다. 가공된 120 개의 질의를 대상으로 실험한 결과, 전체 소요시간은 13.5초가 걸렸다. 그리고, 변환된 불리언 연산식중에 110개가 적절하게 변환된 것으로 조사되었다.

  • PDF

구문분석에 기반한 한글 자연어 질의로부터의 불리언 질의 생성 (Boolean Query Formulation From Korean Natural Language Queries using Syntactic Analysis)

  • 박미화;원형석;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1219-1229
    • /
    • 1999
  • 일반적으로 AND, OR, NOT과 같은 연산자를 사용하는 불리언 질의는 사용자의 검색의도를 정확하게 표현할 수 있기 때문에 검색 전문가들은 불리언 질의를 사용하여 높은 검색성능을 얻는다고 알려져 있지만, 일반 사용자는 자신이 원하는 정보를 불리언 형태로 표현하는데 익숙하지 않다. 본 논문에서는 검색성능의 향상과 사용자 편의성을 동시에 만족하기 위하여 사용자의 자연어 질의를 확장 불리언 질의로 자동 변환하는 방법론을 제안한다. 먼저 자연어 질의를 범주문법에 기반한 구문분석을 수행하여 구문트리를 생성하고 연산자 및 키워드 정보를 추출하여 구문트리를 간략화한다. 다음으로 간략화된 구문트리로부터 명사구를 합성하고 키워드들에 대한 가중치를 부여한 후 불리언 질의를 생성하여 검색을 수행한다. 또한 구문분석의 오류로 인한 검색성능 저하를 최소화하기 위하여 상위 N개 구문트리에 대해 각각 불리언 질의를 생성하여 검색하는 N-BEST average 방법을 제안하였다. 정보검색 실험용 데이타 모음인 KTSET2.0으로 실험한 결과 제안된 방법은 수동으로 추출한 불리언 질의보다 8% 더 우수한 성능을 보였고, 기존의 벡터공간 모델에 기반한 자연어질의 시스템에 비해 23% 성능향상을 보였다. Abstract There have been a considerable evidence that trained users can achieve a good search effectiveness through a boolean query because a structural boolean query containing operators such as AND, OR, and NOT can make a more accurate representation of user's information need. However, it is not easy for ordinary users to construct a boolean query using appropriate boolean operators. In this paper, we propose a boolean query formulation method that automatically transforms a user's natural language query into a extended boolean query for both effectiveness and user convenience. First, a user's natural language query is syntactically analyzed using KCCG(Korean Combinatory Categorial Grammar) parser and resulting syntactic trees are structurally simplified using a tree-simplifying mechanism in order to catch the logical relationships between keywords. Next, in a simplified tree, plausible noun phrases are identified and added into the same tree as new additional keywords. Finally, a simplified syntactic tree is automatically converted into a boolean query using some mapping rules and linguistic heuristics. We also propose an N-BEST average method that uses top N syntactic trees to compensate for bad effects of single incorrect top syntactic tree. In experiments using KTSET2.0, we showed that a proposed method outperformed a traditional vector space model by 23%, and surprisingly manually constructed boolean queries by 8%.

퍼지정보검색시스템의 검색효율에 관한 연구 (A study on evaluating effectiveness of fuzzy information retrieval system)

  • 김현희;배금표
    • 정보관리학회지
    • /
    • 제10권1호
    • /
    • pp.31-52
    • /
    • 1993
  • 본 연구에서는 이진색인체계를 유지하면서 퍼지디소러스를 통해 퍼지정보검색을 구현할 수 있는 시스템을 구축하고 그 검색결과를 불리언 검색결과와 비교해 보았다. 실험결과는 재현율의 경우 퍼지집합검색이 75%로 불리언 검색의 60% 보다 15% 높았으며, 정확률의 경우 불리언검색이 73%로 퍼지집합검색의 69% 보다 4% 정도 높았다.

  • PDF

불리언 질의 최적화에 관한 연구 (A Study on Boolean Query Optimization in Information Retrieval)

  • 주원균;이민호;강무영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1879-1882
    • /
    • 2002
  • 본 논문에서는 불리언 모델을 지원하는 정보검색 시스템에서 사용자로부터 입력받은 불리언 질의를 효율적으로 연산하기 위한 3 가지 방법을 제안한다. 첫째, 불리언 대수를 사용하여 형태적으로 불필요한 노드를 제거한다. 둘째 색인어 출현 빈도 정보를 사용함으로써 빈도 0 을 가지는 노드와 이를 포함하는 노드의 연산 제외 여부를 결정하고, 연산 수행 시 시간이 적게 걸리는 순으로 피 연산자와 연산자의 순서를 재배열한다. 셋째, 불리언 질의 내에 복합 명사가 포함되어 있을 경우 구성 명사와 연산자의 조합을 이용한 질의 확장을 실시한다. 처음 두 가지 방법은 검색 속도의 향상을, 세 번째 방법은 정확도의 향상을 목표로 한다.

  • PDF

대화형 질의 처리 에이전트를 이용한 지능형 정보검색 (Intelligent Information Retrieval Using Interactive Query Processing Agent)

  • 이현영;이기오;한용기
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권12호
    • /
    • pp.901-910
    • /
    • 2003
  • 대부분의 상업용 정보검색 시스템은 사용자의 질의 형태로 불리언 질의를 채용했다. 불리언 질의는 빠른 검색을 필요로 하는 검색엔진에는 유용할지라도 불리언 연산자로 사용자의 요구를 정확하게 표현하기는 어렵다. 따라서 사용자에게 편리한 자연어 질의를 이용하는 검색 엔진에 대한 연구가 있어왔다 문서를 검색하기 위해서 사용자는 자신의 요구를 정확하게 표현해야 하며 사용자의 요구도 적절해야 한다. 따라서 본 논문에서는 자연어를 이용한 대화형 질의 처리 에이전트를 제안한다. 이 에이전트는 사용자와 점진적인 대화를 통해 사용자의 요구를 정확하게 표현한다. 사용자가 자연어 질의를 입력하면 에이전트는 질의를 분석하고 적절한 키워드를 추출하여 불리언 질의어를 생성한다. 추출된 키워드가 동의어이거나 다의어이면 사용자와 대화를 통해서 키워드를 한정하거나 확장한다. 이렇게 함으로써 사용자의 요구를 보다 구체적으로 표현하여 시스템의 성능을 향상시킨다. 따라서 본 시스템은 정보검색에서 정확률을 향상시킬 수 있다.

  • PDF

필드 구조 문서를 위한 교차 필드 검색 모델 (Cross Field Searching Model for Field Structured Documents)

  • 윤보현;왕지현;강현규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.224-230
    • /
    • 2000
  • 기존의 전문 검색 시스템은 문서를 단지 단어의 연속이라는 제한적 관점에서만 바라보았다. 또한 기존의 필드 검색 시스템은 고정된 필드를 색인 및 검색대상으로 하거나, 문서의 내용이 아닌 메타 정보에 관한 검색만이 가능하였다. 본 논문에서는 내용과 필드 구조를 통합하여 가변 필드 구조 문서를 색인 및 검색하는 모델인 교차 필드 검색 모델을 제안한다. 기존 정보검색 시스템의 기능을 기본으로 제공하면서 필드구조를 색인/검색하기 위한 기능적 요구사항을 제시하고, 내용 및 필드 구조를 색인하면서 동적인 삽입/삭제가 가능한 색인 구조를 제안한다. 아울러 검색시에 문서 가중치를 계산하여 문서를 순위조정하는 불리언 모델, 확장 불리언 모델, 벡터 공간 모델의 변형 모델을 제시한다. 아울러 구현 사례로 STEER-XDS 검색 시스템에 대해 알아본다.

  • PDF

정보검색시스템에서 조인 시퀀스 분리성 기반 논리곱 불리언 질의 최적화 (Conjunctive Boolean Query Optimization based on Join Sequence Separability in Information Retrieval Systems)

  • 박병권;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권4호
    • /
    • pp.395-408
    • /
    • 2004
  • 논리곱 불리언 질의는 질의에 포함된 키워드들이 모두 나타나는 텍스트 문서들을 검색하는질의로서, 정보검색 시스템에서 가장 널리 사용되는 질의이다. 논리곱 불리언 질의는 검색의 정확도를 높이기 위하여 많은 수의 키워드로 구성된 긴 질의를 사용한다. 이 경우. 키워드 처리 순서가 성능에 크게 영향을 미친다. 기존 정보검색시스템에서는 휴리스틱에 의존하여 키워드 처리 순서를 결정하므로 최적을 보장하지 못한다. 동적 프로그래밍과 같은 기존의 데이타베이스 질의 최적화 알고리즘은 복잡도가 지수적으로 증가하므로(Ο(n2$^{n-1}$)), 키워드 수가 많은 논리곱 불리언 질의에는 적합하지 않다. 본 논문에서는 조인시퀀스 분리성이라는 새로운 개념에 기반한 논리곱 불리언 질의 최적화 알고리즘을 제안한다. 조인 시퀀스 분리성이란 조인에 참여하는 릴레이션들이 어떤 조건을 만족할 경우, 최적 조인 시퀀스가 두 개의 서브 시퀀스로 분리된다는 성질이다. 이 성질을 활용하면 Ο(nlogn)만에 최적 조인 시퀀스를 구할 수 있다. 본 논문에서는 이러한 조인 시퀀스 분리성의 개념을 정형적으로 정의하고 이에 기반한 질의 최적화 알고리즘의 최적성을 이론적으로 증명한다. 그리고, 제안한 질의 최적화 알고리즘의 성능 평가를 위해, 비용 모델을 사용하여 다양한 시뮬레이션을 수행한다. 그 결과, 제안한 알고리즘의 성능이 기존의 휴리스틱 기반 질의 최적화 알고리즘들에 비해 100배 이상 우수함을 보인다. 또한, 동적 프로그래밍 알고리즘에 비해 질의 최적화 시간 면에서 기하 급수적으로 우수함을 보인다(키워드 개수가 10 개일 경우 600배 이상 우수함).

계층적 클러스터링 기법을 이용한 확장 불리언 모델의 적합성 피드백 방법 (Relevance Feedback Method of an Extended Boolean Model using Hierarchical Clustering Techniques)

  • 최종필;김민구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권10호
    • /
    • pp.1374-1385
    • /
    • 2004
  • 적합성 피드백 방법은 다음 검색 질의어와 검색 성능을 향상시키기 위해 사용자로부터 획득된 정보를 사용한다. 일반적으로 적합성 피드백 방법은 사용자로부터 획득된 정보를 새로운 질의어에 추가될 새로운 단어를 찾거나 질의어에 존재하는 단어의 가중치를 조정하는데 사용한다. 그러나 확장 불리언 검색모델에서 적합성 피드백은 이것들뿐만 아니라 질의어에 있는 단어들을 적절하게 불리언 연산자(AND/OR)로 연결시켜야 한다. Salton과 그의 동료들은 확장 불리언 모델을 위한 DNF(disjunctive normal form) 방법이라 불리는 적합성 피드백 방법을 제안하였다. 그렇지만 이 방법은 질의어를 재구성할 때 심각한 문제점을 갖고 있다. 이 논문에서는 DNF 방법의 문제점을 조사하고 이러한 문제점을 극복하기 위해 계층적 클러스터링 기법을 이용한 적합성 피드백 방법을 제안한다. 그리고 두개의 실험 데이타 집합인 TREC 1 의 DOE 컬렉션과 Web TREC 10 컬렉션을 이용하여 제안한 방법의 우수성을 보였다.