• 제목/요약/키워드: Boolean retrieval

검색결과 58건 처리시간 0.029초

색인파일 기반의 질의어 확장용 지식베이스 구축에 관한 연구 (A Study of Designing the Knowledge Base System for the Query Extension by Index File)

  • 서휘
    • 한국도서관정보학회지
    • /
    • 제40권2호
    • /
    • pp.139-159
    • /
    • 2009
  • 본 연구의 목적은 이용자 지향적인 정보검색을 수행하기 위한 질의확장용 지식베이스를 구축하는 것이다. 이를 위해 개념기반 정보검색방법과 통계적 기반 정보검색방법을 이용한 지식베이스 구축에 관련된 다양한 이론 연구를 수행하였다. 이들 지식베이스 구축방법에 있어서 공통된 가설은 연관용어의 출현은 문헌집합내의 동시출현 빈도임을 재확인하였고, 이 가설을 근거로 색인파일 알고리즘과 부울 논리의 And 연산자를 이용하여 질의확장용 지식베이스를 구축하였다. 본 지식베이스의 실험 주제는 교육학이며, 교육학개론이란 단행본을 이용하여 색인어들의 연관용어를 자동으로 제시해줄수 있는 실험용 지식베이스를 구축하였다. 실험용 지식베이스는 자연어색인방법과 통제어색인방법을 이용하여 두 개의 지식베이스를 구축해 각 지식베이스 시스템의 질의확장 성능에 대한 평가 작업을 수행하였다.

  • PDF

자동색인기 성능시험을 위한 Test Set 개발 (A Development of the Test Set for Estimating the Retrieval Performance of an Automatic Indexer)

  • 김성혁;서은경;이원규;김명철;김영환;김재군
    • 정보관리학회지
    • /
    • 제11권1호
    • /
    • pp.81-102
    • /
    • 1994
  • 다양한 정보를 신속, 정확하게 제공할 수 있는 정보검색시스템은 선진국에서 일찍이 개발되어 현재 우리나라에서도 한국어 데이타베이스를 검색할 수 있는 정보검색시스템이 실험적으로 또는 상업적으로 개발되고 있다. 이에 따라 개발된 시스템의 실행 가능성 테스트 (feasibility test)가 계속 부수적으로 수행되어 왔으나 평가 테스트들의 객관성 부족으로 인하여 개발된 정보검색시스템의 성능 또한 논쟁이 되어왔다. 이에 본 연구는 한국어 정보검색시스템과 자동색인기의 객관적인 성능평가를 위하여 실험 데이타 컬렉션을 개발하였다. 실험데이타 컬렉션은 정보과학회논문지, 한국정보과학회 1993 proceedings, 정보관리학회지에 수록된 1,053개의 논문으로 구성되었다. 입력된 모든 데이타는 국문 및 영문 저자, 서명, 서지사항, 초록, 분류번호, 색인어 등 18개의 access point를 지니며, 한국어 문헌 set 구축이외에 test set과 관련된 질의문을 작성하였고 질의문에 해당하는 적합문헌을 제시해 주었다.

  • PDF

대학생들의 웹 기반 OPAC 검색기법 선호도와 혈액형에 대한 실험적 연구 (College Students' Preferences of Web-based OPAC Retrieval Techniques and their Blood Types: An Empirical Study)

  • 김희섭
    • 한국문헌정보학회지
    • /
    • 제44권3호
    • /
    • pp.81-102
    • /
    • 2010
  • 본 연구의 목적은 우리나라 대학생들의 웹 기반 OPAC 검색기법에 대한 선호도를 분석하고 더불어 ABO식 혈액형에 따른 검색기법 선호도의 차이가 있는지를 실험적 연구를 통하여 분석하는 것이다. 데이터 수집은 자체개발한 설문지를 통하여 이루어졌고, K대학교 사회과학대학 재학생 101명으로부터 응답을 받았다. 수집된 데이터는 SPSS Windows Ver. 17.0을 사용하여 검색기법 선호도를 분석하기 위해서는 기술통계를, 혈액형에 따른 검색기법의 선호도를 분석을 위해서는 일원배치 분산분석을 각각 사용하였다. 데이터분석 결과 대학생들은 접근점으로 자료명을, 블리언 연산자로는 AND를, 제한검색으로는 발행연도와 주제분류를, 결과출력으로는 페이지당 출력건수 제한검색을 선호하는 것으로 나타났다. 검색기법 선호도와 서로 다른 ABO 혈액형 유형간의 차이에 대한 가설검정결과 전체 22가지 항목 중 3가지 항목이 채택되었다.

P-norm 검색의 문헌 순위화 기법에 관한 실험적 연구 (A Study of Document Ranking Algorithms in a P-norm Retrieval System)

  • 고미영;정영미
    • 정보관리학회지
    • /
    • 제16권1호
    • /
    • pp.7-30
    • /
    • 1999
  • 본 연구의 목적은 문헌의 구조에 근거한 비통계적 용어 가중치 기법을 사용함으로써 기존의 불 논리 검색 시스템에 용이하게 적용될 수 있는 P-norm 검색의 효과적인 문헌 순위화 기법을 찾아내는 데 있다. 또한 용어 가중치를 사용하여 검색 된 문헌들을 대상으로 상위문헌 몇 개와 유사도가 높은 문헌의 순위를 높여주는 순위 조정 과정을 추가하여 검색성능을 더욱 향상시킬 수 있도록 하였다. 비통계적 가중치 기법으로는 필드 가중치와 근접거리 가중치를 사용하였고, 통계적 기법을 이용한 검색도 실시하여 검색성능을 비교하였다. 순위 조정 실험에서는 문헌간의 유사도 측정의 기준에 되는 상위문헌수를 1건으로 사용하는 경우부터 5건으로 사용하는 경우까지 5번에 걸친 실험을 실시하였다. 실험결과 비통계적 가중치 기법은 통계적 기법보다 더욱 효과가 있었고, 순위 조정 과정은 전반적으로 검색효율이 크게 향상되는 것으로 밝혀졌다.

  • PDF

재사용 부품 검색 시스템에서 객체기반 시소러스를 이용한 패싯 질의의 확장 (Facet Query Expansion with an Object-Based Thesaurus in Reusable Component Retrieval Systems)

  • 최재훈;김기헌;양재동;이동길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권2호
    • /
    • pp.168-179
    • /
    • 2000
  • 패싯기반 재사용 부품 검색 시스템에서 사용자가 검색하고자 하는 부품들의 특징은 일반적으로 패싯 질의에 의해 명시된다. 본 논문에서는 객체기반 시소러스를 이용하여 사용자의 검색 요구를 명확히 표현할 수 있는 확장된 패싯 질의를 정형화하며, 이 질의를 평가할 수 있는 부품 검색 시스템을 설계하고 구현한다. 시스템의 정확한 검색을 위해 사용자 질의는 검색하고자 하는 부품들의 특징을 구체적으로 명시할 수 있어야 한다. 그러나, 기존의 패싯 질의는 단지 사용자에 의해 직접 입력된 패싯 값들의 나열로만 표현되기 때문에 구체적인 사용자 의도를 자연스럽게 표현할 수 없다는 단점을 가지고 있다. 본 논문에서 정형화되는 확장된 패싯 질의는 이 단점을 보완하기 위해 퍼지 불리언 연산자와 객체기반 시소러스를 이용한다. 전자는 패싯 질의와 관련 부품에 대한 퍼지 연관 정도를 논리적으로 표현할 수 있게 하며, 후자는 사용자가 구체적인 의미의 패싯 값들을 질의에 쉽게 이용할 수 있도록 한다. 즉, 사용자는 시소러스 질의를 통해 자신의 의도와 의미적으로 일치하는 패싯 값들을 그 퍼지 관련 정도와 함께 시소러스로부터 효과적으로 탐색할 수 있으며, 사용자가 요구할 경우 검색 시스템은 이들을 이용하여 퍼지 패싯 질의를 자동으로 구성할 수도 있다.

  • PDF

내용기반 음악검색 시스템의 비교 분석 (A Comparative Analysis of Content-based Music Retrieval Systems)

  • 노정순
    • 정보관리학회지
    • /
    • 제30권3호
    • /
    • pp.23-48
    • /
    • 2013
  • 본 연구는 웹에서 접근 가능한 내용기반 음악검색(CBMR) 시스템들을 조사하여, 탐색질의의 종류, 접근점, 입출력, 탐색기능, 데이터베이스 성격과 크기 등의 관점에서 특성을 비교 분석하고자 하였다. 비교 분석에 사용된 특성을 추출하기 위해 내용기반 음악정보의 특성과 시스템 구축에 필요한 파일의 변환, 멜로디 추출 및 분할, 색인자질 추출과 색인, 매칭에 사용되는 기술들을 선행연구로 리뷰하였다. 15개의 시스템을 분석한 결과 다음과 같은 특성과 문제점이 분석되었다. 첫째, 도치색인, N-gram 색인, 불리언 탐색, 용어절단검색, 키워드 및 어구 탐색, 음길이 정규화, 필터링, 브라우징, 편집거리, 정렬과 같은 텍스트 정보 검색 기법이 CBMR에서도 검색성능을 향상시키는 도구로 사용되고 있었다. 둘째, 시스템들은 웹에서 크롤링하거나 탐색질의를 DB에 추가하는 등으로 DB의 성장과 실용성을 위한 노력을 하고 있었다. 셋째, 개선되어야 할 문제점으로 선율이나 주선율을 추출하는데 부정확성, 색인자질을 추출할 때 사용되는 불용음(stop notes)을 탐색질의에서도 자동 제거할 필요성, 옥타브를 무시한 solfege 검색의 문제점 등이 분석되었다.

A Study on Improving the Effectiveness of Information Retrieval Through P-norm, RF, LCAF

  • Kim, Young-cheon;Lee, Sung-joo
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제2권1호
    • /
    • pp.9-14
    • /
    • 2002
  • Boolean retrieval is simple and elegant. However, since there is no provision for term weighting, no ranking of the answer set is generated. As a result, the size of the output might be too large or too small. Relevance feedback is the most popular query reformulation strategy. in a relevance feedback cycle, the user is presented with a list of the retrieved documents and, after examining them, marks those which are relevant. In practice, only the top 10(or 20) ranked documents need to be examined. The main idea consists of selecting important terms, or expressions, attached to the documents that have been identified as relevant by the user, and of enhancing the importance of these terms in a new query formulation. The expected effect is that the new query will be moved towards the relevant documents and away from the non-relevant ones. Local analysis techniques are interesting because they take advantage of the local context provided with the query. In this regard, they seem more appropriate than global analysis techniques. In a local strategy, the documents retrieved for a given query q are examined at query time to determine terms for query expansion. This is similar to a relevance feedback cycle but might be done without assistance from the user.

연관색인법(聯關索引法)의 이론(理論)과 실제(實際) (Relational indexing: theory and practice)

  • 김태수
    • 정보관리학회지
    • /
    • 제1권1호
    • /
    • pp.25-42
    • /
    • 1984
  • 정보(情報)의 축적(蓄積)과 검색(檢索)을 위한 개념(槪念) 조직과정(組織過程)에서는 개념(槪念) 뿐만 아니라 이들 개념간(槪念間)의 상관관계(相關關係)가 명확히 표현되어야 하며 이를 위해서는 인간(人間)의 사고과정(思考科程)에 기초해야 한다. 연관색인법(聯關索引法)에서는 9개의 연관기호(聯關記號)를 통하여 문신 중에서 각 개념간의 관계표현이 가능하며 이들 개념을 순열(順列)시키므로써 주제색인(主題索引)으로서의 기능을 수행할 수 있으며 기존의 색인(索引)시스템에 비해 검색효율의 개선(改善)을 초래할 수 있을 것이다.

  • PDF

정보검색을 위한 자연언어 질의어의 불리언 질의로의 변환 (A System for converting natural language queries Into boolean queries for Information Retrieval)

  • 서광준;최기선;나동열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.258-261
    • /
    • 1994
  • 자연언어 인터페이스는 초보자나 비숙련가의 입장에서는 새로운 시스템의 적응에 있어서 어떤 학습도 필요하지 않다는 장점이 있다. 이 연구에서는 불리언 질의를 처리하는 정보검색 시스템의 자연언어 인터페이스를 구혐하였다. 즉, 한국어 자연언어 질의를 불리언 질의로 변환해주는 시스템이다. 접근 방법은 먼저 자연언어 질의를 구문 해석한 후에, 그 결과인 문자의 의존 구조와 불용어 정보를 사용하여 기본적인 불리언 질의를 만든다음, 시소러스를 이용하여 불리언 질의를 확장한다. 여기에서 사용한 구문 해석 방법은 기존 문법에 기반한 방법이다. 변환 시스템은 SPARC-II 호환기종에서 구현되었으며, 약 5만 단어의 사전을 사용한다. 가공된 120 개의 질의를 대상으로 실험한 결과, 전체 소요시간은 13.5초가 걸렸다. 그리고, 변환된 불리언 연산식중에 110개가 적절하게 변환된 것으로 조사되었다.

  • PDF

불리언 질의 최적화에 관한 연구 (A Study on Boolean Query Optimization in Information Retrieval)

  • 주원균;이민호;강무영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1879-1882
    • /
    • 2002
  • 본 논문에서는 불리언 모델을 지원하는 정보검색 시스템에서 사용자로부터 입력받은 불리언 질의를 효율적으로 연산하기 위한 3 가지 방법을 제안한다. 첫째, 불리언 대수를 사용하여 형태적으로 불필요한 노드를 제거한다. 둘째 색인어 출현 빈도 정보를 사용함으로써 빈도 0 을 가지는 노드와 이를 포함하는 노드의 연산 제외 여부를 결정하고, 연산 수행 시 시간이 적게 걸리는 순으로 피 연산자와 연산자의 순서를 재배열한다. 셋째, 불리언 질의 내에 복합 명사가 포함되어 있을 경우 구성 명사와 연산자의 조합을 이용한 질의 확장을 실시한다. 처음 두 가지 방법은 검색 속도의 향상을, 세 번째 방법은 정확도의 향상을 목표로 한다.

  • PDF