• 제목/요약/키워드: query Expansion

검색결과 130건 처리시간 0.023초

사용자 개인 프로파일을 이용한 개인화 검색 기법 (Personalized Search Technique using Users' Personal Profiles)

  • 윤성희
    • 한국전자통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.587-594
    • /
    • 2019
  • 본 논문은 사용자의 검색 의도와 개별 관심을 반영한 순위화된 검색 결과 문서를 제공하는 개인화 검색 기법을 제안한다. 개인화 검색에서는 사용자의 개별 관심사와 선호도를 정확하게 판별하기 위한 사용자 프로파일을 생성하는 기술이 개인화 검색의 성능을 좌우한다. 개인 프로파일은 사용자의 최근 입력 질의어들과 검색과정에서 참조했던 문서들에 나타나는 주제어들의 가중치와 빈도가 기록된 데이터 집합이다. 사용자 프로파일은 웹 검색에 앞서 사용자의 입력 질의어를 개인화된 질의어들로 확장하기 위해 사용된다. 중의적 질의어의 정확한 의미를 결정하기 위해서 워드넷을 사용하여 프로파일에 등록된 단어들과 의미 유사도를 계산한다. 검색 시스템의 사용자 측에 질의확장 모듈과 순위 재계산 모듈을 확장모듈로 구축하여 진행한 실험에서 개인화 검색 기술을 적용한 실험 결과가 상위문서들에 대해서 정확률과 재현률이 크게 향상된 성능을 보이고 있다.

검색 성능 향상을 위한 약품 온톨로지 기반 연관 피드백 (Relevance Feedback based on Medicine Ontology for Retrieval Performance Improvement)

  • 임수연
    • 정보관리학회지
    • /
    • 제22권2호
    • /
    • pp.41-56
    • /
    • 2005
  • 기계가 정보의 의미를 이해하고 처리할 수 있도록 기존의 웹을 확장하는 것을 목적으로 하는 시멘틱 웹은 온톨로지를 이용하여 지식을 공유하게 된다. 본 논문에서는 정교한 질의의 처리를 위하여 온톨로지 내에 존재하는 의미 관계들을 질의의 확장을 위한 연관피드백 정보로 이용하는 방안을 제안한다. 실험은 도메인 온톨로지인 Medicine 온톨로지를 대상으로 하였으며, 출현 용어들의 빈도정보만을 이용한 키워드 기반 문서검색과 제안한 온톨로지기반 문서검색의 성능을 비교하였다. 이 때, 두 시스템의 정확률과 재현율을 성능 평가의 기준으로 삼았다. 그 결과, 검색 엔진은 온톨로지에 정의된 개념들과 규칙들을 활용하면서 검색의 정확률을 향상시키는데 도움이 되었고 검색 성능을 향상시키기 위한 추론의 기반으로도 사용될 수 있었다.

상호정보량의 정규화에 대한 연구 (A Study on Relative Mutual Information Coefficients)

  • 이재윤
    • 한국문헌정보학회지
    • /
    • 제37권4호
    • /
    • pp.178-198
    • /
    • 2003
  • 상호정보량은 용어간 유사도 산출을 비롯한 다양한 분야에서 연관성 척도로 사용되어왔다. 그러나 값의 범위가 일정하지 않으며 지나치게 저빈도인 경우를 선호하는 경향이 제한점으로 지적되고 있다. 이런 점을 보완하기 위해서 상호정보량을 정규화하는 상대적 상호정보량 계수를 제안하였다. 제안된 계수의 특성을 알아본 다음, 세 실험집단을 대상으로 전역적(global) 질의확장 검색을 수행한 결과 검색 성능을 향상시킬 수 있었다.

구조화된 소셜 메타데이터를 활용한 이미지 자료의 시맨틱 검색에 관한 실험적 연구 (An Experimental Study on Semantic Searches for Image Data Using Structured Social Metadata)

  • 김현희;김용호
    • 한국문헌정보학회지
    • /
    • 제44권1호
    • /
    • pp.117-135
    • /
    • 2010
  • 본 연구는 이미지의 시맨틱 검색을 위해서 동등어, 동의어 및 관련어를 질의 확장시에 사용하여 태그를 통제한 구조화된 폭소노미 시스템의 모형을 제안하였다. 그런 다음 제안한 시스템의 효율성을 평가하기 위해서 실험을 통해서 이 시스템을 태그를 전혀 통제하지 않은 태그 기반 시스템과 검색 효율성(재현율과 정확률)과 만족도 측면에서 비교해 보았다. 이외에 검색 효율성이 질의 확장 방식에 따라서 어떤 차이를 보이는지 조사해 보았다. 실험 결과, 제안된 구조화된 폭소노미 시스템이 태그 기반 시스템 보다 재현율, 정확률 및 만족도에서 더 높게 나타났으며 그 차이도 통계적으로 유의미한 것으로 나타났다. 한편 질의 확장 방식에 따라서 재현율은 차이가 없었지만 정확률은 부분적으로 차이가 있는 것으로 나타났다. 본 연구 결과는 라이브러리 2.0 시대의 디지털 도서관 시스템에 적용되어 디지털 자원에 대한 접근성을 향상시킬 수 있을 것이다.

문서 확장을 이용한 표제어 검색시스템 (Headword Finding System Using Document Expansion)

  • 김재훈;김형철
    • 정보관리연구
    • /
    • 제42권4호
    • /
    • pp.137-154
    • /
    • 2011
  • 표제어 검색시스템은 뜻풀이를 질의로 간주하는 정보검색 시스템이다. 이러한 시스템을 구축하기 위한 가장 간단한 방법으로 사전의 표제어 뜻풀이(사전 뜻풀이)를 문서로 간주하는 정보검색 시스템을 구축하는 것이다. 이 문서의 길이가 너무 짧아 사용자 질의(사용자 뜻풀이)에 대한 적절한 표제어를 검색하기 어렵다. 이 문제를 완화하기 위해서 본 논문에서는 정보검색에서 사용되는 질의 확장 개념을 문서 확장에 적용한다. 본 논문에서는 문서 확장 방법으로는 뜻풀이 확장과 유의어 확장을 사용한다. 뜻풀이 확장은 주어진 단어의 사전 뜻풀이에 속하는 단어의 뜻풀이를 문서에 포함시키는 방법이고, 유의어 확장은 무자질 군집화 알고리즘을 통해서 유의어를 찾고, 찾아진 유의어를 문서에 포함시키는 방법이다. 제안된 표제어 검색시스템은 사전 뜻풀이 그 자체를 입력으로 할 때, 16-포함률이 거의 100%에 달하였다. 또한 사용자 뜻풀이를 입력으로 할 때, 20-포함률이 66.9%였다. 사용자 뜻풀이가 단어의 의미를 충분히 전달할 수 없는 것으로 관찰되었으며 앞으로 정확하고 객관적인 평가를 위해서 평가 집합에 대한 연구가 추가적으로 필요한 실정이다.

재사용 부품 검색 시스템에서 객체기반 시소러스를 이용한 패싯 질의의 확장 (Facet Query Expansion with an Object-Based Thesaurus in Reusable Component Retrieval Systems)

  • 최재훈;김기헌;양재동;이동길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권2호
    • /
    • pp.168-179
    • /
    • 2000
  • 패싯기반 재사용 부품 검색 시스템에서 사용자가 검색하고자 하는 부품들의 특징은 일반적으로 패싯 질의에 의해 명시된다. 본 논문에서는 객체기반 시소러스를 이용하여 사용자의 검색 요구를 명확히 표현할 수 있는 확장된 패싯 질의를 정형화하며, 이 질의를 평가할 수 있는 부품 검색 시스템을 설계하고 구현한다. 시스템의 정확한 검색을 위해 사용자 질의는 검색하고자 하는 부품들의 특징을 구체적으로 명시할 수 있어야 한다. 그러나, 기존의 패싯 질의는 단지 사용자에 의해 직접 입력된 패싯 값들의 나열로만 표현되기 때문에 구체적인 사용자 의도를 자연스럽게 표현할 수 없다는 단점을 가지고 있다. 본 논문에서 정형화되는 확장된 패싯 질의는 이 단점을 보완하기 위해 퍼지 불리언 연산자와 객체기반 시소러스를 이용한다. 전자는 패싯 질의와 관련 부품에 대한 퍼지 연관 정도를 논리적으로 표현할 수 있게 하며, 후자는 사용자가 구체적인 의미의 패싯 값들을 질의에 쉽게 이용할 수 있도록 한다. 즉, 사용자는 시소러스 질의를 통해 자신의 의도와 의미적으로 일치하는 패싯 값들을 그 퍼지 관련 정도와 함께 시소러스로부터 효과적으로 탐색할 수 있으며, 사용자가 요구할 경우 검색 시스템은 이들을 이용하여 퍼지 패싯 질의를 자동으로 구성할 수도 있다.

  • PDF

SQUERY : 공간 추론과 기하학적 연산 기능을 포함한 공간 질의 처리기 (SQUERY : A Spatial Query Processor with Spatial Reasoning and Geometric Computation)

  • 김종환;김인철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권7호
    • /
    • pp.452-457
    • /
    • 2015
  • 본 논문에서는 공간 객체들 간의 위상 관계와 방향 관계에 관한 다양한 정성적, 정량적 질의 처리 기능을 제공할 뿐만 아니라, 초기 지식 베이스에 관한 공간 추론을 통해 보다 풍부한 질의 결과를 도출할 수 있는 공간 질의 처리기인 SQUERY를 제안한다. 본 논문에서 제안하는 공간 질의 처리기는 풍부한 질의 결과 도출을 위해, 초기 공간 지식베이스에 전향 공간 추론을 수행하여 공간 지식베이스를 미리 확장해둔다. 또한, 본 시스템은 공간 객체들 간의 위상 및 방향 관계를 나타내는 정성적 공간 지식들뿐만 아니라, 개별 공간 객체의 기하학적 데이터를 포함하는 정량적 공간 지식들도 기하학적 연산을 통해 공간 질의 처리에 이용할 수 있는 기능을 제공한다. OSM(Open Street Map) 공간 지식 베이스를 이용한 실험을 통해, 본 논문에서 제안하는 공간 질의 처리기의 높은 성능을 확인할 수 있었다.

2계층 유사관계행렬 구축을 통한 질의 처리 (Fuzzy Query Processing through Two-level Similarity Relation Matrices Construction)

  • 이기영
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권10호
    • /
    • pp.587-598
    • /
    • 2003
  • 본 연구에서는 학술논문을 대상으로 하여 표제와 초록에 대한 2단계 색인어 유사관계행렬을 구축하였다. 동시출현빈도 기반으로 구축된 색인어 유사관계행렬은 호환관계에 따른 질의 확장으로 재현률을 유지하면서 2단계 내용기반 검색으로 정확률을 향상시키기 위한 색인구조이다. 따라서, 주제 분석을 통해 영역지식을 추출하고 이용자의 정보 요구와 영역지식을 퍼지논리 기반으로 추론하였다. 본 연구는 질의에 본질적으로 가지고 있는 용어 불일치 및 정보표현을 향상시키기 위한 연구이다.

  • PDF

고속 음성 문서 검색을 위한 Expected Matching Score 기반의 문서 확장 기법 (Expected Matching Score Based Document Expansion for Fast Spoken Document Retrieval)

  • 서민구;정규준;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 추계학술대회 발표논문집
    • /
    • pp.71-74
    • /
    • 2006
  • Many works have been done in the field of retrieving audio segments that contain human speeches without captions. To retrieve newly coined words and proper nouns, subwords were commonly used as indexing units in conjunction with query or document expansion. Among them, document expansion with subwords has serious drawback of large computation overhead. Therefore, in this paper, we propose Expected Matching Score based document expansion that effectively reduces computational overhead without much loss in retrieval precisions. Experiments have shown 13.9 times of speed up at the loss of 0.2% in the retrieval precision.

  • PDF

Topic Level Disambiguation for Weak Queries

  • Zhang, Hui;Yang, Kiduk;Jacob, Elin
    • Journal of Information Science Theory and Practice
    • /
    • 제1권3호
    • /
    • pp.33-46
    • /
    • 2013
  • Despite limited success, today's information retrieval (IR) systems are not intelligent or reliable. IR systems return poor search results when users formulate their information needs into incomplete or ambiguous queries (i.e., weak queries). Therefore, one of the main challenges in modern IR research is to provide consistent results across all queries by improving the performance on weak queries. However, existing IR approaches such as query expansion are not overly effective because they make little effort to analyze and exploit the meanings of the queries. Furthermore, word sense disambiguation approaches, which rely on textual context, are ineffective against weak queries that are typically short. Motivated by the demand for a robust IR system that can consistently provide highly accurate results, the proposed study implemented a novel topic detection that leveraged both the language model and structural knowledge of Wikipedia and systematically evaluated the effect of query disambiguation and topic-based retrieval approaches on TREC collections. The results not only confirm the effectiveness of the proposed topic detection and topic-based retrieval approaches but also demonstrate that query disambiguation does not improve IR as expected.