• 제목/요약/키워드: query Expansion

검색결과 130건 처리시간 0.02초

인용 지표를 이용한 재순위화 및 질의 확장의 성능 평가 - 인용색인 데이터베이스를 기반으로 - (Performance Evaluation of Re-ranking and Query Expansion for Citation Metrics: Based on Citation Index Databases)

  • 이혜경;이용구
    • 한국문헌정보학회지
    • /
    • 제57권3호
    • /
    • pp.249-277
    • /
    • 2023
  • 본 연구의 목적은 인용 지표가 인용 색인 데이터베이스의 검색성능 향상에 기여할 가능성을 파악하는 데에 있다. 이를 위하여 본 연구는 문헌정보학 분야 10개의 질의를 Web of Science에서 검색하여 수집한 3,467건의 문헌과 2000년부터 2021년까지 SSCI 문헌정보학 분야 저널 85종에 수록된 60,734건의 문헌을 기반으로 적합성 판단을 거쳐, 검색 결과의 상위 100순위에 대한 성능 및 검색 방식과 인용 지표를 활용한 재순위화, 그리고 벡터 공간모형 검색시스템 구축 등에 따른 질의 확장 실험을 수행하였다. 그 결과 첫째, 인용 지표를 단독으로 사용한 재순위화의 성능은 Web of Science의 검색성능과 상이하였으며, 인용 지표는 Web of Science 기존 시스템에 적용되지 않는 독립적인 지표로 작용하고 있었다. 둘째, 고유 질의어 수에 질의어의 총 출현 빈도를 조합하고 인용수를 보조적으로 사용했을 때, 성능에 긍정적인 영향을 미칠 것으로 확인하였다. 셋째, 질의 확장에서는 전반적으로 벡터 공간모형 기반 검색시스템의 기본 성능 대비 성능이 향상되었다. 넷째, 이용자 적합성을 통해 질의 확장을 적용한 경우가 시스템 적합성을 적용한 경우보다 성능이 향상 되었다. 다섯째, 피인용 수를 적합 문헌과 더불어 사용하면 최상위권 내 적합 문헌에서의 순위 변동 가능성을 보여주었다.

단어연상검사법을 이용한 탐색 시소러스 구축에 관한 실험적 연구 (Searching Thesaurus Construction with Word Association Test: A Pilot Study)

  • 한승희
    • 한국문헌정보학회지
    • /
    • 제40권3호
    • /
    • pp.289-304
    • /
    • 2006
  • 본 연구에서는 단어의 의미연상을 이용하여 시소러스를 구축하고. 이 시소러스에 대해 탐색 시소러스로서의 기능성을 확인하기 위해 질의확장 실험을 수행하였다 연상 시소러스 구축을 위해 문헌정보학 분야를 대상으로 단어연상검사를 실시한 후 자극어와 반응어간의 의미관계를 파악하고 반응어와 기존 시소러스의 디스크립터를 비교 분석하였다. 실험 및 분석결과. 단어연상검사를 이용하여 시소러스를 구축하면 기존의 시소러스에 비해 연관관계 용어들을 시소러스에 다양하게 반영할 수 있으며, 통제어휘집에 나타난 하위관계와 동등관계 용어들을 어느 정도 반영할 수 있다는 것을 확인하였다. 또한 질의확장 실험결과 단어연상 시소러스가 기존 시소러스에 비해 비교적 우수한 성능을 보여 단어연상 시소러스가 정보검색환경에서 질의 확장에 응용될 수 있음을 증명하였다.

웹 문서 검색을 위한 검색어 추출과 확장에 관한 연구 (A Study on Keyword Extraction and Expansion for Web Text Retrieval)

  • 윤성희
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권9호
    • /
    • pp.1111-1118
    • /
    • 2004
  • 웹 문서 검색 시스템 사용자에게 자연어 질의를 입력하는 방법은 가장 이상적인 인터페이스이다. 본 논문은 자연어 질의를 입력하는 웹 문서 검색 시스템을 위해 자연어 처리 기술에 기반하여 사용자의 입력 질의 문장을 구문 분석한 후 검색어를 추출하고 확장하는 다중검색 기법을 제안한다. 질의문에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하며, 검색어가 되는 음역어와 축약어들을 확장하여 다중 검색함으로써 재현율과 정확도를 향상시킬수 있음을 보였다.

  • PDF

정보 검색 시스템의 성능 향상을 위한 구문 분석과 검색어 확장 (Syntactic Analysis and Keyword Expansion for Performance Enhancement of Information Retrieval System)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제5권4호
    • /
    • pp.303-308
    • /
    • 2004
  • 자연어 질의문장을 입력하는 방법은 정보 검색 시스템 사용자에게 가장 이상적인 인터페이스이다. 본 논문은 자연어 질의문장을 입력하는 검색 시스템을 위해 자연어 처리 기술에 기반 하여 사용자의 입력 질의 문장을 분석하고 검색어를 확장하는 다중검색 기법을 제안한다. 질의 문에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하고, 이형표기 용어와 축약표기 용어들을 확장하여 다중 검색함으로써 재현율을 11.3%, 정확도를 4.7% 높였다.

  • PDF

질의 응답 시스템에서 심층적 질의 카테고리의 개념 커버리지에 기반한 의미적 질의 확장 (Semantic Query Expansion based on Concept Coverage of a Deep Question Category in QA systems)

  • 김혜정;강보영;이상조
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.297-303
    • /
    • 2005
  • 질의응답(Question Answering) 시스템은 질의에서 요구하는 정답 유형(Answer type) 및 질의에 사용된 용어를 적용하여 보다 정확한 답을 추출하고자 한다. 그러나 질의에 사용된 용어들이 문서에 그대로 사용되지 않고 같은 의미의 다른 어휘로 출현하기도 하며, 흑은 다른 문법적 정보를 가진 카테고리에 등장하여 정답 추출에 어려움이 따른다. 만약, 질의에서 요구하는 정보유형을 보다 깊게 세분화하고, 세분화된 질의 유형과 개념적으로 유사한 문장을 대상으로 정답 추출을 수행할 수 있다면 보다 정확한 정답을 추출할 수 있을 것이다. 따라서, 본 논문은 심층 질의 카테고리의 개념 커버리지에 기반한 효과적인 의미적 질의 확장 방법론을 제안한다. 질의에서 요구하는 정보 유형을 보다 세분화된 심충 질의 카테고리로 나누고, 이러한 심층 질의 카테고리를 표현하기 위해 동원되는 어휘 집합에 질의 확장을 적용함으로써 정답 추출의 성능을 향상시키고자 하였다. 제안된 시스템의 성능 평가를 위하여, TREC 문서 중 1991년도 WSJ(Wall Street Journal) 42,654건과 TREC-9의 질의를 대상으로 실험한 결과 질의 확장을 수행하지 않는 시스템의 경우 MRR(Mean reciprocal ratio) 측정에서 0.223의 결과를 보인 반면 제안된 시스템의 경우 0.50의 향상된 결과를 보였다.

MeSH 기반의 LDA 토픽 모델을 이용한 검색어 확장 (The MeSH-Term Query Expansion Models using LDA Topic Models in Health Information Retrieval)

  • 유석진
    • 한국도서관정보학회지
    • /
    • 제52권1호
    • /
    • pp.79-108
    • /
    • 2021
  • 헬스 분야에서 정보 검색의 어려움 중의 하나는 일반 사용자들이 전문적인 용어들을 이해하기가 어렵다는 점이다. 헬스와 관련된 전문 용어들은 일반 사용자들이 검색어로 사용하기 어렵기 때문에 이러한 전문 용어들이 자동적으로 검색어에 더해질 수 있다면 좀 더 검색의 효과를 높일 수 있을 것이다. 제안된 검색어 확장 모델은 전문 용어를 포함하는 MeSH(Medical Subject Headings)를 검색어 확장을 위한 단어 후보 군으로 이용하였다. 문서들은 MeSH용어들로 표현이 되고 이렇게 표현된 문서들의 집합에 대해서 LDA(Latent Dirichlet Analysis) 토픽들이 생성된 후, (검색어+초기 검색어에 의해 검색된 상위 k개 문서들)에 연관된 토픽 단어들이 원래의 검색어를 확장하는 데 쓰여졌다. MeSH로 구성된 토픽 단어들은 임의로 정해진 토픽 확률 임계값과 토픽을 구성하는 단어의 확률 임계값보다 높았을 때 초기의 검색어에 포함되었다. 특정수의 토픽을 갖는 LDA 모델에서 이러한 적절한 임계값의 설정을 통해 선택된 토픽 단어들은 검색어 확장에 이용되어 검색시에 infAP(inferred Average Precision)와 infNDCG(inferred Normalized Discounted Cumulative Gain)를 높이는데 효과적으로 작용하였다. 또한 토픽 확률값과 토픽 단어의 확률값을 곱하여 계산된 토픽 단어의 스코어가 높은 상위 k개의 단어를 검색어를 확장하는 데 이용하였을 때에도 검색의 성능이 향상될 수 있음을 확인하였다.

한국어 시소러스를 이용한 웹 문서 추천 에이전트 (A Web-document Recommending System using the Korean Thesaurus)

  • 서민혜;이성욱;서정연
    • 한국정보통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.103-109
    • /
    • 2009
  • 우리는 사용자의 행동을 관찰하고 학습하여 사용자 대신에 문서를 수집 분석함으로써 사용자에게 필요한 정보만을 추출하여 제공하는 웹 문서 추천 에이전트 시스템을 개발한다. 또한 우리는 이 시스템에 한국어 시소러스를 이용한 질의어 확장 방법의 적용을 제안한다. 한국어 시소러스를 이용한 질의어 확장을 위해, 새로운 웹 문서를 검색하기 위해 생성된 질의어를 한국어 시소러스를 통하여 그 하의어들을 찾아 후보 집합을 생성해 주고, TF-IDF와 상호 정보량을 이용하여 후보 집합 안에 있는 단어 들 중에서 질의어와 가장 많은 관련 정보를 가지고 있는 단어를 추출함으로써 질의어를 확장해 주었다. 확장되지 않은 질의어만으로 웹 문서를 추천하게 되면 추천된 웹 문서의 수는 극히 제한적이지만, 질의어를 확장함으로써 보다 더 많은 유용한 웹 문서를 사용자에게 추천 및 제공 할 수 있다.

An efficient spatio-temporal index for spatio-temporal query in wireless sensor networks

  • Lee, Donhee;Yoon, Kyoungro
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권10호
    • /
    • pp.4908-4928
    • /
    • 2017
  • Recent research into wireless sensor network (WSN)-related technology that senses various data has recognized the need for spatio-temporal queries for searching necessary data from wireless sensor nodes. Answers to the queries are transmitted from sensor nodes, and for the efficient transmission of the sensed data to the application server, research on index processing methods that increase accuracy while reducing the energy consumption in the node and minimizing query delays has been conducted extensively. Previous research has emphasized the importance of accuracy and energy efficiency of the sensor node's routing process. In this study, we propose an itinerary-based R-tree (IR-tree) to solve the existing problems of spatial query processing methods such as efficient processing and expansion of the query to the spatio-temporal domain.

질의기반 사용자 프로파일을 이용하는 개인화 웹 검색 (Personalized Web Search using Query based User Profile)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제17권2호
    • /
    • pp.690-696
    • /
    • 2016
  • 사용자 입력 질의와 웹 문서에 포함된 단어들의 형태적 일치를 검사하여 관련 문서를 검색하는 검색엔진은 사용자의 개인별 관심 분야를 반영하는 검색 결과를 생성하기 어렵다. 본 논문에서는 개인별 관심사를 파악하여 질의 의도에 적합한 내용의 문서를 검색하는 개인화된 웹 검색 방법을 제안한다. 개인화 검색의 성능은 사용자의 개인적 관심사를 정확하게 표현하는 우수한 사용자 프로파일을 생성하는 전략에 좌우된다. 본 연구에서 개인 프로파일은 사용자가 최근 입력한 질의어들과 검색에서 클릭했던 문서들에 나타나는 주제어들이 출현 빈도를 반영한 가중치와 함께 등록된 데이터베이스이다. 특히 중의적 질의어의 정확한 의미를 결정하기 위해 워드넷을 기반으로 프로파일에 등록된 단어들과 의미 유사도를 계산한다. 기존 웹 검색 시스템의 사용자 측에 질의확장 모듈과 순위재계산 모듈을 추가하는 확장모듈을 구축하여 비교 실험하였으며, 본 연구의 방법을 적용한 개인화 웹 검색의 결과는 특히 10위 이내 상위의 결과 문서들에 대해 92%의 정확률과 82%의 재현율을 보여 향상된 성능을 검증하였다.