• Title/Summary/Keyword: 질의어 분해 및 확장

Search Result 4, Processing Time 0.021 seconds

Query expansion by Similar words Using LSI (잠재적 의미 색인을 이용한 유사 질의어 확장)

  • Lim, Tae Hun;An, Dong Un;Chung, Seong Jong
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.165-169
    • /
    • 2009
  • 오늘날 인터넷 검색은 하루가 다르게 발전되고 있다. 주로 키워드 매칭에 의존을 둔 지금의 검색 서비스들은 사용자 중심의 아이템들을 개발해 정보검색의 경과시간 및 결과의 분류면에서 우수함을 보여주고 있다. 질의어의 의미에 유사한 검색은 아직은 발전하는 단계로, 내용에 기반을 둔 검색 환경에 초점이 맞춰지고 있다. 이와 관련하여 행렬의 특이치 분해(SVD)를 이용한 잠재적 의미 색인 기법(LSI)을 본 연구에서 다루고자 한다. 구축한 시스템의 성능 평가는 재현도 계산으로 비교되었는데 작은 크기의 특이값(singular value)들 생략에 의한 SVD의 성능과 그것을 재이용, 질의어에 대한 의미 구조상 근접한 용어들을 찾아 질의어를 확장한 후 적합한 문서들의 검색을 사용한 특이값 개수, 유사단어 확장 개수를 달리하여 실험하였다. 실험 결과, 특이값 2개를 사용한 잠재적 의미 색인이 특이값 3개를 사용한 잠재적 의미 색인보다 보다 나은 성능을 보였다. 그리고 조건을 달리한 모든 잠재적 의미 색인의 경우 단어 매칭에 의한 적합문서 검색보다 별 뚜렷한 나은 결과는 보이지 않았다. 하지만 의미적으로 관계가 깊은 유사어들을 찾아냈고, 의미적으로 가장 관계 깊은 문서를 대부분의 경우에서 순위 1위로 찾아내는 부분적 우수함을 보였다.

  • PDF

Design and Implementation of Tag Coupling-based Boolean Query Matching System for Ranked Search Result (태그결합을 이용한 불리언 검색에서 순위화된 검색결과를 제공하기 위한 시스템 설계 및 구현)

  • Kim, Yong;Joo, Won-Kyun
    • Journal of the Korean Society for information Management
    • /
    • v.29 no.4
    • /
    • pp.101-121
    • /
    • 2012
  • Since IR systems which adopt only Boolean IR model can not provide ranked search result, users have to conduct time-consuming checking process for huge result sets one by one. This study proposes a method to provide search results ranked by using coupling information between tags instead of index weight information in Boolean IR model. Because document queries are used instead of general user queries in the proposed method, key tags used as queries in a relevant document are extracted. A variety of groups of Boolean queries based on tag couplings are created in the process of extracting queries. Ranked search result can be extracted through the process of matching conducted with differential information among the query groups and tag significance information. To prove the usability of the proposed method, the experiment was conducted to find research trend analysis information on selected research information. Aslo, the service based on the proposed methods was provided to get user feedback for a year. The result showed high user satisfaction.

A Study on Extraction for Korean Information Retrieval System (한국어 정보검색을 위한 색인어 추출방법에 관한 연구)

  • Choi, Soon-Woo;Kim, Sang-Bum;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.73-80
    • /
    • 2003
  • 본 논문에서는 색인 방법에 따른 한국어 정보검색시스템의 성능차이를 살펴보고 이를 분석하여 보다 검색성능을 높이기 위한 색인어 추출방법을 제안한다. 이를 위해 기존의 대표적인 색인법이라 할 수 있는 명사단위 색인법, 형태소 단위 색인법, 바이그램 단위 색인법, 어절단위 색인법에 대하여 실험을 통한 비교분석을 하였고, 질의별 분석을 통해 검색성능에 영향을 주는 요소들을 찾아내었다. 그 결과 빈칸, 면사분해, 명사, 동사, 형용사, 숫자등을 포함한 실질 형태소, 형식형태소의 제거, 외래어 등 추정명사의 분해 및 발음확장, 후방 단음절 명사로 구성된 복합명사의 분해, 의미를 변절시키는 바이그램 제거, 분해된 명사 수에 따른 복합명사 첨가 및 제거 등이 그 요소임을 확인할 수 있었다. 이를 토대로 각 색인법의 장점을 살려 색인 및 검색을 수행하여 보았다. 제안하는 방법은 동일한 실험집합에서 일관성 있은 성능향상을 가져다 줌을 알 수 있었다.

  • PDF

KNetIRS : Information Retrieval System using Keyword Network (KNetIRS : 키워드망을 이용한 정보검색 시스템)

  • Woo, Sun-Mi;Yoo, Chun-Sik;Lee, Chong-Deuk;Kim, Yong-Sung
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.9
    • /
    • pp.2185-2196
    • /
    • 1997
  • The existing information retrieval systems utilize thesaurus in order to search and retrieve the desired information even when the query is not accurate. However the cost for implementing and maintaining thesaurus is very high and it can not guarantee complete success of search/retrieval operation. Thus in this paper, Information Retrieval System using Keyword Network(KNetIRS) which was designed and implemented to solve these problem is introduced. Keyword Network composed of keywords which were extracted from documents. KNetIRS finds the appropriate documents by using the Keyword Network which is based on the concept of "inverted file". In addition, KNetIRS can carry out query expansion by using the Keyword Network Browser, and deal with the conjunction of "정보 검색", "정보", and "검색", by defining and implementing spilt function.

  • PDF