• 제목/요약/키워드: 질의어 분해 및 확장

검색결과 4건 처리시간 0.017초

잠재적 의미 색인을 이용한 유사 질의어 확장 (Query expansion by Similar words Using LSI)

  • 임태훈;안동언;정성종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.165-169
    • /
    • 2009
  • 오늘날 인터넷 검색은 하루가 다르게 발전되고 있다. 주로 키워드 매칭에 의존을 둔 지금의 검색 서비스들은 사용자 중심의 아이템들을 개발해 정보검색의 경과시간 및 결과의 분류면에서 우수함을 보여주고 있다. 질의어의 의미에 유사한 검색은 아직은 발전하는 단계로, 내용에 기반을 둔 검색 환경에 초점이 맞춰지고 있다. 이와 관련하여 행렬의 특이치 분해(SVD)를 이용한 잠재적 의미 색인 기법(LSI)을 본 연구에서 다루고자 한다. 구축한 시스템의 성능 평가는 재현도 계산으로 비교되었는데 작은 크기의 특이값(singular value)들 생략에 의한 SVD의 성능과 그것을 재이용, 질의어에 대한 의미 구조상 근접한 용어들을 찾아 질의어를 확장한 후 적합한 문서들의 검색을 사용한 특이값 개수, 유사단어 확장 개수를 달리하여 실험하였다. 실험 결과, 특이값 2개를 사용한 잠재적 의미 색인이 특이값 3개를 사용한 잠재적 의미 색인보다 보다 나은 성능을 보였다. 그리고 조건을 달리한 모든 잠재적 의미 색인의 경우 단어 매칭에 의한 적합문서 검색보다 별 뚜렷한 나은 결과는 보이지 않았다. 하지만 의미적으로 관계가 깊은 유사어들을 찾아냈고, 의미적으로 가장 관계 깊은 문서를 대부분의 경우에서 순위 1위로 찾아내는 부분적 우수함을 보였다.

  • PDF

태그결합을 이용한 불리언 검색에서 순위화된 검색결과를 제공하기 위한 시스템 설계 및 구현 (Design and Implementation of Tag Coupling-based Boolean Query Matching System for Ranked Search Result)

  • 김용;주원균
    • 정보관리학회지
    • /
    • 제29권4호
    • /
    • pp.101-121
    • /
    • 2012
  • 불리언 검색만을 제공하는 정보시스템들은 순위화된 검색 결과를 제공하지 않아 이용자들이 많은 시간을 들여 수많은 결과를 일일이 확인해야하는 단점이 있다. 따라서 본 연구에서는 불리언 검색 모델의 단점을 극복하기 위한 방법으로써 불리언 검색에서 적용되고 있는 색인 가중치 정보 대신에 태그 간의 결합 관계 정보를 이용하여 순위화된 검색 결과를 제공하기 위한 시스템을 제안한다. 본 연구에서 제안하고 있는 방법은 일반적인 키워드 질의 대신에 문서를 질의로 사용하기 때문에 해당 문서에서 질의로 사용하는 핵심태그를 추출한다. 질의 생성 과정에서는 태그결합도에 따라 다양한 그룹의 불리언 질의를 생성하고, 매칭 과정에서는 해당 질의어 그룹 간에 차별성 정보와 태그 중요도 정보를 이용하여 순위화를 처리한다. 본 연구에서 제안하고 있는 방법의 유용성을 평가하기 위하여 선정된 연구정보와 관련된 동향분석정보를 추출하는 과정에 적용하여 실험을 수행하였다. 또한 제안된 방법에 대한 이용자 평가를 위하여 다수의 이용자들을 대상으로 약 1년간 서비스를 제공하였으며 그 결과 높은 이용자 만족도를 확보할 수 있다고 조사되었다.

한국어 정보검색을 위한 색인어 추출방법에 관한 연구 (A Study on Extraction for Korean Information Retrieval System)

  • 최순우;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-80
    • /
    • 2003
  • 본 논문에서는 색인 방법에 따른 한국어 정보검색시스템의 성능차이를 살펴보고 이를 분석하여 보다 검색성능을 높이기 위한 색인어 추출방법을 제안한다. 이를 위해 기존의 대표적인 색인법이라 할 수 있는 명사단위 색인법, 형태소 단위 색인법, 바이그램 단위 색인법, 어절단위 색인법에 대하여 실험을 통한 비교분석을 하였고, 질의별 분석을 통해 검색성능에 영향을 주는 요소들을 찾아내었다. 그 결과 빈칸, 면사분해, 명사, 동사, 형용사, 숫자등을 포함한 실질 형태소, 형식형태소의 제거, 외래어 등 추정명사의 분해 및 발음확장, 후방 단음절 명사로 구성된 복합명사의 분해, 의미를 변절시키는 바이그램 제거, 분해된 명사 수에 따른 복합명사 첨가 및 제거 등이 그 요소임을 확인할 수 있었다. 이를 토대로 각 색인법의 장점을 살려 색인 및 검색을 수행하여 보았다. 제안하는 방법은 동일한 실험집합에서 일관성 있은 성능향상을 가져다 줌을 알 수 있었다.

  • PDF

KNetIRS : 키워드망을 이용한 정보검색 시스템 (KNetIRS : Information Retrieval System using Keyword Network)

  • 우선미;유춘식;이종득;김용성
    • 한국정보처리학회논문지
    • /
    • 제4권9호
    • /
    • pp.2185-2196
    • /
    • 1997
  • 기존의 정보검색 시스템들은 질의가 정확하지 않더라도 원하는 정보를 검색할 수 있도록 하기 위해 시소리스 (thesaurus)를 사용했다. 그러나 시소러스를 구축하고 유지하는데 드는 비용이 매우 높고 검색에 있어서도 완전하다고 볼 수 없다. 그래서 본 논문에서는 이러한 문제점들을 해결하기 위하여 키워드망을 이용한 정보검색 시스템인 KNetIRS를 설계 및 구현한다. 키워드망은 문서로부터 직접 추출한 키워드들로 구성된다. KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 키워드망 브라우저(Keyword Network Browser)를 사용하여 질의를 확장하고, 분할 연산(spilt function)을 정의하여 "정보 검색", "정보", 그리고 "검색"과 같은 복합어에 관한 처리를 한다.

  • PDF