• 제목/요약/키워드: 검색 질의어

검색결과 468건 처리시간 0.03초

사용자 선호도 분석을 통한 검색어 조합 추출 (Finding Correlated Keyword b Analyzing User's Implicit Feedback)

  • 심철우;이은주;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.229-232
    • /
    • 2008
  • 웹 정보량이 급속히 늘어나면서 원하는 정보를 효율적으로 찾는 검색 기술의 중요성이 커지고 있다. 검색의 정확성을 높이기 위해서는 검색 질의어와 함께 사용자의 환경, 검색 만족도와 같은 다양한 정보가 필요하다. 사용자의 명시적 피드백을 요구하는 것은 거부감을 줄 수 있으므로 사용자의 잠재적 피드백과 연관 검색어 분석을 통해 검색 질의어를 확장하는 연구가 이뤄지고 있다. 그러나 이러한 검색어 확장과 검색 정확성 사이의 상관관계에 대한 분석이 없어 연관 검색어를 정량적으로 평가할 수 없었다. 본 논문에서는 사용자가 검색 질의어를 변경하면서 검색을 반복하는 과정을 사용자의 잠재적 피드백의 하나로 보고 사용자 만족도를 반영하는 페이지 방문 시간과 함께 분석하여 연속적으로 입력된 검색어가 검색 결과 순위와 사용자 만족도에 미치는 영향을 분석하는 방법을 제안하였다. 마우스 클릭 정보 분석을 통하여 사용자의 검색 만족도를 정량화하였고 특정 주제어에서 관련 검색어가 확장되어 가는 과정은 트리 구조로 표현하였다. 이를 통해 하나의 주제어와 관련해 연속적으로 입력된 검색어 집합으로부터 연관검색어를 추출하고 검색 결과의 정확성을 높일 수 있으며 제안된 트리 구조를 다양한 방향으로 분석하여 검색어, 검색 결과, 사용자 만족도, 배경 지식 등 단순 검색어 분석에서는 나타나지 않는 다양한 정보를 얻을 수 있다.

교차언어 문서검색에서 다국어 온톨로지에 기반한 한영 질의어 변환 (Korean-to-English Query Translation based on Multilingual Ontology in Cross-Language Text Retrieval)

  • 천정훈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.43-49
    • /
    • 1999
  • 본 논문에서는 교차언어 문서검색(CLTR: Cross-Language Text Retrieval)에서의 한-영 질의어 변환을 다룬다. 질의어 변환시 영어 대역어 획득과정에서는 다음 두 가지를 고려한다. 첫째, 한국어 질의어를 구성하는 단어가 한가지 개념을 기호화하지만 이에 대응되는 영어 대역어들이 하나 이상인 경우이다. 둘째, 질의어 구성 단어가 둘 이상의 개념들을 기호화하는 다의성을 지닌 경우이다. 전자의 경우는 영어 대역어들이 모두 동일한 개념, 또는 유사한 개념을 나타내므로 그대로 검색에 이용한다 해도 검색 성능을 크게 좌우하지 않지만, 후자의 경우는 모든 개념을 다 검색에 이용하게 되면 정확률(precision)이 크게 떨어지게 된다. 이에 본 연구에서는 개념 선택단계와 선택된 개념의 영어 대역어들에 가중치를 주는 가중치 부가단계로 나누어 질의어 변환을 수행한다. 본 논문의 질의어 변환에서 영어 대역어는 대역사전 대신 다국어 온톨로지인 KAIST 분류어휘표와 한영 음차복원 모듈을 통해 얻어진다.

  • PDF

검색 포털들의 검색어 추천 서비스 분석 평가: 네이버와 구글의 연관 검색어 서비스를 중심으로 (Analysis and Evaluation of Term Suggestion Services of Korean Search Portals: The Case of Naver and Google Korea)

  • 박소연
    • 정보관리학회지
    • /
    • 제30권2호
    • /
    • pp.297-315
    • /
    • 2013
  • 본 연구에서는 주요 검색 포털들의 검색어 추천 서비스를 분석, 평가하였다. 이 연구에서는 네이버와 구글 코리아를 대상으로 추천되는 연관 검색어의 적합도 및 최신성을 평가하고, 연관 검색어의 개수 및 분포, 연관 검색어가 제공되지 않는 질의의 특징을 조사하였다. 또한 연관 검색어의 유형을 질의와 연관 검색어의 관계 측면에서 분석하고, 연관 검색어들 중 유해 검색어의 유형 및 특징, 비표준어의 유형 및 특징도 조사하였다. 마지막으로, 한글 질의와 영어 질의, 대중적인 질의와 전문적인 질의의 연관 검색어의 특징을 비교하였다. 연구 결과, 네이버가 구글보다 연관 검색어의 적합도와 최신성이 다소 높은 것으로 나타났다. 또한 구글과 네이버 모두 새로운 연관 검색어를 제시하기보다는 질의에 단어를 추가 또는 삭제하거나, 질의와 동일한 검색어나 동의어 검색어를 제공하는 경우가 많은 것으로 나타났다. 본 연구의 결과는 향후 포털들의 검색어 추천 서비스의 개선에 활용될 수 있을 것으로 기대된다.

의문의 초점을 고려한 자연어 기반의 정보검색 시스템 (Natural language based Information Retrieval System considering the focus of the question)

  • 박홍원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.37-43
    • /
    • 1997
  • 본 논문에서는 기존의 키워드 검색 시스템의 불편함과 비효율성을 지적하고 이를 극복하기 위해 한국어 의문문 자체를 질의어로 채택하여 정보를 검색하는 자연어 기반의 정보검색 시스템을 제안하였다. 본 시스템은 주격 주제어와 서술격 주제어는 물론 의문의 초점과 초점 관련 어구에 대해서도 질의어 분석단계에서 분석하여 검색자의 요구에 부응하는 응답문 검색이 가능하도록 설계하였다. 본 논문에서는 의문문 질의 시스템에 적합하도록 의문사를 5형태로 분류하고 실제 한국어 문장에서 이들 각각에 대한 처리를 규칙화시켜 질의어의 체계적인 분석을 시도하였다. 한편, 후보 문장 검색을 위한 색인어로 사용되는 주격 주제어와 서술격 주제어를 정해진 규칙을 통해 추출함으로써 체계적이고 정확도 높은 질의어 분석이 이루어지도록 했다. 뿐만 아니라 의문의 초점과 초점 관련 어구또한 정해진 규칙을 통해 분석 추출함으로써 응답문 검색의 정확성을 높였다.

  • PDF

문서 클러스터를 이용한 재순위화 모델 (Document Reranking Model Using Clusters)

  • 이경순;박영찬;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-87
    • /
    • 1998
  • 본 연구에서는 정보검색시스템의 모델로 문서 클러스터를 이용한 재순위화 모델을 제시한다. 이 방법은 검색단계와 분석단계로 이루어지는데, 검색단계에서는 역화일기법을 이용해서 질의어를 포함하는 문서들을 검색하여 질의어-문서 유사도에 따라 순위를 결정한다. 분석단계에서는 이미 구축된 문서 클러스터를 이용해서 검색되어진 문서들의 분석을 통해 질의어-클러스터 유사도를 계산한다. 질의어-문서 유사도와 질의어-클러스터 유사도를 결합하고, 이 유사도에 기반해서 문서들을 재순위화한다. 이때 이용하는 클러스터는 정적 클러스터이고, 질의어에 따라 서로 다른 클러스터를 생성하는 동적인 뷰를 제공한다. 재순위화 모델은 역화일 기법과 클러스터 분석기법이 가지는 장점을 결합하여 질의어 뿐만 아니라 문서에 포함된 모든 단어들을 분석함으로써 문서의 문맥을 고려할 수 있다. 제안하는 모델은 역화일 기법을 이용한 검색 결과에 비해서 우수한 성능 향상을 나타내고 있다.

  • PDF

한국어 대화체 문장 분석을 이용한 메타 정보검색 (Meta Information Retrieval using Sentence Analysis of Korean Dialogue Style)

  • 박인철
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권10호
    • /
    • pp.703-712
    • /
    • 2003
  • 오늘날 통신의 발전에 따라 인터넷상에 존재하는 정보의 양이 많아지고, 필요한 정보를 효율적으로 찾아내는 정보 검색 시스템의 중요성이 크게 대두되고 있다. 대부분의 정보 검색 시스템에서는 단순한 키워드나 키워드를 이용한 불리언 질의어를 바탕으로 필요한 문서를 검색해 내고 있다. 그러나, 키워드를 이용한 정보 검색은 사용자의 편의성 및 주어진 질의어에 대한 이해의 정확성 측면에서 우리가 일상생활에서 사용하는 대화체 문장을 이용한 질의어에 비해 많은 어려움을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 한국어 대화체 문장의 정보 검색을 위한 메타질의어처리시스템을 설계하고 구현한다. 본 논문에서 제안한 한국어 대화체 문장 분석을 이용한 정보 검색은 주어진 질의어에 대해 형태소 분석과 구문 분석 및 시소러스를 이용한 질의어의 확장을 통해 사용자가 원하는 질의어를 포함하는 새로운 질의어를 형성해 내며, 질의어에 포함된 중의성도 부분적으로 해결할 수 있었다.

  • PDF

메타 검색에서 외래어 질의 정제 효과 (The Refinement Effect of Foreign Word Transliteration Query on Meta Search)

  • 이재성
    • 정보처리학회논문지B
    • /
    • 제15B권2호
    • /
    • pp.171-178
    • /
    • 2008
  • 문서에서 외래어가 일관되게 사용되지 않고 여러 이형태로 사용되고 있기 때문에, 정확한 질의어 일치를 지원하는 검색 시스템에서 외래어 질의로 문서를 검색하는데 어려움이 많다. 본 논문에서는 하나의 외래어로 질의할 경우, 원 질의어와 같은 뜻의 다양한 이형태 외래어 질의로 자동 확장하고 정제하여 더 많은 관련 문서를 손쉽게 검색할 수 있는 메타 검색 방법을 제안한다. 이 방법은 1차로 원 질의어에서 다양한 외래어 이형태를 통계적 방법으로 확장하고, 2차로 그 결과를 각 검색 엔진에게 질의하여 일정 개수 이상의 질의어가 문서에 나타났는지, 원 질의어의 문맥과 유사한 문맥에서 그 질의어가 쓰였는지를 비교하여, 같은 뜻의 유효한 외래어를 판별해 내고 이를 이용하여 검색할 수 있도록 한다. 실험 결과, 기준점으로 쓰인 1차로 만든 이형태로 검색했을 때 F값은 평균 38%이었으나, 제안된 방법인 2차로 정제된 질의어로 검색했을 때의 F값은 평균 81%로 매우 향상된 결과를 보였다.

사용자 검색 의도 추출을 위한 검색로그 분석 (Search Log Analysis for Extract User's Search Intention)

  • 지혜성;류기곤;임희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.376-379
    • /
    • 2011
  • 본 연구에서는 사용자 검색로그를 분석하여 사용자의 검색 목적에 따라 분류하고 그 안에 내제되어 있는 사용자의 검색 의도를 찾고자 하였다. 분석은 질의어 110개에 대한 검색로그를 기반으로 검색 목적에 따라 Navigational, Informational, Transactional로 분류하였다. 또한, 질의어를 카테고리별로 분류하였으며 각 결과를 가지고 사용자 검색 의도가 내제되었는지에 대하여 분석하였다. 분석 결과 각 질의어에 따른 검색 목적에 따라서 분포는 다르지만 검색 목적에 따른 검색 의도가 3가지 모두 내제되어 있음을 알 수 있었다. 또한, Informational의 경우에는 질의어에 대한 서로 다른 정보가 나타났으며, 질의어 안에서 사용자의 검색 의도가 나타남을 확인할 수 있었다.

Web 검색 엔진의 제목과 문서요약을 이용한 동위어와 문맥의 발견 (Discovery of Coordinate Terms and Context using the Title and Snippet in Web Search)

  • 한상용;이상훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.210-215
    • /
    • 2007
  • 웹상에서의 정보량이 증가함에 따라, 사용자가 알고 싶어 하는 단어에 대해서 연관된 단어를 통해서 이해하게 된다. 동위어란 공통의 상위어를 가지는 단어이다. 이를 위한 기존의 연구로서 동위어와 상위어, 하위어 등을 찾는 연구는 많이 있었지만, 웹상의 문서를 이용하여 거대한 코퍼스를 해석해서 결과를 구하는 데 많은 시간이 소요되었다. 이에 본 논문에서는 사용자의 질의어에 대해서 웹 검색엔진이 가지는 제목과 문서요악으로부터 동위어와 문맥을 빠른 시간 안에 발견하는 방법에 대해 제안한다. 어떤 단어에 대한 동위어가 병렬조사 #와#로 접속되는 것을 이용하여 웹 검색 엔진에 대한 질의어를 작성하고, 그 검색 결과로부터 동위어를 얻는다. 이와 동시에 발견된 동위어와 질의어의 배후에 있는 문맥도 얻는다. 이를 통해, 웹 검색에 있어서 질의어의 확장과 비교 대상의 발견 등 폭넓은 분야에서도 적용가능하다고 할 수 있다.

  • PDF

확률적 정보 검색 모델에서의 유사 적합성 피드백 실험 (Experiments on Pseudo Relevance Feedback in Probabilistic Information Retrieval Model)

  • 조봉현;이창기;안주희;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.183-190
    • /
    • 2001
  • 본 논문은 확률기반 자연어 검색 시스템 POSNIR/E를 이용한 여러 가지 유사 적합성 피드백 방법들이 검색 시스템의 성능 향상에 기여할 수 있는 정도를 보여주고, 확률 기반 정보 검색 시스템에 적합한 유사 적합성 피드백 수행 방법을 제시한다. POSNIR/E는 한국어 자연어 검색 시스템, POSNIR를 기반으로 만들어진 영어 자연어 검색 시스템이다. 이 시스템은 성능 향상을 위한 질의 확장의 방법으로 검색 단계에서 유사 적합성 피드백을 사용한다. 검색 단계에서 영어 태거에 의해 태깅된 사용자 질의로부터 질의어를 추출하고 초기 검색을 수행한다. 유사 적합성 피드백을 위하여 초기 검색 결과 중 상위 5개의 문서에 나타나는 키워드를 중요도에 따라 내림차순 정렬하여 상위 10개의 키워드를 초기 질의어에 확장한다. 이렇게 확장된 질의어로 최종 검색을 수행한다. TREC 평가용 테스트 컬렉션 WT10g와 TREC-9의 질의 적합문서 집합을 이용하여 여러 가지 TSV 함수를 사용하여 검색 성능을 평가 하였다. 실험 결과 유사 적합성 피드백을 사용할 경우 TSV 함수에 확률 모델의 CF 요소 뿐만 아니라 TF 요소 등을 적용 시킬 경우 성능 향상에 기여할 수 있음을 알 수 있었다. 또한 색인어와 검색어로 단일어 뿐만 아니라 복합어도 사용할 경우 성능이 향상됨을 알 수 있다.

  • PDF