• 제목/요약/키워드: Retrieval Relevance

검색결과 160건 처리시간 0.03초

계층적 클러스터링 기법을 이용한 확장 불리언 모델의 적합성 피드백 방법 (Relevance Feedback Method of an Extended Boolean Model using Hierarchical Clustering Techniques)

  • 최종필;김민구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권10호
    • /
    • pp.1374-1385
    • /
    • 2004
  • 적합성 피드백 방법은 다음 검색 질의어와 검색 성능을 향상시키기 위해 사용자로부터 획득된 정보를 사용한다. 일반적으로 적합성 피드백 방법은 사용자로부터 획득된 정보를 새로운 질의어에 추가될 새로운 단어를 찾거나 질의어에 존재하는 단어의 가중치를 조정하는데 사용한다. 그러나 확장 불리언 검색모델에서 적합성 피드백은 이것들뿐만 아니라 질의어에 있는 단어들을 적절하게 불리언 연산자(AND/OR)로 연결시켜야 한다. Salton과 그의 동료들은 확장 불리언 모델을 위한 DNF(disjunctive normal form) 방법이라 불리는 적합성 피드백 방법을 제안하였다. 그렇지만 이 방법은 질의어를 재구성할 때 심각한 문제점을 갖고 있다. 이 논문에서는 DNF 방법의 문제점을 조사하고 이러한 문제점을 극복하기 위해 계층적 클러스터링 기법을 이용한 적합성 피드백 방법을 제안한다. 그리고 두개의 실험 데이타 집합인 TREC 1 의 DOE 컬렉션과 Web TREC 10 컬렉션을 이용하여 제안한 방법의 우수성을 보였다.

온라인 이용자 피드백을 사용한 정보필터링 시스템의 수정질의 최적화에 관한 연구 (A Study on Query Refinement by Online Relevance Feedback in an Information Filtering System)

  • 최광;정영미
    • 정보관리학회지
    • /
    • 제20권4호통권50호
    • /
    • pp.23-48
    • /
    • 2003
  • 이 연구의 목적은 대량의 최신정보를 제공하는 정보필터링 시스템에서 이용자 피드백에 의해 수정질의를 자동생성하여 재검색을 수행함으로써 검색 성능을 최적화할 수 있는 방안을 찾는 데 있다. 이용자가 입력한 초기질의를 사용하여 정보필터링 시스템이 검색한 문헌에 대해 이용자가 적합성 여부를 온라인으로 입력하도록 하고, 이 피드백 결과를 토대로 '중복제거법'과 ‘저빈도제거법' 두 가지 방법에 의해각각 17개의 수정질의를 생성하여 재검색한 결과를 초기 검색결과와 비교 분석하였다. 수정질의는 각각의 방법마다 17개 패턴의 불논리 질의형태를 미리 만든 다음 초기질의에 디스크립터와 분류기호를 결합하여 생성하였으며, 재검색 결과에 대한 적합성 평가를 통해 최적의 수정질의식을 도출하였다.

분산 정보 검색을 위한 신경망 기반 사용자 피드백 학습 메카니즘 (Neural Net Based User Feedback Learning Mechanism for Distributed Information Retrieval)

  • 최용석
    • 컴퓨터교육학회논문지
    • /
    • 제4권2호
    • /
    • pp.85-95
    • /
    • 2001
  • 웹과 같은 분산 정보 검색 환경에서 문서들은 많은 문서 데이터 베이스들에 자연스럽게 분할되어서 존재한다. 그러므로 이러한 문서들의 효율적인 검색을 위해서는 먼저 질의에 관련되어 문서들을 제공할 것으로 판단되는 문서 데이터 베이스를 찾아내고 다음으로 그 문서 데이터 베이스에 질의를 줌으로써 분산 정보 검색을 수행해야 한다. 본 논문에서는 이러한 효율적인 분산 정보 검색을 위한 신경망 기반 사용자 피드백 학습 메카니즘을 제안한다. 제안된 학습 메카니즘은 질의 검색 예제들을 통하여 얻어진 질의에 대한 사용자의 관련도 피드백 정보에 기반하여 역전파 알고리즘으로 분산 정보 검색 지식을 학습한다. 충분히 학습한 후의 학습 메카니즘은 주어진 질의에 대하여 관련 문서 데이터 베이스들을 찾아내고 그 문서 데이터 베이스들로부터 관련되는 문서들을 검색하는데 효과적으로 사용될 수 있다. 실험에서는 제안된 학습 메카니즘을 적용한 신경망 에이전트 시스템을 구현하고 이 시스템의 정보 검색 성능을 기존 시스템들과 비교하여 제안된 학습 메카니즘의 유용성을 입증한다.

  • PDF

정보 검색에서 확장 퍼지 개념 네트워크를 이용한 문서 순의 결정 방법 (Document Ranking Method using Extended Fuzzy Concept Networks in Information Retrieval)

  • 손현숙;정환목
    • 한국지능시스템학회논문지
    • /
    • 제10권4호
    • /
    • pp.351-356
    • /
    • 2000
  • 정보 검색은 사용자가 필요로 하는 요구에 가장 적합한 정보를 검색할수 있어야 한다. 정보 검색에서 질의어가 문서에 대하여 어느 정도의 유사성을 가지고 존재하는냐를 기준으로 문서를 순서화 할 때, 실제 순서화된 문서들을 보면 질의어와는 다른 문서들이 순서화 되는 경우를 볼 수 있다. 따라서 본 논문에서는 확장 퍼지 개념 네트워크에 근거 문서 검색을 위한 순의 결정 방법을 제안한다. 확장 퍼지 개념 네트워크에는 개념들 사이에 4가지의 퍼지 관계가 있다. 퍼지 양의 조합, 퍼지 음의 조합, 퍼지 일반화, 및 퍼지 세분화등이 있다. 확장 퍼지 개념 네트워크는 관계 행렬과 관련 행렬로 모델화 하여, 유사도 측정을 하였다.

  • PDF

Combining Multiple Sources of Evidence to Enhance Web Search Performance

  • Yang, Kiduk
    • 한국도서관정보학회지
    • /
    • 제45권3호
    • /
    • pp.5-36
    • /
    • 2014
  • 웹은 하이퍼링크 및 야후와 같이 수동으로 분류된 웹 디렉토리 처럼 문서의 콘텐츠를 넘어선 다양한 정보의 소스가 풍부하다. 이 연구는 웹문서 내용을 활용한 텍스트기반의 검색 방식, 하이퍼 링크를 활용한 링크 기반의 검색 방식, 그리고 야후의 카테고리를 활용한 분류 기반의 검색 방식을 융합하므로서 여러 정보소스를 결합하면 검색 성능을 향상시킬 수 있다는 기존 융합검색연구들을 확장시켰다. 텍스트, 링크, 분류 기반 검색 결과를 여러가지 선형조합식으로 생성한 융합결과를 기존의 검색 평가 지표를 사용하여 각각의 검색 결과와 비교 한 후, 검색결과 오버랩의 중요성 또한 조사 하였다. 본 연구는 텍스트, 링크, 분류 기반 검색의 솔루션 스패이스들의 다양성이 융합검색의 적합성을 제시한다는 결론과 더불어 시스템 파라미터의 영향, 그리고 오버랩, 문서순위, 관련성들의 상호 관계 같은 융합 환경의 중요한 특성들을 분석하였다.

객체-관계형 데이터베이스에 의한 XML문헌의 검색성능 평가 (Retrieval Performance of XML Documents Using Object-Relational Databases)

  • Kim, Hee-Sop
    • 정보관리학회지
    • /
    • 제21권2호
    • /
    • pp.189-210
    • /
    • 2004
  • 본 연구의 목적은 객체-관계형 데이터베이스 접근에 의한 XML 문헌의 검색 성능을 평가하는 것이다. 본 논문에서는 INEX(Initiative for the Evaluation of XML retrieval)에서의 XML 문헌의 색인 및 검색 방법에 대하여, 그리고 실험 방법론들에 대하여 기술하고 있다. 대부분의 전통적인 정보검색 성능평가 실험에서와 같이 본 연구에서 사용된 테스트 콜렉션(test collection)은 문헌(즉, XML 문헌), 토픽, ad hoc 검색, 적합성 판단, 평가로 이루어졌다. 그리고 ORDBMS 기술들을 기반으로 개발된 전용 XML 데이터베이스의 일종인 EXIMA$^{TM}$ Supply을 사용하여 INEX에서 제공한 대규모 XML 문헌들을 저장하고 검색하였다. 본 논문에서는 실험에서 사용한 시스템에 대한 개략적인 기능들과 색인 및 검색 과정 그리고 INEX 2002에서의 성능평가 결과에 대하여, 앞으로 개선되어야 할 기능에 대하여 논하고 있다.

특징벡터의 끌러스터링 기법을 통한 2단계 내용기반 이미지검색 시스템 (Two-phase Content-based Image Retrieval Using the Clustering of Feature Vector)

  • 조정원;최병욱
    • 전자공학회논문지CI
    • /
    • 제40권3호
    • /
    • pp.171-180
    • /
    • 2003
  • 내용기반 이미지검색이란 색상, 형태 및 질감 등의 저-수준 특징정보를 이용하여 이미지 데이터베이스를 구축하고, 이미지에 대한 검색요구가 발생했을 때 사용자가 찾고자 하는 이미지와 유사한 이미지를 제공하는 시스템으로 정의된다. 데이터베이스의 구축시간과 사용자가 질의를 입력한 후 결과를 얻을 때까지의 반응시간을 나누어 고려할 때, 사용자는 반응시간에 보다 관심을 갖는 것이 일반적이다. 내용기반 이미지검색 시스템에서 질의이미지와 데이터베이스 내의 이미지와의 유사도 비교시간이 전체 반응시간 중에서 가장 큰 비중을 차지한다. 본 논문에서는 이러한 유사도 비교시간을 최소화하기 위해 특징벡터의 클러스터링 기법을 적용한 2단계 탐색방법을 제안한다. 실험 결과를 통해 제안하는 2단계 탐색방법으로 대용량의 이미지 데이터베이스 내의 전체 이미지에 대한 원 특징정보와 비교하는 전체검색에 비해, 동일한 적합성을 보장하면서 평균적으로 2배 이상의 검색속도 향상을 확인하였으며, 이미지의 수가 더욱 커질수록 효과적임을 입증하였다.

특징벡터의 차원축약 기법을 이용한 2단계 내용기반 이미지검색 시스템 (Two-stage Content-based Image Retrieval Using the Dimensionality Condensation of Feature Vector)

  • 조정원;최병욱
    • 한국통신학회논문지
    • /
    • 제28권7C호
    • /
    • pp.719-725
    • /
    • 2003
  • 내용기반 이미지검색 시스템에서는 색인과정으로 색상, 형태 및 질감 등의 특징정보를 추출하여 데이터베이스에 저장한다. 전체 검색 시스템 내에서 탐색이라 함은 특징정보 데이터베이스를 이용하여 질의이미지와 유사한 특징정보를 갖는 이미지를 찾아나가는 부분 과정으로 정의할 수 있다. 본 논문에서는 내용기반 이미지검색 시스템에서의 새로운 2단계 탐색방법을 제안한다. 제안하는 방법은 사용자가 질의를 입력한 후 결과를 얻을 때까지의 반응시간 중 가장 큰 비중을 차지하는 유사도 비교시간인 탐색시간을 최소화하기 위해 Cauchy-Schwartz 부등식의 특성을 이용하여 미리 특징벡터의 차원을 축약하여 저장하고, 이를 사용하여 검색범위를 최소화함으로써 검색속도를 향상시킬 수 있다. 실험결과를 통해 차원축약 기법을 이용하는 2단계 검색방법으로 기존 상세검색 방법과 비교하여, 동일한 검색 적합성을 보장하면서 대용량의 이미지 데이터베이스에서 월등한 탐색속도 향상을 확인하였으며, 특징벡터가 더욱 고차원화 되고 이미지의 수가 더욱 늘어날수록 효과적이었다.

"미리내" 정보검색 시스템에서 Relevance Feedback 구현 (Implement of Relevance Feedback in "MIRINE" Information Retrieval System)

  • 박수현;박세진;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.65-71
    • /
    • 1997
  • 이 논문은 부산대학교 전자계산학과 인공지능 연구실에서 개발한 정보검색 시스템 "미리내"의 적합성 피드백 방법을 분석하고, 그 방법들의 검색 효율을 비교 분석하였다. "미리내"에서 질의문은 자연언어 질의문을 사용하고 재검색을 위한 적합성 피드백은 원질의문에서 검색된 문서 중 이용자가 직접 선택한 적합 문서에서 추출한다. 적합성 피드백은 크게 단어 확장(Term Expansion)을 위한 단어 선택 방법과 추가될 단어에 가중치를 부여하는 단어 가중치 부여(Term Weighting)의 2가지 요소로 이루어진다. 단어 선택을 위해서는 적합 문서에 나타난 단어 빈도합(tf), 역문헌빈도(idf), 적합 문서 중에서 해당 단어가 있는 적합 문서의 비율(r/R) 등의 정보를 이용한다. 단어 가중치 부여 방법으로는 정규화 또는 코사인 함수를 이용하여 부여하였다. 단어확장에는 tfidf가 tfidf(r/R)보다 정확도 면에서 나은 향상율을 보였으나, 30위 내 검색된 적합문서의 수를 비교해 보았을 때 tfidf(r/R)의 정확도가 높았다. 단어 선택 방법에서 계산된 값을 정규화하여 가중치를 부여하였을 때 보다 코사인 함수를 이용하여 가중치를 부여하였을 때 정확도가 높았다. 실험은 KT-Set 2.0 (4391 건), 동아일보 96 년 신문기사(70459 건)를 대상으로 수행하였다.

  • PDF

관련성 분포정보를 이용한 통합 검색 시스템의 설계 및 구현 (Design and Implementation of Meta Search using Relevance Distribution Information)

  • 김현주
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권11호
    • /
    • pp.1427-1438
    • /
    • 2001
  • 본 논문에서는 관련성 분포 정보를 이용한 새로운 컬렉션 융합 모델을 제시한다. 이는 먼저 주어진 질의에 대하여 검색에 참여한 정보원을 평가하고 질의에 가장 적합한 정보원을 선택한다. 그리고 정보원의 평가 결과에 따라 해당 정보원으로부터 검색 문서를 차별적으로 수집하고, 검색된 문서들은 정보원의 평가 값인 관련성 분포 정보를 기반으로 최종 검색 문서의 순위 매김을 수행한다. 이렇게 순위 매김 된 검색 문서는 단일 우선 순위를 가지는 검색 문서의 집합으로 통합하여 사용자에게 단일 검색 결과를 제공한다. 그리고 질의어에 대하여 가장 좋은 정보원들을 분류할 수 있는 체계를 개발하여 사용자의 질의어에 대하여 최선의 정보원들을 선택할 수 있는 알고리즘의 제시하였다. 마지막으로 선택된 정보원으로부터 질의에 적합한 문서를 검색한 후에 이들을 순위 매김하고 통합하는 통합검색 시스템을 제시한다.

  • PDF