• 제목/요약/키워드: relevant information retrieval

검색결과 189건 처리시간 0.032초

Shannon의 정보이론과 문헌정보 (Shannon's Information Theory and Document Indexing)

  • 정영미
    • 한국문헌정보학회지
    • /
    • 제6권
    • /
    • pp.87-103
    • /
    • 1979
  • Information storage and retrieval is a part of general communication process. In the Shannon's information theory, information contained in a message is a measure of -uncertainty about information source and the amount of information is measured by entropy. Indexing is a process of reducing entropy of information source since document collection is divided into many smaller groups according to the subjects documents deal with. Significant concepts contained in every document are mapped into the set of all sets of index terms. Thus index itself is formed by paired sets of index terms and documents. Without indexing the entropy of document collection consisting of N documents is $log_2\;N$, whereas the average entropy of smaller groups $(W_1,\;W_2,...W_m)$ is as small $(as\;(\sum\limits^m_{i=1}\;H(W_i))/m$. Retrieval efficiency is a measure of information system's performance, which is largely affected by goodness of index. If all and only documents evaluated relevant to user's query can be retrieved, the information system is said $100\%$ efficient. Document file W may be potentially classified into two sets of relevant documents and non-relevant documents to a specific query. After retrieval, the document file W' is reclassified into four sets of relevant-retrieved, relevant-not retrieved, non-relevant-retrieved and non-relevant-not retrieved. It is shown in the paper that the difference in two entropies of document file Wand document file W' is a proper measure of retrieval efficiency.

  • PDF

유사문헌집단에서 적합/부적합정보의 유용성에 관한 연구 (A Study on the Utility of Relevance/Non-relevance Information in Homogeneous Documents)

  • 문성빈
    • 정보관리학회지
    • /
    • 제32권3호
    • /
    • pp.277-293
    • /
    • 2015
  • 본 논문에서는 문헌의 적합성수준을 적합성정도에 따라 4그룹(부적합한, 조금 적합한, 적합한, 매우 적합한)으로 나눈 후 서로 다른 심사자가 적합성 판정을 내린 4개의 적합성 판정세트(A, B, C, D)에서 "조금 적합한" 문헌을 부적합문헌으로 분류했을 때와 적합문헌으로 분류하였을 때에, 초록/표제 시스템과 전문검색시스템에서 적합성피드백으로 인한 검색효율성의 증진은 어느 쪽이 더 혜택을 받게 되는 지를 연구하였다. "조금 적합한" 문헌을 적합문헌으로 포함시켰을 때 초록/표제시스템이 전문검색시스템보다 모든 적합성판정세트에서 검색효율성의 증가율이 높았고, 반면에 전문검색시스템에서는 "조금 적합한" 문헌을 적합문헌그룹에서 제외시켰을 때 검색효율성의 증가율이 일관성 있게 높아지는 것을 발견하였다. 이는 전문검색시스템에서는 적합문헌으로 포함된 "조금 적합한" 문헌으로부터 얻어지는 적합성피드백 정보는 잡음의 역할을 하게 되어 검색효율성의 증진에 도움이 안 되고 있음을 암시하고 있다. 특히, 매우 동질적인 문헌을 색인 및 검색대상으로 하고 있는 전문검색시스템에서는 잡음에 의해 초래되는 낮은 정확률을 개선하는 정교한 검색기법에 대한 연구가 지속되어야만 한다.

한텍(HANTEC) 테스트 컬렉션 적합성 정보 재평가 및 보완 (Review and Make Up of HANTEC Test Collection Relevant Information)

  • 강현규;장형일;박경일;김현태;염성욱;나동열;최호섭;윤화묵
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.160-166
    • /
    • 2007
  • 정보검색 시스템 평가를 위한 한글 테스트 컬렉션인 한텍(HANTEC) 테스트 컬렉션 2.0이 배포되었다. 한텍 2.0은 12만건의 문서 집합과 50개의 질의 집합, 그리고 각 질의에 대한 적합성 정보로 구성되어 있다. 테스트 컬렉션에서 중요한 부분 중의 하나인 적합성 정보가 한텍에서는 풀링(pooling) 방법으로 구축되었다. 보다 더 정확한 정보검색 시스템의 평가를 위해서는 무엇보다도 정확한 적합성 정보가 중요하다. 따라서 현재 구축된 12만건 중 2만건을 대상으로 풀링방법이 아닌 수동방법으로 적합성 정보를 재평가함으로서 풀링방법의 유용성과 현재 배포된 한텍 테스트 컬렉션의 정보검색 평가용으로서의 유용성 여부를 확인 하고자 한다. 수동 적합성 정보판정를 위한 도구를 만들었으며 적합성 판정 기준을 정하여 적합성을 판정하였다. 한텍과의 적합성 정보 비교 평가를 함으로서 풀링방법 및 현재 배포된 한텍 적합성 정보의 유용성을 비교 확인 하였다. 앞으로 2만 데이터에 대한 수동 적합성 판정 결과를 이용한 정보검색 시스템 신뢰도 측정에도 사용될 수 있을 것이다.

  • PDF

Design and Development of a Multimodal Biomedical Information Retrieval System

  • Demner-Fushman, Dina;Antani, Sameer;Simpson, Matthew;Thoma, George R.
    • Journal of Computing Science and Engineering
    • /
    • 제6권2호
    • /
    • pp.168-177
    • /
    • 2012
  • The search for relevant and actionable information is a key to achieving clinical and research goals in biomedicine. Biomedical information exists in different forms: as text and illustrations in journal articles and other documents, in images stored in databases, and as patients' cases in electronic health records. This paper presents ways to move beyond conventional text-based searching of these resources, by combining text and visual features in search queries and document representation. A combination of techniques and tools from the fields of natural language processing, information retrieval, and content-based image retrieval allows the development of building blocks for advanced information services. Such services enable searching by textual as well as visual queries, and retrieving documents enriched by relevant images, charts, and other illustrations from the journal literature, patient records and image databases.

인용문헌에 의한 정보검색 효과에 관한 고찰 (A Study on Information Retrieval Effectiveness by Cited References)

  • 이란주
    • 한국문헌정보학회지
    • /
    • 제27권
    • /
    • pp.265-289
    • /
    • 1994
  • Databases publicly available for online searching permit both citation and subject searching, however, subject searching has dominated the online search environment. Despite the power of citation searching, it may be underutilized This study explored the relationship between the number of cited references used in a citation search and information retrieval effectiveness, a relatively unstudied phenomenon. Three articles in the library and information science literature were chosen to represent sample questions. Cited reference searches were conducted for each article and each of its references. All searches were conducted in Social Scisearch and Scisearch on DIALOG. Relevance judgments on the retrieved citations were obtained from the authors of the original articles. This research focused on analyzing, in terms of information retrieval effectiveness, the overlap among postings sets retrieved by various combinations of cited references. The findings from the three case studies clearly showed that the more cited references used for the citation search, the better the performance, in terms of retrieving more relevant documents, up to a point of diminishing retums. In addition, generally the overall level of overlap among relevant documents sets was found to be low. Therefore, if only some of the cited references among many candidates are used for a citation search, a significant proportion of relevant documents may be missed. The analysis of the characteristics of cited references provided the ways to predict which cited refereces would be useful to improve information retrieval. The findings of this comprehensive exploratory study are of interest for both theoretical and practical reasons. They contribute to the development of a theoretical model for the effective use of the citation search. This model might also be implemented in operational online systems. In addition, the findings potentially will help online searchers improve their search strategies using the citation search so that they can better achieve their information retrieval goals: the retrieval of items relevant to a given question and the suppression of nonrelevant items.

  • PDF

컨텍스트 인식 환경에서 레벨화된 정보 검색 기법 (Levelized Information Retrieval Method in Context Awareness Environments)

  • 김성림;권준희
    • 대한전자공학회논문지TE
    • /
    • 제42권1호
    • /
    • pp.47-52
    • /
    • 2005
  • 컨덱스트 인식 환경에서의 정보 검색 기법은 유비쿼터스 컴퓨팅에서의 핵심 연구 분야 중 하나이다. 컨텍스트 인식 환경에서의 정보 검색 기법에서 정보의 정확성과 신속성은 중요한 고려요소이다. 이를 위해 본 논문에서는 컨텍스트의 레벨화 특성을 이용한 검색 기법을 통해 정보를 정확하고 신속하게 검색하는 새로운 기법을 제안한다. 컨텍스트의 레벨화 특성에 가장 적합한 정보를 검색하기 위해 규칙을 추출한다. 현재 컨텍스트 값과 규칙을 사용하여 가까운 미래에 나타날 컨텍스트 값별 권유 정보를 추출한다. 그리고 접근 점수를 이용하여 가장 가까운 미래에 나타날 레벨화된 컨텍스트 값별 권유 정보를 프리패칭한다. 제안한 기법에서는 컨텍스트의 레벨화 특성을 이용한 권유 정보를 미리 저장함으로써 사용자의 컨텍스트 값이 변경될 때 마다 정확하고 신속하게 정보를 검색할 수 있다.

개념 속성 기반 정보 검색 (Concept and Attribute based Answer Retrieval)

  • 윤보현;서창호
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권3호
    • /
    • pp.1-10
    • /
    • 2005
  • 본 연구에서는 지식검색을 위해 개념 속성을 이용하여 사용자 질의에 가장 적합한 정답 문장들을 검색 할 수 있는 정답검색 시스템을 설계하고 평가한다. 이 시스템은 먼저 사용자 질의를 개념 속성에 대한 불리언 연산으로 분석한 다음, 정답 문서 색인 집합에서 해당 문서들을 검색한다. 사용자는 이 검색된 문서들로부터 자신이 요구한 정답 문장들을 검색할 수 있으며, 또한 특정한 문서를 선택함으로써 그 문서에 포함된 정답 문장들을 검색할 수 있다. 이를 위해서 개념어와 속성어의 색인 단위로 색인된 정답 문서들은 각각의 문장들로 분할되어 색인된다. 그래서 분할된 문장들은 개념어와 속성어 형태로 분석되어 문서 색인 단위와의 관련 정도를 평가함으로써 정답 문장들의 위치를 색인한다. 마지막으로, 100개의 사용자 질의에 대해 정답 검색 시스템의 성능을 다양한 방법으로 평가한다.

  • PDF

AN EFFICIENT DENSITY BASED ANT COLONY APPROACH ON WEB DOCUMENT CLUSTERING

  • M. REKA
    • Journal of applied mathematics & informatics
    • /
    • 제41권6호
    • /
    • pp.1327-1339
    • /
    • 2023
  • World Wide Web (WWW) use has been increasing recently due to users needing more information. Lately, there has been a growing trend in the document information available to end users through the internet. The web's document search process is essential to find relevant documents for user queries.As the number of general web pages increases, it becomes increasingly challenging for users to find records that are appropriate to their interests. However, using existing Document Information Retrieval (DIR) approaches is time-consuming for large document collections. To alleviate the problem, this novel presents Spatial Clustering Ranking Pattern (SCRP) based Density Ant Colony Information Retrieval (DACIR) for user queries based DIR. The proposed first stage is the Term Frequency Weight (TFW) technique to identify the query weightage-based frequency. Based on the weight score, they are grouped and ranked using the proposed Spatial Clustering Ranking Pattern (SCRP) technique. Finally, based on ranking, select the most relevant information retrieves the document using DACIR algorithm.The proposed method outperforms traditional information retrieval methods regarding the quality of returned objects while performing significantly better in run time.

검색 성능 향상을 위한 약품 온톨로지 기반 연관 피드백 (Relevance Feedback based on Medicine Ontology for Retrieval Performance Improvement)

  • 임수연
    • 정보관리학회지
    • /
    • 제22권2호
    • /
    • pp.41-56
    • /
    • 2005
  • 기계가 정보의 의미를 이해하고 처리할 수 있도록 기존의 웹을 확장하는 것을 목적으로 하는 시멘틱 웹은 온톨로지를 이용하여 지식을 공유하게 된다. 본 논문에서는 정교한 질의의 처리를 위하여 온톨로지 내에 존재하는 의미 관계들을 질의의 확장을 위한 연관피드백 정보로 이용하는 방안을 제안한다. 실험은 도메인 온톨로지인 Medicine 온톨로지를 대상으로 하였으며, 출현 용어들의 빈도정보만을 이용한 키워드 기반 문서검색과 제안한 온톨로지기반 문서검색의 성능을 비교하였다. 이 때, 두 시스템의 정확률과 재현율을 성능 평가의 기준으로 삼았다. 그 결과, 검색 엔진은 온톨로지에 정의된 개념들과 규칙들을 활용하면서 검색의 정확률을 향상시키는데 도움이 되었고 검색 성능을 향상시키기 위한 추론의 기반으로도 사용될 수 있었다.

Conceptual Retrieval of Chinese Frequently Asked Healthcare Questions

  • Liu, Rey-Long;Lin, Shu-Ling
    • International Journal of Knowledge Content Development & Technology
    • /
    • 제5권1호
    • /
    • pp.49-68
    • /
    • 2015
  • Given a query (a health question), retrieval of relevant frequently asked questions (FAQs) is essential as the FAQs provide both reliable and readable information to healthcare consumers. The retrieval requires the estimation of the semantic similarity between the query and each FAQ. The similarity estimation is challenging as semantic structures of Chinese healthcare FAQs are quite different from those of the FAQs in other domains. In this paper, we propose a conceptual model for Chinese healthcare FAQs, and based on the conceptual model, present a technique ECA that estimates conceptual similarities between FAQs. Empirical evaluation shows that ECA can help various kinds of retrievers to rank relevant FAQs significantly higher. We also make ECA online to provide services for FAQ retrievers.