• 제목/요약/키워드: Measures of Retrieval Effectiveness

검색결과 12건 처리시간 0.023초

검색효율 측정척도에 관한 연구 (A Study on measuring techniques of retrieval effectiveness)

  • 윤구호
    • 한국문헌정보학회지
    • /
    • 제16권
    • /
    • pp.177-205
    • /
    • 1989
  • Retrieval effectiveness is the principal criteria for measuring the performance of an information retrieval system. This paper deals with the characteristics of 'relevance' of information and various measuring techniques of retrieval effectivess. The outlines of this study are as follows: 1) Relevance decision for evaluation should be devided into the user-oriented and the system-oriented decisions. 2) The recall-precision measure seems to be user-oriented, and the recall-fallout measure to be system-oriented. 3) Many of composite measures can not be justified III any rational manner unfortunately. 4) The Swets model has demonstrated that it yields, in general, a straight line instead of a curve of varying curvature and emphasized the fundamentally probabilistic nature of information retrieval. 5) The Cooper model seems to be a good substitute for precision and a useful measure for systems which ranked documents. 6) The Rocchio model were proposed for the evaluation of retreval systems which ranked documents, and were designed to be independent of cut-off. 7) The Cawkell model suggested that the Shannon's equation for entropy can be applied to measuring of retrieval effectiveness.

  • PDF

정보검색효율에 관한 연구 (A Study on the Effectiveness of Information Retrieval)

  • 윤구호
    • 한국문헌정보학회지
    • /
    • 제8권
    • /
    • pp.73-101
    • /
    • 1981
  • Retrieval effectiveness is the principal criterion for measuring the performance of an information retrieval system. The effectiveness of a retrieval system depends primarily on the extent to which it can retrieve wanted documents without retrieving unwanted ones. So, ultimately, effectiveness is a function of the relevant and nonrelevant documents retrieved. Consequently, 'relevance' of information to the user's request has become one of the most fundamental concept encountered in the theory of information retrieval. Although there is at present no consensus as to how this notion should be defined, relevance has been widely used as a meaningful quantity and an adequate criterion for measures of the evaluation of retrieval effectiveness. The recall and precision among various parameters based on the 'two-by-two' table (or, contingency table) were major considerations in this paper, because it is assumed that recall and precision are sufficient for the measurement of effectiveness. Accordingly, different concepts of 'relevance' and 'pertinence' of documents to user requests and their proper usages were investigated even though the two terms have unfortunately been used rather loosely in the literature. In addition, a number of variables affecting the recall and precision values were discussed. Some conclusions derived from this study are as follows: Any notion of retrieval effectiveness is based on 'relevance' which itself is extremely difficult to define. Recall and precision are valuable concepts in the study of any information retrieval system. They are, however, not the only criteria by which a system may be judged. The recall-precision curve represents the average performance of any given system, and this may vary quite considerably in particular situations. Therefore, it is possible to some extent to vary the indexing policy, the indexing policy, the indexing language, or the search methodology to improve the performance of the system in terms of recall and precision. The 'inverse relationship' between average recall and precision could be accepted as the 'fundamental law of retrieval', and it should certainly be used as an aid to evaluation. Finally, there is a limit to the performance(in terms of effectiveness) achievable by an information retrieval system. That is : "Perfect retrieval is impossible."

  • PDF

온톨로지 기반 법률 검색시스템의 구축 및 평가에 관한 연구 (Developing and Evaluating an Ontology-based Legal Retrieval System)

  • 장인호
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.345-366
    • /
    • 2011
  • 법은 실생활에 직접 영향을 미치는 중요한 정보원이다. 법률 정보가 전자적으로 접근할 수 있게 되었음에도 불구하고, 현행 키워드 기반 검색시스템은 법률용어와 일상용어의 불일치, 생략형의 용어 사용, 법률용어의 다의성, 법률 정보의 대량 생산 그리고 질의-응답 형식의 검색 욕구 등의 문제를 잘 해결하지 못하고 있는 실정이다. 이러한 문제를 해결하기 위한 하나의 방식으로 온톨로지 기반 검색시스템이 제시되고 있다. 본 연구자는 법률 온톨로지와 그 온톨로지를 기반으로 하는 법률 검색시스템(실험시스템)을 구축하는 연구와, 실험시스템의 평가를 위하여 현존하는 키워드 기반 법률 검색시스템(비교시스템)과 비교 실험을 통해 검색 성능과 이용자 만족도를 평가하는 연구를 수행하였다.

A New Class of Similarity Measures for Fuzzy Sets

  • Omran Saleh;Hassaballah M.
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제6권2호
    • /
    • pp.100-104
    • /
    • 2006
  • Fuzzy techniques can be applied in many domains of computer vision community. The definition of an adequate similarity measure for measuring the similarity between fuzzy sets is of great importance in the field of image processing, image retrieval and pattern recognition. This paper proposes a new class of the similarity measures. The properties, sensitivity and effectiveness of the proposed measures are investigated and tested on real data. Experimental results show that these similarity measures can provide a useful way for measuring the similarity between fuzzy sets.

영상 데이터베이스 검색 시스템의 검색효율 평가를 위한 새로운 평가척도 (A Novel Measure for Retrieval Efficiency of Image Database Retrieval System)

  • 서창덕;김회율
    • 방송공학회논문지
    • /
    • 제5권1호
    • /
    • pp.68-81
    • /
    • 2000
  • 본 논문에서는 순위가 부여되는 영상 데이터베이스 검색 시스템의 검색효율을 평가하기 위한 새로운 단일가 척도를 제안한다. 좋은 순위부여 시스템이 되기 위한 조건은 첫째, 관련영상을 많이 검색해야 하며 둘째, 부적합 영상은 검색하지 말아야 하며 셋째, 평균순위가 높아야 하고, 넷째, 검색된 관련영상들이 밀집되어 있어야 한다. 기존 평가척도들이 일부 조건만을 반영하며 개략적 혹은 부정확한 평가 결과를 보이는데 반해, 제안하는 평가척도 NDS(Normalized Distance Sum)는 이러한 문제점들을 모두 해결한다. NDS의 우수성을 입증하기 위해 ${\_nC_r(_10C_5=252, _20C_9=167,960)}$개의 검색패턴을 자동 발생시켜 이를 기존 평가척도와 함께 측정 비교한다. 이 패턴들은 n 순위 내에서 r 개의 관련 영상이 검색된다고 가정하였을 때 재구적 함수 호출에 의해 자동 발생된것들이다.

  • PDF

WWW 탐색도구의 색인 및 탐색 기능 평가에 관한 연구 (A Comparative Study of WWW Search Engine Performance)

  • 정영미;김성은
    • 한국문헌정보학회지
    • /
    • 제31권1호
    • /
    • pp.153-184
    • /
    • 1997
  • WWW 탐색도구들은 인터넷 정보자원의 탐색에 있어서 매우 중요한 역할을 하고 있다. 본 연구에서는 주요한 WWW 탐색도구들의 성능을 평가할 목적으로 먼저 각 탐색도구의 색인 데이터베이스 특성, 탐색 기능, 적합성 순위 부여 방법 등을 비교한 후, 탐색실험을 통하여 검색효율, 중복탐색의 정도, 탐색결과의 유사도 등을 측정하였다. 탐색실험 결과 탐색질문의 유형에 관계없이 Alta Vista, HotBot, Open Text Index가 비교적 좋은 검색효율을 보였으며, 대부분의 탐색도구가 질문의 유형에 따라 검색효율에 있어서 차이를 보였다. 동일한 사이트를 중복하여 탐색하는 탐색의 중복도는 Magellan, WebCrawler, Yahoo!를 제외한 나머지 탐색도구들에서 모두 높게 나타났다. 탐색결과의 유사도를 측정한 견과 대부분의 탐색도구들이 매우 낮은 유사도를 보였다.

  • PDF

시소러스를 기반으로 하는 자동색인 시스템에 관한 연구 (The Development of an Automatic Indexing System based on a Thesaurus)

  • 임형묵;정상철
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.213-242
    • /
    • 1993
  • 그동안 자동색인 기법에 대해서는 단일어 색인,구색인,시소러스 기반 색인 등의 연구가 이루어져 왔는데,단일어 색인 기법이 단일어에 기초한 단순한 색인 방법 임에도 불구하고 다른 두가지 기법보다 일반적으로 우수하다고 알려져왔다. 시소러스 기반 색인은 이중에서도 검색효율이 낮은 것으로 알려져 왔는데,이는 일반적으로 시소러스가 포함하고 있는 색인용어들이 한정되어 있어 색인하려는 자료들이 이색인 용어에 부합(match)되지 않을 경우 색인 자체가 이루어 지지 않기 때문이다. 본 연구에서는 시소러스 기반 색인이 지금까지 기법으로는 검색효율이 좋지 않지만 실제 전문 색인들이 하는 색인과 매우 유사하다는 장범에 기초하여,입력 자료를 구문분석하고,분석된 자료들과 색인용어들을 정확부합(exact match)이 아닌 부분부합(partial match)을 통하여 색인 함으로써 검색효율이 우수한 시소러스기반 자동 색인 시스템을 개발하고자 한다. 본 연구에서 개발된 색인 시스템이 THINS는 우선 시소러스를 트리형태로 구성하고 입력자료들을 KAIST에서 개발한 언어번역기 MATES/EK를 통하여 구문분석한 후 명사구들만 뽑아낸다.그다음 명사구에 있는 용어들중 불용어를 제거하고 스테밍작업을 진행한후 생기는 형태를 색인 용어들과 부분부합 과정을 반복하여,유사한 색인 용어들과 가능하면 색인이 되도록 한다. 본 연구에서는 CACM 데이타 집합을 가지고 본 시소러스 기반 색인 시스템과 단일어 색인방식을 혼성지식기반 시스템인 HYKIS에서 성능을 평가하였다.이 성능평가에서 시소러스를 기반으로 하는 색인 시스템이 단일어 색인방식보다 회상도에서는 8-9%떨어지지만 정확도에서는 10%정도 높은 결과를 나타내었다.그러나 이는 기존의 시소러스 기반시스템이 단일어 색인 방식보다 정확도가 25%-30%정도 떨어진다는 것을 비추어 볼때 기존의 방식보다 우수한 것이라 평가된다.또한 CACM 에서 제공하는 시소러스인 CRCS 가 1000여개의 색인어밖에 포함하고 있어 매우 불완전한 것이라는 것을 고려하면,THINS가 최근에 개발되고 있는 시소러스와 접속된다면 매우 우수한 검색효율을 내리라 사료된다.

이미지 데이터베이스 유사도 순위 매김 알고리즘 (A Similarity Ranking Algorithm for Image Databases)

  • 차광호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권5호
    • /
    • pp.366-373
    • /
    • 2009
  • 이 논문은 이미지 데이터베이스를 위한 유사도 순위 매김 알고리즘을 제시한다. 이미지 검색의 문제점 중 하나가 이미지로부터 자동적으로 계산한 하위 레벨 특성과 인간 지각과의 의미 차이이며, 검색시에 이미지 유사도 측정을 위해 많은 알고리즘에서는 민코프스키 측정법($L_p$-norm)을 사용하고 있다. 그러나 민코프스키 측정법은 인간 시각 시스템의 비선형적 특성과 문맥 정보를 반영하지 못한다. 본 알고리즘에서는 인간 지각의 비선형성과 문맥 정보를 반영하는 유사도와 탐색 알고리즘을 통해 이 문제를 해결한다. 본 알고리즘을 필기체 숫자 이미지 데이터베이스에 적용하여 성능의 우수성과 효과를 증명하였다.

Effectiveness of Worksite Intervention on Stress Management: An Analytic Literature Review

  • Park Kyoung-Ok
    • 보건교육건강증진학회지
    • /
    • 제21권4호
    • /
    • pp.15-33
    • /
    • 2004
  • With growing significance of psychological well-being in the worksite, the purpose of this analysis was to overview the empirical studies on worksite stress management and to identity the overall effect of worksite health promotion programs on stress management through meta-analysis. Literature retrieval was conducted on-line first in MEDLINE, EBSCOhost Academic Search Premier, and PSYCHINFO databases in public health, psychology, sociology, and human resource management areas. All studies written in English and published in the peer-reviewed journals during 1990 and 2002 were recruited. Key words used in literature retrieval were 'worksite,' 'intervention,' 'program,' 'work stress,' 'strain,' 'burnout,' 'management,' 'prevention,' 'education,' and 'health promotion.' A total of 18 worksite intervention studies with 48 effect sizes were analyzed and the results were as follows. Approximately 60% of the studies had quasi-experimental design and were conducted in manufacturing company and public sector. General psychological strains and burnout were frequently used measures of psychological stress. The lecturing and discussion typed intervention and the participatory problem-solving typed intervention were employed more than others in the studies. The average effect (r: pearson's simple correlation coefficient) weighted by sampling error was -0.14 (-0.32 to 0.05). In the conventional category of effects this is a small effect ranging from -0.59 to 0.05. Binomial effect size showed that success rates increased from 43% without intervention to 57% after an intervention. Sampling error explained 47.14% of the observed variance and its effectiveness on stress management were heterogeneous. In regression analysis with suspected moderating factors affecting the worksite interventions, research design was the only significant moderating factor. The studies with quasi-experimental design had greater effects than the studies with experimental design.

시각 예제에 의한 질의: 시각정보 검색지원을 위한 이미지 질의 패러다임의 유용성 비교 연구 (Query by Visual Example: A Comparative Study of the Efficacy of Image Query Paradigms in Supporting Visual Information Retrieval)

  • 콜린 벤터스
    • 정보관리연구
    • /
    • 제42권3호
    • /
    • pp.71-94
    • /
    • 2011
  • 시각적 실례에 의한 질의는 내용기반 이미지 검색 환경에서 질의 표현을 위한 중요한 질의 패러다임이다. 이미지 및 스케치에 의한 질의는 질의표현을 가능하게 하는 방법으로서 오랫동안 알려졌다. 하지만 이 방법이 질의를 쉽게 작성하는 데 얼마나 도움을 주는지에 대한 효율성에 대한 실험적 입증은 아직 미미하다. 정보검색시스템에 표현하는 탐색자의 능력은 검색과정의 기본이다. 이 연구의 목적은 탐색자의 정보 문제와 효율적이고도 효과적인 시각적 질의 작성을 지원하기 위해 필요한 질의 방법들 간의 지식 격차의 원인이 되는 다양한 정보 요구를 지원하는 데 있어서 유용성 실험을 통해 이미지에 의한 질의와 스케치방법에 의한 질의 조사하기 위함이었다. 본 연구 결과는 이미지에 의한 질의가 시각적 질의 작성에 실행 가능한 접근방식임을 제시한다. 반면에, 본 연구결과를 통해 탐색자의 정보 문제와 시각적인 질의 작성에 도움을 주는 스케치 패러다임에 의한 질의표현 능력 간에 상당한 불일치가 있다는 것을 알 수 있다. 효율(시간)과 유효성(오류)에 초점을 둔 유용성 실험결과와 이용자의 만족도는 큰 차이점이 있다고 보여준다(p<0.001). 이는 다음 세 가지 측정(시간, 오류, 이용자의 만족도)에 대한 두 가지 질의 방식(이미지에 의한 질의, 스케치에 의한 질의) 사이에서 나타난 시간(Z=-3.597, p<0.001), 오류(Z=-3.317, p<0.001), 그리고 만족도(Z=-10.223, p<0.001)에서 드러난다. 본 연구결과는 또한 질의도구를 참가자가 인지하는 유용성에 큰 차이가 있다는 것을 보여준다(Z=-4.672, p<0.001).