• Title/Summary/Keyword: 검색율

Search Result 619, Processing Time 0.026 seconds

Design and Implementation of Web Search Engine Using Dynamic Category Hierarchy (동적분류체계를 사용한 웹 검색엔진의 설계 및 구현)

  • Park, Sun;Choi, Bum-Gi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05b
    • /
    • pp.747-750
    • /
    • 2003
  • 분류검색 방법은 색인검색 방법과 함께 중요한 요소로서 웹 검색 엔진에서 지원되고 있다. 색인검색 방법에서는 검색결과의 재현율이 높지만 검색결과가 너무 많이 나오기 때문에 원하는 검색결과를 찾아내는 것이 어렵다는 단점이 있다. 또한 능숙한 컴퓨터 사용자는 색인검색을 자주 사용하지만, 컴퓨터에 익숙하지 않은 대부분의 사람들은 분류검색 방법을 사용한다. 이러한 이유 때문에 검색엔진에서 분류검색 방법이 반드시 필요하다. 그러나 분류검색 방법은 찾고자 하는 문서의 해당분류가 애매모호하거나 명확하게 알지 못할 때에는 문서를 찾지 못하는 경우가 빈번히 발생한다. 즉, 검색결과의 정확도는 높으나 재현율이 떨어지는 단점이 있다. 본 논문은 이러한 분류검색에 대한 문제점을 해결하기 위해서 분류와 검색어간의 관계를 퍼지논리를 이용하여 정량적으로 계산하고 이를 바탕으로 분류간의 함의관계를 유도함으로써 동적인 분류체계를 구성하는 새로운 웹 검색엔진을 설계하고 구현하였다. 구현된 검색엔진은 분류간의 함의관계를 유사한 하위분류로서 간주함으로써 분류검색 결과의 재현율을 높일 수 있다.

  • PDF

Case Study on Retrieval Effectiveness of Technical Reprots by Natural Language (자연언어를 이용한 연구보고서 검색효율성 측정 사례연구)

  • 김재수
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1994.12a
    • /
    • pp.7-10
    • /
    • 1994
  • 우리나라 연구소의 소규모 검색체계에서는 시소러스를 이용하지 않고 검색체계를 유지해도 별 문제가 없다는 생각을 가져온 것이 사실이다. 그러나 현실적으로는 검색효율이 극히 저조하고 잡음율이 높을 뿐만 아니라 필요한 정보의 접근이 불가능한 경우까지도 있다. 그래서 과연 현 체계대로 검색했을때 검색효율 즉 적합율과 재현율은 어느 정도 인가를 실험을 통해서 측정해 보았더니 극히 저조하다는 결론을 얻었고 그 원인을 분석해 보았다.

  • PDF

대용량 멀티미디어 데이터의 효율적인 검색엔진 설계

  • Lee, Gwang-Hyeong;Min, So-Yeon
    • Proceedings of the KAIS Fall Conference
    • /
    • 2009.05a
    • /
    • pp.503-506
    • /
    • 2009
  • 본 논문에서는 대용량 멀티미디어 데이터에 대한 사용자의 다양한 의미검색을 지원하는 비디오 검색 시스템의 설계를 제안한다. 제안하는 시스템은 주석기반검색과 특징기반 검색을 각각의 에이전트를 통하여 자동으로 처리하였다. 먼저 주석기반검색은 사용자의 검색어를 입력하게 되면 가중치를 적용하여 의미를 더욱 구체화 하여 오류율을 최소화 하였으며, 특징기반검색은 주석기반검색에서 선택된 키프레임에 의해 데이터베이스의 영상들과 유사도를 검사하여 검색하였다. 시스템의 구현결과 기본시스템보다 0.5%의 재현율의 향상과 97.8%의 정확률을 나타내었다.

  • PDF

A Benchmark Test for Korean Spelling-Checking Programs (국어 철자검색 프로그램 키재기)

  • No, Yong-Kyoon;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.505-517
    • /
    • 1994
  • 국어 철자 검색 프로그램 세 개의 검색 능력을 비교하였다. 오류가 없는 파일, 타자시의 전형적인 오류를 포함하는 파일(자소별 오류율 1%), 그리고 광학적 문자인식 프로그램의 전형적인 오류를 포함하는 파일(자소별 오류율 $2.7{\sim}2.9%$) 등에 대하여 한글과 컴퓨터, 한국 마이크로소프트, 핸디 소프트의 워드프로세서에 도구로 포함된 철자검색 프로그램을 수행하였다. 이 세 프로그램 중에서 한글과 컴퓨터의 제품은 정방향 오판율과 오류율 낮은 파일에 대한 역방향 오판율이 낮았고 핸디 소프트의 제품은 오류율이 높은 파일에 대한 역방향 오판율이 낮았다. 세 프로그램 모두 역방향 오판율이 자소별 오류율의 10배 이상이라는 점에 있어서 심각한 문제를 안고 있는 것으로 판단된다.

  • PDF

A Hybrid Information Retrieval Model Using Metadata and Text (메타데이타와 텍스트 정보의 통합검색 모델)

  • Yoo, Jeong-Mok;Myaeng, Sung-Hyon;Kim, Sung-Soo;Lee, Mann-Ho
    • Journal of KIISE:Databases
    • /
    • v.34 no.3
    • /
    • pp.232-243
    • /
    • 2007
  • Metadata IR model has high precision and low recall because the query in Metadata IR model is strict that is, the query can express user information need exactly, while Full-text IR model has low precision and high recall because the query in Full-text IR model is a kind of simple keyword query which expresses user information need roughly. If user can translate one's information need into structured query well, the retrieval result will be improved. However, it is little possible to make relevant query without understanding characteristics of metadata. Unfortunately, most users do not interested in metadata, then they cannot construct well-made structured query. Amount of information contained in metadata is less than text information. In this paper, we suggest hybrid IR model using metadata and text which can provide users with lots of relevant documents by retrieving from metadata field and text field complementarily.

The Effects of Learning Methods on the Capability of Information Retrieval and Synthesis in Web (웹 환경에서의 학습 방법이 정보검색 및 정보종합 능력에 미치는 영향)

  • 함명식
    • Journal of the Korean Society for information Management
    • /
    • v.19 no.4
    • /
    • pp.5-34
    • /
    • 2002
  • The purpose of this study is to investigate the effects of learning methods on students' information retrieval and information synthesis capability in web. This is an experimental study comparing the two different learning methods as task-based learning and technic-based learning. The findings of this study were as follows: 1. The task-based learning was more effective than the technic-based learning in information achievements as information retrieval capability (t= 3.59, p〈.05). 2. In the 1st retrieval (recall ratio t=1.81 precision ratio t=.61) of Naver Korean Web Retrieval, there was no significant difference (p〉.05). In the 2nd retrieval (recall ratio t=2.93 precision ratio t=2.45) and 3rd retrieval (recall ratio t=3.48 precision ratio t= 2.50), the task-based group was more effective than the technic-based group (p〈.05). 3. There was no significant difference in students' information synthesis capability between the task-based learning and technic-based learning (t= 1.95, p〉.05). The findings of this study suggest that the task-based learning approach is more effective to improve students' information literacy, and that professionals should consider better instructional principles for the improvement of instructional quality.

Variable Length Passage Retrieval for Q&A System (질의 응답 시스템을 위한 가변 길이 단락 검색)

  • Lee, Young-Shin;Hwang, Young-Sook;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.259-266
    • /
    • 2002
  • 질의 응답 시스템에서 보다 정확하게 정답을 판별하기 위해서는 구문분석 혹은 의미분석 등과 같은 복잡도가 높은 분석작업이 요구되며, 이러한 질의 응답 시스템 성능의 상한을 결정하는 검색 시스템은 가급적 적은 양의 검색 결과를 내주어서 질의 응답 시스템이 처리해야 할 작업량에 대한 부담을 덜어주어야 한다. 본 논문에서는 이러한 요구를 만족시키는 검색 시스템으로 가변 길이 단락 검색 시스템(variable length passage retrieval system)을 제안한다. 제안하는 검색 시스템은 질의에 대한 정답을 포함하고 있을 가능성이 있는 텍스트 영역은 질의에 따라 그 크기가 다를 것이라는 가정으로부터 출발한다. 그러므로 문서 전체를 검색하거나 고정 길이 단락으로 나누어져 색인되어 있는 부분 문서들을 검색하는 기존의 검색 방법과 달리, 제안된 시스템은 문서에서 임의의 길이로 이루어진 단락을 대상으로 동적인 단락 검객을 수행한다. TREC QA track의 질의집합 중 1번부터 100번까지의 질의에 대해 실험을 수행한 견과, 문서 검색 시스템이나 고정 길이 단락 검색 시스템은 상위 1000개의 문장까지 검색을 하였을 때 각각 96%, 98%의 재현율을 보인 반면, 가변 길이 단락 검색 시스템은 800개의 문장만으로도 98%의 재현율을 보이고, 900개의 문장을 검색하였을 경우 100%의 재현율을 보였다.

  • PDF

Image Retrieval Using Entropy Features (엔트로피 특징을 이용한 영상검색)

  • 서상용;천영덕;김남철
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.9B
    • /
    • pp.1283-1291
    • /
    • 2001
  • 본 논문에서는 웨이브렛 영역에서 엔트로피 특징과 웨이브렛 모멘트의 융합에 의한 효율적인 영상기법을 제안한다. 엔트로피 특징은 밝기값의 국부적 변화도에 민감하고 밸리, 에지 등의 특징을 잘 검출한다. 이러한 특징을 주파수 대역별로 구해지는 웨이브렛 모멘트와 잘 융합하여 내용기반 영상검색에 효과적으로 적용하였다. 제안한 방법의 성능을 평가하기 위한 시험영상 DB로는 Corel Draw Photo 영상을 사용하였다. 실험 결과, 제안한 방법으로 구한 검색율이 기존의 웨이브렛 모멘트로 구한 검색율보다 11%이상 향상되어 매우 우수한 검색 성능을 보임을 확인하였다.

  • PDF

한글 문서의 색인어와 색인 기법

  • 강승식
    • Communications of the Korean Institute of Information Scientists and Engineers
    • /
    • v.22 no.4
    • /
    • pp.72-77
    • /
    • 2004
  • 정보검색 시스템의 성능을 평가하는 요소는 재현율(recall)과 정확률(precision)이고, 재현율과 정확률을 결정하는데 가장 큰 영향을 미치는 것은 문서에 대한 색인어와 색인어 가중치이다[1]. '질의어'에 적합한 문서를 검색할 수 있는지를 결정하는 것은 "적합 문서에 대해 색인이 되어 있는가\ulcorner"하는 문제이며, 이는 재현율에 직접적인 영향을 미치게 된다. 즉, 적합 문서를 색인할 때 '질의어'에 대한 색인이 되어 있지 않은 문서는 검색이 되지 않으며, 또한 부적합 문서에 색인이 되어 있으면 부적합 문서들이 다수 검색되기 때문에 정확률이 낮아지게 된다.이 낮아지게 된다.

Design and Implementation of Web Directory Engine Using Dynamic Category Hierarchy (동적분류에 의한 주제별 웹 검색엔진의 설계 및 구현)

  • Choi Bum-Ghi;Park Sun;Park Tae-Su;Song Jae-Won;Lee Ju-Hong
    • Journal of Internet Computing and Services
    • /
    • v.7 no.2
    • /
    • pp.71-80
    • /
    • 2006
  • In web search engines, there are two main methods: directory searching and keyword searching. Keyword searching shows high recall rate but tends to come up with too many search results to find which users want to see the pages. Directory searching has also a difficulty to find the pages that users want in case of selecting improper category without knowing the exact category, that is, it shows high precision rates but low recall rates. We designed and implemented a new web search engine to resolve the problems of directory search method. It regards a category as a fuzzy set which contains keywords and calculate the degree of inclusion between categories. The merit of this method is to enhance the recall rate of directory searching by expanding subcategories on the basis of similarity.

  • PDF