• Title/Summary/Keyword: 검색 가중치

Search Result 400, Processing Time 0.028 seconds

Weighted N-Gram Indexing for Image Search Engine (영상검색엔진을 위한 가중치 N-Gram색인 방법)

  • 이상열;정성호;황병곤
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2002.11a
    • /
    • pp.412-416
    • /
    • 2002
  • 멀티미디어 검색 시스템들은 아직까지 내용 기반에 의한 검색기술이 실용적으로 쓰일 만큼 높은 성능을 보이고 있지 않기 때문에 텍스트에 의한 검색만을 지원하고 있는 실정이다. HTML 문서에 나타나는 텍스트 중 이미지 아래에 붙은 표제나 이미지 링크에 붙어 있는 텍스트를 골라내어 이미지의 색인 정보로 이용하여 텍스트를 추출하는 기법을 제안하였다. 텍스트를 추출하기 위해 N-Gram 색인 방법을 사용하였으며 한편 검색 효율을 높이기 위해서 질의 의도가 큰 단어에 가중치를 부여하였다.

  • PDF

Metasearch for Website Finding (사이트 검색을 위한 메타 검색)

  • Lee, Yeo-Jin;Kang, In-Ho;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.245-252
    • /
    • 2002
  • 여러 검색 엔진이 낸 결과를 결합하여 성능의 향상을 얻고자 하는 정보 검색 방법을 메타 검색(metasearch)이라고 한다. 정보 검색에서의 사용자 요구가 다양화되고 있지만, 기존의 메타 검색에 관한 연구는 이를 제대로 반영하지 못하고 웹 문서를 대상으로 검색(topic relevance task)한 결과를 결합하는 데에만 치중해 있다. 최근에는 사이트 검색(entry page finding task)만을 목적으로 한 시스템도 개발되고 있다. 본 논문에서는 사이트 검색 엔진들의 결과를 결합하는 메타 검색 방법을 제시한다. 웹 문서 검색 결과를 결합시에는 여러 검색 엔진에서 중복(overlap)하여 나타난 문서에 가중치를 두는 방법이 효과적이다. 하지만 이 방법을 그대로 사이트 검색에 적용하면 웹 문서 검색에서와 같은 좋은 결과를 낼 수 없다. 본 논문에서는, 여러 검색 엔진에 중복하여 나타난 문서에 가중치를 두는 것보다는 그 문서가 속한 사이트를 고려하여 사이트 단위로 중복된 정도를 반영하는 것이 사이트 검색 엔진의 견과를 결합하는 데 더 효과적임을 보인다.

  • PDF

Comparative Evaluation of Term Weighting Methods in Automatic Document Classification (문헌 자동분류에서 용어가중치 기법에 대한 연구)

  • 이재윤;최보영;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2000.08a
    • /
    • pp.41-44
    • /
    • 2000
  • 정보검색 시스템의 성능을 향상시키기 위해서 다양한 용어가중치 공식이 제안 되어왔다. 용어가중치는 질의와 문헌을 비교하는 검색의 경우뿐만 아니라 문헌과 문헌을 비교하는 자동분류에서도 성능에 영향을 미칠 수가 있다. 본 논문에서는 다양한 용어가중치 공식에 대해서 살펴보고, 문헌 자동분류 성능에 미치는 영향을 문헌 클러스터링 실험과 범주화 실험을 통해 확인해 보았다.

  • PDF

A Term Weight Mensuration based on Popularity for Search Query Expansion (검색 질의 확장을 위한 인기도 기반 단어 가중치 측정)

  • Lee, Jung-Hun;Cheon, Suh-Hyun
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.8
    • /
    • pp.620-628
    • /
    • 2010
  • With the use of the Internet pervasive in everyday life, people are now able to retrieve a lot of information through the web. However, exponential growth in the quantity of information on the web has brought limits to online search engines in their search performance by showing piles and piles of unwanted information. With so much unwanted information, web users nowadays need more time and efforts than in the past to search for needed information. This paper suggests a method of using query expansion in order to quickly bring wanted information to web users. Popularity based Term Weight Mensuration better performance than the TF-IDF and Simple Popularity Term Weight Mensuration to experiments without changes of search subject. When a subject changed during search, Popularity based Term Weight Mensuration's performance change is smaller than others.

A Study on the Pivoted Inverse Document Frequency Weighting Method (피벗 역문헌빈도 가중치 기법에 대한 연구)

  • Lee, Jae-Yun
    • Journal of the Korean Society for information Management
    • /
    • v.20 no.4 s.50
    • /
    • pp.233-248
    • /
    • 2003
  • The Inverse Document Frequency (IDF) weighting method is based on the hypothesis that in the document collection the lower the frequency of a term is, the more important the term is as a subject word. This well-known hypothesis is, however, somewhat questionable because some low frequency terms turn out to be insufficient subject words. This study suggests the pivoted IDF weighting method for better retrieval effectiveness, on the assumption that medium frequency terms are more important than low frequency terms. We thoroughly evaluated this method on three test collections and it showed performance improvements especially at high ranks.

Improvement of retrieval system and generation of compound noun using word weight method (단어 가중치 값을 이용한 복합명사 제한적 확장 및 검색 성능 개선)

  • Kim, Hyun-Jin;Lee, Chung-Hee;Hur, Jeong;Jang, Myeong-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.603-606
    • /
    • 2002
  • 자동색인이나 정보검색 엔진에서는 효율적인 색인어 추출이 주요한 요인으로 작용한다. 특히 색인 집합의 많은 부분을 차지하는 복합명사의 경우에는 색인과 검색 두 분야 모두에 큰 문제로 여겨져 왔다. 본 논문에서는 복합명사를 이루는 단일 단어 중에 단어 가중치가 높은 것을 중심으로 복합명사를 확장하는 방식을 이용하여, 색인어를 추출하여, 복합명사가 제한적으로 확장되는 효과를 보여 주며, 검색에서는 질의문에 나타나는 명사들에 이러한 가중치 값을 적용하여 검색에 효과를 높여 주는 방식을 제안한다.

  • PDF

Image Retrieval using Adaptable Weighting Scheme on Relevance Feedback (사용자 피드백 기반의 적응적 가중치를 이용한 정지영상 검색)

  • 이진수;김현준;윤경로;이희연
    • Journal of Broadcast Engineering
    • /
    • v.5 no.1
    • /
    • pp.61-67
    • /
    • 2000
  • Generally, relevance, feedback reflecting user's intention has been used to refine the refine the query conditions in image retrieval. However, in this paper, the usage of the relevance feedback is extended to the image database categorization so as to be accommodated to the user independent image retrieval. In our approach, to guarantee a desirable user-satisfactory performance descriptors and the elements of the descriptors corresponding unique features associatiated with of each image are weighted using the relevance feedback where experts can more lead rather than beginners do. In this paper, we propose a proper image description scheme consisting of global information, local information, descriptor weights and element weights based on color and texture descriptors. In addition, we also introduce an appropriate learning method based on the reliability scheme preventing wrong learning from abusive feedback.

  • PDF

Weight-based Wellbeing Food Retrieval System (가중치 기반 웰빙식품 정보 검색 시스템)

  • Pyun, Gwang-Bum;Yun, Un-Il;Ryu, Keun-Ho
    • Journal of Internet Computing and Services
    • /
    • v.11 no.3
    • /
    • pp.75-86
    • /
    • 2010
  • As the interests in health grow higher, necessity of Well-being relation informations get more importance. We get the information of well-being, tinternet retrieval system or blog, homepage and media. Although, it is not easy to find informations of well-being food. So, retrieval system has been requiring information about well-being food. In this paper, Weight-based Wellbeing Food Retrieval System is designed and implemention. Finding numerous pages and if well-being keywords includes page, it was identified and add weight. User searching for keywords, it implement, well-being food pages comes at the first. Keywords for discrimination makes type of dictionary, so it can insert, delete, modify. Inverted files saves hasing(direct-based file). Retrieval System in this paper is experimental result, at keywords of well-being food show 5~15% imprement than another Retrieval System. In this paper, Weight-based Wellbeing Food Retrieval System's designed and proposed way to raking for well-being food.

Deep Analysis on Index Terms Using Baysian Inference Network (베이지안 추론망 기반 색인어의 심층 분석 방법)

  • Song, Sa-Kwang;Lee, Seungwoo;Jung, Hanmin
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.84-87
    • /
    • 2012
  • 대분분의 검색 엔진에서 색인어의 추출 및 가중치의 부여방법은 매우 중요한 연구주제로, 검색 엔진의 성능에 큰 영항을 미친다. 일반적으로, 불용어 리스트를 통해 성능에 긍정적인 영향을 미치지 않는 색인어를 제거하거나, 핵심어 또는 전문용어 등 상대적으로 중요한 색인어를 강조하는 방식을 사용하여 검색엔진의 성능을 향상시킨다. 하지만, 어절 분리, 형태소 분석, 불용어 처리 등 검색엔진의 단계열 처리 과정에서, 개별적인 색인어가 검색엔진에 미치는 영향을 분석하고 이를 반영한 검색 엔진 성능 향상 기법은 제시되지 않고 있다. 따라서 본 연구에서는 각 단계별 처리 과정에서 생성된 색인어가 미치는 영항을 계랑화하여 긍정적/부정적 색인어를 분류하는 방법론을 소개하고, 이를 기반으로 색인어 가중치를 조절함으로써 검색 엔진의 성능 또한 향상 가능한 방법을 소개한다.

  • PDF

Term Weighting Using Date Information and Its Appliance in Automatic Text Classification (날짜 정보를 이용한 가중치 계산 방법을 적용한 자동 문서분류)

  • Shim, Bojun;Park, Jinwoo;Seo, Jungyun
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.169-173
    • /
    • 2007
  • 문장을 구성하는 단어들은 문장의 의미를 표출하는 데에 있어서 모두 같은 크기의 중요도를 갖지는 않는다. 따라서, 정보검색 분야에서는 오랫동안 단어에 부여할 서로 다른 가중치를 구하는 다양한 전략을 연구해 왔다. 매우 일반적인 기능어들은 불용어로 분류하여 고려 대상에서 제외하기도 하고, 개체명 추출기를 이용하여 고유명사에 높은 가중치를 부여하거나, TF-IDF와 같이 단어가 문서 집합에 출현하는 양상과 빈도를 고려하여 가중치를 구하는 전략을 사용하기도 한다. 이와 같은 연구들에서는 같은 단어라면 어떤 상황에서도 변하지 않는 가중치를 가지게 된다. 본 논문에서는 같은 단어라 할지라도 날짜에 따라서, 어떤 날짜에는 중요한 단어이므로 높은 가중치를 받지만, 다른 날짜에는 낮은 가중치를 부여하는 전략을 제안하고 있다. 이 방법은 모든 정보검색 작업에서 사용할 수 있는 범용적인 전략이다. 본 연구에서는 특히, 문서분류 작업에 제안 방법을 적용했을 때, 제안 방법을 적용하지 않은 기본 시스템보다 분류 정확성이 더 향상되는 것을 실험을 통해서 확인하였다.

  • PDF