• Title/Summary/Keyword: 검색가중치

Search Result 400, Processing Time 0.023 seconds

Content-based Image Retrieval using Weighted Color Histogram and Spatial Distribution of Dominant Colors (가중 색 히스토그램과 지배적인 색의 영상 공간 분포를 이용한 내용기반 영상 검색)

  • Park, Du-Sik;Han, Jun-Hui
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.3
    • /
    • pp.285-297
    • /
    • 2001
  • 본 논문에서는 특정한 객체의 색 분포 모델링으로부터 얻어지는 가중 색 히스토그램과 지배적인 색의 영상공간 분포특성을 이용한 내용기반 영상 검색 방법을 제안한다. 특정한 객체의 예로 사람 얼굴을 선택했고, 그것의 색 분포를 u*-v* 색도 공간에서 모델링 했으며, 모델의 정규화된 부피를 균등 양자화된 색도 공간의 각 빈(bin)의 히스토그램 값에 대한 가중치로 결정하고, 결정된 가중치를 히스토그램 정합 과정에 적용하였다. 또한 색 히스토그램 값이 큰 특정한 수의 빈으로 정의되는 지배적인 색의 영상 공간 분포를 가중 색 히스토그램과 함께 유사성의 측정기준으로 사용하였다. 제안한 검색 방법을 500여개의 영상에 대해 실험한 결과 제안한 방법이 얼굴을 포함하는 영상을 질의로 주었을 때 얼굴을 포함하는 영상을 우선적으로 찾는데 효과적임을 확인하였다.

  • PDF

The Design and Implementation of Automatic Query Term Refiner for Term Expansion/Restriction in Information Retrieval (정보검색에서 질의 용어 확장/한정을 위한 자동 질의 용어 정련기의 설계 및 구현)

  • Kang, Hyun-Su;Kang, Hyun-Kyu;Lee, Yong-Seok;Kim, Young-Sum
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.65-72
    • /
    • 1998
  • 인터넷 정보 검색에서 이용자들이 주로 사용하는 질의는 2-3개의 용어로 이루어진 짧은 질의이다. 또만 동음이의어를 갖는 용어를 사용하기도 한다. 짧은 질의를 처리하는 일반적인 방법은 시소러스[8]나 Wordnet[1]을 이용한 질의 확장이다. 그러나 시소러스나 Wordnet과 같은 지식 베이스는 구축하기가 용이하지 않으며, 도메인 종속적인 면과 단어의 회귀(sparseness) 문제를 극복하기 어려운 단점이 있다. 또한 동음이의어 용어로 인하여 검색의 정확성이 털어지는 문제점이 있다. 한편, 사용자의 질의를 주의 깊게 살펴보면, 질의로부터 관련 용어 분류 정보를 추출할 수 있다. 본 논문은 사용자의 질의가 관련 용어 분류 정보에 의해 유기적으로 관계를 가지고 있다는 사실에 기인하여 관련 용어 분류 정보에 따라 자동으로 용어 확장 및 한정을 수행하며 적절한 용어 가중치를 부여하는 자동 질의 용어 정련기를 제안한다. 자동 질의 용어 정련기는 용어의 확장, 한정 및 가중치 부여를 통하여 사용자의 정보 검색 요구를 명확히 하여 검색의 정확성을 향상시킨다.

  • PDF

Statistical Phrase Indexing Based on Positional Relation for Korean Information Retrieval (한국어 정보검색에서 위치관계에 기반한 통계적 구 색인)

  • Hong, Gum-Won;Kim, Sang-Bum;Lee, Sang-Zoo;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.76-82
    • /
    • 2001
  • 최근 웹 문서의 규모가 커짐에 따라 높은 정확도를 필요로하는 정보검색시스템이 요구되고 있다. 구 색인은 정확도를 향상시킬 수 있는 방법으로 전통적으로 많이 사용되어 왔으며, 정보검색에서 사용하는 구는 크게 통계적인 구와 구문적인 구로 나눌 수 있다. 한국에서는 주최 복합명사를 처리하거나, 구문적인 구를 이용한 방법들만이 사용되어 왔고, 통계적인 구를 이용한 검색은 연구되지 않았다. 질의에 존재하는 구의 위치관계와 문서에 존재하는 구의 위치관계가 서로 동일하다면 그 문서는 그 질의와 더욱 유사할 것이라 판단하고, 본 논문에서는 통계적인 구에서 구 구성요소간의 위치관계를 고려한 정보검색 시스템을 제안한다. 명사구 이치의 유용한 구를 생성하기 위하여 내용어를 색인했으며 색인어간의 거리와 순서를 고려하여 가중치를 부여하였다. 명사구와 내용어에 기반한 구를 사용한 각각의 실험에서 거리에 따른 가중치를 부여하는 방법이 거리를 무시한 방법에 비해서 효과적이었고 구 구성요소간의 위치관계를 고려하는 것이 성능향상의 주요한 요인임을 알 수 있었다. 또한 명사위주의 질의에서는 내용어보다는 명사만을 색인하는 것이 효과적임을 알 수 있었다.

  • PDF

A Question Answering System Using the Information of the Category Information of Thesaurus (시소러스범주정보를 이용한 질의응답시스템)

  • Kim, Su-Min;Baek, Dae-Ho;Kim, Sang-Beom;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자연어질의를 입력받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분석단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보 중에서 정답을 추출하기 위해 각 후보단어의 질의어단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용한 것이 성능의 향상을 보였다.

  • PDF

Texture Classification by a Fusion of Weighted Feature (가중치 특징 벡터를 이용한 질감 영상 인식 방법)

  • 정수연;곽동민;윤옥경;박길흠
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.407-410
    • /
    • 2001
  • 최근 영상 검색(retrieval)과 분류(classification)에서 질감 특징(texture feature)을 이용한 연구들이 활발하게 진행되고 있다. 본 논문에서는 효율적인 질감 특징 추출을 위해 명암도 상호발생 행렬법(gray level co-occurrence matrix)과 웨이블릿 변환(wavelet transform)을 이용하여 질감의 특징을 추출한 후 특징의 중요도에 따라서 가중치를 부여하는 방법을 제안한다. 이렇게 추출된 가중치 대표 벡터들을 기반으로 베이시안 분류기(Bayesian classifier)를 통해 임의의 질감을 인식하였다.

  • PDF

A Design of Important Sentence Extraction Method for Automatic Text Summarization System (자동 문서요약을 위한 중요문 추출 방법 설계)

  • Shin, Sung-Hyuk;Kim, Tae-Wan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.543-546
    • /
    • 2001
  • 본 논문에서는 빠른 속도로 증가하고 있는 인터넷상의 정보와 서비스를 검색함에 있어서 기본적인 내용은 유지하면서 정보의 과부하(information overload)문제를 해결하기 위한 문서요약의 방법으로 통계적 접근 방법에서 Kupiec의 요약문이 가지는 특성을 이용하여 문서의 방법을 설계하였다. 요약문의 각 문장에 대하여 중요도에 따라 가중치를 부여 한 후, 주어진 임계값에 따라 가중치가 낮은 문장들을 제외한다. 제외 후 가중치 점수를 부여해서 요약문 문장의 개수를 조절하면서 중요문을 추출할 수 있다.

  • PDF

A Study on the Development of Search Algorithm for Identifying the Similar and Redundant Research (유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구)

  • Park, Dong-Jin;Choi, Ki-Seok;Lee, Myung-Sun;Lee, Sang-Tae
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.11
    • /
    • pp.54-62
    • /
    • 2009
  • To avoid the redundant investment on the project selection process, it is necessary to check whether the submitted research topics have been proposed or carried out at other institutions before. This is possible through the search engines adopted by the keyword matching algorithm which is based on boolean techniques in national-sized research results database. Even though the accuracy and speed of information retrieval have been improved, they still have fundamental limits caused by keyword matching. This paper examines implemented TFIDF-based algorithm, and shows an experiment in search engine to retrieve and give the order of priority for similar and redundant documents compared with research proposals, In addition to generic TFIDF algorithm, feature weighting and K-Nearest Neighbors classification methods are implemented in this algorithm. The documents are extracted from NDSL(National Digital Science Library) web directory service to test the algorithm.

Text Similarity Decision System by Term Selection Method (용어 선별 기법에 의한 유사 문서 판별 시스템)

  • 장성호;강승식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.534-536
    • /
    • 2003
  • 대부분의 정보 검색 시스템은 문서 내어서 추출된 모든 용어를 이용해서 문서간 유사도 계산이나 문서 분류, 문서 클러스터링 등에 활용한다. 그러나 실질적으로 문서 내외 모든 용어를 추출해야만 이러한 정보 검색 시스템을 활용할 수 있는 것은 아니며, 오히려 용어 빈도수 같은 가중치가 낮은 용어를 용어 추출에서 제외시킴으로써 모든 용어 추출로 인해서 발생하는 시간과 공간을 많이 소비하는 문제를 해결할 수 있다. 또한 정확하고 자동적인 문서 분류를 위한 문서 클러스터링보다 유사 문서 검색의 활용은 검색효율의 증가를 가져 올 수 있다. 본 논문에서는 유사 문서 판별 시스템을 이용해 용어 추출의 효율성을 실험하였으며, 모든 용어를 추출한 경우보다 중요 용어만 추출한 경우에 더 좋은 성능을 보였다.

  • PDF

한글 문서의 색인어와 색인 기법

  • 강승식
    • Communications of the Korean Institute of Information Scientists and Engineers
    • /
    • v.22 no.4
    • /
    • pp.72-77
    • /
    • 2004
  • 정보검색 시스템의 성능을 평가하는 요소는 재현율(recall)과 정확률(precision)이고, 재현율과 정확률을 결정하는데 가장 큰 영향을 미치는 것은 문서에 대한 색인어와 색인어 가중치이다[1]. '질의어'에 적합한 문서를 검색할 수 있는지를 결정하는 것은 "적합 문서에 대해 색인이 되어 있는가\ulcorner"하는 문제이며, 이는 재현율에 직접적인 영향을 미치게 된다. 즉, 적합 문서를 색인할 때 '질의어'에 대한 색인이 되어 있지 않은 문서는 검색이 되지 않으며, 또한 부적합 문서에 색인이 되어 있으면 부적합 문서들이 다수 검색되기 때문에 정확률이 낮아지게 된다.이 낮아지게 된다.

User-oriented Paper Search System by Relative Network (상대네트워크 구축에 의한 맞춤형 논문검색 시스템 모델링)

  • Cho Young-Im;Kang Sang-Gil
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.05a
    • /
    • pp.287-289
    • /
    • 2006
  • 이 논문은 사용자의 쿼리와 사용자의 행동양식을 바탕으로 상대네트워크를 구축함으로써 개인화된 논문검색 시스템을 모델링한 것이다. 제안하는 시스템은 사용자가 검색한 논문에서 키워드의 빈도수를 분석하여 개인적 상대네트워크를 구축하게 되는데, 이 네트워크는 다운로드, 열기, 삭제 등과 같은 사용자의 행동으로부터 키워드간 가중치를 조정을 함으로써 구축된다. 시스템의 성능평가를 위해 100명의 사용자들을 대상으로 실험한 결과, 기존의 검색엔진을 사용했을 때보다 성능이 우수하여 사용자 만족도가 높게 나타남을 알 수 있었다

  • PDF