• Title/Summary/Keyword: 유사도 질의

Search Result 1,856, Processing Time 0.028 seconds

Improvement of Relevance Feedback for Image Retrieval (영상 검색을 위한 적합성 피드백의 개선)

  • Yoon, Su-Jung;Park, Dong-Kwon;Won, Chee-Sun
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.39 no.4
    • /
    • pp.28-37
    • /
    • 2002
  • In this paper, we present an image retrieval method for improving retrieval performance by fusion of probabilistic method and query point movement. In the proposed algorithm, the similarity for probabilistic method and the similarity for query point movement are fused in the computation of the similarity between a query image and database image. The probabilistic method used in this paper is suitable for handling negative examples. On the other hand, query point movement deals with the statistical property of positive examples. Combining these two methods, our goal is to overcome their shortcoming. Experimental results show that the proposed method yields better performances over the probabilistic method and query point movement, respectively.

The Method of Searching Metathesaurus, Using Automatic Modified a Query (질의어 자동수정을 이용한 메타시소러스 검색 방법)

  • 김종광;하원식;김태용;류중경;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.454-456
    • /
    • 2003
  • UMLS(2003AA edition 기준)의 메타시소러스는 다국어를 지원하며 875.233개의 개 (concept)과 2,146,897개의 개념명(concept name)을 포함한다. 현재 UMLS 메타시소러스 검색을 제공하는 PubMed나 NLM에서는 UMLS에서는 개념명에 존재하지 않는 잘못된 질의나, 잘못된 구문 또는 개념명의 일부를 이용한 검색이 불가능하다. 이는 사용자가 UMLS에서 정보를 얻기 위해서는 정확한 의학용어를 숙지해야 되며. UMLS 메타시소러스의 데이터가 잘못 되었을 경우 정보를 얻을 수 없다. 본 연구에서는 이러한 문제점을 보완하기 위해서 자연어처리에서 연구되고 있는 문자열 간의 유사도 측정방식을 적용하여 잘못된 질의어에 대한 자동수정 기능을 이용한 메타시소러스 검색방법을 제안한다. 제안한 방법에서는 질의어를 자동수정하기 위하여 철자사전을 자동으로 추출하고 문자열 비교알고리즘을 도입하여 질의어와 철자사전간의 용어의 유사도를 측정한다. 유사도에 의하여 얻어진 용어를 메타시소러스의 형식에 맞게 변환하여 질의에 대한 최적의 결과를 얻을 수 있도록 한다. 제안된 방법의 성능을 평가하기 위해서 최근(2003년 8월) bi-gram 방식을 도입한 NLM에서의 시스템과 비교 평가한다.

  • PDF

Comparing the Performance of Global Query Expansion according to Similarity Measures (유사계수에 따른 전역적 질의확장 검색 성능 비교)

  • 이재윤
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.526-528
    • /
    • 2003
  • 공기빈도를 이용한 전역적 질의확장 검색에서 공기유사도를 판정하는데 이용되는 유사계수의 특성에 따른 질의확장 성능을 비교해보았다. 먼저 각 유사계수의 통계적인 특성을 말뭉치와 검색실험 문서집단을 대상으로 살펴본 결과 코사인 계수, 자카드 계수는 고빈도어 선호경향을 보이고 상호정보량과 율의 Y는 저빈도어 선호경향을 보이는 것으로 나타났다. 질의확장 검색실험에서는 고빈도어 선호경향을 가진 유사계수에 비해서 저빈도어 선호경향을 가진 유사계수률 이용할 때 더 종은 성능이 나타났다. 특히 율의 Y는 질의어의 DF가 1에 가깝게 매우 낮을 때 다른 유사계수와 달리 고빈도어를 선호함으로써 항상 저빈도어를 선호하는 상호정보량에 비해서 질의확장 검색에 유리함을 알 수가 있었다.

  • PDF

Matrix-based Filtering and Load-balancing Algorithm for Efficient Similarity Join Query Processing in Distributed Computing Environment (분산 컴퓨팅 환경에서 효율적인 유사 조인 질의 처리를 위한 행렬 기반 필터링 및 부하 분산 알고리즘)

  • Yang, Hyeon-Sik;Jang, Miyoung;Chang, Jae-Woo
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.7
    • /
    • pp.667-680
    • /
    • 2016
  • As distributed computing platforms like Hadoop MapReduce have been developed, it is necessary to perform the conventional query processing techniques, which have been executed in a single computing machine, in distributed computing environments efficiently. Especially, studies on similarity join query processing in distributed computing environments have been done where similarity join means retrieving all data pairs with high similarity between given two data sets. But the existing similarity join query processing schemes for distributed computing environments have a problem of skewed computing load balance between clusters because they consider only the data transmission cost. In this paper, we propose Matrix-based Load-balancing Algorithm for efficient similarity join query processing in distributed computing environment. In order to uniform load balancing of clusters, the proposed algorithm estimates expected computing cost by using matrix and generates partitions based on the estimated cost. In addition, it can reduce computing loads by filtering out data which are not used in query processing in clusters. Finally, it is shown from our performance evaluation that the proposed algorithm is better on query processing performance than the existing one.

A Study on Improving the Effectiveness Using Term Reweighting for Information Retreival (정보 검색에서 용어 가중치 재부여를 이용한 성능 증진에 관한 연구)

  • 김영천;이재훈;문유미;이성주;박병권
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.11 no.9
    • /
    • pp.811-816
    • /
    • 2001
  • 정보 검색 시스템의 중요한 목적중의 하나는 단순히 사용자 질의를 만족하는 문서들의 집합을 검색하는 것이 아니라, 질의를 만족하는 정도에 따라 검색된 문서들에 순위를 부여함으로써 사용자들이 필요한 정보를 얻는데 소모되는 시간을 최소화시키는 것이다. 순수한 부울 검색 시스템은 검색 전략이 이진값에 근거하여 순위 구분 없이 연관/비연관 중의 하나로 결정된다. 딸서 문서와 질의 사이의 유사도를 나타내는 문서값을 계산할 수 없기 때문에, 검색된 문서들을 질의를 만족하는 정보에 따라 정렬할 수 없다. 부울 검색 시스템의 이러한 단점을 보완하는 방법으로 MMM 모델, Paice 모델, P-norm 모델이 개발되었다. 본 논문에서는 높은 검색 효과를 제공하는 백터모델에서 용어 가중치 재부여를 이용한 정보검색 모델을 제안한다. 벡터모델에서 용어 가중치 재부여를 이용한 질의 확장 모델의 연산 특성이 MMM, Paice, P-norm 모델보다 우수함을 설명하고, 또한 성능 비교를 통하여 이를 입증한다.

  • PDF

Experiments on Pseudo Relevance Feedback in Probabilistic Information Retrieval Model (확률적 정보 검색 모델에서의 유사 적합성 피드백 실험)

  • Cho, Bong-Hyun;Lee, Chang-Kee;An, Joo-Hui;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.183-190
    • /
    • 2001
  • 본 논문은 확률기반 자연어 검색 시스템 POSNIR/E를 이용한 여러 가지 유사 적합성 피드백 방법들이 검색 시스템의 성능 향상에 기여할 수 있는 정도를 보여주고, 확률 기반 정보 검색 시스템에 적합한 유사 적합성 피드백 수행 방법을 제시한다. POSNIR/E는 한국어 자연어 검색 시스템, POSNIR를 기반으로 만들어진 영어 자연어 검색 시스템이다. 이 시스템은 성능 향상을 위한 질의 확장의 방법으로 검색 단계에서 유사 적합성 피드백을 사용한다. 검색 단계에서 영어 태거에 의해 태깅된 사용자 질의로부터 질의어를 추출하고 초기 검색을 수행한다. 유사 적합성 피드백을 위하여 초기 검색 결과 중 상위 5개의 문서에 나타나는 키워드를 중요도에 따라 내림차순 정렬하여 상위 10개의 키워드를 초기 질의어에 확장한다. 이렇게 확장된 질의어로 최종 검색을 수행한다. TREC 평가용 테스트 컬렉션 WT10g와 TREC-9의 질의 적합문서 집합을 이용하여 여러 가지 TSV 함수를 사용하여 검색 성능을 평가 하였다. 실험 결과 유사 적합성 피드백을 사용할 경우 TSV 함수에 확률 모델의 CF 요소 뿐만 아니라 TF 요소 등을 적용 시킬 경우 성능 향상에 기여할 수 있음을 알 수 있었다. 또한 색인어와 검색어로 단일어 뿐만 아니라 복합어도 사용할 경우 성능이 향상됨을 알 수 있다.

  • PDF

Computing Similarities between Segmented Objects in the image for Content-Based Retrieval (내용기반 검색을 위한 분할된 영상객체간 유사도 판별)

  • 유헌우;장동식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.358-360
    • /
    • 2001
  • 본 논문에서는 내용기반 영상검색중 객체기반검색 방법에 대해 다룬다. 먼저 색상과 질감정보가 동일한 영역을 VQ알고리즘을 이용해 군집화 함으로써 동일한 영역을 추출하는 새로운 영상분할기법을 제안하고, 분할 후에 분할에 사용된 색상과 질감정보, 객체간의 위치정보와 영역크기정보를 가지고 객체간 유사도를 판별하여 영상을 검색한다. 이 때 사용되는 색상의 범위의 몇 개의 주요한 색상으로 표시하기 위해 색상테이블을 사용하고 인간의 인지도에 의해 다시 그룹화 함으로써 계산량과 데이터저장의 효율성을 높인다. 영상검색시에는 질의 영상의 관심객체와 비교대상이 되는 데이터베이스 영상의 여러 객체와의 유사성을 판단하여 영상간의 유사도를 계산하는 일대다 매칭 방법(One Object to Multi Objects Matching)과 질의 영상의 여러 객체와 데이터베이스영상의 여러 객체간의 유사도를 판단하는 다대다 매칭 방법(Multi Objects to Multi Objects Matching)을 제안한다. 또한, 제안된 시스템은 고속검색을 실현하기 위해 주요한 색상값을 키(key)색인화 해서 일치가능성이 없는 영상들은 1차적으로 제거함으로써 검색시간을 줄일 수 있도록 했다.

  • PDF

A Basic Study on Matching Color Images with Different Color Sets (상이한 칼라 집합으로 구성된 영상의 정합에 관한 기초 연구)

  • 김동균;김성영;김종민;김민환
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.05c
    • /
    • pp.164-169
    • /
    • 2002
  • 칼라 정보를 이용하여 영상을 정합하기 위해서는 적은 수의 칼라 집합으로 영상을 표현하는 영상 양자화 과정이 필요하다. 적응적 양자화를 사용하는 경우에는 균일 양자화에 비해 높은 정합 성능을 기대할 수 있지만 상이한 칼라 집합의 생성으로 인해 영상 정합 과정이 힘들게 된다. 이에 본 논문에서는 상이한 칼라 집합을 갖는 영상을 정합할 수 있는 기초적인 연구를 수행하였다. 영상 정합을 위해 우선 STR(sort-tile-recursive) 방법[1]을 응용하여 질의 영상의 각 칼라에 대한 유사 칼라를 DB 영상으로부터 빠르게 선정할 수 있는 방법을 개발하였다. 질의 칼라와 유사 칼라간의 유사도를 정의하고 이를 기반으로 영상간의 유사도를 계산함으로써 영상 정합에 이용할 수 있도록 하였다. 칼라간의 유사도는 칼라 차이가 고려되어 정의되는데 칼라 차이는 칼라 공간에서의 칼라 거리로 계산된다. 칼라 거리를 계산하기 위해 유클리디언 거리를 이용할 경우 많은 계산량이 요구되므로 기존의 시티블록 거리나 체스보드 거리에 비해 유클리디언 거리를 좀더 유사하게 근사화하면서 빠른 계산이 가능한 거리 계산 방법을 개발하였다.

  • PDF

Query Term Expansion and Reweighting by Fuzzy Infernce (퍼지 추론을 이용한 질의 용어 확장 및 가중치 재산정)

  • 김주연;김병만;신윤식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.336-338
    • /
    • 2000
  • 본 논문에서는 사용자의 적합 피드백을 기반으로 적합 문서들에서 발생하는 용어들과 초기 질의어간의 발생 빈도 유사도 및 퍼지 추론을 이용하여 용어의 가중치를 산정하는 방법에 대하여 제안한다. 피드백 문서들에서 발생하는 용어들 중에서 불용어를 제외한 모든 용어들을 질의로 확장될 수 있는 후보 용어들로 선택하고, 발생 빈도 유사성을 이용한 초기 질의어-후보 용어의 관련 정도, 용어의 IDF, DF 정보를 퍼지 추론에 적용하여 후보 용어의 초기 질의에 대한 최종적인 관련 정도를 산정 하였으며, 피드백 문서들에서의 가중치와 관련 정보를 결합하여 후보 용어들의 가중치를 산정 하였다.

  • PDF

Hybrid Video Information System Supporting Content-based Retrieval and Similarity Retrieval (비디오의 의미검색과 유사성검색을 위한 통합비디오정보시스템)

  • Yun, Mi-Hui;Yun, Yong-Ik;Kim, Gyo-Jeong
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.8
    • /
    • pp.2031-2041
    • /
    • 1999
  • In this paper, we present the HVIS (Hybrid Video Information System) which bolsters up meaning retrieval of all the various users by integrating feature-based retrieval and annotation-based retrieval of unformatted formed and massive video data. HVIS divides a set of video into video document, sequence, scene and object to model the metadata and suggests the Two layered Hybrid Object-oriented Metadata Model(THOMM) which is composed of raw-data layer for physical video stream, metadata layer to support annotation-based retrieval, content-based retrieval, and similarity retrieval. Grounded on this model, we presents the video query language which make the annotation-based query, content-based query and similar query possible and Video Query Processor to process the query and query processing algorithm. Specially, We present the similarity expression to appear degree of similarity which considers interesting of user. The proposed system is implemented with Visual C++, ActiveX and ORACLE.

  • PDF