• 제목/요약/키워드: Similarity Query

검색결과 246건 처리시간 0.026초

상호정보량의 정규화에 대한 연구 (A Study on Relative Mutual Information Coefficients)

  • 이재윤
    • 한국문헌정보학회지
    • /
    • 제37권4호
    • /
    • pp.178-198
    • /
    • 2003
  • 상호정보량은 용어간 유사도 산출을 비롯한 다양한 분야에서 연관성 척도로 사용되어왔다. 그러나 값의 범위가 일정하지 않으며 지나치게 저빈도인 경우를 선호하는 경향이 제한점으로 지적되고 있다. 이런 점을 보완하기 위해서 상호정보량을 정규화하는 상대적 상호정보량 계수를 제안하였다. 제안된 계수의 특성을 알아본 다음, 세 실험집단을 대상으로 전역적(global) 질의확장 검색을 수행한 결과 검색 성능을 향상시킬 수 있었다.

Development of Content-Based Trademark Retrieval System on the World Wide Web

  • Kim, Young-Sum;Kim, Yong-Sung;Kim, Whoi-Yul;Kim, Myung-Joon
    • ETRI Journal
    • /
    • 제21권1호
    • /
    • pp.40-54
    • /
    • 1999
  • In this paper, we describe a new trademark retrieval system based upon the content or the shape of trademark. The system has an on-line graphical user interface for the World Wide Web (WWW) that allows user to provide a query in forms of a sketch or a visual image to search for similar trademarks from database. User interfaces for the WWW were implemented by utilizing HTML and Java applets. The query can occur in arbitrary size and orientation. A shape representation scheme invariant to scale and rotation was developed to measure the similarity between two trademarks using the magnitude of Zernike moments as a feature set. Performance evaluation has been carried out with a database of 3,000 trademarks. It takes only about 0.6 second for the retrieval on a 200 MHz Pentium PC. The average recall of the original one among top 30 candidates queried by noisy or deformed images was 100%.

  • PDF

구형 피라미드 기법 : 고차원 데이터의 유사성 검색을 위한 효율적인 색인 기법 (Spherical Pyramid-Technique : An Efficient Indexing Technique for Similarity Search in High-Dimensional Data)

  • 이동호;정진완;김형주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권11호
    • /
    • pp.1270-1281
    • /
    • 1999
  • 피라미드 기법 1 은 d-차원의 공간을 2d개의 피라미드들로 분할하는 특별한 공간 분할 방식을 이용하여 고차원 데이타를 효율적으로 색인할 수 있는 새로운 색인 방법으로 제안되었다. 피라미드 기법은 고차원 사각형 형태의 영역 질의에는 효율적이나, 유사성 검색에 많이 사용되는 고차원 구형태의 영역 질의에는 비효율적인 면이 존재한다. 본 논문에서는 고차원 데이타를 많이 사용하는 유사성 검색에 효율적인 새로운 색인 기법으로 구형 피라미드 기법을 제안한다. 구형 피라미드 기법은 먼저 d-차원의 공간을 2d개의 구형 피라미드로 분할하고, 각 단일 구형 피라미드를 다시 구형태의 조각으로 분할하는 특별한 공간 분할 방법에 기반하고 있다. 이러한 공간 분할 방식은 피라미드 기법과 마찬가지로 d-차원 공간을 1-차원 공간으로 변환할 수 있다. 따라서, 변환된 1-차원 데이타를 다루기 위하여 B+-트리를 사용할 수 있다. 본 논문에서는 이렇게 분할된 공간에서 고차원 구형태의 영역 질의를 효율적으로 처리할 수 있는 알고리즘을 제안한다. 마지막으로, 인위적 데이타와 실제 데이타를 사용한 다양한 실험을 통하여 구형 피라미드 기법이 구형태의 영역 질의를 처리하는데 있어서 기존의 피라미드 기법보다 효율적임을 보인다.Abstract The Pyramid-Technique 1 was proposed as a new indexing method for high- dimensional data spaces using a special partitioning strategy that divides d-dimensional space into 2d pyramids. It is efficient for hypercube range query, but is not efficient for hypersphere range query which is frequently used in similarity search. In this paper, we propose the Spherical Pyramid-Technique, an efficient indexing method for similarity search in high-dimensional space. The Spherical Pyramid-Technique is based on a special partitioning strategy, which is to divide the d-dimensional data space first into 2d spherical pyramids, and then cut the single spherical pyramid into several spherical slices. This partition provides a transformation of d-dimensional space into 1-dimensional space as the Pyramid-Technique does. Thus, we are able to use a B+-tree to manage the transformed 1-dimensional data. We also propose the algorithm of processing hypersphere range query on the space partitioned by this partitioning strategy. Finally, we show that the Spherical Pyramid-Technique clearly outperforms the Pyramid-Technique in processing hypersphere range queries through various experiments using synthetic and real data.

단어/단어쌍 특징과 신경망을 이용한 두 문서간 유사도 측정 (Measurement of Document Similarity using Term/Term-pair Features and Neural Network)

  • 김혜숙;박상철;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권12호
    • /
    • pp.1660-1671
    • /
    • 2004
  • 본 논문은 두 문서간 유사도 측정 방법을 제안한다. 제안한 유사도 측정 모델의 주안점은 문서간 관련성의 정도를 두 문서간 일치하는 단어(term)및 단어쌍(tenn-phrase)에 기반하여 이들이 해당 문서에서 차지하는 가중치를 통해 측정하는 것이다. 유사도 측정 과정에 영향을 미치는 특징을 설계함에 있어 기존의 연구들이 하나의 특징만을 고려하였던 것에 비하여 본 논문은 여러 가지 특징들을 고려한다 즉, 단어뿐만 아니라 단어쌍과 관련된 특징을 결합하여 신경망을 통해 유사도를 측정한다. 제안된 방법의 우수성을 입증하기 위해 두 가지 측면에서 실험하였다. 첫 번째는 두 문서의 동일성 여부를 검증하는 문제이며, 두 번째는 다수의 문서를 대상으로 유사한 문서를 찾는 검색 문제이다. 이 두 가지 실험 모두에서 제안 방법이 기존의 Cosine 유사도 계산 방법 및 구색인 방법에 비해 우수한 성능을 보였다.

군집과 비음수 행렬 분해를 이용한 개인화된 문서 요약 (Personalized Document Summarization Using NMF and Clustering)

  • 박선
    • 한국항행학회논문지
    • /
    • 제13권1호
    • /
    • pp.151-155
    • /
    • 2009
  • 본 논문은 비음수 행렬 분해와 군집 방법을 이용하여 개인화된 문장을 추출하여 문서요약을 하는 새로운 방법을 제안한다. 제안된 방법은 검색 문서에 군집 방법을 이용하여 문서의 주제와 세부 주제를 반영한 문장을 추출하며, 비음수 행렬 분해에 의해 분해된 문서의 고유 의미 특징을 이용하여 사용자의 흥미가 잘 반영된 문장을 추출한다. 실험결과 제안방법이 유사도, 비음수행렬분해를 이용한 방법들에 비하여 좋은 성능을 보인다.

  • PDF

An Object-Level Feature Representation Model for the Multi-target Retrieval of Remote Sensing Images

  • Zeng, Zhi;Du, Zhenhong;Liu, Renyi
    • Journal of Computing Science and Engineering
    • /
    • 제8권2호
    • /
    • pp.65-77
    • /
    • 2014
  • To address the problem of multi-target retrieval (MTR) of remote sensing images, this study proposes a new object-level feature representation model. The model provides an enhanced application image representation that improves the efficiency of MTR. Generating the model in our scheme includes processes, such as object-oriented image segmentation, feature parameter calculation, and symbolic image database construction. The proposed model uses the spatial representation method of the extended nine-direction lower-triangular (9DLT) matrix to combine spatial relationships among objects, and organizes the image features according to MPEG-7 standards. A similarity metric method is proposed that improves the precision of similarity retrieval. Our method provides a trade-off strategy that supports flexible matching on the target features, or the spatial relationship between the query target and the image database. We implement this retrieval framework on a dataset of remote sensing images. Experimental results show that the proposed model achieves competitive and high-retrieval precision.

A Similarity Wave View : 이미지 질의 결과의 시각화 방안 (A Similarity Wave View : An Visualization Mechanism of Image Query Result)

  • 진병정;엄기현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.21-23
    • /
    • 1999
  • 기존 이미지 데이터베이스 검색 시스템은 질의 결과로 유사도가 높은 이미지들을 모아 제시해 준다. 그런데, 질의 결과로 제시되는 이미지는 전부 같은 크기의 이미지로 표시되고 일차원적으로 단순 나열하기 때문에 결과 이미지의 의미 파악이나 질의 처리 과정의 정보를 확인하는 것이 명확하지 않다. 또한 하나의 화면에 나타낼 수 있는 이미지의 수도 매우 제한된다. 따라서 본 논문은 이미지가 표현되는 화면 공간을 5개의 Wave로 나누고, 유사도 순서로 영역 크기를 할당하여 질의 결과 이미지들을 이차원으로 배열하여 제시하고 관리하는 방안을 제안하는 것이다. 그래서 한정된 화면 공간의 활용도를 극대화하고, 질의 결과에 대한 사용자 인지도를 높이며, 질의 결과의 유사도 정보를 유추하거나 분석하기가 용이한 방안이 될 것이다.

  • PDF

NBLAST: a graphical user interface-based two-way BLAST software with a dot plot viewer

  • Choi, Beom-Soon;Choi, Seon Kang;Kim, Nam-Soo;Choi, Ik-Young
    • Genomics & Informatics
    • /
    • 제20권3호
    • /
    • pp.36.1-36.6
    • /
    • 2022
  • BLAST, a basic bioinformatics tool for searching local sequence similarity, has been one of the most widely used bioinformatics programs since its introduction in 1990. Users generally use the web-based NCBI-BLAST program for BLAST analysis. However, users with large sequence data are often faced with a problem of upload size limitation while using the web-based BLAST program. This proves inconvenient as scientists often want to run BLAST on their own data, such as transcriptome or whole genome sequences. To overcome this issue, we developed NBLAST, a graphical user interface-based BLAST program that employs a two-way system, allowing the use of input sequences either as "query" or "target" in the BLAST analysis. NBLAST is also equipped with a dot plot viewer, thus allowing researchers to create custom database for BLAST and run a dot plot similarity analysis within a single program. It is available to access to the NBLAST with http://nbitglobal.com/nblast.

효율적인 영상 검색을 위한 클러스터링 기반 고속 다 해상도 전역 탐색 기법 (Fast Multi-Resolution Exhaustive Search Algorithm Based on Clustering for Efficient Image Retrieval)

  • 송병철;김명준;라종범
    • 대한전자공학회논문지SP
    • /
    • 제38권2호
    • /
    • pp.117-128
    • /
    • 2001
  • 유사도 측정자 (similarity measure)에 따라 문의자 (query)의 최적 정합자 (the best match)를 찾는 최적 검색 (optimal retrieval)을 위해서는 데이터베이스의 모든 영상들에 대해 전역 탐색 (exhaustive search)을 수행해야 한다. 그러나, 일반적인 전역 탐색은 방대한 계산량을 요구한다. 그 계산량을 줄이기 위해, 본 논문은 영상 데이터베이스의 클러스터링 (clustering)에 기반한 고속 다 해상도 전역 탐색 기법을 제안한다. 먼저 데이터베이스 내의 모든 영상들을 일정 수의 클러스터 (cluster)들로 나눈다. 각 클러스터는 유사한 특징 (feature)을 갖는 영상들로 구성된다. 그리고, 각 클러스터와 문의자 간 거리 (distance)의 하계(lower bound)를 구하고, 가능성이 전혀 없다고 판단될 경우 그 클러스터를 제거한다. 가능성이 있다고 판단된 클러스터들에 속한 후보 영상들 중에서 최적 정합자를 찾는다. 또한, 불필요한 특징 정합 연산을 줄이기 위해 다 해상도 데이터 구조에 기반한 거리 부등식 성질 (distance inequality property)을 유도하여, 탐색 과정에 적용한다. 제안한 기법은 고속 다 해상도 전역 탐색 기법으로서 단일 최적 정합자뿐만 아니라 다수의 상위 최적 정합자들도 정확하게 찾을 수 있다. 가장 보편적인 밝기 히스토그램 (luminance histogram)특징을 사용하여, 제안한 기법이 고속의 탐색 속도와 함께 최적 검색을 보장함을 증명해 보인다.

  • PDF

한국어 정보 검색에서 의미적 용어 불일치 완화 방안 (Alleviating Semantic Term Mismatches in Korean Information Retrieval)

  • 윤보현;박성진;강현규
    • 한국정보처리학회논문지
    • /
    • 제7권12호
    • /
    • pp.3874-3884
    • /
    • 2000
  • 정보검색시스템은 색인어와 질의어가 정확히 일치하지 않더라도 사용자 질의에 적합한 문서를 검색할 수 있어야 한다. 그러나, 색인어와 질의어간의 용어 불일치는 검색성능의 개선에 심각한 장애요소로 작용해 왔다. 따라서, 본 논문에서는 문서 코퍼스의 단어들간에 자동 용어 정규화를 수행하고, 용어 정규화의 산물을 한국어 정보검색 시스템에 적용하는 방안을 제시한다. 용어 불일치를 완화하기 위해 두가지 용어 정규화, 동치부류와 공기단어 클러스터를 수행한다. 첫째, 음역어, 절차오류, 그리고 동의어를 위해 문맥 유사도를 이용하여 동치부류로 구축하는 작업이다. 둘째, 상호정보와 단어 문맥의 조합을 이용하여 단어 유사도를 계산하고 문맥 기반 용어를 정규화한다. 그런 다음, K-means 알고리즘을 이용하여 자율 클러스터링을 수행하고 공기단어 클러스터를 구축한다. 본 논문에서는 이러한 용어 정규화의 산물들을 용어 불일치를 완화하기 위해 질의어 확장과정에서 사용한다. 다시 말해서 동치부류와 공기단어 클러스터는 새로운 용어로 질의를 확장하는 자원으로서 사용된다. 이러한 질의확장으로 사용자는 질의어에 음역어를 추가하여 질의어를 포괄적으로 만들거나 특정어를 추가하여 질의어를 세밀하게 만들 수 있다. 질의어 확장을 위해 두 가지 상호보완적인 방법인 용어 제시와 용어 적합성 피드백을 이용한다. 실험 결과는 제안된 시스템이 의미적 용어 불일치를 완화할 수 있고, 적절한 유사도 값을 제공할 수 있음을 보여준다. 결과적으로 제안한 시스템이 정보 검색 시스템의 검색 효율을 향상시킬 수 있음을 알 수 있다.

  • PDF