• 제목/요약/키워드: Similarity search

검색결과 530건 처리시간 0.02초

Fast, Flexible Text Search Using Genomic Short-Read Mapping Model

  • Kim, Sung-Hwan;Cho, Hwan-Gue
    • ETRI Journal
    • /
    • 제38권3호
    • /
    • pp.518-528
    • /
    • 2016
  • The searching of an extensive document database for documents that are locally similar to a given query document, and the subsequent detection of similar regions between such documents, is considered as an essential task in the fields of information retrieval and data management. In this paper, we present a framework for such a task. The proposed framework employs the method of short-read mapping, which is used in bioinformatics to reveal similarities between genomic sequences. In this paper, documents are considered biological objects; consequently, edit operations between locally similar documents are viewed as an evolutionary process. Accordingly, we are able to apply the method of evolution tracing in the detection of similar regions between documents. In addition, we propose heuristic methods to address issues associated with the different stages of the proposed framework, for example, a frequency-based fragment ordering method and a locality-aware interval aggregation method. Extensive experiments covering various scenarios related to the search of an extensive document database for documents that are locally similar to a given query document are considered, and the results indicate that the proposed framework outperforms existing methods.

사용자 질의 의미 해석을 위한 온톨로지 지식베이스 스키마 구축 (Ontology Knowledge Base Scheme for User Query Semantic Interpretation)

  • 도하나;이무훈;정훈;최의인
    • 디지털융복합연구
    • /
    • 제11권3호
    • /
    • pp.285-292
    • /
    • 2013
  • 최근의 검색 형태는 키워드 기반 검색에서 보다 더 정확한 결과를 제공하기 위한 시맨틱 검색 방법으로 변화하고 있다. 하지만 일반 사용자들은 여전히 기존의 키워드 기반 검색에 익숙하기 때문에 시맨틱 검색을 위한 형식화된 구조적 질의어를 구성할 수 없다. 따라서 본 논문에서는 이러한 사용자들의 키워드 해석을 위한 온톨로지 지식 베이스 스키마를 제안한다. 제안된 스키마는 서술 논리 추론을 위해 OWL-DL을 기반으로 설계되었으며 최소한의 관계 정의와 추론 규칙 언어인 SWRL(Semantic Web Rule Language)으로 추론함으로써 보다 풍부한 개체 관계의 표현을 제공한다. 마지막으로 논문에서 제안한 사용자 질의 의미 해석 기법의 검증을 위해 키워드 유사도 실험 결과를 설명한다.

1-(4-chloro-2-fluoro-5-propargyloxyphenyl)-3-thiourea 유도체의 제초활성과 분자 유사성 (Herbicidal Activity and Molecular Similarity of 1-(4-chloro-2-fluoro-5-propargyloxyphenyl)-3-thiourea Derivatives)

  • 성민규;박관용;송종환;성낙도
    • Applied Biological Chemistry
    • /
    • 제51권3호
    • /
    • pp.219-222
    • /
    • 2008
  • 제3세대 제초성 cyclic imide 유도체를 탐색하기 위하여 peroxidizing 제초제로써 40개의 1-(4-chloro-2-fluoro-5-pro-pargyloxypheny)-3-thiourea 유도체(1-40) 중, 3-R-치환체의 발아 전 벼(Oryza sativa)와 논피(Echinochlo crusglli)에 대한 평균 제초활성 값들을 제시하였다. 그리고 Urea 유도체(1-40)와 protox 효소의 기질분자인 protogen사이의 분자구조 유사성을 검토하였다. 논피에 대하여 선택성을 나타내는 화합물은 diallyl-치환체(20)와 3-nitro-치환체(33)이었으며 allyl-치환체(8)가 가장 큰 제초활성$(pI_{50}=4.71)$과 유사성 지수(S=0.81) 값을 나타내었다. 그리고 aryl-치환체(21-40)와 Protogen 사이의 중첩된 부피(C)와 S값 사이에 상관성이 좋았다.

역사적 기록 문서에서 효율적인 유사도 및 클러스터링 측정에 관한 연구 (A Study on the efficiency of similarity and clustering measure in Historical Writing Document)

  • 한광덕
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.94-101
    • /
    • 2002
  • Web상에 있는 문서들이 다양하고, 복잡 그리고 대형화함에 따라 문서의 표현과 전달체계에서도 많은 변화가 요구되고 있다. 조선왕조실록문서(Annal of The chosun Dynasty)는 역사적 사실을 연구하는데 중요한 문서이고, CD-ROM으로도 출판되었다. 그러나 문서의 접근 방법에 대해 검색의 단순성 그리고 내용 기반(content-based)으로 구성되었기 때문에 문서의 구성요소들 간의 사건연관 (event-relationship)를 엮어주는 데는 어려운 점이 많다. 따라서 본 논문에서는 조선왕조실록 문서들간의 효율적이고, 적절한 유사성 및 클러스터링 방법을 실험하여 문서들간의 사건연관을 찾아내도록 연구했다. 연구 방법으로는 조선왕조실록 문서들간의 유사도 방법들을 시뮬레이션하여 역사적 기록문서에 가장 적합한 유사도 방법을 찾아내고, 유사도 확률에 따라 그 문서들을 클러스터링 하였다. 평가결과 클러스터링을 한 문서들을 실제 확인해본 결과 사실과 거의 같다는 것이 증명되었다.

  • PDF

마코프 논리 기반의 시맨틱 문서 검색 (Semantic Document-Retrieval Based on Markov Logic)

  • 황규백;봉성용;구현서;백은옥
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.663-667
    • /
    • 2010
  • 본 논문은 질의 문서와 의미가 유사한 문서를 검색하는 문제를 다룬다. 이 문제에 대한 기본적인 접근법은 각 문서를 bag-of-words 형태로 표현한 후, 코사인 유사도 등의 거리 기준에 기반하여 유사 문서를 판별하는 것이다. 그러나, 이처럼 문서에 출현하는 단어에만 의존하는 검색 방법은 의미적 유사성을 제대로 반영하기 어렵다는 단점을 가진다. 본 논문에서는 이러한 문제를 극복하기 위해 데이터 기반의 감독 학습(supervised learning) 기법과 관련 온톨로지 정보를 마코프 논리(Markov logic)에 기반하여 결합한다. 구체적으로, 단어들 사이에 존재하는 관계를 표현한 온톨로지와 유사도가 태깅된 문서 데이터에서 마코프 논리 망(Markov logic network)을 학습하며, 학습된 마코프 논리 망과 문서 데이터 및 새로 주어진 질의 문서에 대한 추론을 통해 질의 문서와 의미적으로 유사한 문서를 검색하는 기법을 제안한다. 제안하는 접근법은 서울시의 민원서비스 홈페이지에서 수집된 실제 민원 데이터에 적용되었으며, 적용 결과, 단순한 문서 간 거리에 기반한 유사 문서 검색 기법에 비해 월등히 높은 정확도를 보였다.

An approach for improving the performance of the Content-Based Image Retrieval (CBIR)

  • Jeong, Inseong
    • 한국측량학회지
    • /
    • 제30권6_2호
    • /
    • pp.665-672
    • /
    • 2012
  • Amid rapidly increasing imagery inputs and their volume in a remote sensing imagery database, Content-Based Image Retrieval (CBIR) is an effective tool to search for an image feature or image content of interest a user wants to retrieve. It seeks to capture salient features from a 'query' image, and then to locate other instances of image region having similar features elsewhere in the image database. For a CBIR approach that uses texture as a primary feature primitive, designing a texture descriptor to better represent image contents is a key to improve CBIR results. For this purpose, an extended feature vector combining the Gabor filter and co-occurrence histogram method is suggested and evaluated for quantitywise and qualitywise retrieval performance criterion. For the better CBIR performance, assessing similarity between high dimensional feature vectors is also a challenging issue. Therefore a number of distance metrics (i.e. L1 and L2 norm) is tried to measure closeness between two feature vectors, and its impact on retrieval result is analyzed. In this paper, experimental results are presented with several CBIR samples. The current results show that 1) the overall retrieval quantity and quality is improved by combining two types of feature vectors, 2) some feature is better retrieved by a specific feature vector, and 3) retrieval result quality (i.e. ranking of retrieved image tiles) is sensitive to an adopted similarity metric when the extended feature vector is employed.

한국어 모바일 대화형 에이전트 시스템 (A Korean Mobile Conversational Agent System)

  • 홍금원;이연수;김민정;이승욱;이주영;임해창
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.263-271
    • /
    • 2008
  • 본 논문에서는 한국어 정보처리 기술을 사용한 모바일 환경의 대화형 에이전트 시스템에 대해 논한다. 대화형 에이전트 시스템 구축의 목적은 인간 사용자와 시스템 에이전트간의 자연어 인터페이스를 제공하여 보다 편리한 상호작용을 가능하게 하는 데 있다. 모바일 환경의 대화형 에이전트를 구축하기 위해서는 구어체 발화에 특화된 다양한 언어 처리 및 언어 이해 요소들이 필요하다. 본 시스템은 입력 문장의 오류처리, 형태소 분석 및 품사 태깅, 양태 분석, 논항 인식 및 의미프레임 생성, 그리고 유사 발화 검색 및 응답 생성으로 구성된다. 주어진 사용자 발화에 적절한 응답을 생성하기 위해서 본 시스템은 사용자 발화와 예제 발화 간의 어휘적, 통사/구문적, 의미적 유사도 정보를 활용하여 예제기반 응답 검색을 수행한다.

  • PDF

패턴매칭을 이용한 유사도 비교 분석 (A Similarity Valuating System using The Pattern Matching)

  • 고방원;김영철
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.185-192
    • /
    • 2010
  • 본 논문에서는 서로 다른 두 개의 문서에 등장하는 패턴 매칭을 이용하여 유사도를 평가하는 시스템을 제안한다. 기존의 문서들의 유사도를 평가하는 방법에는 지문법과 같은 통계적 방법을 주로 이용하였다. 하지만 이 방법은 관련이 없는 두 문서에서 우연히 유사한 단어가 많이 등장 할 때 유사성이 높게 나오는 정확성의 문제점이 있다. 이러한 문제점은 단순히 두 문서의 통계적인 수치를 비교하기 때문에 발생한다. 하지만 본 논문에서 제시하는 패턴을 이용한 방법은 일치하는 패턴을 검색하여 유사성을 판별하기 때문에 이러한 문제를 해결하였다. 하지만 패턴을 검색하는 시간이 오래 걸리는 단점이 있는데 이를 개선하는 알고리즘 또한 본문에서 소개한다.

처방 유사도 분석의 효율성 향상에 관한 연구 (A Study on Prescription Similarity Analysis for Efficiency Improvement)

  • 黃秀敬;禹東賢;金基郁;李丙旭
    • 대한한의학원전학회지
    • /
    • 제35권4호
    • /
    • pp.1-9
    • /
    • 2022
  • Objectives : This study aims to increase efficiency of the prescription similarity analysis method that uses drug composition ratio. Methods : The controlled experiment compared result generation time, generated data quantity, and accuracy of results between previous and new analysis method on the 12,598 formulas and 61 prescription groups. Results : The control group took 346 seconds on average and generated 768,478 results, while the test group took 24 seconds and generated 241,739 results. The test group adopted a selective calculation method that only used overlapping data between two formulas instead of analyzing all number of cases. It simplified the data processing process, reducing the quantity of data that is required to be processed, leading to better system speed, as fast as 14.47 times more than previous analysis method with equal results. Conclusions : Efficiency for similarity analysis could be improved by reducing data span and simplifying the calculation processes.

PdR-트리 : 고차원 데이터의 검색 성능 향상을 위한 효율적인 인덱스 기법 (PdR-Tree : An Efficient Indexing Technique for the improvement of search performance in High-Dimensional Data)

  • 조범석;박영배
    • 정보처리학회논문지D
    • /
    • 제8D권2호
    • /
    • pp.145-153
    • /
    • 2001
  • 피라미드 기법은 n-차원 공간 데이터를 1차원 데이터로 변환하여 $B^+$-트리로 표현하고, n-차원 데이터 공간에서 하이퍼큐브 영역질의 처리로 발생하는 "차원의 저주현상"에 영향을 받지 않게 검색 시간 문제를 해결하고 있다. 구형 피라미드 기법은 피라미드 기법의 공간 분할 전략을 응용하여 유사도 검색에 적합하도록 구 영역질의 방법을 사용하고 검색 성능을 개선하고 있다. 그러나 두 방법은 데이터 크기와 차원 변화에 따른 검색 성능이 100만건 이상과 16차원 이상일 때 현저하게 저하하는 현상을 보이고 있다. 이 논문에서는 멀티미디어 데이터와 같은 고차원 데이터의 검색 성능을 향상시키기 위한 새로운 인덱스 구조로 PdR-트리를 제안한다. 모의 데이터와 실제 데이터를 이용하여 실험한 결과, PdR-트리가 피라미드 기법과 구형 피라미드 기법보다 검색 성능이 향상되었음을 보이고 있다.

  • PDF