• 제목/요약/키워드: Similarity Query

검색결과 246건 처리시간 0.024초

구조와 내용 유사도에 기반한 XML 웹 문서 검색시스템 구축 (An Implementation of XML document searching system based on Structure and Semantics Similarity)

  • 박우창;서여진
    • 인터넷정보학회논문지
    • /
    • 제6권2호
    • /
    • pp.99-115
    • /
    • 2005
  • XML은 인터넷상에서 데이터 표현과 변환을 위한 표준이며, 이러한 XML 문서에서 필요한 정보를 찾아내기 위해 XML 문서 검색 시스템이 필요하다. 본 연구는 이러한 필요성에 기반을 두어 XML 구조를 최대한 활용하여, 주어진 XML 문서에 대해 구조와 내용이 가장 가까운 문서들을 찾아내는 검색 시스템을 개발하였다. 검색 메트릭은 XML 문서들 중 각 태그의 이름에 대한 유사도, 각 태그가 포함하는 값의 유사도와 태그 간 구조에 대한 유사도를 모두 고려하며, 검색 후 유사도의 결과 값에 따라 검색 결과를 순위화 하여 보여준다. 검색 방법은 전통적인 키워드 검색 방식, 태그와 값을 입력하여 검색할 수 있는 방식, XML 문서를 입력하여 검색하는 세 가지 질의 방식을 제공함으로서 사용자들의 기호에 따라 원하는 방식을 골라 검색할 수 있도록 구성하여 시스템의 유용성을 높였다. 개발된 XML 문서 검색 시스템은 INEX에서 제공된 XML 문서들을 대상으로 하여 테스트하였다.

  • PDF

A Natural Language Question Answering System-an Application for e-learning

  • Gupta, Akash;Rajaraman, Prof. V.
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.285-291
    • /
    • 2001
  • This paper describes a natural language question answering system that can be used by students in getting as solution to their queries. Unlike AI question answering system that focus on the generation of new answers, the present system retrieves existing ones from question-answer files. Unlike information retrieval approaches that rely on a purely lexical metric of similarity between query and document, it uses a semantic knowledge base (WordNet) to improve its ability to match question. Paper describes the design and the current implementation of the system as an intelligent tutoring system. Main drawback of the existing tutoring systems is that the computer poses a question to the students and guides them in reaching the solution to the problem. In the present approach, a student asks any question related to the topic and gets a suitable reply. Based on his query, he can either get a direct answer to his question or a set of questions (to a maximum of 3 or 4) which bear the greatest resemblance to the user input. We further analyze-application fields for such kind of a system and discuss the scope for future research in this area.

  • PDF

직선 성분을 이용하는 구도가 유사한 사진 검색 방법 (Retrieving of Compositionally Similar Images Using Straight Line Elements)

  • 황주연;임동섭;백두원
    • 한국멀티미디어학회논문지
    • /
    • 제12권11호
    • /
    • pp.1539-1546
    • /
    • 2009
  • 사진이론에 따르면 선은 사진의 구도와 분위기를 결정하는 중요한 요소다. 본 논문에서는 사진의 기본 요소 중 하나인 직선 성분을 이용하여 두 사진의 구도 차이를 측정하는 방법을 제안하였다. 선의 어떤 패턴이 구도를 구분 짓는지 파악하기 위해 구도가 동일한 사진에서 나타나는 특징과 다른 구도에서 나타나는 특징을 분석하였다. 분석된 특징을 반영하여 구도차이 측정방법을 설계하였고 제안 방법의 성능평가를 위해 쿼리 사진과 구도가 유사한 사진을 검색하는 시스템을 구현하였다. 구현된 검색 시스템은 상위 10개 내의 결과에서 최고 85%정도의 정확도를 나타내었고 사진 내에 물체가 포함되어도 유사한 구도의 사진을 검색하는 성능을 유지하였다.

  • PDF

모양 기반의 식물 잎 이미지 검색 시스템 (Shape-Based Leaf Image Retrieval System)

  • 남윤영;황인준
    • 정보처리학회논문지D
    • /
    • 제13D권1호
    • /
    • pp.29-36
    • /
    • 2006
  • 본 논문에서는 식물 잎 모양을 기반으로 이미지를 표현하고 검색하는 식물 잎 이미지 검색 시스템을 보인다. 보다 효과적인 잎의 모양 표현을 위하여, MPP(Minimum Perimeter Polygons) 알고리즘을 개선하였고, 처리시간을 줄이기 위하여, NN(Nearest Neighbor) 검색을 개선한 동적 매칭알고리즘을 제안하였다. 본 시스템은 사용자에게 질의 이미지를 업로드하는 인터페이스를 제공하거나 모양 특징에 기반한 질의를 생성하는 도구를 제공하고 유사도에 따른 이미지를 검색한다. 검색의 편의성을 위해, 웹상에서 잎 모양과 잎차례를 스케치하여 손쉽게 질의할 수 있게 하였다. 실험에서는, 한국에 자생하는 식물 이미지 데이터베이스를 구축하였으며, 질의를 통해 검색된 유사한 이미지의 개수를 기반으로 성능을 평가하였다.

Retrieval of Identical Clothing Images Based on Non-Static Color Histogram Analysis

  • ;;김구진
    • 방송공학회논문지
    • /
    • 제14권4호
    • /
    • pp.397-408
    • /
    • 2009
  • In this paper, we present a non-static color histogram method to retrieve clothing images that are similar to a query clothing. Given clothing area, our method automatically extracts major colors by using the octree-based quantization approach[16]. Then, a color palette that is composed of the major colors is generated. The feature of each clothing, which can be either a query or a database clothing image, is represented as a color histogram based on its color palette. We define the match color bins between two possibly different color palettes, and unify the color palettes by merging or deleting some color bins if necessary. The similarity between two histograms is measured by using the weighted Euclidean distance between the match color bins, where the weight is derived from the frequency of each bin. We compare our method with previous histogram matching methods through experiments. Compared to HSV cumulative histogram-based approach, our method improves the retrieval precision by 13.7 % with less number of color bins.

Enhanced Cloud Service Discovery for Naïve users with Ontology based Representation

  • Viji Rajendran, V;Swamynathan, S
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권1호
    • /
    • pp.38-57
    • /
    • 2016
  • Service discovery is one of the major challenges in cloud computing environment with a large number of service providers and heterogeneous services. Non-uniform naming conventions, varied types and features of services make cloud service discovery a grueling problem. With the proliferation of cloud services, it has been laborious to find services, especially from Internet-based service repositories. To address this issue, services are crawled and clustered according to their similarity. The clustered services are maintained as a catalogue in which the data published on the cloud provider's website are stored in a standard format. As there is no standard specification and a description language for cloud services, new efficient and intelligent mechanisms to discover cloud services are strongly required and desired. This paper also proposes a key-value representation to describe cloud services in a formal way and to facilitate matching between offered services and demand. Since naïve users prefer to have a query in natural language, semantic approaches are used to close the gap between the ambiguous user requirements and the service specifications. Experimental evaluation measured in terms of precision and recall of retrieved services shows that the proposed approach outperforms existing methods.

Word2vec을 활용한 문서의 의미 확장 검색방법 (Semantic Extention Search for Documents Using the Word2vec)

  • 김우주;김동희;장희원
    • 한국콘텐츠학회논문지
    • /
    • 제16권10호
    • /
    • pp.687-692
    • /
    • 2016
  • 기존의 문서 검색 방법론은 TF-IDF와 같은 벡터공간모델을 활용한 키워드 기반 방법론을 사용한다. 키워드 기반의 문서검색방법론으로는 문제가 몇몇 문제점이 나타날 수 있다. 먼저 몇 개의 키워드로 전체의 의미를 나타내기 힘들 수 있다. 또 기존의 키워드 기반의 방법론을 사용하면 의미상으로 비슷하지만 모양이 다른 동의어를 사용한 문서의 경우 두 문서 간에 일치하는 단어들의 특성치만 고려하여 관련이 있는 문서를 제대로 검색하지 못하거나 그 유사도를 낮게 평가할 수 있다. 본 연구는 문서를 기반으로 한 검색방법을 제안한다. Centrality를 사용해 쿼리 문서의 특성 벡터를 구하고 Word2vec알고리즘을 사용하여 단어의 모양이 아닌 단어의 의미를 고려할 수 있는 특성 벡터를 만들어 검색 성능의 향상과 더불어 유사한 단어를 사용한 문서를 찾을 수 있다.

크로마 레벨 표현, 동적 시간 왜곡, 꺾인 거리함수에 기반한 멜로디 사이의 유사도 개발 (Development of melody similarity based on chroma representation, dynamic time warping, and hinge distance)

  • 장달원;박성주;장세진;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.258-260
    • /
    • 2011
  • 이 논문에서는 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템 또는 커버 노래 인식 (cover song identification) 시스템에서 사용 가능한 멜로디 유사도를 제안한다. QbSH 또는 커버 노래 인식은 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 오고 있다. 멜로디 유사도는 이런 시스템을 구현하는데 필수적인 요소이며, 두 개의 음악에서 멜로디가 추출되었다고 가정하고, 추출된 멜로디 사이의 유사한 정도를 수치로 표현한다. QbSh 시스템이나 커버 노래 인식 시스템은 멜로디 유사도에 기반하여 입력 노래와 유사한 노래를 데이터베이스에서 검색하는 작업을 수행한다. 이 논문에서 제안하는 멜로디 유사도 방식은 기존의 많이 연구되던 동적 시간 왜곡 (dynamic time warping, DTW) 방법과 크로마 표현 방법 (chroma representation)을 사용하였다. DTW방법은 비대칭적으로 사용하고 미디 노트 영역에서 표현된 멜로디 특징은 0이상 12 미만의 크로마 레벨로 표현하였다. 기존의 방법에서는 정수값을 많이 사용하였으나 이 논문에서는 실수값을 사용한다. DTW 에 사용하는 거리 함수를 기존에 사용하던 차이의 절대값 대신 꺾인 함수 형태를 사용함으로써 성능을 높였다. QbSH 시스템에서의 실험을 통해서 성능을 검증하였다. 본 논문에서는 10-12초 길이의 1000번의 쿼리(Query)에 대해서 28시간 정도의 데이터베이스에서 실험한 결과, 순위 역의 평균 (Mean reciprocal rank, MRR) 값이 0.713을 보였다.

  • PDF

적합성 피드백을 이용한 웹 문서검색에 관한 연구 (A Study on Document Retrieval of Web Using Relevance Feedback)

  • 김영천;이성주
    • 한국정보통신학회논문지
    • /
    • 제5권3호
    • /
    • pp.597-604
    • /
    • 2001
  • 정보검색에서 순수한 부울 검색 시스템은 문서와 질의 사이의 유사도를 나타내는 문서값을 계산할 수 없기 때문에, 검색된 문서들을 질의를 만족하는 정보에 따라 정렬할 수 없다. 부울 검색 시스템의 이러한 단점을 보완하는 방법으로 MMM 모델, Paice 모델, P-norm 모델이 개발되었다. 이러한 방법들은 부울 연산자를 유연하게 연산하는 공통된 특성을 지니고 있다. 된 논문에서는 높은 검색 효과를 제공하는 질의 분해 적합성 피드백 (QSRF)를 이용한 정보 검색 모델을 제안한다. 질의 분해 적합성 피드백 모델의 연산 특성 이 MMM, Paice, P-norm 모델보다 우수함을 설명하고, 또한 성능 비교를 통하여 이를 입증한다.

  • PDF

Fast, Flexible Text Search Using Genomic Short-Read Mapping Model

  • Kim, Sung-Hwan;Cho, Hwan-Gue
    • ETRI Journal
    • /
    • 제38권3호
    • /
    • pp.518-528
    • /
    • 2016
  • The searching of an extensive document database for documents that are locally similar to a given query document, and the subsequent detection of similar regions between such documents, is considered as an essential task in the fields of information retrieval and data management. In this paper, we present a framework for such a task. The proposed framework employs the method of short-read mapping, which is used in bioinformatics to reveal similarities between genomic sequences. In this paper, documents are considered biological objects; consequently, edit operations between locally similar documents are viewed as an evolutionary process. Accordingly, we are able to apply the method of evolution tracing in the detection of similar regions between documents. In addition, we propose heuristic methods to address issues associated with the different stages of the proposed framework, for example, a frequency-based fragment ordering method and a locality-aware interval aggregation method. Extensive experiments covering various scenarios related to the search of an extensive document database for documents that are locally similar to a given query document are considered, and the results indicate that the proposed framework outperforms existing methods.