• Title/Summary/Keyword: 유사검색

Search Result 1,675, Processing Time 0.041 seconds

A method for similar-word retrival based on BTI dictionary indexing mechanism (BTI 사전 색인을 이용한 유사단어 검색)

  • 정연수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.291-296
    • /
    • 1994
  • 유사단어의 추정에 있어서 사전 검색에 드는 비용, 즉 사전탐색 횟수는 효율성의 문제와 직결된다. 본 논문에서는 BTI 사전 색인을 이용하여 한 글자의 변형요소가 있는 유사단어들을 효율적으로 거색하는 방법을 제안한다. BTI 방식은 정방향, 역방향 표제어를 모두 저장하는 방법이다. BTI 방식으로 사전 표제어를 색인하여 표제어에 대한 사전 탐색 도중에 사전에 존재하는 prefix와 postifix를 모두 검색할 수 있다. 이러한 정보를 이용하면 유사 단어에 대한 정확한 변형 위치를 결정할 수 있다. BTI 사전 색인은 사전 표제어에 대한 정보없이 유사단어를 추정한 후에 사전 검색을 통하여 확인하는 방법보다 사전 검색에 드는 비용이 적다. 추가적으로 유사단어 후보들에 대한 우선 순위를 정하기 위하여 corpus에서 추출한 각 표제어의 발견 빈도를 이용하였다.

  • PDF

Survey on Top-k Related Pair Search Method Using Cosine Similarity (코사인 유사도 기법을 이용한 top-k 관련쌍 검색 방법 조사)

  • Kim, Sungchul;Kim, Jeong-Hwan;Kim, Na-Yeong;Kim, Taehoon;Yu, Hwanjo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.808-809
    • /
    • 2017
  • 유사도 검색은 전통적으로 데이터베이스 그리고 웹검색 분야의 핵심이었으나, 대용량 데이터의 등장으로 검색의 정확도뿐만이 아니라 효율성 측면에서의 요구가 증가하며 여전히 다양한 분야에서 활발히 연구되고 있다. 아이템간의 유사도를 측정하기 위한 방법론 중 코사인 유사도 방법론은 고차원공간에서의 활용이 유리하다는 이점 때문에 가장 널리 활용되고 있는 방법론으로, 정보검색, 장바구니 분석, 생물정보학 등 다양한 분야에서 활용되고 있다. 본 논문에서는 코사인 유사도를 소개하고, 연관성 분석 측면에서 코사인 유사도를 사용한 기존의 연구들을 소개한다.

A Music Plagiarism Detection System Using Similar Melody Searching (유사 멜로디 검색을 이용한 음악 표절 감지 시스템)

  • Park Jeong-Il;Kim Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.97-100
    • /
    • 2004
  • 유사 멜로디 검색은 질의 멜로디와 유사한 멜로디들을 음악 데이터베이스로부터 찾는 연산이다. 본 논문에서는 유사 멜로디 검색을 기반으로 하는 표절 감지 시스템 개발에 관하여 논의한다. 먼저, 정합 및 이동 변환을 지원하는 새로운 유사 모델을 제안한다. 또한, 각 멜로디의 특징들을 인덱싱 하는 방법과 인덱스를 기반으로 표절 감지를 처리하는 방법을 제시한다. 제안된 표절 감지 시스템을 이용하여 작곡가는 자신의 멜로디와 유사한 멜로디를 가지는 곡들을 음악 데이터베이스에서 효과적으로 검색할 수 있다. 실험을 통한 성능 평가를 통하여 제안된 기법의 우수성을 규명한다. 실험 결과에 의하면, 제안된 기법은 순차 검색을 기반으로 하는 방법과 비교하여 약 31배까지의 성능 개선 효과를 보였다.

  • PDF

Comparing the Performance of Global Query Expansion according to Similarity Measures (유사계수에 따른 전역적 질의확장 검색 성능 비교)

  • 이재윤
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.526-528
    • /
    • 2003
  • 공기빈도를 이용한 전역적 질의확장 검색에서 공기유사도를 판정하는데 이용되는 유사계수의 특성에 따른 질의확장 성능을 비교해보았다. 먼저 각 유사계수의 통계적인 특성을 말뭉치와 검색실험 문서집단을 대상으로 살펴본 결과 코사인 계수, 자카드 계수는 고빈도어 선호경향을 보이고 상호정보량과 율의 Y는 저빈도어 선호경향을 보이는 것으로 나타났다. 질의확장 검색실험에서는 고빈도어 선호경향을 가진 유사계수에 비해서 저빈도어 선호경향을 가진 유사계수률 이용할 때 더 종은 성능이 나타났다. 특히 율의 Y는 질의어의 DF가 1에 가깝게 매우 낮을 때 다른 유사계수와 달리 고빈도어를 선호함으로써 항상 저빈도어를 선호하는 상호정보량에 비해서 질의확장 검색에 유리함을 알 수가 있었다.

  • PDF

Webtoon Search utilizing Genre Similarity with Word2Vec (Word2Vec 기반 장르 유사성을 활용한 웹툰 검색)

  • Lee, ChangMin;Ahn, JeJeong;Kang, DongYeon;Lee, Hyunah
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.503-505
    • /
    • 2019
  • 본 논문에서는 기존 웹툰 장르 검색 시스템의 단점을 보완하기 위해 키워드 기반 유사 장르 검색 시스템을 제안한다. 기존 웹툰의 장르와 키워드를 분석하여 44개의 장르를 설정하고 해당 장르에 적합한 웹툰을 수집한다. 나무위키와 위키피디아 문서로 학습된 Word2Vec모델에 기반하여 계산한 사용자 입력 키워드와 44개의 장르간 유사도로 사용자 입력에 가장 유사한 장르를 찾는다. 유사 장르에 포함되는 웹툰을 결과로 출력하여 사용자가 선호하는 장르의 웹툰을 제시한다. 실험 결과에서는 나무위키에서 '장르'로 검색하여 얻는 작은 크기의 문서 집합에서 Word2Vec을 학습한 모델에서 가장 높은 검색 성능을 보였다.

  • PDF

Text Similarity Decision System by Term Selection Method (용어 선별 기법에 의한 유사 문서 판별 시스템)

  • 장성호;강승식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.534-536
    • /
    • 2003
  • 대부분의 정보 검색 시스템은 문서 내어서 추출된 모든 용어를 이용해서 문서간 유사도 계산이나 문서 분류, 문서 클러스터링 등에 활용한다. 그러나 실질적으로 문서 내외 모든 용어를 추출해야만 이러한 정보 검색 시스템을 활용할 수 있는 것은 아니며, 오히려 용어 빈도수 같은 가중치가 낮은 용어를 용어 추출에서 제외시킴으로써 모든 용어 추출로 인해서 발생하는 시간과 공간을 많이 소비하는 문제를 해결할 수 있다. 또한 정확하고 자동적인 문서 분류를 위한 문서 클러스터링보다 유사 문서 검색의 활용은 검색효율의 증가를 가져 올 수 있다. 본 논문에서는 유사 문서 판별 시스템을 이용해 용어 추출의 효율성을 실험하였으며, 모든 용어를 추출한 경우보다 중요 용어만 추출한 경우에 더 좋은 성능을 보였다.

  • PDF

Time-Warping-Based Similarity Search in Sequence Databases (시퀀스 데이터베이스를 위한 타임 워핑 기반 유사 검색)

  • 감상욱;박상현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.202-204
    • /
    • 2001
  • 본 논문에서는 대형 시퀀스 데이터베이스에서 타임 워핑을 지원하는 유사 검색을 효과적으로 처리하는 방안에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 주는 변환이다. 타임 워핑 거리는 삼각형 부등식 성질을 만족하지 못하므로 기존의 기법들은 착오 기각 없이 다차원 인덱스를 사용할 수 없었다. 본 논문에서는 타임 워핑을 지원하는 새로운 인덱스 기반 유사 검색 기법을 제안한다. 제안된 주요 목표는 착오 기각 없이 대형 데이터베이스에서도 좋은 검색 성능을 보장하는 것이다. 다양한 실험을 통하여 제안된 기법의 우수성을 규명한다. 실험 결과에 의하면, 제안된 기법은 기존의 기법과 비교하여 약 4배에서 43배까지의 성능 개선 효과를 가지는 것을 나타났다.

  • PDF

N-Warping Searches for Similar Sub-Trajectories of Moving Objects in Video Databases (비디오 데이터베이스에서 이동 객체의 유사 부분 움직임 궤적을 위한 N-워핑 검색)

  • 심춘보;장재우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.124-126
    • /
    • 2002
  • 본 논문에서는 비디오 데이터가 지니는 이동 객체의 움직임 궤적(moving objects'trajectories)에 대해 유사 부분 움직임 궤적 검색을 효율적으로 지원하는 N-워핑(N-warping) 알고리즘을 제안한다. 제안하는 알고리즘은 기존의 시계열 데이터베이스에서 유사 서브시퀸스 검색을 위해 사용되었던 타임 워핑 변환 기법(time-warping transformation)을 변형란 알고리즘이다. 또한 제안하는 알고리즘은 움직임 궤적을 모델링하기 위해 사용되는 단일 속성(property)인 각도뿐만 아니라, 거리와 시간과 같은 다중 속성을 지원하며, 사용자 질의에 대해 유사 부분 움직임 궤적 검색을 가능하게 하는 근사 매칭(approximate matching)을 지원한다

  • PDF

Similar Shape Matching Technique Using Interest Points (우세점을 이용한 유사한 모양 매칭 기법)

  • 김선규;엄기현
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.11a
    • /
    • pp.477-482
    • /
    • 2001
  • 이미지 데이터베이스에서 특성 객체를 가지고 있는 이미지를 효율적으로 검색하는 각 객체의 모양 특징을 질의 이미지의 질의 객체의 특징과 비교해야 한다. 올바른 모양 비교 기준은 사람이 보기에 같거나 유사하다고 판단하는 방법을 기준으로 삼는다. 본 논문에서는 질의 객체를 가진 이미지의 유사 검색에서 모양 비교의 정확도를 높이기 위한 매칭 기법을 제안한다. 이를 위해 질의 객체와 대상 객체에 비교를 시작할 근사한 우세점을 찾고 올바른 모양 비교를 위한 매칭 알고리즘을 제안한다. 또한 질의 중심의 유사도를 비교하기 위해 유사함수를 설정한다. 유사성 검색을 위해 사용되는 객체의 모양 특징은 객체의 윤곽선상의 점들 중 결정된 지역 특징을 지닌 (거리 ${\gamma}$, 각도$\theta$)의 우세점 집합으로 표현한다.

  • PDF

Efficient Retrieval of Similar Shape-Based Subsequences for Sequence Database (시퀀스 데이터베이스를 위한 모양기반의 유사 부분시퀀스 검색)

  • 이정화;윤지희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.340-342
    • /
    • 1999
  • 시퀀스 데이터(sequence data)에서는 각 데이터 값보다는 전후 그들 사이의 변화추세 등이 더 큰 정보로 작용하는 것이 일반적이다. 본문에서는 시퀀스 데이터베이스를 대상으로 하여 주어진 시퀀스 패턴과 모양이 유사한 모든 부분시퀀스를 검색해 내는 새로운 방식을 제안한다. 본 방식에서는 시퀀스 데이터의 모양 추출을 위한 데이터 변환, 유사 모양 패턴 클러스터링, 새로운 유사도 계산 방식 등을 도입함으로써, 기존의 방식이 매우 제한적인 패턴만을 유사패턴으로 간주하던 것에 비하여, 패턴이 데이터축 혹은 타임축으로 각각 확대, 축소, 이동된 경우에도 유사패턴으로 검색이 가능하다.

  • PDF