• 제목/요약/키워드: Similarity search

검색결과 535건 처리시간 0.021초

Word2vec을 활용한 문서의 의미 확장 검색방법 (Semantic Extention Search for Documents Using the Word2vec)

  • 김우주;김동희;장희원
    • 한국콘텐츠학회논문지
    • /
    • 제16권10호
    • /
    • pp.687-692
    • /
    • 2016
  • 기존의 문서 검색 방법론은 TF-IDF와 같은 벡터공간모델을 활용한 키워드 기반 방법론을 사용한다. 키워드 기반의 문서검색방법론으로는 문제가 몇몇 문제점이 나타날 수 있다. 먼저 몇 개의 키워드로 전체의 의미를 나타내기 힘들 수 있다. 또 기존의 키워드 기반의 방법론을 사용하면 의미상으로 비슷하지만 모양이 다른 동의어를 사용한 문서의 경우 두 문서 간에 일치하는 단어들의 특성치만 고려하여 관련이 있는 문서를 제대로 검색하지 못하거나 그 유사도를 낮게 평가할 수 있다. 본 연구는 문서를 기반으로 한 검색방법을 제안한다. Centrality를 사용해 쿼리 문서의 특성 벡터를 구하고 Word2vec알고리즘을 사용하여 단어의 모양이 아닌 단어의 의미를 고려할 수 있는 특성 벡터를 만들어 검색 성능의 향상과 더불어 유사한 단어를 사용한 문서를 찾을 수 있다.

공간 네트워크에서 이동 객체를 위한 그리드 기반 유사 궤적 검색 (Grid-based Similar Trajectory Search for Moving Objects on Road Network)

  • 김영창;장재우
    • 한국공간정보시스템학회 논문지
    • /
    • 제10권1호
    • /
    • pp.29-40
    • /
    • 2008
  • 최근, 이동 단말기의 확산과 통신 기술의 발달로 인하여 이동 객체들의 과거 궤적 데이터에서 이동 객체의 미동 패턴을 이용하는 응용 서비스의 활용이 점점 증대되고 있다. 특히, 대중교통의 노선 설계나 새로운 도시를 위한 도로 네트워크 설계에 활용하기 위하여, 도로나 철도와 같은 공간 네트워크 상에서 이동하는 이동 객체의 궤적들의 유사 패턴을 활용할 수 있다. 본 논문에서는 공간 네트워크에서 이동 객체 궤적을 위한 시공간 유사 궤적 검색 알고리즘을 제안한다. 이를 위하여 도로 네트워크상에서 실제 도로 네트워크 거리에 기반한 시공간 유사도 측정방법을 정의하고, 효율적인 유사 궤적 검색을 위한 그리드 기반 색인 기법을 제안한다. 마지막으로 본 논문에서 제안하는 유사 궤적 검색 알고리즘의 효율성을 입증하기 위해 제안하는 알고리즘의 성능을 분석한다.

  • PDF

효율적인 영상 검색을 위한 클러스터링 기반 고속 다 해상도 전역 탐색 기법 (Fast Multi-Resolution Exhaustive Search Algorithm Based on Clustering for Efficient Image Retrieval)

  • 송병철;김명준;라종범
    • 대한전자공학회논문지SP
    • /
    • 제38권2호
    • /
    • pp.117-128
    • /
    • 2001
  • 유사도 측정자 (similarity measure)에 따라 문의자 (query)의 최적 정합자 (the best match)를 찾는 최적 검색 (optimal retrieval)을 위해서는 데이터베이스의 모든 영상들에 대해 전역 탐색 (exhaustive search)을 수행해야 한다. 그러나, 일반적인 전역 탐색은 방대한 계산량을 요구한다. 그 계산량을 줄이기 위해, 본 논문은 영상 데이터베이스의 클러스터링 (clustering)에 기반한 고속 다 해상도 전역 탐색 기법을 제안한다. 먼저 데이터베이스 내의 모든 영상들을 일정 수의 클러스터 (cluster)들로 나눈다. 각 클러스터는 유사한 특징 (feature)을 갖는 영상들로 구성된다. 그리고, 각 클러스터와 문의자 간 거리 (distance)의 하계(lower bound)를 구하고, 가능성이 전혀 없다고 판단될 경우 그 클러스터를 제거한다. 가능성이 있다고 판단된 클러스터들에 속한 후보 영상들 중에서 최적 정합자를 찾는다. 또한, 불필요한 특징 정합 연산을 줄이기 위해 다 해상도 데이터 구조에 기반한 거리 부등식 성질 (distance inequality property)을 유도하여, 탐색 과정에 적용한다. 제안한 기법은 고속 다 해상도 전역 탐색 기법으로서 단일 최적 정합자뿐만 아니라 다수의 상위 최적 정합자들도 정확하게 찾을 수 있다. 가장 보편적인 밝기 히스토그램 (luminance histogram)특징을 사용하여, 제안한 기법이 고속의 탐색 속도와 함께 최적 검색을 보장함을 증명해 보인다.

  • PDF

웹 검색과 문서 유사도를 활용한 2 단계 신문 기사 표절 탐지 시스템 (A Two Phases Plagiarism Detection System for the Newspaper Articles by using a Web Search and a Document Similarity Estimation)

  • 조정현;정현기;김유섭
    • 정보처리학회논문지B
    • /
    • 제16B권2호
    • /
    • pp.181-194
    • /
    • 2009
  • 최근 문서 저작권에 대한 관심과 중요도가 높아지고 있어 문서 표절에 관한 연구가 지속적으로 이루어지고 있다. 이러한 표절 문제는 신문기사의 경우에서도 큰 관심을 끌고 있는데, 이는 상업적 가치가 큰 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있기 때문이다. 현재까지의 문서 표절 관련 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수백 개의 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 1차적으로 선별한 다음, 선별된 기사들과 원본 기사와의 문서 유사도를 측정하여 선별된 기사들의 표절 여부를 자동으로 판정할 수 있도록 하였다. 본 연구에서는 실험을 위하여 연합뉴스에서 제공되는 기사를 원본 기사로 활용하였고, 표절 가능성이 있는 기사는 네이버 및 다음의 뉴스 서비스에서 제공되는 모든 기사 중에서 선별하도록 하였다.

시퀀스 데이타베이스에서 타임 워핑을 지원하는 효과적인 유살 검색 기법 (An Effective Similarity Search Technique supporting Time Warping in Sequence Databases)

  • 김상욱;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.643-654
    • /
    • 2001
  • 본 논문에서는 대형 시퀀스 데이타베이스에서 타임 워핑을 지원하는 유사 검색을 효과적으로 처리하는 방안에 관하여 논의한다 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 준다. 타임 워핑 거리는 삼각형 부등식 성질을 만족하지 못하므로 기존의 기법들은 착오 기각(false dismissal) 없이 다차원인덱스를 사용할 수 없었다. 이러한 기법들은 전체 데이타베이스를 스캔해야 하므로 대형 데이타베이스에서는 심각한 성능 저하의 문제를 가진다. 서픽스 트리를 사용하는 또 다른 기법은 큰 트리로 인한 성능상의 문제를 갖는다 본 논문에서는 타임 워핑을 지원하는 효과적인 유사 검색 기법을 제안한다. 제안된 기법의 주요 목표는 착오 기각 없이 대형 데이타베이스에서도 좋은 검색 성능을 보장하는 것이다. 이러한 목표를 위하여 본 연구에서는 삼각형 부등식을 만족하는 타임 워핑 거리의 새로운 하한 거리 함수 $D_{tw-Ib}를 고안한다. D_{tw-Ib}$는 각 시퀀스로부터 타임 워핑과 무관한 4-터플 특성 벡터를 추출한 다. 제안된 기법에서는 이러한 4-터플 특성 벡터를 인덱싱 애트리뷰트로 사용하는 다차원 인덱스를 기반으로 유사 검색을 효율적으로 처리한다. 본 논문에서는 제안된 기법에서 착오 기각이 발생하지 않음을 증명한다. 또한, 제안된 기법의 우수성을 규명하기 위하여 다양한 실험을 수행한다. 실험 결과에 의하면 제안된 기법은 기존의 기법들과 비교하여 실제 S&P 500 주식 데이타에 대하여 43배, 대형 생성 데이타에 대하여 720배가지 의 성능 개선 효과를 가지는 것으로 나타났다.

  • PDF

스마트폰을 이용한 유러닝 곤충관찰학습에 있어서 유사곤충 추론검색기법의 사용자 만족도 분석 (User Satisfaction Analysis on Similarity-based Inference Insect Search Method in u-Learning Insect Observation using Smart Phone)

  • 전응섭
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권1호
    • /
    • pp.203-213
    • /
    • 2014
  • 본 논문에서는 곤충 종의 외관구조인 머리, 몸통, 날개, 다리에 대한 관찰자의 일반적이고 수평적인 관찰특성에 따라 자유롭게 곤충 종을 관찰함으로써 관찰 곤충 검색엔진에서의 사용자 만족도 제고와 보다 효율적인 관찰학습의 방법을 제안한다. 자연생태 환경에서 초보 학습자의 효율적인 관찰검색과 효과적 학습을 위해서는 생물학적 분류체계가 아닌 곤충 종의 외관구조 즉, 외부 신체구조의 모양과 특성 중심의 곤충관찰 기반의 검색(Insect Search by Observation based on Insect Appearance: ISOIA)이 필요하다. 그러므로 본 연구에서는 곤충의 외관구조인 머리, 몸통, 날개, 다리에 대한 관찰자의 일반적인 관찰방법에 따른ISOIA 검색방식을 제안하고, 기존의 ISBC와 ISOBC 검색체계에 대한 사용 만족도를 비교 분석하여 본 논문에서 제안하는 ISOIA 검색 방안이 우수함을 보이고자 한다.

블록간 유사성과 선형조합을 이용한 블록화 현상 제거 알고리듬 (Blocking Artifact Reduction Algorithm Using Similarity between Blocks and Linear Combination)

  • 박경남;권기구;이건우;이석환;권성근;이건일
    • 한국통신학회논문지
    • /
    • 제27권6A호
    • /
    • pp.584-591
    • /
    • 2002
  • 본 논문에서는 블록간의 유사성과 선형조합을 이용하여 블록화 현상 (blocking artifact)을 효율적으로 제거하는 알고리듬을 제안하였다. 제안한 방법에서는 모든 블록을 DCT 계수에 따라서 저주파 블록과 고주파 블록으로 나눈다. 그리고 블록화 현상이 나타나는 블록 경계면을 중심으로 하는 블록을 치역 블록 (range block)이라 정의하고, 이 치역 블록과 유사한 블록을 탐색영역 범위 안에서 찾은 다음 이를 정의역 블록 (domain block)이라라 정의한다. 그리고 탐색과정에서는 좀 더 정확한 정의역 블록을 참기 위해 치역 블록의 블록 경계면을 중심으로 양쪽으로 나누어진 부 블록 특성과 블록간 유사성을 이용하였다. 마지막으로 탐색과정에서찾은 정의역 블록과 블록화 현상이 발생한 치역 블록과의 선형 조합(linear combination)을 이용하여 치역 블록의 화소 값을 바꿈으로써 블록화 현상을 제거하였다. 모의 실험 결과로부터 제안한 방법이 기조의 방법에 비하여 PSNR 측면에서 0.04∼04 dB 정도의 향상을 얻었을 뿐만 아니라 주관적 화질 면에서도 우수한 성능을 나타냄을 확인하였다.

블록 기반 클러스터링과 히스토그램 카이 제곱 거리를 이용한 반도체 결함 원인 진단 기법 (Cause Diagnosis Method of Semiconductor Defects using Block-based Clustering and Histogram x2 Distance)

  • 이영주;이정진
    • 한국멀티미디어학회논문지
    • /
    • 제15권9호
    • /
    • pp.1149-1155
    • /
    • 2012
  • 본 논문에서는 반도체 산업 영상에서 반도체의 결함 원인 진단 기법을 제안한다. 제안 기법은 먼저 결함 영상에 대한 특징 데이터베이스를 구축한다. 다음으로 결함 영상과 입력 영상을 블록 단위로 영역 분할을 수행한 후 컬러 히스토그램을 계산하여 블록들 사이의 히스토그램 카이 제곱 거리를 이용한 블록 유사성을 측정한다. 다음으로 각 영상에서 탐색된 블록들에 대하여 클러스터링을 수행하여 영역을 연결된 객체 단위로 군집한다. 마지막으로 각 클러스터들의 특징을 추출하여 클러스터 간 유사성 측정으로 가장 유사성이 높은 결함 영상을 특징 DB에서 탐색하여 결함 원인 정보와 함께 제시한다. 검색 결과 유사도 상위 n개의 영상 중에서 입력 영상과 동일한 범주의 결함을 갖는 영상이 검색되는 비율을 구하여 제안 기법의 정확성을 검증하였다. n = 1, 2, 3에 대해서 결함 범주에 상관없이 검색 정확도는 모두 100%로 제안 기법은 실제 산업 응용이 가능한 정확한 검색 결과를 보여주었다.

2단계 퍼지 지식베이스를 이용한 질의 처리 모델 (Query Processing Model Using Two-level Fuzzy Knowledge Base)

  • 이기영;김영운
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.1-16
    • /
    • 2005
  • 웹 기반의 학술분야 전문 검색 시스템은 사용자의 정보 요구 표현을 극히 제한적으로 허용함으로써 검색된 정보의 내용 분석과 정보 습득의 과정이 일관되지 못해 무분별한 정보 제공이 이루어진다. 따라서 본 논문에서는 문서 지식 구조를 파악하여 사용자 질의 용어와 색인어 사이의 내용 기반 유사도를 반영한 순위 재조정 모델을 제안한다. 이를 위해 전자는 시소러스 및 유사관계 행렬을 구축하여 주제 분석 메커니즘을 제공하고, 후자는 사용자 요구를 분석하기 위해 질의 확장 등의 탐색 모형을 수립하는 알고리즘을 제안한다. 따라서 본 논문에서 제안한 알고리즘은 검색 시스템의 정보 구조를 활용한 검색으로 재현율을 유지하면서 동시에 기존 퍼지 검색 모델의 단점인 정확률을 향상시키는 2단계 탐색모형을 수립하는 내용 기반검색 기법이라 할 수 있다.

  • PDF

생물학적 자극 통제 수단으로서 활용하기 위한 돼지 페로몬성 냄새 물질의 탐색: I. 5$\alpha$-androst-16-en-3-one 유사체들의 리간드에 기초한 분자 유사성과 물리화학 파라미터 (The Search of fig Pheromonal Odorants for Biostimulation Control System Technologies: I. Ligand Based Molecular Shape Similarity of 5$\alpha$-androst-16-en-3-one Analogous and Their Physicochemical Parameters)

  • 성낙도;김철호;진동일;박창식
    • Reproductive and Developmental Biology
    • /
    • 제28권1호
    • /
    • pp.45-52
    • /
    • 2004
  • To search a new porcine pheromonal odorants, this research for biostimulation and role of pheromone was augmented by means of "control system technologies" to offer a potentially useful and practical way to improve reproductive efficiency in livestock species. Therefore the 13 physicochemical parameters such as similarity indice (S), hydrophobicity (logP) and van der Waals molecule volume (MV) etc. of 54 steroid analogues, which are analogous of substrate molecules, 5$\alpha$-androst-16-en-3-one (P1) and 5$\alpha$-androst-16-en-3-ol (P2) of lipocalin as receptor of pig pheromones were calculated and discussed. The physicochemical properties of these steroid analogues were mainly followed by steric dissimilar of A and D ring in steroid nucleus. And we found that from correlation with S values and MV constants of molecules, the more MV constants are small, the more S values tend to approach 1. Based on this results, the S-values of 4-androsten-3,17-dione (P1-1) and 5 $\alpha$ -androstan-3-one (P2-1) were 1.0, respectively. The two compounds of them were chosen because they showed the same value each other at a side of hydrophobicity, molar refractivity and molecular volume. It is expected that the new two compounds will be able to substitute for P1 and P2, porcine pheromonal odorants.