• 제목/요약/키워드: 의미적 유사성 검색

검색결과 96건 처리시간 0.027초

의미 정보를 이용한 다차원 데이터 시퀀스의 유사성 척도 연구 (A Study of Similarity Measures on Multidimensional Data Sequences Using Semantic Information)

  • 이석룡;이주홍;전석주
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.283-292
    • /
    • 2003
  • 연속된 일차원 실수로 이루어진 시계열 데이터는 데이터 마이닝이나 데이터 웨어하우징과 같은 다양한 데이터베이스 응용 분야에서 연구되어져 왔다. 그러나 최근의 복잡한 비즈니스 환경에서, 다차원 데이터 시퀀스(multidimensional data sequence : MDS)는 일차원 시계열 데이터와 더불어 그 중요성이 더해가고 있다. 다차원 데이터 시퀀스의 예로써, 비디오 스트림은 색상과 질감 등의 속성들로 이루어진 다차원 공간상에서 MDS로 나타낼 수 있다. 본 논문에서는 패턴 유사성 검색에서 사용되는 효과적인 유사성 척도를 제시한다. 하나의 MDS는 여러 개의 세그먼트(segment)로 나누어지며, 각 세그먼트는 다양한 의미적인 특징들로 표현된다. 유사성 척도는 이러한 세그먼트에 대해서 정의되는데 이 척도를 사용하여 어떤 주어진 질의 시퀀스에 대하여 무관한 세그먼트들은 검색 대상에서 일차적으로 제외된다. 데이터 시퀀스와 질의 시퀀스 모두 세그먼트 단위로 분할되며, 질의 처리는 전체 시퀀스의 모든 데이터를 검색하지 않고 데이터 세그먼트와 질의 세그먼트의 특징을 비교하는 것을 기초로 하여 수행된다.

영역기반 검색환경을 위한 FRIP 시스템 (FRIP Stystem For Region-based Image Retrieval)

  • 고병철;변혜란
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.499-501
    • /
    • 2000
  • 본 논문에서는 영역기반 검색환경을 제공하는 FRIP(Finding Region in the Pictures) 시스템을 소개한다. FRIP 시스템은 영역 기반 검색환경을 제공하기 위해서, 우선적으로 영상을 분할하고, 각 분할된 영역으로부터 색상, 질감, 크기, 모양, 위치 정보와 같은 최적의 특징 벡터들을 추출하여 색인화시킨다. 그런 뒤에, 사용자가 검색하고자 하는 영역과 검색 영상 수 k를 입력하면, 유사성 측정 식에 의해 가장 유사한 k만큼의 영상을 우선 순위 형태로 사용자에 보여주게 된다. 본 시스템에서는 영상을 분할하기 위해서 기본적인 RGB 색상계를 확장(Scaling 및 이동(Shifting) 알고리즘을 통해 영상의 대비 정도가 향상된 새로운 색상계로 변환시키고, 원형 필터를 설계하여, 영역 안에 포함된 의미 없는 작은 영역을 제거하도록 하였다. 그리고 이렇게 분할된 각 영역들로부터, 본 시스템에서 제안하는 모양 기술자인 MRS(Modified Radius-based Signature)를 포함하여 5가지의 최적의 특징 벡터들을 전처리 단계에서 데이터베이스에 색인으로 저장하고 유사성 측정을 위한 수치로 사용하였다.

  • PDF

양방향 LSTM-RNNs-CRF를 이용한 한국어 개체명 인식 (Bidirectional LSTM-RNNs-CRF for Named Entity Recognition in Korean)

  • 신유현;이상구
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.340-341
    • /
    • 2016
  • 개체명 인식은 질의 응답, 정보 검색, 기계 번역 등 다양한 분야에서 유용하게 사용되고 있는 기술이다. 개체명 인식의 경우 인식의 대상인 개체명이 대부분 새롭게 등장하거나 기존에 존재하는 단어와 중의적 의미를 갖는 고유한 단어라는 문제점이 있다. 본 논문에서는 한국어 개체명 인식에서 미등록어 및 중의성 문제를 해결하기 위한 딥 러닝 모델을 제안한다. 제안하는 모델은 형태소 및 자음/모음을 이용하여 새롭게 등장하는 단어에 대한 기존 단어와의 형태적 유사성을 고려한다. 또한 임베딩 및 양방향 LSTM-RNNs-CRF 모델을 이용하여, 각 입력 값의 문맥에 따른 의미적 유사성, 문법적 유사성을 고려한다. 제안하는 딥 러닝 모델을 사용하여, F1 점수 85.71의 결과를 얻었다.

  • PDF

양방향 LSTM-RNNs-CRF를 이용한 한국어 개체명 인식 (Bidirectional LSTM-RNNs-CRF for Named Entity Recognition in Korean)

  • 신유현;이상구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.340-341
    • /
    • 2016
  • 개체명 인식은 질의 응답, 정보 검색, 기계 번역 등 다양한 분야에서 유용하게 사용되고 있는 기술이다. 개체명 인식의 경우 인식의 대상인 개체명이 대부분 새롭게 등장하거나 기존에 존재하는 단어와 중의적 의미를 갖는 고유한 단어라는 문제점이 있다. 본 논문에서는 한국어 개체명 인식에서 미등록어 및 중의성 문제를 해결하기 위한 딥 러닝 모델을 제안한다. 제안하는 모델은 형태소 및 자음/모음을 이용하여 새롭게 등장하는 단어에 대한 기존 단어와의 형태적 유사성을 고려한다. 또한 임베딩 및 양방향 LSTM-RNNs-CRF 모델을 이용하여, 각 입력 값의 문맥에 따른 의미적 유사성, 문법적 유사성을 고려한다. 제안하는 딥 러닝 모델을 사용하여, F1 점수 85.71의 결과를 얻었다.

  • PDF

인터넷에서 잠재적 의미 분석을 이용한 지능적 정보 검색 (Intelligne information retrieval using latent semantic analysis on the internet)

  • 임재현;김영찬
    • 한국통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1782-1789
    • /
    • 1997
  • 인터넷에서 분산 정보를 검색하는 대부분의 시스템들은 사용자가 요구하는 검색 용어의 의미를 반영하지 못해 관련된 정보를 정확히 찾지 못하고 있다. 본 논문에서는 정보 검색 성능을 향상시키는 방안으로 검색 용어의 의미를 반영할 수 있는 용어 분포에 기반한 자동화된 질의어 확장을 제안한다. 먼저, 사용자가 부여한 질의어와 전체 문서에서 용어의 중요도를 반영한 가중치(weight)를 계산하고, LSI의 SVD기법을 이용해 모든 문서에서 질의어와 유사하게 출현하는 용어의 분포를 측정하여, 이들 수치와 질의어 용어의 유사성을 측정하였다. 또한 자동적으로 추가할 용어를 줄이기 위한 방안을 연구하였으며 본 논문에서 제안한 방법을 사용해 검색 성능을 평가하였다.

  • PDF

딥러닝을 이용한 법률 분야 한국어 의미 유사판단에 관한 연구 (Deep Learning Based Semantic Similarity for Korean Legal Field)

  • 김성원;박광렬
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권2호
    • /
    • pp.93-100
    • /
    • 2022
  • 기존의 데이터 검색 방법으로는 키워드 중심의 검색 방법이 주로 사용되나, 이는 전문적인 용어가 많이 쓰이는 법률 분야의 검색 방법으로는 적합하지 않다. 이에 대해 본 논문에서는 법률 분야의 효과적인 데이터 검색 방안을 제안한다. 법률 도메인의 자연어처리 분야에서 문장 간의 유사성을 판단하는 데 최적화된 임베딩 방법에 관하여 서술한다. 법률문장을 TF-IDF를 이용하여 키워드 기반으로 임베딩하거나 Universal Sentence Encoder를 이용하여 의미 기반으로 임베딩을 한 후, BERT모델을 결합하여 법률 분야에서 문장 간 유사성을 검사하여 데이터를 검색하는 최적의 방안을 제안한다.

비디오의 의미검색과 예제기반 장면검색을 위한 비디오 검색시스템 (Video Retrieval System supporting Content-based Retrieval and Scene-Query-By-Example Retrieval)

  • 윤미희;조동욱
    • 정보처리학회논문지B
    • /
    • 제9B권1호
    • /
    • pp.105-112
    • /
    • 2002
  • 비디오데이터를 효율적으로 처리하기 위해서는 비디오 데이터가 가지고 있는 내용에 대한 정보를 데이터베이스에 저장하고 사용자들의 다양한 질의를 처리할 수 있는 의미검색기법이 요구된다. 본 논문에서는 특징 기반 검색과 주석 기반 검색을 통합하여 다양한 사용자의 의미검색을 지원하고, 유사성 질의와, SQBE(scene query by example) 질의가 가능한 비디오 검색시스템(Video Retrieval System : VRS)을 제안한다. 사용자는 SQBE 질의를 통해 장면의 검색 결과로 제시된 장면을 기반으로 객체의 추가 삭제를 통해 사용자가 원하는 좀 더 정확한 장면의 검색이 가능하다. 또한 SQBE질의를 위한 질의언어와 이 질의를 처리하기 위한 질의처리알고리즘을 제안하고 장면과 객체의 유사성 검색에 대한 성능평가를 수행했다. 제안된 시스템은 Visual C++과 Oracle을 이용하여 구현되었다.

다중점 적합성 피드백방법을 이용한 영역기반 이미지 유사성 검색 (Region Based Image Similarity Search using Multi-point Relevance Feedback)

  • 김덕환;이주홍;송재원
    • 정보처리학회논문지D
    • /
    • 제13D권7호
    • /
    • pp.857-866
    • /
    • 2006
  • 질의 이미지의 시각적 특징이 사용자의 상위 수준 개념을 잘 표현하지 못하기 때문에 이미지 검색 시스템의 성능은 보통 매우 낮다. 의미적으로 유사한 이미지들이 매우 다른 시각적 특징을 보일 수도 있으며 따라서 여러 개의 군집에 분산될 수 있다. 본 논문에서는 영역기반 이미지 검색과 군집-합병을 이용한 새로운 적합성 피드백 방법을 결합한 내용기반 이미지 검색 방법을 제안한다. 주요 목표는 의미적 차이를 줄이기 위해 의미적으로 관련된 군집들을 찾는 것이다. 제안된 방법은 영역기반 군집 과정과 군집-합병 과정으로 이루어진다. 적합한 이미지들의 모든 분할된 영역들을 의미적으로 관련된 계층적인 군집으로 구성한다. 잠재된 군집의 개수를 결정하고 근접한 군집들을 합병한 후 최종 군집의 대표점들로 다중 질의를 표현한다. 군집-합병 과정에서 군집의 개수를 찾고 고차원에서 특이점 문제를 해결하기 위하여 호텔링의 $T^2$ 대신에 v개의 주성분을 이용하는 $T_v^2$를 적용하였으며 $T^2$의 성능과 $T_v^2$의 성능의 차이가 없음을 보인다. 실험 결과는 제안된 방법이 내용기반 이미지 검색 시스템의 성능을 개선하는 데 효율적임을 보여준다.

문서의 의미적 구조정보를 이용한 특허 문서 분류 (Patent Document Categorization based on Semantic Structural Information)

  • 김재호;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.28-34
    • /
    • 2005
  • 특허 검색은 수많은 특허 문서 중에서 특정 해당분야의 문서 집합 내에서 검색을 수행하기 때문에 정확한 특허 분류에 크게 의존하게 된다. 이러한 특허 분류의 중요성에 덧붙여, 특허 문서의 수가 빠르게 증가하게 되면서 특허를 자동으로 분류하려는 요구가 더욱 필요하게 되었다. 특허문서는 일반문서와는 달리 구조화되어 있기 때문에 특허분류를 하기 위해서는 이러한 점이 고려되어야 한다. 본 논문에서는 k-NN 방법을 이용하여 일본어 특허 문서를 자동으로 분류하는 방법을 제안한다. 훈련집합으로부터 유사문서를 검색할 때, 구조화되어 있는 특허 문서의 특징을 이용한다. 문서 전체가 아닌 (기존 기술), (응용 분야), (해결하고자 하는 문제), (문제를 해결하려는 방법) 등의 세분화된 요소끼리 비교하여 유사성을 계산한다. 특허 문서에는 사용자가 정의한 많은 의미 요소가 있기 때문에 먼저 이들을 군집화한 후에 이용한다. 실험 결과 제안한 방법이 특허문서를 그대로 이용하는 것보다는 74%, 특허문서에 나타난 <요약>, <청구항>, <상세한 설명>의 큰 구조 정보를 이용하는 것보다는 4%의 성능 향상을 가져왔다.

  • PDF

Flexible Subblock을 이용한 영상 검색 (Image Retrieval Using flexible Subblocks)

  • 고병철;이상봉;이해성;변혜란
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.353-355
    • /
    • 1999
  • 본 논문에서는 영상의 flexible subblock을 이용하여 영상내에 물체의 이동이나, 빛의 변화, 시각점(view-point)의 변화등에 덜 민감한 영상 검색을 방법을 제안한다. 특징 값으로는 Ohta 컬러 공간으로부터 1, 2, 3차 central 모멘트 값을 추출해 내고, 쌍직교 웨이블릿 변환을 통해 고주파 영역으로부터 수직-수평 방향 성분을 추출하여 인덱스화 시킴으로써 인덱스를 위한 저장 공간을 줄이고 계산 시간을 향상시킬 수 있었다. 아울러, 2개의 특징 값을 다단계(multi-step) K-NN 방법에 적용시킴으로서 사용자가 검색하고자 하는 가장 유사한 k 개의 영상만을 사용자에게 보여 주도록 설계하였다. 본 논문에서는 제안하는 알고리즘의 우수성을 증명하기 위해 RGB 색상 공간을 그대로 적용하여 실험한 결과를 비교해 보았다. 추가적으로, 영상의 전역적인 유사성뿐만 아니라, 각 블록의 독립적인 특징 값을 이용하여 특정 블록에 대한 검색 환경도 제공하여 보다 의미있는 검색 환경을 제공하고 있다.

  • PDF