• 제목/요약/키워드: 유사성 질의

검색결과 947건 처리시간 0.033초

자동 추출 자질을 이용한 대화 속 질의 문장 유사성 분석 (Question Similarity Analysis in dialogs with Automatic Feature Extraction)

  • 오교중;이동건;임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.347-351
    • /
    • 2018
  • 이 논문은 대화 시스템에서 질의를 이해하기 위해 딥 러닝 모델을 통해 추출된 자동 추출 자질을 이용하여 문장의 유사성을 분석하는 방법에 대해 기술한다. 문장 간 유사성을 분석하기 위한 자동 추출 자질로써, 문장 내 표현 순차적 정보를 반영하기 위한 RNN을 이용하여 생성한 문장 벡터와, 어순에 관계 없이 언어 모델을 학습하기 위한 CNN을 이용하여 생성한 문장 벡터를 사용한다. 이렇게 자동으로 추출된 문장 임베딩 자질은 금융서비스 대화에서 입력 문장을 분류하거나 문장 간 유사성을 분석하는데 이용된다. 유사성 분석 결과는 질의 문장과 관련된 FAQ 문장을 찾거나 답변 지식을 찾는데 활용된다.

  • PDF

모바일 P2P 네트워크에서 에너지 효율적인 유사성 스카이라인 질의 처리 기법 (An Energy-efficient Similarity Skyline Query Processing Method in Mobile P2P Networks)

  • 박선용;임종태;복경수;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.13-14
    • /
    • 2014
  • 최근 스마트폰, 태블릿 PC 등 다양한 모바일 기기들의 처리 능력이 향상됨에 따라 모바일 P2P 환경에서의 질의 처리 성능이 향상되고 있다. 본 논문에서는 모바일 P2P 네트워크에서 에너지 효율적인 유사성 스카이라인 질의 처리 기법을 제안한다. 제안하는 기법은 질의 배포 범위를 확장 및 제한함으로써 결과로 제공될 수 있는 잠재적 객체를 얻음과 동시에 전체 네트워크로의 불필요한 배포를 방지한다. 또한 각 피어들은 질의를 받았을 때 자신이 보유하고 있는 객체를 이용하여 로컬 유사성 스카이라인을 처리하고, 질의를 요청한 피어(질의 피어)에게 처리된 결과를 병합하여 전송한다.

  • PDF

우세점을 이용한 유사한 모양 매칭 기법 (Similar Shape Matching Technique Using Interest Points)

  • 김선규;엄기현
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.477-482
    • /
    • 2001
  • 이미지 데이터베이스에서 특성 객체를 가지고 있는 이미지를 효율적으로 검색하는 각 객체의 모양 특징을 질의 이미지의 질의 객체의 특징과 비교해야 한다. 올바른 모양 비교 기준은 사람이 보기에 같거나 유사하다고 판단하는 방법을 기준으로 삼는다. 본 논문에서는 질의 객체를 가진 이미지의 유사 검색에서 모양 비교의 정확도를 높이기 위한 매칭 기법을 제안한다. 이를 위해 질의 객체와 대상 객체에 비교를 시작할 근사한 우세점을 찾고 올바른 모양 비교를 위한 매칭 알고리즘을 제안한다. 또한 질의 중심의 유사도를 비교하기 위해 유사함수를 설정한다. 유사성 검색을 위해 사용되는 객체의 모양 특징은 객체의 윤곽선상의 점들 중 결정된 지역 특징을 지닌 (거리 ${\gamma}$, 각도$\theta$)의 우세점 집합으로 표현한다.

  • PDF

DNA 서열의 위치 정보를 이용한 효율적인 유사성 검색 알고리즘 (An Efficient Algorithm for Similarity Search using Positional Information of DNA Sequences)

  • 정인선;박경욱;임형석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.970-972
    • /
    • 2005
  • 유전자 데이터베이스의 서열의 길이가 수백만에서 수백억 정도의 대용량 텍스트이기 때문에 기존의 Smith-waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 매우 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 이러한 방법들은 질의 서열과 일치될 가능성이 높은 후보들만을 추출한 후 이들 각각에 대하여 질의 서열과의 일치 여부를 조사하므로 빠르게 유사성 검색을 할 수 있다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정확도가 Smith-Waterman 알고리즘에 비해 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 인덱싱함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은 문자 빈도만을 사용하는 알고리즘에 비해 $5\~15\%$정도 정확성이 향상되었다.

  • PDF

웹상의 이질적 이미지 데이터베이스를 선택하기 위한 복합 추정 방법 (Hybrid Estimation Method for Selecting Heterogeneous Image Databases on the Web)

  • 김덕환;이석룡;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권5호
    • /
    • pp.464-475
    • /
    • 2003
  • 웹상의 이미지 데이타베이스들은 자치성과 이질성이라는 두 가지 다른 특성을 갖고 있다. 즉 독립적으로 만들어지고 유지되며 질의 처리 방법이 서로 다르다. 분산된 이미지 데이타베이스들에 대한 내용기반 검색에서, 메타 서버의 유사성 측정함수에 대하여 서로 다른 지역 유사성 측정 함수를 갖는 데이터베이스들로부터 주어진 질의 객체와 유사한 객체들을 찾는 능력을 갖는 것은 중요하다. 현재까지, 동일한 유사성 측정 함수들을 사용하는 이미지 데이타베이스들을 선택하는 방법에 대하여 많은 연구가 진행되었으나 이미지 데이타베이스들이 다른 유사성 측정함수를 사용하는 경우에 대한 연구는 없었다. 본 논문에서는 웹상의 많은 이질적인 이미지 데이타베이스들 중 질의에 유사한 객체들을 보다 많이 가지고 있는 데이타베이스들을 찾는 문제를 다룬다. 데이타베이스들의 순위는 이미지 데이타베이스들의 압축된 히스토그램 정보와 적은 수의 표본 객체들을 사용하는 복합 추정에 기반을 두고 있다. 구형 영역 질의에 대한 선택률을 추정하기 위하여 히스토그램 정보를 사용하며, 유사성 측정 함수의 차이로 인한 선택률 오차를 보정하기 위하여 표본 객체들을 이용한다. 많은 수의 이미지 데이타에 대한 상세한 실험은 제안된 방법이 이질적인 분산 환경에서 효율적임을 보여준다.

확률적 정보 검색 모델에서의 유사 적합성 피드백 실험 (Experiments on Pseudo Relevance Feedback in Probabilistic Information Retrieval Model)

  • 조봉현;이창기;안주희;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.183-190
    • /
    • 2001
  • 본 논문은 확률기반 자연어 검색 시스템 POSNIR/E를 이용한 여러 가지 유사 적합성 피드백 방법들이 검색 시스템의 성능 향상에 기여할 수 있는 정도를 보여주고, 확률 기반 정보 검색 시스템에 적합한 유사 적합성 피드백 수행 방법을 제시한다. POSNIR/E는 한국어 자연어 검색 시스템, POSNIR를 기반으로 만들어진 영어 자연어 검색 시스템이다. 이 시스템은 성능 향상을 위한 질의 확장의 방법으로 검색 단계에서 유사 적합성 피드백을 사용한다. 검색 단계에서 영어 태거에 의해 태깅된 사용자 질의로부터 질의어를 추출하고 초기 검색을 수행한다. 유사 적합성 피드백을 위하여 초기 검색 결과 중 상위 5개의 문서에 나타나는 키워드를 중요도에 따라 내림차순 정렬하여 상위 10개의 키워드를 초기 질의어에 확장한다. 이렇게 확장된 질의어로 최종 검색을 수행한다. TREC 평가용 테스트 컬렉션 WT10g와 TREC-9의 질의 적합문서 집합을 이용하여 여러 가지 TSV 함수를 사용하여 검색 성능을 평가 하였다. 실험 결과 유사 적합성 피드백을 사용할 경우 TSV 함수에 확률 모델의 CF 요소 뿐만 아니라 TF 요소 등을 적용 시킬 경우 성능 향상에 기여할 수 있음을 알 수 있었다. 또한 색인어와 검색어로 단일어 뿐만 아니라 복합어도 사용할 경우 성능이 향상됨을 알 수 있다.

  • PDF

비디오의 의미검색과 유사성검색을 위한 통합비디오정보시스템 (Hybrid Video Information System Supporting Content-based Retrieval and Similarity Retrieval)

  • 윤미희;윤용익;김교정
    • 한국정보처리학회논문지
    • /
    • 제6권8호
    • /
    • pp.2031-2041
    • /
    • 1999
  • 본 논문에서는 비정형, 대용량의 비디오데이터의 특징기반 검색과 주석기반 검색을 통합하여 다양한 사용자의 의미검색을 지원하고, 유사성 질의를 지원하는 통합비디오정보시스템(Hybrid Video Information System : HVIS)을 제안한다. HVIS는 메타데이터 모델링을 위해 한편의 비디오를 비디오 다큐먼트, 시퀸스, 장면, 객체로 나누고 물리적인 비디오스트림을 위한 원시데이터계층(raw_data layer)과 주석기반 검색, 특징기반 검색, 유사성 검색을 지원하기 위한 메타데이터계층(meta_data layer)의 두 개의 계층을 가진 통합 계층지향 메타데이터모델(Two layered Hybrid Object-oriented Metadata Model : THOMM)과 이 모델을 기반으로 주석기반 질의, 특징기반 질의, 유사질의가 가능한 비디오질의언어 (Video Query Language)와 질의를 처리하기 위한 비디오질의처리기 (Video Query Processor : VQP)와 질의처리알고리즘을 제안한다. 특히 유사한 장면, 객체를 찾는 유사질의시 사용자의 관심을 고려한 유사성 정도를 나타내는 식을 제시한다. 제안된 시스템은 Visual C++, ActiveX와 ORACLE를 이용하여 구현되었다.

  • PDF

다중 문서에서 구조 정보를 이용한 XML 조인 질의 처리 (XML Join Query Processing using Structured Information from Multiple Documents)

  • 정성호;김병곤;정헌석;이재호;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.100-102
    • /
    • 2002
  • XML 문서에 대한 다양한 질의를 위해서 W3C에서는 XQL, XML-QL, XML-GL, XQUERY와 같은 질의어를 제안하였다. 이들 질의어는 다양한 질의 유형의 분류와 표현은 가능하나, 조인 질의의 경우 단순 조인 질의만을 지원할 뿐, XML 문서의 구조나 텍스트 정보의 유사성을 이용한 보다 다양한 조인 질의에 대한 연구가 미비하였다. 본 논문에서는 다중 문서에 대한 조인 질의를 체계적이고 효과적으로 표현하기 위해, 문서에 대한 조인 질의를 여러 타입으로 분류하였다. 또한 효율적인 질의처리를 위하여 다양한 일반 조인 질의 및 정보검색 기능을 지원하는 유사성 조인 연산자(similarity join operator), 순수 구조 기반 조인을 지원하는 구조 조인 연산자(structured join operator)를 지원하도록 XML 질의어인 QUILT를 확장하였다. 특히, 구조 정보만을 이용한 질의시 구조의 깊이(depth)정보를 이용하여 사용자의 요구에 맞게 질의 검색 범위를 설정하고, XML 문서에 대한 질의 문을 좀더 간결하게 표현할 수 있도록 설계하였다.

  • PDF

시그니처 트리를 사용한 의미적 유사성 검색 기법 (Semantic Similarity Search using the Signature Tree)

  • 김기성;임동혁;김철한;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.546-553
    • /
    • 2007
  • 온톨로지의 활용이 늘어나면서 의미적 유사성 검색에 대한 관심이 높아지고 있다. 본 논문에서는 질의 객체와의 의미적 유사성이 높은 객체를 검색하는 최근접 질의 기법을 제안하였다. 의미적 유사성을 측정하는 유사성 함수로는 최적 대응값 방식의 유사도 함수를 사용하였으며 주석 정보에 대한 색인을 위해 시그니처 트리를 사용하였다. 시그니처 트리는 집합 유사성 검색에서 많이 사용되는 색인 구조로서 유사성 검색에 사용하기 위해서는 검색시 각 노드를 탐색하였을 때 발견할 수 있는 유사도의 최대값을 예측할 수 있어야 한다. 이에 본 논문에서는 최적 대응값 방식의 유사도 함수에 대한 예측 최대값 함수를 제안하고 올바른 예측 함수임을 증명하였다. 또한 시그니처 트리에 동일한 시그니처가 중복되어 저장되지 않도록 구조를 개선하였다. 이는 시그니처 트리의 크기를 감소시킬 뿐만 아니라 질의 성능 또한 향상시켜 주었다. 실험의 데이타로는 대용량 온톨로지와 주석 정보 데이타를 제공하는 Gene Ontology(GO)를 사용하였다. 실험에서는 제안한 방법의 성능 향상 외에도 페이지 크기와 노드 분할 방법이 의미적 유사성 질의 성능에 미치는 영향에 대해 알아보았다.

의미 정보를 이용한 다차원 데이터 시퀀스의 유사성 척도 연구 (A Study of Similarity Measures on Multidimensional Data Sequences Using Semantic Information)

  • 이석룡;이주홍;전석주
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.283-292
    • /
    • 2003
  • 연속된 일차원 실수로 이루어진 시계열 데이터는 데이터 마이닝이나 데이터 웨어하우징과 같은 다양한 데이터베이스 응용 분야에서 연구되어져 왔다. 그러나 최근의 복잡한 비즈니스 환경에서, 다차원 데이터 시퀀스(multidimensional data sequence : MDS)는 일차원 시계열 데이터와 더불어 그 중요성이 더해가고 있다. 다차원 데이터 시퀀스의 예로써, 비디오 스트림은 색상과 질감 등의 속성들로 이루어진 다차원 공간상에서 MDS로 나타낼 수 있다. 본 논문에서는 패턴 유사성 검색에서 사용되는 효과적인 유사성 척도를 제시한다. 하나의 MDS는 여러 개의 세그먼트(segment)로 나누어지며, 각 세그먼트는 다양한 의미적인 특징들로 표현된다. 유사성 척도는 이러한 세그먼트에 대해서 정의되는데 이 척도를 사용하여 어떤 주어진 질의 시퀀스에 대하여 무관한 세그먼트들은 검색 대상에서 일차적으로 제외된다. 데이터 시퀀스와 질의 시퀀스 모두 세그먼트 단위로 분할되며, 질의 처리는 전체 시퀀스의 모든 데이터를 검색하지 않고 데이터 세그먼트와 질의 세그먼트의 특징을 비교하는 것을 기초로 하여 수행된다.