• 제목/요약/키워드: 유사 질의 처리

검색결과 508건 처리시간 0.034초

데이터 추상화와 퍼지 관계를 이용한 근사적 질의응답에 관한 연구

  • 허순영;문개현
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2000년도 춘계공동학술대회 논문집
    • /
    • pp.302-305
    • /
    • 2000
  • 본 논문은 데이터베이스에 존재하는 데이터 값들 사이의 유사성에 관한 지식을 이용하여 사용자가 요구한 정확한 답뿐 아니라 그와 유사한 답까지 제공해 줄 수 있는 근사적 질의처리 기법을 제시한다. 이를 위하여, 계량적인 방법에 해당하는 퍼지 관계와 비계량적인 방법에 해당하는 데이터 추상화를 하나로 통합한 유사성 표현 프레임웍을 제시하고 그를 이용한 지식 베이스를 설계한다.

  • PDF

자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 (Self-learning Method Based Slot Correction for Spoken Dialog System)

  • 최태균;김민경;이인재;이지은;박규연;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

2차원 배열 데이터에서 유사 구역의 효율적인 탐색 기법 (An Efficient Method for Finding Similar Regions in a 2-Dimensional Array Data)

  • 최연정;이기용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권4호
    • /
    • pp.185-192
    • /
    • 2017
  • 여러 과학 분야에서 측정 또는 시뮬레이션의 결과로 2차원 배열 데이터가 활발히 생성되고 있다. 현재 배열 데이터에 대한 다양한 질의 처리 기법들이 연구되고 있으나 2차원 배열 데이터에서 크기가 미리 알려져 있지 않은, 값이 서로 유사한 구역을 찾는 문제는 거의 다루어지지 않았다. 따라서 본 논문에서는 주어진 2차원 배열 데이터에서 사용자가 지정한 값 이상의 크기를 갖는, 원소 값들이 서로 유사한 구역을 빠르게 찾는 방법을 제안한다. 본 논문의 제안 방법은 2차원 배열의 각 원소 쌍에 대해, 해당 원소로만 이루어진 크기가 1인 구역부터 시작하여 두 구역을 동일한 모양을 유지하면서 오른쪽 및 아래쪽으로 단계적으로 확장시켜나간다. 만약 두 구역의 값의 차이가 사용자가 지정한 값 이상으로 커지면 확장을 중단한다. 따라서 제안 방법은 배열에서 유사 구역이 될 가능성이 있는 부분들만 접근하여 유사 구역을 효율적으로 찾아낼 수 있다. 본 논문에서는 성능 분석과 다양한 실험을 통해 제안 방법이 매우 효율적으로 유사 구역을 찾을 수 있음을 보인다.

확률적 정보 검색 모델에서의 유사 적합성 피드백 실험 (Experiments on Pseudo Relevance Feedback in Probabilistic Information Retrieval Model)

  • 조봉현;이창기;안주희;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.183-190
    • /
    • 2001
  • 본 논문은 확률기반 자연어 검색 시스템 POSNIR/E를 이용한 여러 가지 유사 적합성 피드백 방법들이 검색 시스템의 성능 향상에 기여할 수 있는 정도를 보여주고, 확률 기반 정보 검색 시스템에 적합한 유사 적합성 피드백 수행 방법을 제시한다. POSNIR/E는 한국어 자연어 검색 시스템, POSNIR를 기반으로 만들어진 영어 자연어 검색 시스템이다. 이 시스템은 성능 향상을 위한 질의 확장의 방법으로 검색 단계에서 유사 적합성 피드백을 사용한다. 검색 단계에서 영어 태거에 의해 태깅된 사용자 질의로부터 질의어를 추출하고 초기 검색을 수행한다. 유사 적합성 피드백을 위하여 초기 검색 결과 중 상위 5개의 문서에 나타나는 키워드를 중요도에 따라 내림차순 정렬하여 상위 10개의 키워드를 초기 질의어에 확장한다. 이렇게 확장된 질의어로 최종 검색을 수행한다. TREC 평가용 테스트 컬렉션 WT10g와 TREC-9의 질의 적합문서 집합을 이용하여 여러 가지 TSV 함수를 사용하여 검색 성능을 평가 하였다. 실험 결과 유사 적합성 피드백을 사용할 경우 TSV 함수에 확률 모델의 CF 요소 뿐만 아니라 TF 요소 등을 적용 시킬 경우 성능 향상에 기여할 수 있음을 알 수 있었다. 또한 색인어와 검색어로 단일어 뿐만 아니라 복합어도 사용할 경우 성능이 향상됨을 알 수 있다.

  • PDF

윈도우 제약 조건을 가지는 시간 왜곡 변환 기반 유사 시퀸스 검색 (Similar Sequence Searching under Time Warping with Window constraint)

  • 김인태;송병호;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.214-216
    • /
    • 2001
  • 유사 시퀸스 검색에서 시간 왜곡 변환을 지원하기 위한 연구가 최근 활발히 이루어지고 있다. 음성 인식과 같은 몇몇 응용에서는 시간 왜곡 변환을 적용할 때 과도한 타이밍의 차이는 허용하지 않을 필요가 있다. 그래서 대부분의 경우 윈도우라는 제약 조건을 추가하게 된다. 이 논문에서는 윈도우 제약 조건이 있을 때 시간 왜곡 변환을 지원하는 유사 검색 방법으로 세그먼트 분할 기법(Segment Partition Approach:SFA)을 제안한다. SFA는 각 시퀸스를 세그먼트로 분할한 뒤 특징을 추출하여 다차원 인덱스를 구성한다. 유사 검색 질의를 수행할 때 이 인덱스를 검색하여 질의 시퀸스와 유사할 가능성이 큰 후보들을 빠르게 찾아낼 수 있고 찾아낸 후보들에 대해서만 정확한 시간 왜곡 변환 거리를 계산하기 때문에 전체 질의 처리 시간을 단축할 수 있다. SPA는 순차 검색에 비하여 좋은 성능을 보이며, 특히 거리 허용치가 작을 때 더욱 우수한 성능을 보인다.

  • PDF

DNA 서열의 위치 정보를 이용한 효율적인 유사성 검색 알고리즘 (An Efficient Algorithm for Similarity Search using Positional Information of DNA Sequences)

  • 정인선;박경욱;임형석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.970-972
    • /
    • 2005
  • 유전자 데이터베이스의 서열의 길이가 수백만에서 수백억 정도의 대용량 텍스트이기 때문에 기존의 Smith-waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 매우 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 이러한 방법들은 질의 서열과 일치될 가능성이 높은 후보들만을 추출한 후 이들 각각에 대하여 질의 서열과의 일치 여부를 조사하므로 빠르게 유사성 검색을 할 수 있다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정확도가 Smith-Waterman 알고리즘에 비해 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 인덱싱함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은 문자 빈도만을 사용하는 알고리즘에 비해 $5\~15\%$정도 정확성이 향상되었다.

  • PDF

물체 분할 기법을 이용한 내용기반 영상 검색 (A Content-Based Image Retrieval using Object Segmentation Method)

  • 송석진;차봉현;김명호;남기곤;이상욱;주재흠
    • 융합신호처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.1-8
    • /
    • 2003
  • 현재 사회전반에 걸쳐 급격히 증가하고 있는 멀티미디어 정보를 효율적으로 관리, 활용할 수 있는 방법이 다양하게 연구되고 있다. 본 논문에서는 정지영상 검색을 위해 사용자가 질의(query)를 요구하면 질의 물체를 배경으로부터 분할한 후 유사물체를 영상 데이터베이스 내에서 검색할 수 있는 내용기반 영상검색 시스템을 구현하였다. 질의영상이 들어오면 우선 메디안 필터링 처리를 하여 잡음 제거한 후 캐니 에지 탐지법으로 물체의 에지를 구한다. 그리고 볼록 다각형 기법을 이용하여 배경으로부터 질의물체를 분할한다. 분할된 영상으로부터 컬러 히스토그램을 구한 후 데이터 베이스내의 영상과 히스토그램 인터섹션을 하여 유사치를 구한다 또한 공간적 그레이 분포와 질감특성을 추출하기 위해 분할된 영상을 그레이 영상으로도 변환시켜 웨블릿 변환한 후 밴디드 오토코릴로그램과 에너지를 구해 유사치를 구한다. 이렇게 구한 유사치을 더해 최종 유사영상을 검색하는데 물체 분할기법을 사용함으로써 배경에 강인할 뿐 아니라 보다 정확한 물체 검색이 가능하였다.

  • PDF

문서필터링을 위한 질의어 확장과 가중치 부여 기법 (Query Expansion and Term Weighting Method for Document Filtering)

  • 신승은;강유환;오효정;장명길;박상규;이재성;서영훈
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.743-750
    • /
    • 2003
  • 본 논문에서는 문서 필터링을 위한 질의어 확장과 가중치 부여 기법을 제안한다. 문서 필터링은 웹 검색 엔진들에 대한 검색 결과의 정확률 향상을 목적으로 한다. 문서 필터링을 위한 질의어 확장은 개념망, 백과사전, 유사도 상위 10% 문서를 이용하며, 각각의 확장 질의어에 가중치를 부쳐하여 질의어와 문서들간의 유사도를 계산한다. 첫 번째 단계에서 개념망과 백과사전을 이용하여 초기 질의어에 대한 1차 확장 질의어를 생성하고, 1차 확장 질의엉 가중치를 부여하여 질의어와 문서들간의 유사도를 계산한다. 다음 단계에서는 높은 유사도를 갖는 상위 10% 문서들을 이용하여 2타 확장 질의어를 생성하고, 2차 확장 질의어에 가중치를 부쳐하여 질의어와 문서들간의 유사도를 계산한다. 다음으로 1차 유사도와 2차 유사도를 결합하여 문서들을 재순위화하고, 임계치보다 낮은 유사도를 갖는 문서들을 필터링함으로써 웹 검색 엔진들의 검색 결과 정확률을 향상시킨다. 실험에서 이러한 문서 필터링을 위한 질의어 확장과 가중치 부여 기법은 정확률-재현율과 F-measure를 이용하여 성능 평가를 할 때 정보 검색 효율성에서 주목할 만한 성능 향상을 보였다.

인터넷상의 온톨로지간의 P2P 질의처리 방안 (P2P query processing method between ontologies in internet environment)

  • 김병곤;오성균
    • 디지털콘텐츠학회 논문지
    • /
    • 제10권2호
    • /
    • pp.239-247
    • /
    • 2009
  • 단순한 형태의 네트워크 시스템에서는 질의가 발생하면 질의를 효율적이고 정확하게 처리하기 위하여 연결된 모든 피어로 질의를 전송한다. 그러나, 이러한 처리방식은 전송 대역폭을 낭비하게 되고, 각 피어의 효율을 감소시킨다. 이를 극복하기 위하여, 질의처리 기법뿐만 아니라 질의를 적절한 곳으로 전송하기 위한 라우팅 기법이 필요하다. 더구나 네트워크의 환경이 P2P 환경으로 구성되어 있는 경우엔, 효율적인 라우팅을 위해서는 네트워크를 구성하는 피어들을 여러개의 그룹으로 묶어 클러스터를 구성하는 것이 효율적이다. 이때 랜덤하게 클러스터를 구성하는 것 보다 유사성에 기준을 두고 클러스터를 구성하는 것이 중요한 요소가 된다. 이 논문은 특히 갈수록 중요성을 더해가는 시맨틱웹을 구성하기 위한 온톨로지 환경에서의 P2P 질의 처리를 위한 클러스터링 기술을 제안한다. 클러스터링을 하기 위한 유사성 측정요소를 제안하며, 질의를 P2P 환경에서 처리하기 위한 클러스터 인데스 구조, 질의처리 단계 등을 제안한다.

  • PDF

u-GIS 환경에서 다중 공간 집계 질의의 중복연산 비용을 감소시키기 위한 자원공유 기법 (Resource Sharing Method to Reduce Duplicate Operation Cost of Multiple Spatial Aggregates in u-GIS Environment)

  • 서민호;김상기;백성하;이연;이동욱;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.344-347
    • /
    • 2009
  • 데이터 스트림을 처리하기 위한 연속집계질의 수행 시 중복연산 및 메모리의 절약을 위하여 큐를 공유하는 자원공유기법이 연구되었다. 기존의 자원공유 기법들은 질의의 프리디킷이 일치할 때만 처리하기 때문에, 질의의 프리디킷이 차이가 나는 경우가 많은 다중공간 집계질의가 자주 요청되는 u-GIS 환경에서 효율적으로 중복영역을 처리할 수 있는 자원공유 기법이 요구된다. 본 논문에서는 공간영역을 효율적으로 그룹화하는 R-tree 의 특징을 이용하여 질의간의 중복영역을 그룹화하고 중복영역의 자원을 패인(Pane)구조를 이용하여 공유한다. 노드 수에 제한이 없고 레벨을 1로 하는 R-tree 로 유사한 위치의 질의들을 그룹화 한 후, 그 질의들의 영역이 겹쳐지는 부분을 패인을 이용해 집계 값을 공유하여 중복계산을 피하는 방법이다. 제안 기법은 공간 집계질의를 처리할 수 있고, 기존의 계층구조의 자원공유 기법을 사용할 때에 비해 자원을 적게 사용하고 질의 처리 시간을 단축시켰다. 성능평가를 통하여 제안기법이 메모리 사용량을 감소시키는 것을 보였으며, 질의 처리 속도가 증가하였다.