• 제목/요약/키워드: 연속 질의 처리

검색결과 265건 처리시간 0.028초

자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 (Self-learning Method Based Slot Correction for Spoken Dialog System)

  • 최태균;김민경;이인재;이지은;박규연;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

USN 기반의 화재감시 응용을 위한 센서 데이터 처리 시스템 (A Sensor Data Management System for USN based Fire Detection Application)

  • 박원익;김영국
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권5호
    • /
    • pp.135-145
    • /
    • 2011
  • 오늘날 센서 기술의 발전 및 보급으로 인해 USN 기반의 실시간 모니터링 응용에서의 센서 데이터 처리 시스템에 대한 연구가 활발히 진행 되고 있다. 센서 데이터는 시간에 따라 빠르게 변화하고 연속적인 저수준 상태의 방대한 양의 데이터를 생성하는 특성을 갖는다. 하지만 엔드유저는 상대적으로 고수준 상태의 데이터에 관심이 있기 때문에 빠르게 변화하고 연속적인 대량의 저수준 센서 데이터를 효과적으로 처리하는 시스템이 필수적이다. 본 논문에서는 USN 기반의 화재감시 응용에서 OLAP(On-Line Analytical Processing) 기술을 이용한 다차원 분석 질의 처리 기능과 학습기반 분류기를 통한 이상치 탐지 기능을 제공하는 센서 데이터 처리 시스템을 제안한다. 실험 시나리오를 통해 우리의 센서 데이터 처리 시스템에 대한 타당성을 검증하며 실험에 필요한 다양한 센서 데이터는 자체 개발한 센서 데이터 생성기를 이용한다.

의미 정보를 이용한 다차원 데이터 시퀀스의 유사성 척도 연구 (A Study of Similarity Measures on Multidimensional Data Sequences Using Semantic Information)

  • 이석룡;이주홍;전석주
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.283-292
    • /
    • 2003
  • 연속된 일차원 실수로 이루어진 시계열 데이터는 데이터 마이닝이나 데이터 웨어하우징과 같은 다양한 데이터베이스 응용 분야에서 연구되어져 왔다. 그러나 최근의 복잡한 비즈니스 환경에서, 다차원 데이터 시퀀스(multidimensional data sequence : MDS)는 일차원 시계열 데이터와 더불어 그 중요성이 더해가고 있다. 다차원 데이터 시퀀스의 예로써, 비디오 스트림은 색상과 질감 등의 속성들로 이루어진 다차원 공간상에서 MDS로 나타낼 수 있다. 본 논문에서는 패턴 유사성 검색에서 사용되는 효과적인 유사성 척도를 제시한다. 하나의 MDS는 여러 개의 세그먼트(segment)로 나누어지며, 각 세그먼트는 다양한 의미적인 특징들로 표현된다. 유사성 척도는 이러한 세그먼트에 대해서 정의되는데 이 척도를 사용하여 어떤 주어진 질의 시퀀스에 대하여 무관한 세그먼트들은 검색 대상에서 일차적으로 제외된다. 데이터 시퀀스와 질의 시퀀스 모두 세그먼트 단위로 분할되며, 질의 처리는 전체 시퀀스의 모든 데이터를 검색하지 않고 데이터 세그먼트와 질의 세그먼트의 특징을 비교하는 것을 기초로 하여 수행된다.

실시간 헬스케어 시스템을 위한 데이터 스트림 서버의 설계 및 구현 (The Design and Implementation of the Real-time Data Stream Server for Continuity of Care Record)

  • 오택군;이연;배해영
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권12호
    • /
    • pp.71-81
    • /
    • 2011
  • 스마트폰 기반 개인 전자의료기록 관리 서비스는 병원과 의사와 환자가 병력을 공유하고 조회하여 환자의 병력을 효과적으로 관리하여 진단 효율을 높이는 서비스이다. 그러나 이런 전자의료기록 관리 서비스에서 발생되는 데이터는 도시와 같은 큰 범위의 모든 환자들의 병력 데이터를 전통 데이터베이스 관리시스템(DBMS)을 사용해 처리할 경우 빈번하게 발생하는 질의 처리 요청 등의 원인으로 병목현상이 발생 할 수 있어 실시간 데이터 스트림의 처리를 지원하는 데이터 스트림 관리시스템(Data Stream Management System)에 대한 연구가 진행되고 있다. 본 논문에서는 시스템 구조 및 연속 질의 처리기와 CCR 데이터 구조를 포함한 CCR 데이터 스트림 서버 시스템을 제안한다. 제안 시스템은 실시간적으로 발생하는 CCR 데이터 스트림을 처리 및 모니터링 하기 위한 시스템으로 사용자의 CCR 데이터 이력데이터에 대한 조회 및 실시간으로 발생하는 CCR 데이터에 대한 연속질의를 지원한다. 또한 개인 건강 정보는 지리적으로 떨어져 있는 헬스케어 프로바이더 사이에서 공유되어 환자의 병원이력정보를 관리한다. 또한 본 논문에서는 제안시스템에 기반한 아이폰 헬스케어 응용어플리케이션을 설계 및 개발하여 제안 시스템의 설계와 구축과정 및 성능을 보여준다.

공간 순서화 곡선을 이용한 다차원 영역 질의 처리 (A Multi-dimensional Range Query Processing using Space Filling Curves)

  • 백현;원정임;윤지희
    • 한국공간정보시스템학회 논문지
    • /
    • 제8권2호
    • /
    • pp.13-38
    • /
    • 2006
  • 다차원 공간 객체를 위한 영역 질의는 다차원 공간상에서 질의 영역과 교차 또는 포함되는 객체들을 검색하는 가장 기본적인 공간 연산이다. 영역 질의 처리를 위한 인덱스 기법으로서 공간 순서화 곡선을 이용하여 다차원 공간 객체의 MBR 정보를 1차원 값으로 변환하여 저장하는 DOT(DOuble Transformation) 인덱스 기법이 알려져 있다. 이 기법은 데이터베이스 시스템의 주색인 기법을 그대로 적용할 수 있는 장점을 갖으나, 중간 공간에 설정된 다차원 질의 영역을 최종 공간상의 1차원 값의 집합으로 변환하는 공간 변환 연산에 대한 오버헤드가 매우 크다는 문제점이 있으며, 원 공간을 2차원 이상으로 확장하여 적용할 수 있는 구체적인 영역 질의 방법이 연구된 바 없다. 본 논문에서는 다차원 공간 질의 영역 상의 공간 순서화 곡선의 규칙성을 분석함으로써 공간 변환 연산의 횟수를 대폭 감소시킨 효율적인 다차원 공간 영역 질의 처리 기법을 제안한다. 제안된 기법에서는 공간 변환 연산의 비용을 감소시키기 위하여 질의 영역을 공간 순서화 곡선이 연속 운행되는 최대 크기의 쿼터로 분할하는 쿼터 분할 기법을 사용한다. 제안된 기법에 의한 다차원 영역 질의 처리 과정을 시각적으로 확인할 수 있는 시뮬레이터를 구현하였으며, 이를 이용한 성능평가 결과를 보였다.

  • PDF

연속적인 공간질의에서 사용자의 방향을 고려한 개선된 k-oATY (Improved k-oATY considering the user's Direction in continuous spatial query)

  • 송두희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.217-219
    • /
    • 2023
  • 최근 사용자의 다양한 정보를 요구하는 어플리케이션이 개발됨에 따라 개인 정보 보호가 이슈화 되고 있다. 특히 사용자의 위치와 관련된 연구는 매우 중요한 부분을 차지한다. 본 논문에서는 기존에 제안되었던 k-oATY에 대해 소개하고, k-oATY에 대한 설명 중 미흡했던 부분을 지적하고 이를 개선하는 논문을 제안하고자 한다. 첫 번째, 제안기법에서 생성되는 가상의 더미 생성 방법을 알고리즘으로 정의했으며 두 번째, 제안기법에서 장애물이 있을 경우 회피할 수 있는 알고리즘을 제안했다.

이동체의 궤적 및 현재 위치에 대한 시공간 인덱스 (Spatial-Temporal Indexing of Trajectory and Current Position of Moving Object)

  • 박부식;전봉기;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.28-30
    • /
    • 2002
  • 시간에 따라 연속적으로 위치가 변화하는 객체를 이동체라 한다. 기존의 R-Tree를 사용한 이동체 색인에 관한 연구에서는 현재 위치 질의 시 고비용의 연산이 요구되고, 시간축의 값이 증가하는 방향으로 보고되는 이동체의 위치데이터의 특징을 고려한 노드 분할 정책이 제안되지 않았다. 이 논문에서는 이동체의 현재 위치 및 과거 위치에 대한 색인 방법인 CPTR-Tree(Current Position and Trajectory R-Tree)를 제안한다. 특히, 제안 방법에서 이동체의 현재 위치에 대한 공간차원의 PMBR(Point MBR)을 유지함으로써, 현재 위치 질의 처리시 불필요한 노드 접근 횟수를 줄일 수 있어 성능향상을 할 수 있다. 그리고, 시간축의 값이 증가하는 형태로 보고되는 이동체 위치 데이터의 특징을 고려하여 시간축 분할시 SP(Split Parameter) 분할 방법을 제공함으로써 노드 공간 활용률을 높여 색인의 크기를 줄이고, 공간축 분할시 노드 겹침을 줄이는 동적 클리핑 분할 정책을 제시하여 이동체 과거 위치 검색 효율을 높인다.

  • PDF

REALM을 이용한 한국어 오픈도메인 질의 응답 (REALM for Open-domain Question Answering of Korean)

  • 강동찬;나승훈;최윤수;이혜우;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.192-196
    • /
    • 2020
  • 최근 딥러닝 기술의 발전에 힘입어 오픈 도메인 QA 시스템의 발전은 가속화되고 있다. 특히 IR 시스템(Information Retrieval)과 추출 기반의 기계 독해 모델을 결합한 접근 방식(IRQA)의 경우, 문서와 질문 각각을 연속 벡터로 인코딩하는 IR 시스템(Dense Retrieval)의 연구가 진행되면서 검색 성능이 전통적인 키워드 기반 IR 시스템에 비해 큰 폭으로 상승하였고, 이를 기반으로 오픈 도메인 질의응답의 성능 또한 개선 되었다. 본 논문에서는 경량화 된 BERT 모델을 기반으로 하여 Dense Retrieval 모델 ORQA와 REALM을 사전 학습하고, 한국어 오픈 도메인 QA에서 QA 성능과 검색 성능을 도출한다. 실험 결과, 키워드 기반 IR 시스템 BM25를 기반으로 했던 이전 IRQA 실험결과와 비교하여 더 적은 문서로 더 나은 QA 성능을 보였으며, 검색 결과의 경우, BM25의 성능을 뛰어넘는 결과를 보였다.

  • PDF

u-SilverCare에서의 USN 미들웨어 기반 센서 데이터 마이닝 (USN middleware based Sensor Datamining in u-SilverCare Service)

  • 허병문;이준욱;채덕진;정재두;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.429-432
    • /
    • 2006
  • 기존의 u-HealthCare 서비스는 환자에 대해서 일정한 공간에서의 센서의 on/off 타입에 대한 모니터링/환자관리의 서비스를 제공하였다. 이러한 환경하에서의 주된 서비스는 현재 환자의 상태에 대한 수동적인 형태이다. 이러한 문제점들을 해결하기 위해 센서 데이터에 대한 연속센서 데이터마이닝 기법을 이용한다. USN의 응용서비스인 u-HealthCare 서비스는 센서데이터로부터 생체정보 및 위치정보를 이용하여 환자/보호자/관련 의료진에게 필요한 정보를 제공한다. 이것은 환자에 대한 관리/모니터링뿐만 아니라 환자의 상태에 따른 센싱(sensing)된 데이터를 이용한 패턴(pattern), 예측-(prediction), 이상치(outlier)를 분석함으로써 보다 나은 서비스를 제공할 수 있다. 본 논문에서는 센서 데이터에 대해 새로운 연속 센서데이터 마이닝 기법을 적용하여 질의를 통해 지식을 추출하고 보다 지능화된 서비스를 제공할 수 있는 응용서비스 기법을 제안한다.

  • PDF

VOD서버에서 연속 매체의 고속 재생을 위한 디스크 부하 균형 정책 (Disk Load Balancing Scheme for High Speed Playback of Continuous Media in VOD Server)

  • 이승용;이호석;홍성수
    • 한국정보처리학회논문지
    • /
    • 제4권5호
    • /
    • pp.1172-1181
    • /
    • 1997
  • 멀티미디어 데이터는 텍스트 형식의 정형 데이터와 영상이나 음성 등의 비정형 데이터가 혼재한 형테의 데이터이다. 멀티미디어 데이터는 대용량의 특성과 큰 전송 대역폭의 요구 및 실시간 처리 등을 그 특성으로 한다. 이러한 멀티미디어 데이터의특성 때문에 VOD서버나 연속 매체 저장 서버(Continuous media storage server)는 여러 개 의 디스트를 배열의 구조로 하는 디스크 스트라이프 구조나 디스크 배열((RAID) 구조를 하고 있다.디스트의 병렬 접근 시스템에서 세그먼트 인터리빙 방식으로 저정된 연속 매체를 고속 재생하는 경우, 특정 디스크에 부하의 편중 현상을 유발하여 다른 서비스의 질을 보장하지 못하는 경우가 발생한다. 디스크 부하의 편중은 연속 매체의 고속 재싱의 배속과 시스템이 보유하는 디스크의 수에 따라 부하 편중 정도를 달리 한다.본 논문은 디스크의 수와 연속 매체의 고속 재생의 정도와 관계없이 세그먼트의 접근 간격을 변화 함으로써 디스크의 부하 편중을 감소시키는 고속 재생 기법을 제안한다.

  • PDF