• Title/Summary/Keyword: 자동음성시스템

검색결과 264건 처리시간 0.023초

아바타 기반 교육용 멀티미디어 컨텐츠 저작시스템의 설계 및 구현 (Design and Implementation of Education Multimedia Content Mastication system based on AVATAR)

  • 이혜정;정석태
    • 한국정보통신학회논문지
    • /
    • 제8권5호
    • /
    • pp.1042-1049
    • /
    • 2004
  • 본 논문에서는 LipSynchco 소프트웨어 개발 키트(SDK)를 사용하여 아바타 기반 교육용 멀티미디어 컨텐츠 저작시스템을 설계하고 구현하였다. 모션생성 엔진과 음성 동조화 엔진을 연동함으로써 아바타의 움직임을 자동으로 생성하여 이를 교육용 멀티미디어 컨텐츠 저작 틀과 결합하여 보다 나은 교육용 컨텐츠를 생성할 수 있도록 하였다.

룰 엔진 기반의 음성 인식 챗봇 IFTTT 서비스 시스템 (Speech Recognition Chatbot IFTTT Service System based on Rule Engine)

  • 김계영;이현동;조대수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.671-674
    • /
    • 2017
  • 고객 상담 채팅은 비동기 상태에서도 메시지를 보낼 수 있기 때문에 고객이 메시지를 보낸 후 한참 후에 메시지를 읽고 답을 보내는 경우가 많아 하나의 고객 문의를 처리하는데 시간이 많이 소요된다. 이런 문제점을 해결하기 위해서 본 논문에서는 룰 엔진 기반의 챗봇 IFTTT 서비스 시스템을 제안한다. 이를 통하여 고객 상담 업무를 자동적으로 실시간 처리 할 수 있다.

패턴 매칭과 자동 규칙 생성에 기반한 2단계 주식 트레이딩 시스템 (A Two-Phase Stock Trading System based on Pattern Matching and Automatic Rule Induction)

  • 이종우;김유섭;김성동;이재원;채진석
    • 정보처리학회논문지B
    • /
    • 제10B권3호
    • /
    • pp.257-264
    • /
    • 2003
  • 일반적인 동적 매매 환경에서의 금융 예측 시스템은 주어진 목적을 최적으로 만족시키는 매매 형태를 찾고자 한다. 본 논문은 수익률을 극대화시키기 위하여 추출과 여과라는 두개의 단계로 구성된 새로운 형태의 주식 매매 시스템을 제안한다. 주식 추출 단계에서는 특정 시계열 패턴에 부합하는 주식을 추출하는데, 이러한 시계열 패턴은 기술 지표 값들의 조합으로 표현된다. 그리고 여과 단계에서는 추출된 주식 집합에 여과 규칙들을 적용하여 실제 매매 대상이 되는 주식들을 골라내는데, 여과 규칙은 과거 주가 데이터로부터 자동으로 유도되었다. 이를 위하여, 우리는 먼저 방대한 과거 일별 주가 데이터로부터 기술 지표 값들을 계산하였다. 계산된 기술 지표 값들은 시계열 패턴을 추출하는데 사용되고 이 값들의 이산화 구간들의 분포가 양성 및 음성 데이터들에 대하여 계산된다. 본 논문에서는 독특한 분포를 보이는 구간에 존재하는 기술 지표 값들이 주가의 향후 움직임을 예측하는 데 도움을 준다는 가정을 하였다. 그리고 여과 규칙은 바로 이런 독특한 분포를 보이는 구간 내의 데이터 값들로부터 자동으로 유도되었다. 우리는 시뮬레이션을 통해, 본 논문에서 제시한 트레이딩 시스템이 시장 평균 수익률을 상회한다는 사실을 확인함으로써 위의 가정에 대한 검증을 할 수 있었다.

음소 질의어 집합 생성 알고리즘 (Phonetic Question Set Generation Algorithm)

  • 김성아;육동석;권오일
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.173-179
    • /
    • 2004
  • 음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.

오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘 (Automatic Indexing Algorithm of Golf Video Using Audio Information)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.441-446
    • /
    • 2009
  • 본 논문에서는 오디오 정보 분석을 이용하여 골프 통영상을 자동 색인하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 골프 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 Adaboost Cascade 분류방식을 통하여 스튜디오 환경에서의 아나운서의 음성구간, 선수이름이 TV 화면에 소개 될 때 수반되는 음악구간, 선수들의 플레이에 따라 반응하는 관중들의 박수 및 환호성 소리구간, 필드에서의 레포터의 음성구간, 바다나 바람 등의 필드환경 잡음 사운드구간 등의 5가지 구간으로 분류한다. 그리고 드라이브 샷, 아이런 샷과 퍼팅 샷 시에 발생하는 스윙 사운드는 onset 검출과 변조스펙트럼 검증 방법을 통해 검출되며, 관객의 박수 소리 구간과 결합하여 액션 및 하이라이트를 효율적으로 색인할 수 있게 한다. 제안된 알고리즘은 오디오 신호의 간단한 연산을 통해 의미를 지니고 있는 기본구조들을 검출하기 때문에 골프 동영상에서 사용자가 원하는 부분을 빠르게 브라우징하는 임베이디드 시스템에 적용가능하다.

U-City Infra 기반 실시간 어린이 유괴방지 시스템 연구 (Study on U-City Infra Based Realtime Children Anti-abduction System)

  • 조병완;전우현;이계삼;박정훈;윤광원;이경수
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2009년도 정기 학술대회
    • /
    • pp.467-470
    • /
    • 2009
  • 본 논문에서는 유비쿼터스 기반 인프라를 이용한 실시간 유괴방지 시스템을 구축하였다. 급속한 사회 발전과 더불어 강력사건이 증가되고 있으며 그중에서 어린이 유괴 범죄 같이 질적으로 흉악한 범죄가 해마다 증가되고 있는 실정이다. 이러한 유괴 범죄를 예방하기 위하여 현재 GPS(Global Positioning System)을 이용한 위치인식 기술 및 이동통신 기지국을 이용한 위치인식 기술이 사용되고 있다. 단순히 위치인식 기술은 위험상황이 발생하였을 때, 상황을 정확히 인지하기 어려워 유괴된 어린이 44%가 1시간 이내 사망하고 74%가 3시간 이내 사망 한다는 통계를 감안하면 기존 시스템은 어린이 생명 보호 능력에 한계가 있다. 본 연구에서는 유비쿼터스 도시 기반 인프라를 구축하여 WPAN(Wireless Personal Area Network)환경에서 RF만으로 거리 측정이 가능한 IEEE 802.15.4a의 ISM Band CSS(Chirp Spread Spectrum)방식을 이용하여 보다 저 전력으로 정확한 위치정보 시스템을 적용하였다. 이에 CSS방식을 통하여 얻은 위치정보를 지능형 CCTV와 융합하여 CCTV가 단말기 위치로 자동 초점하는 시스템을 구성하였다. 도시통합운영센터에서 상황을 정확히 인지하고 신속하게 출동할 수 있도록 단말기 위치를 지속적으로 요원의 PDA 및 핸드폰으로 통보하고 현장 주변의 미디어 보드 표시와 음성 경고로 경찰의 적절한 대응 및 주변의 도움을 받을 수 있는 시스템을 구성하였다.

  • PDF

신경망을 이용한 연속 숫자음 인식에 관한 연구 (A Study On Continuous Digits Recognition Using the Neural Network)

  • 이성권;김순협
    • 한국음향학회지
    • /
    • 제17권4호
    • /
    • pp.3-13
    • /
    • 1998
  • 본 논문은 음성 다이어링 시스템을 구현하기 위한 한국어 단독 숫자음 및 연속 숫 자음 인식에 관한 것이다. 단독 숫자음의 인식은 미지의 입력 음성을 재귀 신경망을 이용하 여 모델링된 각 모델에 인가하고, 신경 회로망의 출력 노드의 상태열을 검사하여 적절한 상 태 전이를 하며 최고의 확률값을 출력하는 모델을 인식된 결과로 출력한다. 연속 숫자음의 인식은 미지의 연속 숫자음을 재귀 신경 회로망을 이용한 연속 숫자음 모델에 입력하고, 신 경 회로망의 출력에 대하여 적절한 상태 전이에 대한 검사와 레벨 빌딩(Level Building)을 수행하여 최소의 오차를 가지는 모델열을 인식된 결과로 출력한다. 재귀 신경 회로망을 이 용하여 음절 모델을 만드는 과정에서 재귀 노드는 예상치가 주어지지 않으므로 신경 회로망 의 학습에서 제외되어 현저한 학습 속도의 저하를 가져온다. 따라서 본 논문에서는 재귀 신 경 회로망의 학습 속도를 향상시키기 위한 2가지 방법을 제안 한다. 첫 번째는 재귀 신경 회로망의 재귀 노드의 예상치를 실험적으로 주어줌으로써 학습 속도의 향상을 도모하였다. 두 번째는 음절 모델의 출력노드의 개수와 음절 모델의 세그먼트 경계를 알고리듬을 이용하 여 자동적으로 조절하였다. 실험결과, 단독어의 경우 음절 '에'에 포함하는 한국어 11개의 숫 자음에 대하여 화자 종속의 경우 97.3%, 화자 독립의 경우 80.5%의 인식률을 얻었으며, 연 속 숫자음의 경우는 21종류의 연속 숫자음에 대하여 화자 종속에서 88.2%, 화자 독립의 경 우 81.3%의 인식률을 얻을 수 있었다.

  • PDF

전염성 확산 차단을 위한 음성인식 기반의 출입통제시스템 설계 (Design for Access Control System based on Voice Recognition for Infectious Disease Prevention)

  • 문형진;한군희
    • 한국융합학회논문지
    • /
    • 제11권7호
    • /
    • pp.19-24
    • /
    • 2020
  • WHO는 3월 11일 코로나 19에 대한 세계적 대유행, 팬더믹(pandemic)을 선언하였다. 하지만 경제 및 사회적 활동으로 인하여 면대면 교육이나 세미나를 위해 건물 출입을 해야하는 상황이 발생한다. 코로나 19의 감염여부의 1차 체크 방법으로 체온 측정이 있어 근거리 체온 측정을 통해 1차적인 출입 차단을 실시하고 있다. 그로 인해 일일이 직접 체크하는 것이 번거롭기 때문에 열화상 카메라를 건물 입구에 설치하고, 적외선 카메라를 이용하여 간접적으로 체온을 측정하여 출입 통제를 하고 있다. 중고교나 대학 및 평생교육의 경우 출석체크 등과의 연동이 가능하고, 마스크 착용 여부를 자동으로 인식하고, 수강생의 인증이 가능한 시스템이 필요하다. 제안시스템은 스마트미러에 탐재된 카메라로 마스크 착용 여부를 확인하고, 음성인식 기술을 활용하여 건물안으로 들어오고자 하는 사용자의 목소리 인식을 통해 사용자를 인증하고, 출입 여부를 결정하는 시스템을 제안하고자 한다. 제안 시스템은 근거리 온도 측정과 수강생의 스마트 폰의 출석체크 APP와 연동을 하게 되면 출석체크도 가능하다.

Pseudo MOST 프로토콜 기반 자동차용 네트워크 통합 게이트웨이 시스템 개발 (Development of Automotive Gateway System Using Pseudo MOST Network as Backbone)

  • 안성수;김우현
    • 전자공학회논문지SC
    • /
    • 제48권6호
    • /
    • pp.24-33
    • /
    • 2011
  • 본 논문은 다른 종류의 프로토콜을 가지는 자동차 네트워크를 통합하기 위해 MOST 네트워크를 백본으로 하는 게이트웨이 시스템에 대한 것이다. 서로 다른 프로토콜들의 상위 계층의 메시지와 데이터 구조에 상관없이 서로간의 통신을 위해 MOST와 비슷한 구조를 가지는 Pseudo MOST 프로토콜을 설계하여 이를 데이터 수송을 위한 매개체로 이용하였다. 자동차 네트워크에 적용하기위해 일체형 게이트웨이와 소형 독립형 게이트웨이 두 가지 타입이 개발되었다. 일체형 게이트웨이는 이더넷포트, 영상 및 음성 포트를 가지고 있는 반면 소형 독립형 게이트웨이는 영상, 음성, 블루투스 그리고 Flexray용으로 각각 개발 되었다. 소형 독립형 게이트웨이를 이용한 네트워크 시스템 실험을 통해 개발된 게이트웨이가 서로 다른 프로토콜간의 데이터 송수신이 효율적으로 수행될 수 있음을 보여주었고 자동차 네트워크 통합용으로도 활용이 가능함을 보여주었다.

3D 캐릭터에서의 자동 립싱크 MAYA 플러그인 개발 (Development of Automatic Lip-sync MAYA Plug-in for 3D Characters)

  • 이상우;신성욱;정성택
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.127-134
    • /
    • 2018
  • 본 논문에서는 한국어를 기반으로 음성 데이터와 텍스트 정보에서 한국어 음소를 추출하고 분할된 음소들을 사용하여 정확하고 자연스러운 3D 립싱크 애니메이션을 제작하기 위한 오토 립싱크 Maya 플러그인을 개발하였다. 여기서 개발된 시스템에서는 음소 분할은 Microsoft Speech API 엔진 SAPI에서 제공하는 49개의 음소를 참조하여 한글에 사용되는 음소들을 모음 8개, 자음 13개로 분류하였다. 또한 모음과 자음의 발음들은 다양한 입모양을 가지지만 일부 동일한 입모양에 대하여 같은 Viseme을 적용할 수 있도록 구현하였다. 이를 바탕으로 파이썬(Python) 기반의 오토 립싱크 Maya 플러그인을 개발하여 립싱크 애니메이션이 한 번에 자동으로 구현할 수 있게 하였다.