• 제목/요약/키워드: 연속음성인식

검색결과 259건 처리시간 0.021초

한국어 연속음성중 키워드 인식을 위한 반연속 은닉 마코브 모델과 One-Pass 알고리즘의 개선방안 (Improvement of Semicontinuous Hiden Markov Models and One-Pass Algorithm for Recognition of Keywords in Korean Continuous Speech)

  • 최관선
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.358-363
    • /
    • 1994
  • This paper presents the improvement of the SCHMM using discrete VQ and One-Pass algorithm for keywords recognition in Korean continuous speech. The SCHMM using discrete VQ is a simple model that is composed of a variable mixture gaussian probability density function with dynamic mixture number. One-Pass algorithm is improved such that recognition rates are enhanced by fathoming any undesirable semisyllable with the low likelihood and the high duration penalty, and computation time is reduced by testing only the frame which is dissimilar to the previously testd frame. In recognition experiments for speaker-dependent case, the improved One-Pass algorithm has shown recognition rates as high as 99.7% and has reduced compution time by about 30% compared with the currently abailable one-pass algorithm.

  • PDF

음성인식 기반 인터렉티브 미디어아트의 연구 - 소리-시각 인터렉티브 설치미술 "Water Music" 을 중심으로-

  • 이명학;강성일;김봉화;김규정
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.354-359
    • /
    • 2008
  • 소리-시각 인터랙티브 설치미술인 "Water Music" 은 관객의 음성에 따라서 변하는 물결의 파동을 표현한다. 음정인식 기반 인터페이스 기술을 이용하여 벽면에 비디오 프로젝션 된 시각적 물결이미지로 나타난다. 물결이미지는 동양화의 붓으로 그린 물결과 작은 원형의 입자들을 생성하여 표현된 영상으로 구성된다. 관객은 입김을 불어 넣거나 소리를 냄으로써 화면에서 연속적으로 생성되는 컴퓨터 프로그램 기반 물결의 움직임과 상호 반응할 수 있다. 이러한 공생적인 소리 시각 환경은 관객에게 생각으로 그리고 신체적으로 환영적 공간을 경험하도록 한다. 본 설치작업에서 관객과 상호 반응 할 수 있는 움직이는 물결을 생성하기 위하여 적용된 주요 프로그램은 Visual C++ and DirectX SDK이며, 풀 프레임 3D 렌더링 기술과 파티클 시스템이 사용되었다.

  • PDF

병렬 결합된 혼합 모델 기반의 특징 보상 기술 (Feature Compensation Method Based on Parallel Combined Mixture Model)

  • 김우일;이흥규;권오일;고한석
    • 한국음향학회지
    • /
    • 제22권7호
    • /
    • pp.603-611
    • /
    • 2003
  • 본 논문에서는 잡음 환경에서 보다 강인한 성능을 얻기 위하여 음성 모델 기반의 효과적인 특징 보상 기법을 제안한다. 일반적인 모델 기반의 특징 보상 기법은 오열 음성 데이터베이스를 이용한 훈련 과정을 필요로 하므로 온라인 상에서의 적응 과정에 적합하지 않다. 제안한 방법에서는 보정 인자 추정 과정에서 병렬 모델 결합 기법을 도입함으로써 훈련 과정을 필요하지 않게 하였다. 모델의 결합 과정이 HMM 전체가 아닌 가우시안 혼합 (Mixture) 모델에만 적용이 되므로, 계산이 비교적 간단하게 되어 온라인 상에서의 모델 결합을 가능하게 하였다. 병렬적 모델 결합의 도입은 잡음 모델의 독립적인 이용을 가능하게 하였고, 본 논문에서는 MAP (Maximum A Posteriori) 적응을 통해 잡음 모델 갱신을 실시하였다 또한 잡음 오열 과정에 대한 근사화를 통해 연속적 형태의 채널 정규화 기법을 유도하여 적용하였다. 보다 효율적인 구현을 위하여 선택적인 모델 결합 방식을 도입함으로써 연산량을 줄일 수 있는 방법을 제시하였다. 제안한 특징 보상 기법이 부가적인 배경 잡음과 채널 왜곡이 존재하는 잡음 환경에서 음성 인식 시스템의 성능을 향상시키는데 효과적임을 실험을 통해 확인할 수 있었다.

음소에 따른 화자특성을 이용한 화자적응방법에 관한 연구 (The Study on the Speaker Adaptation Using Speaker Characteristics of Phoneme)

  • 채나영;황영수
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2003년도 하계학술대회 논문집
    • /
    • pp.6-9
    • /
    • 2003
  • 본 연구는 화자 적응 시스템을 구축하기 위한 전과정으로서, 음성 인식 단위로, 음소를 이용할 경우 화자 적응 변화에 대한 연구이다. 음소 변화에 따른 가중치를 적응시켜 화자 적응을 하기 위하여, 본 연구에서는 인식 시스템으로 반연속 HMM, 화자 적응 방법으로는 최대사후확률추정법과 음성선형특성을, 인식 대상 단어로 10개의 격리 숫자음을 사용하였다. 상기의 화자 적응 방법들은 교사 없는 학습이 가능한 것으로서, 온라인 시스템에서 사용이 가능하다. 이 두 방법을 수행한 결과 두 번째 방법보다 첫 번째 방법의 결과가 더 나은 인식률을 보였으며, 두 방법 모두 결합하여 인식 실험을 한 결과가 각각의 화자 적응 방법을 독립적으로 수행한 결과보다 좋은 결과를 얻을 수 있었다. 또한 가중치에 따른 화자 적응 결과 음소에 따른 변동 가중치를 사용할 경우가 고정된 가중치를 이용한 것보다 우수한 결과를 보였다.

  • PDF

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용 (Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity)

  • 이정원;임일
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.267-286
    • /
    • 2023
  • 인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

EEG기반 언어 인식 시스템을 위한 국제음성기호를 이용한 모음 특징 추출 연구 (EEG based Vowel Feature Extraction for Speech Recognition System using International Phonetic Alphabet)

  • 이태주;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제24권1호
    • /
    • pp.90-95
    • /
    • 2014
  • 인간과 기계를 연결하는 새로운 인터페이스인 Brain-computer interface (BCI)를 이용해 휠체어를 제어하거나 단어를 입력하는 등, 사용자를 위한 다양한 장치를 개발하는 연구들이 진행되어 왔다. 특히 최근에는 뇌파를 이용한 음성인식을 구현하고 이를 통해 무음통신 등에 적용하려는 시도들이 있었다. 본 논문에서는 이러한 연구의 일환으로 electroencephalogram (EEG) 기반의 언어 인식 시스템을 개발하기 위한 기초 단계로서, 국제음성기호에 기반을 둔 모음들의 특징을 추출하는 방법에 대한 연구를 진행하였다. 실험은 건장한 세 명의 남성 피험자를 대상으로 진행되었으며, 한 개의 모음을 제시하는 첫 번째 실험 과정과 두 개의 연속된 모음을 제시하는 두 번째 실험 과정으로 두 단계에 나누어서 실험이 진행되었다. 습득된 64개의 채널중 선택적으로 32개의 채널만을 사용해 특징을 추출하였으며, 사고 활동과 관련된 전두엽과 언어활동에 관련된 측두엽을 기준으로 영역을 선택하였다. 알고리즘 적용을 위해서 특징으로는 신호의 고유 값을 사용하였고, support vector machine (SVM)을 이용하여 분류를 수행하였다. 실험 결과, 첫 번째 단계의 실험을 통해서, 언어의 뇌파를 분석하기 위해서는 10차원 이상의 특징 벡터를 사용해야 됨을 알게 되었고, 11차원의 특징 벡터를 사용할 경우, 평균분류율은 최고 95.63 %로 /a/와 /o/를 분류할 때 나타났고, 가장 낮은 분류율을 보이는 모음은 /a/와 /u/로 86.85 %였다. 두 번째 단계의 실험에서는 두 개 이상의 모음을 발음하는 것이 단일 모음 발음과 어떤 차이가 있는지 확인해 보았다.

HMM을 이용한 연속 음성 인식의 화자적응화에 관한 연구 (A Study on the Speaker Adaptation of a Continuous Speech Recognition using HMM)

  • 김상범;이영재;고시영;허강인
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.5-11
    • /
    • 1996
  • 본 연구에서는 음절 단위의 HMM을 이용하여 발성한 문장에 대해 화자 적응화 할 수 있는 방법을 제안하였다. 문장에 대한 음절 단위의 추출은 음절HMM의 연결과 viterbi세그멘테이션으로 자동화하였고, 화자 적응화는 소량의 문장과 문장의 추가에서도 시켄셜적으로 적응화할 수 있는 MAPE(최대 사후 확률 추정)를 이용한 학습으로 수행하였다. 신문 사설에서 취한 문장에 대하여 화자 적응화한 경우의 인식을 71.8%로 적응화 전의 결과보다 37% 향상되었다.

  • PDF

HMM기반 자동음소분할기의 음소분할 오류 유형 분석 (The Error Pattern Analysis of the HMM-Based Automatic Phoneme Segmentation)

  • 김민제;이정철;김종진
    • 한국음향학회지
    • /
    • 제25권5호
    • /
    • pp.213-221
    • /
    • 2006
  • 합성음의 음질을 향상시키기 위하여 분할된 corpora로부터 합성유닛을 선택하여 사용하는 연속음성합성에서 정확한 음소분할은 매우 중요하다. 일반적으로 음소분할은 사람에 의해 수행되지만 많은 작업량으로 인한 시간적 지연, 일관 성 유지 어려움 등 많은 문제가 발생한다. 이에 따라 음성인식에서 도입된 HMM 기반의 자동음소분할이 음성인식, 음성 합성에서 널리 사용되어지고 있지만 음성전문가의 수작업 결과와 비교할 때 HMM 기반 자동음소분할은 오류가 있고, 이는 합성음 품질의 열화의 주요 원인이 되고 있다. 본 논문에서는 HMM 기반의 자동음소분할기를 사용하여 나타난 자동음소분할 결과와 수작업에 의한 음소분할 결과를 비교하고 유형별로 분석함으로써 음성합성의 성능향상을 위해 개선해야 할 문제점들을 제시한다. 실험에서는 ETRI의 표준형 한국어 공통 음성 DB을 사용하였고, 오차의 범위가 20ms를 벗어난 경우를 분절 오류로 간주하였다. 실험 결과 여성화자의 경우 파열음 + 모음, 파찰음 + 모음, 모음 + 유음 음소쌍에서는 각각 약 99%, 99.5%, 99%의 높은 정확률을 보인 반면, 폐쇄음 + 비음, 폐쇄음 + 유음, 비음 + 유음 음소쌍에서는 44.89%, 50%, 55% 의 낮은 정확률을 보였으며, 남성화자에 대한 실험결과에서도 유사한 경향을 보였다.

실시간 주소 음성인식을 위한 인식 시스템의 인식속도 개선 (Improvement of Recognition Speed for Real-time Address Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.74-77
    • /
    • 1999
  • 본 논문에서는 본 연구실에서 개발한 주소 음성인식 시스템의 인식 속도를 개선시키기 위하예 새로운 가변 프루닝 문턱치를 적용하는 방법을 제안하고 실험을 통하여 그 유효성을 확인하였다. 기존의 가변 프루닝 문턱치는 일정 프레임이 경과하면 일정 값을 가진 문턱치를 계속하여 감소시켜나가는 방법을 반복하기 때문에, 불필요한 탐색공간을 탐색하게 된다. 본 논문에서 새로이 제안하는 가변 프루닝 문턱치를 채용하는 방법은 처음 일정 구간이 경과되면 일정 문턱치를 감소시키나, 다음 일정 프레임에서는 탐색되어야할 후보에 따라서 문턱치를 변화시켜 프루닝시키기 때문에 탐색공간을 효과적으로 감소시킬 수 있다. 제안된 방법의 유효성을 확인하기 위하여, 본 연구실에서 개발한 한국어 주소 입력 시스템에 적용하였다. 이 시스템은 48개의 연속 HMM 유사음소단위(Phoneme Like Units; PLUs)를 인식의 기본단위로 하고, .사용환경 변화에 의한 인식성능의 저하를 최소화하기 위해 최대사후 확률추정법(Maximum A Posteriori Probability Estimation; MAP)을 사용하며, 인식알고리즘으로는OPDP(One Pass Dynamic Programming)법을 이용하고 있다. 남성화자 3인에 의한 75개의 연결주소명을 이용하여 인식 실험을 수행한 결과 고정 프루닝 문턱치를 적용한 경우 인식률은 평균 $96.0\%$, 인식 시간은 5.26초였고, 기존의 가변 프루닝 문턱치의 경우 인식률은 평균 $96.0\%$, 인식 시간은 5.1초인 데 비하여, 새로운 가변 프루닝 문턱치를 적용찬 경우에는 인식률 저하없이 인식 시간이 4.34초로, 기존에 비해 각각 0.92초, 0.76초 인식 시간이 감소되어 제안한 방법의 유효성을 확인할 수 있었다.는 달리 각 산란 영역에서 그 지수는 1씩 작은 값을 갖는다.향에 따라 음장변화가 크게 다를 것이 예상되므로 이를 규명하기 위해서는 궁극적으로 3차원적인 음장분포 연구가 필요하다. 음향센서를 해저면에 매설할 경우 수충의 수온변화와 센서 주변의 수온변화 사이에는 어느 정도의 시간지연이 존재하게 되므로 이에 대한 영향을 규명하는 것도 센서의 성능예측을 위해서 필요하리라 사료된다.가지는 심부 가스의 개발 성공률을 증가시키기 위하여 심부 가스가 존재하는 지역의 지질학적 부존 환경 및 조성상의 특성과 생산시 소요되는 생산비용을 심도에 따라 분석하고 생산에 수반되는 기술적 문제점들을 정리하였으며 마지막으로 향후 요구되는 연구 분야들을 제시하였다. 또한 참고로 현재 심부 가스의 경우 미국이 연구 개발 측면에서 가장 활발한 활동을 전개하고 있으며 그 결과 다수의 신뢰성 있는 자료들을 확보하고 있으므로 본 논문은 USGS와 Gas Research Institute(GRI)에서 제시한 자료에 근거하였다.ऀĀ耀Ā삱?⨀؀Ā Ā?⨀ጀĀ耀Ā?돀ꢘ?⨀硩?⨀ႎ?⨀?⨀넆돐쁖잖⨀쁖잖⨀/ࠐ?⨀焆덐瀆倆Āⶇ퍟ⶇ퍟ĀĀĀĀ磀鲕좗?⨀肤?⨀⁅Ⴅ?⨀쀃잖⨀䣙熸ጁ↏?⨀

  • PDF

이산 웨이브렛 변환영역에서의 스펙트럼 차감법을 이용한 잡음제거 (Noise Reduction using Spectral Subtraction in the Discrete Wavelet Transform Domain)

  • 김현기;이상운;홍재근
    • 한국멀티미디어학회논문지
    • /
    • 제4권4호
    • /
    • pp.306-315
    • /
    • 2001
  • 잡음환경에서의 음성인식을 위하여 음성에 부가된 잡음을 제거하는 방법에 있어, 기존의 스펙트럼 차감법은 잡음과 음성을 정확히 구별하기 힘들고 정확한 잡음의 특성을 추정할 수 없는 단점이 있다. 또한 웨이브렛 변환영역에서의 잡음제거 방법은 임계값 적용시 저주파 영역보다는 고주파영역에 상대적으로 더 큰 영향을 미쳐 고주파영역에서 신호의 손실이 발생하는 단점이 있다. 본 논문에서는 스펙트럼 차감법 및 웨이브렛 변환을 이용한 잡음제거 방법의 단점을 개선하기 위하여 연속 웨이브렛 변환 영역에서 웨이브렛 계수의 스케일별 표준편차로 묵음구간과 음성 구간을 판별하여 끝점을 검출 후, 잡음이 섞인 음성신호를 이산 웨이브렛 변화에 의해 3개의 대역으로 분리하여 각각의 대역 내에서 스펙트럼 차감법을 적용시키는 방법을 제안한다. 끝점을 검출하고 대역을 나눔으로써 스펙트럼 차감을 적응할 잡음 신호의 특성을 정확히 추출할 수 있다. 실험을 통하여 제안한 방법이 기존의 스펙트럼 차감법 및 웨이브렛 변환을 이용한 잡음제거 방법보다 신호대 잡음비 및 Itakura-Saito거리 측면에서 향상됨을 확인할 수 있었다.

  • PDF