• 제목/요약/키워드: 강인한 음성 인식

검색결과 197건 처리시간 0.02초

신경망을 이용한 음소분할에 관한 연구 (A Study on the Phoneme Segmentation Using Neural Network)

  • 이광석;이광진;조신영;허강인;김명기
    • 한국통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.472-481
    • /
    • 1992
  • 본 연구에서는 신경망으로 음성신호를 음소분할 할 수 있는 알고리즘을 제시하고 시뮬레이션을 통해 타당성을 검토하였다. 제안된 신경망은 1개의 은닉층을 가지는 다층 인식자로 구성하였다. 실험결고 연속보음과 6개 지명음을 자료로 하여 종속화자인 경우 100% 독립화자인 경우 99.4% 그리고 6개 지명음을 동시에 학습하여 각 지명음에 대해 음소분할한 결과는 94.5%의 정합율을 얻었다.

  • PDF

GMM을 이용한 프레임 단위 분류에 의한 우리말 음성의 분할과 인식 (Korean Speech Segmentation and Recognition by Frame Classification via GMM)

  • 권호민;한학용;고시영;허강인
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2003년도 하계학술대회 논문집
    • /
    • pp.18-21
    • /
    • 2003
  • In general it has been considered to be the difficult problem that we divide continuous speech into short interval with having identical phoneme quality. In this paper we used Gaussian Mixture Model (GMM) related to probability density to divide speech into phonemes, an initial, medial, and final sound. From them we peformed continuous speech recognition. Decision boundary of phonemes is determined by algorithm with maximum frequency in a short interval. Recognition process is performed by Continuous Hidden Markov Model(CHMM), and we compared it with another phoneme divided by eye-measurement. For the experiments result we confirmed that the method we presented is relatively superior in auto-segmentation in korean speech.

  • PDF

가변어휘 단어 인식에서의 미등록어 거절 알고리즘 성능 비교 (Performance Comparison of Out-Of-Vocabulary Word Rejection Algorithms in Variable Vocabulary Word Recognition)

  • 김기태;문광식;김회린;이영직;정재호
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.27-34
    • /
    • 2001
  • 발화 검증이란 등록된 단어 목록 이외의 단어가 입력되었을 때, 미등록된 단어는 인식할 수 없는 단어임을 알려주는 기능으로써 사용자에게 친숙한 음성 인식 시스템을 설계하는데 중요한 기술이다. 본 논문에서는 가변어휘 단어 인식기에서 최소 검증 오류를 나타낼 수 있는 발화 검증 시스템의 알고리즘을 제안한다. 우선, 한국전자통신연구원의 PBW(Phonetically Balanced Words) 445DB를 이용하여 가변어휘 단어 인식에서의 미등록어 거절 성능을 향상시키는 효과적인 발화 검증 방법을 제안하였다. 구체적으로 특별한 훈련 과정이 없이도 유사 음소 집합을 많이 포함시킨 반음소 모델을 제안하여 최소 검증 오류를 지니도록 하였다. 또한, 음소 단위의 null hypothesis와 alternate hypothesis의 비를 이용한 음소 단위의 신뢰도는 null hypothesis로 정규화해서 강인한 발화 검증 성능을 보여 주었으며, 음소 단위의 신뢰도를 이용한 단어 단위의 신뢰도는 등록어와 미등록어 사이의 분별력을 잘 표현해 주었다. 이와 같이 새로이 제안된 반음소 모델과 발화 검증 방법을 사용했을 때, CA (Correctly Accept for Keyword: 등록어를 제대로 인정한 경우)는 약 89%, CR (Correctly Reject for OOV (Out-of-Vocabulary): 미등록어에 대해 거절한 경우)은 약 90%로써, 기존 필터 모델을 이용한 방법보다 미등록어 거절 성능이 ERR (Error Reduction Rate) 측면에서 약 15-21% 향상됨을 알 수 있었다.

  • PDF

회귀신경망 예측 HMM을 이용한 숫자음 인식에 관한 연구 (A Study on the Recognition of Korean Numerals Using Recurrent Neural Predictive HMM)

  • 김수훈;고시영;허강인
    • 한국음향학회지
    • /
    • 제20권8호
    • /
    • pp.12-18
    • /
    • 2001
  • 본문에서는 예측형 회귀신경망과 HMM (Hidden Markov Model)의 하이브리드 네트워크인 회귀신경망 예측 HMM을 구성하였다. 회귀신경망 예측 HMM은 예측형 회귀신경망을 HMM의 각 상태마다 예측기로 정의하여 일정치인 평균벡터 대신에 과거의 특징벡터의 영향을 받아 동적으로 변화하는 신경 망에 의한 예측치를 이용하므로 학습패턴 설정자체가 시변성을 반영하는 동적 네트워크의 특성을 가진다. 따라서 음성과 같은 시계열 패턴의 인식에 유리하다. 회귀신경망 예측 HMM은 예측형 회귀신경망의 구조에 따라 Elman망 예측 HMM과 Jordan망 예측 HMM으로 구분하였다. 실험에서는 회귀신경망 예측 HMM의 상태수를 4, 5, 6으로 증가시켜 각 상태 수별로 예측차수 및 중간층 유니트 수의 변화에 따른 인식성능을 조사하였다. 실험결과 평가용 데이터에 대하여 Elman망 예측 HMM은 상태수가 6이고, 예측차수가 3차, 중간층 유니트의 수가 15차원일 때, Jordan망 예측 HMM의 경우 상태수가 5이고, 예측차수가 3차, 중간층 유니트의 수가 10차원일 때 각각 98.5%로 우수한 결과를 얻었다.

  • PDF

화자 겹침을 고려한 화자 전환 검출 시스템 제안 (Proposal of speaker change detection system considering speaker overlap)

  • 박지수;윤영선;차신;박전규
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.466-472
    • /
    • 2021
  • 화자 전환 검출은 대화 중에 발성 화자가 다른 사람으로 바뀌는 시점을 검출하는 것을 의미한다. 이 과정에서 화자 중복, 화자 정보 표기의 부정확성, 데이터 불균형 등으로 화자가 바뀌는 순간을 검출하는 데 어려움이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 음성 인식에 널리 사용되는 TIMIT 데이터를 가공하여 충분한 양의 훈련 데이터를 얻었으며, 화자가 겹치는지를 파악한 후에 화자 전환 여부를 판단하였다. 본 논문에서는 화자 겹침을 고려한 화자 전환 검출 시스템을 구축하기 위하여 다양한 접근법을 사용하여 성능을 평가하고 검증했다. 그 결과 화자 겹칩 영역을 제거하기 위해 X-Vector 구조와 유사한 형태의 검출 시스템과 화자 전환 검출 시스템을 모델링하기 위한 Bi-LSTM 모델을 제안하였다. 실험 결과 기준 시스템보다 상대적으로 각각 4.6 %, 13.8 % 성능 향상을 확인하였다. 또한, 실험 결과를 기반으로 텍스트 정보와 화자 정보 등을 고려한다면 좀 더 강인한 화자 전환 검출 시스템을 구축할 수 있을 것으로 판단한다.

중간 주파수 영역에서의 디지털 워터마킹 기법에 의한 홍채 및 지문 데이터 보호 연구 (A Study on Protection of Iris and fingerprint Data Based on Digital Watermarking in Mid-Frequency Band)

  • 정대식;박강령
    • 한국멀티미디어학회논문지
    • /
    • 제8권9호
    • /
    • pp.1227-1238
    • /
    • 2005
  • 최근 인터넷과 네트워크 기술의 발달로 디지털 콘텐츠(이미지, 음성, 동영상 등)의 불법적인 복제나 유통으로 인한 저작권 문제가 크게 대두되고 있다. 이런 저작권의 보호를 위해 콘텐츠 내에 저작권자의 정보를 삽입하여 저작물의 저작권을 보호하는 기술인 디지털 워터마킹 기술은 현재 널리 연구되고 있다. 이러한 디지털 워터마킹 기술을 생체 정보(지문, 홍채)에 적용하여, 저장되어 있던 생체 정보의 도난이나 도용 시에 발생 할 수 있는 문제를 방지하는 것이 본 연구의 목적이다. 이를 위해 본 논문에서는 주파수 영역에서의 워터마크 삽입 방법을 사용하였으며, 워터마크 삽입 전후의 인식률 차이를 비교 분석하였고, 일반적으로 생체 데이터에 대해 많이 가해지는 공격인 흐림 공격에 대한 워터마크의 강인성을 측정하였다. 실험결과 본 논문에서 제안하는 워터마킹 기법이 홍채 및 지문 영상에 대해 효과적으로 사용될 수 있음을 알 수 있었다.

  • PDF

자세인식을 위한 정확한 깊이정보에서의 3차원 다중 객체검출 및 추적 (3D Multiple Objects Detection and Tracking on Accurate Depth Information for Pose Recognition)

  • 이재원;정지훈;홍성훈
    • 한국멀티미디어학회논문지
    • /
    • 제15권8호
    • /
    • pp.963-976
    • /
    • 2012
  • '제스처'는 음성을 제외한 가장 직관적인 인간의 의사표현 수단이다. 그에 따라 제스처를 이용하여 컴퓨터를 제어하는 방법에 대한 많은 연구가 진행되고 있다. 이러한 연구에서 사용자를 검출하고 추적하는 방법은 매우 중요한 과정 중의 하나이다. 기존의 2차원 객체 검출 및 추출 방법은 조명이나 주변 환경의 변화에 민감하고, 2차원과 3차원 정보의 혼합사용 방법은 연산량이 많다는 단점이 있다. 또한 3차원 정보를 이용한 기존 방법들은 유사한 깊이의 객체 분할이 불가능하다. 따라서 본 논문에서는 깊이 정보의 누적 값인 Depth Projection Map (DPM)과 움직임 정보를 이용하여 객체를 검출하고 추적하는 방법을 제안한다. 실험 결과 제안 방법은 조명이나 환경변화에 강인하고, 연산속도가 빠르며, 유사한 깊이의 물체도 잘 검출하고 추적할 수 있음을 확인하였다.