• 제목/요약/키워드: 강인한 음성 인식

검색결과 197건 처리시간 0.027초

피치변경을 이용한 화자인식 시스템 (The Speaker Recognition System using the Pitch Alteration)

  • 정종순;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.115-118
    • /
    • 2002
  • 화자인식에 사용하는 파라미터는 화자의 특징을 충분히 표현함과 더불어 발성 시마다 변동이 작은 것이 바람직하다. 즉, 파라미터의 화자내의 변이보다 화자간의 변이가 큰 특성을 가져야 화자간의 구분이 용이하다. 또한, 화자간 오류를 최소화하기 위해 화자간 구별이 뚜렷한 특징 파라미터뿐만 아니라 분별력이 뛰어난 인식방법도 필요하다. 최근의 실험결과들을 살펴보면 발성기관에 의한 정적인 특징뿐 아니라, 발성습관에 의한 동적인 특징을 같이 이용함으로써 보다 정확한 인식결과를 얻고 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 다음과 같이 제안한다. 음성의 특징벡터로 운율정보 사용을 제안한다 현재 화자인식 시스템에서 일반적으로 많이 사용되고 있는 특징벡터는 스펙트럼 정보를 모델링하고 있는 것으로 비잡음 환경에서 종은 성능을 보이고 있다. 그러나 잡음 환경변화에 크게 왜곡되며 인식율이 현저하게 저하되는 문제점이 나타난다. 그러므로 본 논문에서는 음성의 동적 변화를 측정할 수 있는 세그먼트로 분할한 피치열을 변경하여 인식의 특징패턴으로 사용한다. 이는 문장의 운율정보를 보여주는 것으로 소음환경에서 강인한 특성을 보였다.

  • PDF

연속 음성 인식 시스템을 위한 향상된 결정 트리 기반 상태 공유 (Improved Decision Tree-Based State Tying In Continuous Speech Recognition System)

  • 김동화;;;김형순;김영호
    • 한국음향학회지
    • /
    • 제18권6호
    • /
    • pp.49-56
    • /
    • 1999
  • 결정 트리 기반 상태 공유 방법은 HMM을 사용하는 많은 연속 음성 인식 시스템에서 강인하고 정확한 문맥 종속 음향 모델링 뿐만 아니라 훈련 중에는 나타나지 않은 모델들의 합성을 위하여 널리 사용되고 있다. 음성 결정 트리를 구성하기 위한 표준적인 방법은 단일 가우시안 트라이폰 모델을 이용한 1계층 프루닝 만을 사용하고 있다. 본 논문에서는 더욱 정교한 음향 모델링을 통하여 인식 성능 향상을 도모하기 위하여 새로운 2가지 접근 방법 즉, 2계층 결정 트리와 복수 혼합 결정 트리를 제안한다. 2계층 결정 트리는 상태 공유와 혼합 가중치 공유를 위하여 2계층 프루닝을 수행하며, 두 번째 계층을 사용하여 공유 상태들도 음성 문맥의 유사도에 따라서 서로 다른 가중치들을 사용할 수 있다. 두 번째 제안된 방법 에서는 훈련 과정 즉, 혼합 분할 및 재추정 과정과 함께 음성 결정 트리가 계속 갱신되어 진다. 복수 혼합 결정 트리를 구성하기 위하여 단일 가우시안 뿐만 아니라 복수 혼합 가우시안 모델이 함께 사용된다. 제안된 방법들을 이용하여 BN-96과 WSJ5k 데이터를 사용한 연속 음성 인식 실험을 수행한 결과, 표준 결정 트리를 사용한 시스템과 비교하여 공유 상태의 개수를 비슷하게 유지하면서 단어 오인식률을 줄일 수 있었다.

  • PDF

HMM을 이용한 연속 음성 인식의 화자적응화에 관한 연구 (A Study on the Speaker Adaptation of a Continuous Speech Recognition using HMM)

  • 김상범;이영재;고시영;허강인
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.5-11
    • /
    • 1996
  • 본 연구에서는 음절 단위의 HMM을 이용하여 발성한 문장에 대해 화자 적응화 할 수 있는 방법을 제안하였다. 문장에 대한 음절 단위의 추출은 음절HMM의 연결과 viterbi세그멘테이션으로 자동화하였고, 화자 적응화는 소량의 문장과 문장의 추가에서도 시켄셜적으로 적응화할 수 있는 MAPE(최대 사후 확률 추정)를 이용한 학습으로 수행하였다. 신문 사설에서 취한 문장에 대하여 화자 적응화한 경우의 인식을 71.8%로 적응화 전의 결과보다 37% 향상되었다.

  • PDF

조음결합을 고려한 4연 숫자음 인식에 관한 연구 (A Study on the Recognition of Korean 4 Connected Digits Considering Co-articulation)

  • 이종진;이광석;허강인;김명기;고시영
    • 한국통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.20-28
    • /
    • 1992
  • 조음결합은 연결단어 음성인식에서 오인식을 발생시키는 주된 요인이다. 본 연구에서는 표준패턴의 접속 부분에서 선행단어의 영향을 받아 후속단어의 선두 부분하는 것을 고려해 조음결합 모델을 적용하여 후속단어에 변형을 주었다. 조음결합 모델은 임계제동형 선형 2차계를 이용하였으며 1단 DP매칭 인식 알고리즘에 이 모델을 조합하여 효과를 조사했다. 그 결과 화자 5명에 의한 4연 숫자음 35어의 인식 실험에서 조음결합 처리에 의한 인식율이 평균 4.7%개선 되었다.

  • PDF

RBFN을 이용한 음소인식에 관한 연구 (A study on the phoneme recognition using radial basis function network)

  • 김주성;김수훈;허강인
    • 한국통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.1026-1035
    • /
    • 1997
  • 본 연구는 RBFN의 일종인 GPFN과 PNN을 이용한 음소인식에 관한 연구이다. RBFN의 구조는 계층형 신경망의 구조와 유사하지만, hidden층에서 활성화함수, 참조벡터 및 학습알고리듬의 선택이 다르다. 특히 PNN은 시그모이드 함수가 지수를 포함한 함수들의 한 분류로 대체된다는 것이며, 학습이 필요없으므로 전체계산 시간이 빠르게 수행된다. 5모음, 12자음을 대상으로 한 음소인식 실험에서 평가데이터, VQ와 LVQ에 의한 코드북 데이터를 사용한 경우에 음성의 통계적 특성을 잘 반영하고 있는 RBFN의 일종인 GPFN과 PNN의 인식결과가 MLP보다 우수하였다.

  • PDF

컬러 입술영상과 주성분분석을 이용한 자동 독순 (Automatic Lipreading Using Color Lip Images and Principal Component Analysis)

  • 이종석;박철훈
    • 정보처리학회논문지B
    • /
    • 제15B권3호
    • /
    • pp.229-236
    • /
    • 2008
  • 본 논문은 화자의 입술 움직임으로부터 음성을 인식하는 자동 독순에서 회색조 영상 대신 컬러 영상을 사용하는 것의 유용성에 대해 고찰한다. 먼저 인간의 독순 실험을 통해 컬러 정보가 인식 성능에 어떠한 영향을 미치는지 확인한다. 다음으로 주성분분석을 이용한 자동 독순에서 회색조 또는 컬러 입술영상을 사용하는 경우에 대해 인식 성능을 비교한다. 다양한 컬러 좌표계에 대한 실험을 통해 컬러 영상의 사용으로 인식율이 향상됨을 보인다. 특히 RGB 좌표계를 사용했을 때 가장 좋은 성능을 얻으며, 회색조의 경우에 비해 잡음이 없는 환경에서는 4.7%, 잡음이 있는 경우 평균 13.0%의 상대적 오인식율 감소를 얻을 수 있음을 확인한다.

전화망에서의 음성인식을 위한 전처리 연구 (Front-End Processing for Speech Recognition in the Telephone Network)

  • 전원석;신원호;양태영;김원구;윤대희
    • 한국음향학회지
    • /
    • 제16권4호
    • /
    • pp.57-63
    • /
    • 1997
  • 본 논문에서는 다양한 전화선 채널에서 수집된 한국통신(KT)의 데이터베이스를 이용하여 인식 시스템의 성능을 향상시키기 위한 효율적인 특징벡터 및 전처리방법을 연구하였다. 먼저 잡음 및 주변 환경 변화에 강인한 갓으로 알려져 있는 특징벡터들을 이용한 인식 성능을 비교하고, 가중 켑스트랄 거리측정 방법을 이용하여 인식시스템의 성능 향상을 검증하였다. 실험 결과, KT의 인식 시스템에서 이용하는 LPC 켑스트럼의 경우에 비하여 PLP(Perceptual Linear Prediction)과 MFCC)Mel Frequency Cepstral Coefficient)등에 대하여 인식률이 향상되었다. 켑스트럼간의 거리측정에 있어서는 RPS(Root Power Sums)와 BPL(Band Pass Lifter)과 같은 가중 켑스트랄 거리측정 함수들이 인식성능 향상에 도움을 주었다. 스펙트럼 차감법(Spectral Subtraction)의 적용은 왜곡에 의한 효과가 커서 인식률이 저하되었지만, RASTA(RelAtive SpecTrAl) 처리방법, CMS(Cepstral Mean Subtraction), SBR(Signal Bias Removal)의 적용시에는 인식 성능 향상을 보였다. 특히, CMS 방법은 간편하면서도 높은 인식 성능 향상을 보였다. 마지막으로, CMS의 실시간 구현을 위한 방법들의 인식 성능을 비교하고, 인식 성능 저하를 막기 위한 개선책을 제시하였다.

  • PDF

주파수 영역에서의 Gaussian Mixture Model 기반의 동시통화 검출 연구 (Frequency Domain Double-Talk Detector Based on Gaussian Mixture Model)

  • 이규호;장준혁
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.401-407
    • /
    • 2009
  • 본 논문에서는 주파수 영역에서의 가우시안 혼합 모델 (Gaussian Mixture Model, GMM) 기반의 새로운 동시통화 검출 (Double-talk Detection, DTD) 알고리즘을 제안한다. 구체적으로 주파수 영역에서의 음향학적 반향억제 (Acoustic Echo Suppression, AES)를 위한 동시 통화 검출 알고리즘을 구성하기 위해 기존의 시간 영역에서의 동시통화 검출에 사용되는 상호 상관계수를 이산 푸리에 변환을 통해 16개 채널의 주파수 영역으로 변환하였다. 이러한 주파수 영역에서의 상호 상관계수를 GMM의 보다 효과적인 구성을 위해 통계적 분류 특성에 근거하여 우수한 7개를 선별하였다. 본 논문은 이러한 특징 벡터로 패턴인식에서 우수한 성능을 보이는 GMM을 구성하였으며 원단화자만 있는 구간, 동시통화 구간, 근단 화자만 있는 구간을 우도 (Likelihood) 비교에 따라 분류함으로써 별도의 원단 화자 신호에 대한 음성 검출기 (Voice Activity Detector, VAD)의 사용 없이 잡음환경과 반향 경로 변화에서 강인한 동시통화 검출 알고리즘을 제안한다. 다양한 실험 결과 제안된 방법은 기존의 상호 상관계수를 고정된 문턱 값과 가부 비교하여 동시 통화 구간을 검출하는 hard decision 방법에 비해 검출 오류 확률 (Detection Error Probability)을 비교한 결과 우수한 성능을 보였다.

Identity-CBAM ResNet 기반 얼굴 감정 식별 모듈 (Face Emotion Recognition using ResNet with Identity-CBAM)

  • 오규태;김인기;김범준;곽정환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.559-561
    • /
    • 2022
  • 인공지능 시대에 들어서면서 개인 맞춤형 환경을 제공하기 위하여 사람의 감정을 인식하고 교감하는 기술이 많이 발전되고 있다. 사람의 감정을 인식하는 방법으로는 얼굴, 음성, 신체 동작, 생체 신호 등이 있지만 이 중 가장 직관적이면서도 쉽게 접할 수 있는 것은 표정이다. 따라서, 본 논문에서는 정확도 높은 얼굴 감정 식별을 위해서 Convolution Block Attention Module(CBAM)의 각 Gate와 Residual Block, Skip Connection을 이용한 Identity- CBAM Module을 제안한다. CBAM의 각 Gate와 Residual Block을 이용하여 각각의 표정에 대한 핵심 특징 정보들을 강조하여 Context 한 모델로 변화시켜주는 효과를 가지게 하였으며 Skip-Connection을 이용하여 기울기 소실 및 폭발에 강인하게 해주는 모듈을 제안한다. AI-HUB의 한국인 감정 인식을 위한 복합 영상 데이터 세트를 이용하여 총 6개의 클래스로 구분하였으며, F1-Score, Accuracy 기준으로 Identity-CBAM 모듈을 적용하였을 때 Vanilla ResNet50, ResNet101 대비 F1-Score 0.4~2.7%, Accuracy 0.18~2.03%의 성능 향상을 달성하였다. 또한, Guided Backpropagation과 Guided GradCam을 통해 시각화하였을 때 중요 특징점들을 더 세밀하게 표현하는 것을 확인하였다. 결과적으로 이미지 내 표정 분류 Task에서 Vanilla ResNet50, ResNet101을 사용하는 것보다 Identity-CBAM Module을 함께 사용하는 것이 더 적합함을 입증하였다.

HMM의 출력확률을 이용한 신경회로망의 성능향상에 관한 연구 (A study on performance improvement of neural network using output probability of HMM)

  • 표창수;김창근;허강인
    • 융합신호처리학회논문지
    • /
    • 제1권1호
    • /
    • pp.1-6
    • /
    • 2000
  • 본 논문은 HMM(Hidden Markov Model)을 이 용하여 인식을 수행할 경우의 오류를 최소화 할 수 있는 후처리 과정으로 신경망을 결합시켜 HMM 단독으로 사용하였을 때 보다 높은 인식률을 얻을 수 있는 HMM과 신경망의 하이브리드 시스템을 제안한다 HMM을 이용하여 학습한 후 학습에 참여하지 않은 데이터를 인식하였을 때 오인식 데이터를 정인식으로 인식하도록 HMM의 출력으로 얻은 각 출력확률을 후처리에 사용될 신경망의 학습용으로 사용하여 신경망을 학습하여 HMM과 신경망을 결합한 하이브리드 시스템을 만든다 이와 같은 HMM과 신경망을 결합한 하이브리드 모델을 사용하여 단독 숫자음에서 실험한 결과 HMM 단독으로 사용하였을 때 보다 MLP에서는 약 $4.5\%$ RBFN에서는 약 $2\%$의 인식률 향상이 있었다. 기존의 하이브리드 시스템이 갖는 많은 학습시간이 소요되는 문제점과 실시간 음성인식시스템을 구현할 패의 학습데이터의 부족으로 인한 인식률 저하를 해결할 수 있는 방법임을 확인할 수 있었다

  • PDF