• 제목/요약/키워드: 화자확인 시스템

검색결과 122건 처리시간 0.02초

이산분포 HMM을 이용한 음성인식에서의 코드워드 Tying 알고리즘 (A Codeword Tying Algorithm in Speech Recognition based on Discrete Hidden Markov Model)

  • 김도영;김남수;은종관
    • 한국음향학회지
    • /
    • 제13권3호
    • /
    • pp.63-70
    • /
    • 1994
  • 본 논문에서는 수형구조 분류기를 이 용한 코드워드 tying 알고리즘을 제안한다. 코드워드와 상태간의 통계적 특성을 이용한 일종의 soft decision 방식이라고도 볼 수 있는 제안된 알고리즘은 빠른 트리 구성과 유일한 최적의 해를 제공하는 특징이 있다. 또한, 이산분포 hidden Markov model(HMM)을 이용한 인식 시스템에 쉽게 적용이 가능하다는 장점을 가진다. 제안된 알고리즘의 성능 평가를 위한 화자독립 격리단어 인식실험에서 코드북 크기가 256과 512일 경우에 대해 각각 $6\%$, $9\%$의 오차를 감소시켰으며, HMM 파라미터도 $20\%$ 정도 줄임을 확인하였다.

  • PDF

실시간 주소 음성인식을 위한 인식 시스템의 인식속도 개선 (Improvement of Recognition Speed for Real-time Address Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.74-77
    • /
    • 1999
  • 본 논문에서는 본 연구실에서 개발한 주소 음성인식 시스템의 인식 속도를 개선시키기 위하예 새로운 가변 프루닝 문턱치를 적용하는 방법을 제안하고 실험을 통하여 그 유효성을 확인하였다. 기존의 가변 프루닝 문턱치는 일정 프레임이 경과하면 일정 값을 가진 문턱치를 계속하여 감소시켜나가는 방법을 반복하기 때문에, 불필요한 탐색공간을 탐색하게 된다. 본 논문에서 새로이 제안하는 가변 프루닝 문턱치를 채용하는 방법은 처음 일정 구간이 경과되면 일정 문턱치를 감소시키나, 다음 일정 프레임에서는 탐색되어야할 후보에 따라서 문턱치를 변화시켜 프루닝시키기 때문에 탐색공간을 효과적으로 감소시킬 수 있다. 제안된 방법의 유효성을 확인하기 위하여, 본 연구실에서 개발한 한국어 주소 입력 시스템에 적용하였다. 이 시스템은 48개의 연속 HMM 유사음소단위(Phoneme Like Units; PLUs)를 인식의 기본단위로 하고, .사용환경 변화에 의한 인식성능의 저하를 최소화하기 위해 최대사후 확률추정법(Maximum A Posteriori Probability Estimation; MAP)을 사용하며, 인식알고리즘으로는OPDP(One Pass Dynamic Programming)법을 이용하고 있다. 남성화자 3인에 의한 75개의 연결주소명을 이용하여 인식 실험을 수행한 결과 고정 프루닝 문턱치를 적용한 경우 인식률은 평균 $96.0\%$, 인식 시간은 5.26초였고, 기존의 가변 프루닝 문턱치의 경우 인식률은 평균 $96.0\%$, 인식 시간은 5.1초인 데 비하여, 새로운 가변 프루닝 문턱치를 적용찬 경우에는 인식률 저하없이 인식 시간이 4.34초로, 기존에 비해 각각 0.92초, 0.76초 인식 시간이 감소되어 제안한 방법의 유효성을 확인할 수 있었다.는 달리 각 산란 영역에서 그 지수는 1씩 작은 값을 갖는다.향에 따라 음장변화가 크게 다를 것이 예상되므로 이를 규명하기 위해서는 궁극적으로 3차원적인 음장분포 연구가 필요하다. 음향센서를 해저면에 매설할 경우 수충의 수온변화와 센서 주변의 수온변화 사이에는 어느 정도의 시간지연이 존재하게 되므로 이에 대한 영향을 규명하는 것도 센서의 성능예측을 위해서 필요하리라 사료된다.가지는 심부 가스의 개발 성공률을 증가시키기 위하여 심부 가스가 존재하는 지역의 지질학적 부존 환경 및 조성상의 특성과 생산시 소요되는 생산비용을 심도에 따라 분석하고 생산에 수반되는 기술적 문제점들을 정리하였으며 마지막으로 향후 요구되는 연구 분야들을 제시하였다. 또한 참고로 현재 심부 가스의 경우 미국이 연구 개발 측면에서 가장 활발한 활동을 전개하고 있으며 그 결과 다수의 신뢰성 있는 자료들을 확보하고 있으므로 본 논문은 USGS와 Gas Research Institute(GRI)에서 제시한 자료에 근거하였다.ऀĀ耀Ā삱?⨀؀Ā Ā?⨀ጀĀ耀Ā?돀ꢘ?⨀硩?⨀ႎ?⨀?⨀넆돐쁖잖⨀쁖잖⨀/ࠐ?⨀焆덐瀆倆Āⶇ퍟ⶇ퍟ĀĀĀĀ磀鲕좗?⨀肤?⨀⁅Ⴅ?⨀쀃잖⨀䣙熸ጁ↏?⨀

  • PDF

양서류 울음 소리 식별을 위한 특징 벡터 및 인식 알고리즘 성능 분석 (Performance assessments of feature vectors and classification algorithms for amphibian sound classification)

  • 박상욱;고경득;고한석
    • 한국음향학회지
    • /
    • 제36권6호
    • /
    • pp.401-406
    • /
    • 2017
  • 본 논문에서는 양서류 울음소리를 통한 종 인식 시스템 개발을 위해, 음향 신호 분석에서 활용되는 주요 알고리즘의 인식 성능을 평가했다. 먼저, 멸종위기 종을 포함하여 총 9 종의 양서류를 선정하여, 각 종별 울음소리를 야생에서 녹음하여 실험 데이터를 구축했다. 성능평가를 위해, MFCC(Mel Frequency Cepstral Coefficient), RCGCC(Robust Compressive Gammachirp filterbank Cepstral Coefficient), SPCC(Subspace Projection Cepstral Coefficient)의 세 특징벡터와 GMM(Gaussian Mixture Model), SVM(Support Vector Machine), DBN-DNN(Deep Belief Network - Deep Neural Network)의 세 인식기가 고려됐다. 추가적으로, 화자 인식에 널리 사용되는 i-vector를 이용한 인식 실험도 수행했다. 인식 실험 결과, SPCC-SVM의 경우 98.81 %로 가장 높은 인식률을 확인 할 수 있었으며, 다른 알고리즘에서도 90 %에 가까운 인식률을 확인했다.

음향반향제거기에서 동시통화 검출 성능 개선을 위한 보조필터 적용 (Applying an Auxiliary Filter in the Adaptive Echo Canceller for Performance Improvement of Double-Talk Detection)

  • 김시호;배건성
    • 대한전자공학회논문지SP
    • /
    • 제42권1호
    • /
    • pp.65-70
    • /
    • 2005
  • 본 논문에서는 음향반향제거기에서 상관계수를 이용하여 동시통화 구간을 검출할 때 발생하는 검출 오류에 대하여 다룬다. 상관계수(correlation coefficient)를 이용한 동시통화 검출 알고리즘에서 동시통가와 반향경로의 변화를 명확하게 구분 지울 수 있는 문턱값 설정이 어렵기 때문에 때때로 검출 오류가 발생한다. 반향경로의 변화를 동시통화로 잘못 판단하면 적응필터의 탭 갱신이 멈추어져 더 이상 수렴할 수 없는 상황에 빠지기도 하고, 동시통화 중에 반향경로가 변하는 경우에는 동시통화 구간의 끝점 검출에 실패하기도 한다. 이러한 문제점을 해결하기 위하여 본 논문께서는 반향제거기에 보조필터를 적용하여 동시통화와 반향경로의 변화를 구분할 수 있는 시스템을 제안한다. 이는 기준입력신호 (reference signal)로부터 반향신호는 추정할 수 있지만 근단화자 신호는 추정할 수 없다는 점을 이용한다. 실험을 통해 제안한 시스템 및 알고리즘이 동시통화 검출 오류와 이로 인해 발생하는 문제점을 효율적으로 해결할 수 있음을 확인하였다.

음성인식에서 특이 특징벡터의 제거에 대한 연구 (A Study on the Removal of Unusual Feature Vectors in Speech Recognition)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제8권4호
    • /
    • pp.561-567
    • /
    • 2013
  • 음성 인식을 위해 추출되는 특징벡터 중 일부는 드물게 나타나는 특이 패턴이다. 이들은 음성인식 시스템의 훈련에서 파라미터의 과도맞춤을 일으키며, 그 결과 새로운 입력 패턴의 인식을 저해하는 구조적 위험을 초래한다. 본 논문에서는 이러한 특이 패턴을 제거하는 하나의 방법으로서, 어느 크기 이상의 벡터를 제외시켜 음성인식 시스템의 훈련을 수행하는 방법에 대해 연구한다. 본 연구의 목적은 인식률을 저해시키지 않는 한도에서 가장 많은 특이 특징벡터를 제외시키는 것이다. 이를 위하여 우리는 하나의 절단 파라미터를 도입하고, 그 값의 변화가 FVQ(Fuzzy Vector Quantization)/HMM(Hidden Markov Model)을 사용한 화자독립 음성 인식에 미치는 영향을 조사하였다. 실험 결과, 인식률을 저하시키지 않는 특이 특징벡터의 수가 3%~6% 정도임을 확인하였다.

몰입적 정보 표현과 전달을 위한 증강 프레젠테이션 디자인 및 시스템 구현 (Augmented Presentation Framework Design and System Implementation for Immersive Information Visualization and Delivery)

  • 김민주;원광연
    • 한국HCI학회논문지
    • /
    • 제12권1호
    • /
    • pp.5-13
    • /
    • 2017
  • 발표자의 적극적인 역할과 개입은 정보시각화를 효과적으로 표현하고 전달하는 핵심 요인임에도 불구하고, 정보 시각화 연구에서 적극적으로 다루어지지 못했다. 단순히 시각화 결과만 보여주는 것이 아니라, 발표자가 시각화와 관련된 부가적인 정보 및 맥락을 함께 제공함으로써 시각화 전달 과정을 증진시킬 수 있다. 본 논문에서는 발표자가 3차원 시각화 공간에 직접 개입하여 자신을 둘러싼 공간에 표현된 정보와 직접적으로 상호작용 하면서, 정보 표현 및 전달 과정을 적극적으로 증진시킬 수 있는 방식을 제시하고 이를 증강 프레젠테이션 (augmented presentation)이라는 프레임워크로 정의한다. 증강 프레젠테이션의 특성을 구체화하기 위해서 발표자가 개입할 수 있는 시각화 공간을 디자인하고, 발표자로 하여금 관찰자와 정보 간의 의사소통 과정을 충분히 지원할 수 있도록 발표자의 역할을 화자(storyteller), 제어자(controller), 정보증강자(augmenter)로 정의했으며, 그들의 역할 가능성을 제안하였다. 또한, 증강 프레젠테이션 특성을 실제로 구현할 수 있는 프로토타입 시스템을 제작하였다. 하프미러 필름 (half-mirror film)과 일반 프로젝션 스크린을 일정 간격을 띄운 후 평행하게 위치시키고, 각 스크린에 입체 영상을 적용한 후, 발표자가 스크린 사이에 표현된 3차원 시각화 공간 내에 직접 개입하여 정보와 상호작용할 수 있는 형태이다. 이후, 초기 단계에서 몰입적 정보 표현과 정보 전달 플랫폼으로서 증강 프레젠테이션의 가능성을 확인하기 위해서 기존의 프레젠테이션 시스템과 증강 프레젠테이션 시스템을 비교하는 예비 실험 (pilot test)을 진행하였다. 그 결과, 본 연구에서 제시한 증강 프레젠테이션은 실제 3차원 공간에서 가상의 정보와 실제 발표자를 자연스럽게 통합시켜 표현함으로써 몰입적이고 관찰자의 주의를 사로잡는 프레젠테이션을 실현할 수 있는 가능성이 충분히 있음을 확인했다.

음성인식의 고속화를 위한 프레임 단위 적응 프루닝 알고리즘 (A Frame Unit Based Adaptive Pruning Algorithm for the East Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.183-186
    • /
    • 2000
  • 본 논문에서는 인식이 진행되는 동안 탐색 공간을 효과적으로 줄임으로써 음성인식의 고속화를 달성할 수 있는 새로운 프레임 단위 적응 프루닝 알고리즘을 제안하고 실험을 통하여 그 유효성을 확인하였다. 이것은 앞 프레임과 뒤 프레임 사이의 최대확률은 높은 상관성을 가지므로 프루닝 문턱치를 앞 프레임의 최대 확률로부터 효과적으로 구할 수 있다는 사실에 근거를 두고있다. 이 방법에서는 앞 프레임의 최대 우도 확률과 후보 확률들의 조합으로 현재 프레임의 프루닝 문턱치를 갱신함으로써 현재 프레임의 문턱치를 인식 과정 중에 얻을 수 있기 때문에, 인식 태스크가 바뀌어도 문턱치를 구하기 위한 사전 실험을 수행할 필요가 없게 된다. 또한, 프레임 단위로 적응적으로 얻어진 문턱치는 다른 환경 하에서도 인식 속도의 향상을 가져올 수 있게 된다. 제안된 알고리즘의 유효성을 확인하여 위하여 한국어 주소 인식 시스템에 적용하였다. 본 시스템은 48개의 유사음소단위(PLUs)를 인식의 기본단위로 하고, 적응알고리즘으로는 최대사후확률추정법((MAP: Maximum A Posteriori Probability Estimation)을, 인식 알고리즘으로는 OPDP(One Pass Dynamic Programming)법을 이용하였다 남성화자 3인이 25개의 연결 주소명을 대상으로 인식 실험을 수행한 결과, 제안된 프레임단위 적응프루닝 문턱치를 적용한 경우를 기존의 고정 프루닝 문턱치와 가변 프루닝 문턱치를 적용한 경우와 비교하였을 때 인식률의 변화 없이 탐색공간이 상대적으로 각각 $14.4\%$9.14\%가 감소되어 제안된 프레임 단위 적응 프루닝 알고리즘의 유효성을 확인할 수 있었다. 시,공간적 분포 특성이 구체적으로 규명되면 보다 정확한 음장변화 추정이 이뤄져야 할 것으로 보인다. 또한 내부파와 음파의 상대적인 진행 방향에 따라 음장변화가 크게 다를 것이 예상되므로 이를 규명하기 위해서는 궁극적으로 3차원적인 음장분포 연구가 필요하다. 음향센서를 해저면에 매설할 경우 수충의 수온변화와 센서 주변의 수온변화 사이에는 어느 정도의 시간지연이 존재하게 되므로 이에 대한 영향을 규명하는 것도 센서의 성능예측을 위해서 필요하리라 사료된다.가지는 심부 가스의 개발 성공률을 증가시키기 위하여 심부 가스가 존재하는 지역의 지질학적 부존 환경 및 조성상의 특성과 생산시 소요되는 생산비용을 심도에 따라 분석하고 생산에 수반되는 기술적 문제점들을 정리하였으며 마지막으로 향후 요구되는 연구 분야들을 제시하였다. 또한 참고로 현재 심부 가스의 경우 미국이 연구 개발 측면에서 가장 활발한 활동을 전개하고 있으며 그 결과 다수의 신뢰성 있는 자료들을 확보하고 있으므로 본 논문은 USGS와 Gas Research Institute(GRI)에서 제시한 자료에 근거하였다.ऀĀ耀Ā삱?⨀؀Ā Ā?⨀ጀĀ耀Ā?돀ꢘ?⨀硩?⨀ႎ?⨀?⨀넆돐쁖잖⨀쁖잖⨀/ࠐ?⨀焆덐瀆倆Āⶇ퍟ⶇ퍟ĀĀĀĀ磀鲕좗?⨀肤?⨀⁅Ⴅ?⨀쀃잖⨀䣙熸ጁ↏?⨀

  • PDF

SOFM 신경회로망을 이용한 한국어 음소 인식 (Korean Phoneme Recognition Using Self-Organizing Feature Map)

  • 전용구;양진우;김순협
    • 한국음향학회지
    • /
    • 제14권2호
    • /
    • pp.101-112
    • /
    • 1995
  • 본 논문에서는 패턴 매칭 방법에 근거하여 인식 단위가 음소인 음소 기반 인식 시스템을 구성하였다. 선택한 신경망 구조는 생물학적 신경망인 코호넨(T. Kohonen)의 SOFM(Self-Organizing Feature Map)으로 패턴 매칭 과정 중 클러스터러(clusterer)로 사용하였다. SOFM 신경망은 신호 공간에 대해서 최적의 국소(局所) 해부적 사상(local topographical mapping)에 의한 자기 조직화 과정을 수행하며, 그 결과 인식 문제에 있어서 상당히 높은 정확도를 나타낸다. 따라서 SOFM 신경망은 음소 인식에도 효과적으로 응용될 수 있다. 또한 음소 인식 시스템의 성능 향상을 위해 K-means클러스터링 알고리즘이 결합된 학습 알고리즘을 제안하였다. 제안된 음소 인식 시스템의 성능을 평가하기 위해 먼저, 인식 대상음소는 모음군 17개, 자음의 경우 파열음9개, 마찰음 3개, 파찰음 3개, 유음 및 비음 4개, 음소의 성질이 다른 종성 7개의 음소군으로 모두 43개의 음소를 대상으로 실험하였으며, 각 음소군에 대한 특징 지도를 구성하여 레이블러(labeler)의 기능을 수행하게 하였다. 화자 종속 인식 실험 결과 $87.2\%$의 인식률을 보였으며 제안한 학습법의 빠른 수렴성과 인식률 향상을 확인하였다.

  • PDF

자동차 환경에서 TDOA를 이용한 화자위치추정 방법 (On the speaker's position estimation using TDOA algorithm in vehicle environments)

  • 이상헌;최홍섭
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권2호
    • /
    • pp.71-79
    • /
    • 2016
  • 본 논문에서는 차량 내부 환경에서 음성인식 성능을 향상시켜 안정적인 차량 제어를 위한 방법으로 사용하는 음원 위치추정방법의 성능 비교와 개선 방법을 제안하였다. 일반적으로 음원 위치추정에는 TDOA알고리즘을 사용하는데 여기에는 시간영역에서 상호상관함수를 이용하는 방법과, 주파수 영역에서 계산하는 GCC-PHAT 방법이 있다. 이중 GCC-PHAT 방법은 상호상관함수보다 반향과 잡음에 강한 특성을 보인다고 알려져 있다. 본 연구에서는 반향과 잡음이 많은 차량 환경에서 위 두 방법의 성능을 비교하고 추가로 미디언 필터 사용을 제안하여 음원위치 추정 성능과 시스템의 안정성을 나타내는 지표로 사용하는 분산값이 모두 향상됨을 확인하였다. 실험결과에서 음성을 사용한 실험에서는 두 방법의 성능 차이가 거의 없지만, 노래신호를 사용한 음원위치 추정에서는 GCC-PHAT 방법이 상호상관함수에 비해 인식률이 10% 우수함을 확인하였다. 또한 미디언 필터를 추가한 경우에는 상호상관함수 방법의 인식률을 최고 11%까지 향상시킬 수 있었고 분산값에서도 두 방법 모두 안정적인 성능을 보여주었다.

검색 언어가 웹 정보검색행위에 미치는 영향에 관한 연구 - 웹 정보검색행위의 양상 차이를 중심으로 - (A Study on the Effects of Search Language on Web Searching Behavior: Focused on the Differences of Web Searching Pattern)

  • 변제연
    • 한국문헌정보학회지
    • /
    • 제52권3호
    • /
    • pp.289-334
    • /
    • 2018
  • 웹상에서 영어 이외의 언어들로 이루어진 정보가 빠르게 증가하고 있지만, 여전히 영어 정보가 가장 큰 비중을 차지함에 따라 공통어(lingua franca)로서의 지배적인 영향을 미치고 있다. 따라서 영어가 비모어인 이용자들이 보다 다양하고 풍부한 정보를 획득할 수 있도록 하기 위해서는 비영어권 화자의 모어 정보검색행위와 영어 정보검색행위에 대한 조사를 통해 주요 특징 및 차이점을 살펴볼 필요가 있다. 본 연구에서는 국내 한 사립대학의 대학생 24명을 대상으로 동시적 사고구술 기법을 적용한 정보검색 실험을 실시해 한글 정보검색행위 및 영어 정보검색행위와 인지과정을 조사하였다. 관찰데이터 및 사고구술데이터의 정성적 데이터를 기반으로, 검색 언어에 따른 웹 정보검색행위의 양상 차이에 대한 빈도분석을 실시하였다. 연구 결과, 한글 검색에서 능동적이고 적극적이며 독립적인 특성의 양상이, 영어 검색에서 수동적이고 소극적이며 의존적인 특성의 양상이 나타났다. 한글 검색에서는 이용자, 태스크, 시스템 등 다양한 출처에서 용어를 추출 조합한 검색어 구성, 여러 수준에서의 검색범위 조정, 검색엔진 검색결과페이지 내 탐색대상 아이템의 선택과 관련한 원활한 필터링, 다수 아이템의 탐색 및 비교, 웹 페이지의 전체 내용 브라우징 등이 주요 특징으로 확인되었다. 반면, 영어 검색에서는 주로 태스크 추출 용어 중심 검색어 구성, 제한된 검색범위 선호, 카테고리나 링크 등 아이템과 아이템 간 관련성에 의존한 탐색 대상 아이템 선택, 동일 아이템의 반복적 탐색, 웹 페이지의 일부 내용 브라우징, 그리고 사전 및 번역기와 같은 언어지원도구의 빈번한 사용 등이 두드러진 특징으로 파악되었다.