• 제목/요약/키워드: 훈련 음향 생성

검색결과 26건 처리시간 0.025초

Levelbuilding 알고리즘을 이용한 참조패턴의 자동생성 알고리즘에 관한 연구 (A Study On the Automatic Generation Algorithm of Reference Pattern Using Levelbuilding Algorithm.)

  • 김윤중
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.79-82
    • /
    • 1998
  • 본 연구에서는 연결단어 음성인식 상에서 올바른 참조 패턴을 생성하기 위해 Levelbuilding 알고리즘을 이용하여 인식대상 단어의 표본 집합(훈련패턴 집합)으로부터 참조 패턴을 자동적으로 생성하는 알고리즘을 개발하였다. 본 연구는 분한 K-Mans 훈련방법에 기초하고 있으며, Levelbuilding 알고리즘을 이용하여 훈련패턴으로부터 참조 패턴을 생성하는 것이다. 먼저 초기화 과정에서 훈련 패턴을 그에 포함된 단어 수만큼 등간격 분리하여 분리된 단어들을 소속 Cluster로 분류하고 각 Cluster의 Center들로 초기 참조패턴을 구성한다. 그리고 참조패턴, 제어정보 및 Levelbuilding 알고리즘을 이용하여 각 훈련패턴을 분리하고, 분리된 단어들을 소속 Cluster로 분류하여 단어 Cluster집합을 구성한 후 DTW 및 minimax알고리즘을 이용해 각 Cluster의 Center를 구하여 참조 패턴을 생성한다. 참조패턴 구성에 변화가 없을 때까지 전 단계의 참조패턴과 본 알고리즘을 반복 수행하여 최적의 참조패턴을 생성한다. 본 알고리즘을 이용하여 3개 숫자의 연결단어 집합으로부터 영('0')에서 구('9')까지 숫자음에 대한 참조패턴을 자동 생성하였다. 참조패턴 생성과정에서 가정 중요한 처리인 훈련패턴 분리과정을 분석하기 위하여 각 반복과정에서 분리된 정보를 그래프로 도시화하여 확인하였다.

  • PDF

음소인식기와 음소결합확률모델을 이용한 언어식별시스템 (Language Identification System using phoneme recognizer and phonotactic language model)

  • 이대성;김세현;오영환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.73-76
    • /
    • 2001
  • 본 논문에서는 음소인식기와 음소결합확률모델을 이용하여 전화음성을 대상으로 입력음성이 어느 나라 말 인지를 식별할 수 있는 언어식별시스템을 구현하였고 성능을 실험하였다. 시스템은 음소인식기로 입력음성에 대한 음소열을 인식하는 과정, 인식된 음소열을 이용하여 인식대상 언어별 음소결합확률모델을 생성하는 훈련과정, 훈련과정에서 생성된 음소결합확률모델로부터 확률 값을 계산하여 인식결과를 출력하는 식별과정으로 구성된다. 본 논문에서는 음소결합확률모델로부터 우도를 계산할 때 정보이론(Information Theory, Shannon and Weaver, 1949)을 이용하여 가중치를 적용하는 방법을 제안하였다. 시스템의 훈련 및 실험에는 OGI 11개국어 전화음성 corpus (OGI-TS)를 사용하였으며, 음소인식기는 HTK를 이용하여 구현하였고 음소인식기 훈련에는 NTIMIT 전화음성 DB를 이용하였다. 실험결과 11개국어를 대상으로 45초 길이의 음성에 대해서 평균 $74.1\%$, 10초 길이의 음성에 대해서는 평균 $57.1\%$의 인식률을 얻을 수 있었다.

  • PDF

HRTF를 이용한 2채널 스테레오 음원을 수정 및 편집 할 수 있는 입체음향 저작도구 개발 (Development of Stereo Sound Authoring Tool to Modify and Edit 2Channel Stereo Sound Source Using HRTF)

  • 김영식;김용일;배명수;전수민;이대호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.909-912
    • /
    • 2017
  • 컴퓨터를 이용한 가상훈련체계를 구현하는데 있어, 청각적인 요소는 시각적인 요소 다음으로 인간의 중요한 인지 능력을 담당한다. 특히 청각 능력의 향상은 훈련 시의 성과와 밀접한 관련을 가지고 있으며, 훈련 효과 향상에 기여하는 바가 높다. 본 논문에서는 이와 같은 가상훈련체계를 구축하는데 있어 반드시 필요한 음향시스템을 기존에 단순한 재생이 아닌 사용자 혹은 개발자가 필요로 하는 음원을 직접 저작할 수 있는가에 초점을 두었으며, 머리전달함수(HRTF: Head Related Transfer Function)를 이용한 음원을 수정 및 편집하고 사용할 수 있는 시험체계를 개발하였다. 체계 성능 평가를 위하여 기능 및 청감 테스트를 실시하였다.

유전자 알고리듬을 이용한 DTW 참조패턴 생성에 관한 연구 (A Study on DTW Reference Pattern Creation Using Genetic Algorithm)

  • 서광석
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.385-388
    • /
    • 1998
  • DTW를 이용한 음성인식에서는 참조패턴이 인식률에 절대적인 영향을 미치므로 가장 적합한 참조패턴의 생성이 중요한 요인으로 작용한다. 그러므로 인식률 향상을 위해 여러개의 참조패턴을 사용하는 방법이 있다. 그러나 이러한 방법은 게산량의 과다 및 사용 메모리의 증가 등이 단점으로 지적되고 있다. 따라서 본 논문에서는 참조패턴의 수를 줄이면서 높은 인식률을 얻기 위해 유전자 알고리듬을 이용하여 보다 우수한 참조패턴을 생성하여 음성인식에 적용하였다. 본 논문에서는 참조패턴 생성을 위하여 훈련에 참가한 자료를 서로 비교하여 DTW 거리값의 누적값이 최소가 되는 데이터를 선정하는 방법, 유전자 알고리듬을 이용한 방법으로 선정하는 방법으로 나누어 실험을 했고, 그 결과 누적값의 최소값을 이용하였을 경우 98.33%의 인식률을 얻을 수 있었던 반면에 유전자 알고리듬을 사용하였을 경우 100%의 화자종속 인식률을 얻을 수 있었다.

  • PDF

가상현실 음향을 위한 심층신경망 기반 사운드 보간 기법 (A Sound Interpolation Method Based on Deep Neural Networks for Virtual Reality Sound)

  • 최재규;최승호
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.194-196
    • /
    • 2018
  • 본 논문은 가상현실 음향 구현을 위한 심층신경망 기반 사운드 보간 방법에 관한 것으로서, 이를 통해 두 지점에서 취득한 음향 신호들을 사용하여 두 지점 사이의 음향을 생성한다. 산술평균이나 기하평균 같은 통계적 방법으로 사운드 보간을 수행할 수 있지만 이는 실제 비선형 음향 특성을 반영하기에 미흡하다. 이러한 문제를 해결하기 위해서 본 연구에서는 두 지점들과 목표 지점의 음향신호를 기반으로 심층신경망을 훈련하여 사운드 보간을 시도하였으며, 실험결과 통계적 방법에 비해 심층신경망 기반 사운드 보간 방법의 성능이 우수함을 보였다.

  • PDF

MAP 확률을 이용한 끊어 읽기 강도 예측 (Break Strength Prediction Using Maximum a Posterior Probability)

  • 김상훈;박준;이영직
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.75-78
    • /
    • 2000
  • 본 논문은 자연스러운 합성음 생성을 위한 끊어 읽기 강도 예측에 관한 것으로, 문장에 대한 품사열이 주어졌을 때 Posteriori 확률을 최대화하는 끊어 읽기 강도를 비터비 디코딩으로 예측한다. 훈련용 데이터는 여성화자 1인이 발성한 2,100 문장이며, 음성 데이터로부터 휴지길이(pause)에 따라 끊어 읽기 강도를 2단계로 할당하고, 텍스트에서는 30개의 품사 태그 심볼을 이용하여 형태소분석 및 태깅을 수행하였다. 관측확률은 3개 연속하는 품사열이 발생할 확률로 하고 끊어 읽기 강도 천이확률은 bigram으로 했을 때, cross validation 방법으로 성능 평가를 수행하였다 평가결과, 훈련데이타에 대해서는 $89.7\%$, 테스트 데이터에 대해서는 $84.9\%$의 예측정확률을 보였다.

  • PDF

Missing-Feature 복구를 위한 대역 독립 방식의 베이시안 분류기 기반 마스크 예측 기법 (Mask Estimation Based on Band-Independent Bayesian Classifler for Missing-Feature Reconstruction)

  • 김우일;;고한석
    • 한국음향학회지
    • /
    • 제25권2호
    • /
    • pp.78-87
    • /
    • 2006
  • 본 논문에서는 알려지지 않은 잡음 환경에서 강인한 음성 인식 성능을 위하여 missing-feature복구 기법을 다루며, 베이시안 분류기를 기반으로 하는 마스크 예측 기법의 성능을 향상시킬 수 있는 방법을 제안한다. 기존의 마스크 예측 기법에서는 배경 잡음 종류에 독립적인 성능을 위해 전 주파수 대역을 분할하여 발생시킨 유색 잡음을 마스크 예측기의 훈련에 이용하였으나, 제한된 양의 훈련 데이터베이스 조건에서는 성능의 한계가 불가피하다. 보다 다양한 잡음 스펙트럼을 반영하면서 마스크 예측의 성능을 향상시키기 위해, 서로 다른 주파수 대역에 독립적인 구조를 가지는 베이시안 분류기를 제안하며, 훈련에 사용하는 유색 잡음의 생성 방식을 이에 맞게 수정한다. 각각의 주파수 대역을 분할하여 유색 잡음을 생성함으로써 다양한 잡음 환경을 반영하는 동시에 훈련 데이터베이스 부족 문제를 줄일 수 있다. 제안하는 마스크 예측 기법을 클러스터 기반의 missing-feature 복구 기법과 결합하여 음성 인식기에 적용함으로써 성능을 평가한다. 실험 결과는 제안한 기법이 백색 잡음, 자동차잡음, 배경 음악환경에서 기존의 방법에 비해 향상된 성능을 가짐을 입증한다.

가상현실 음향을 위한 심층신경망 기반 사운드 보간 기법 (A Sound Interpolation Method Using Deep Neural Network for Virtual Reality Sound)

  • 최재규;최승호
    • 방송공학회논문지
    • /
    • 제24권2호
    • /
    • pp.227-233
    • /
    • 2019
  • 본 논문은 가상현실 음향 구현을 위한 심층신경망 기반 사운드 보간 방법에 관한 것으로서, 이를 통해 두 지점에서 취득한 음향 신호들을 사용하여 두 지점 사이의 음향을 생성한다. 산술평균이나 기하평균 같은 통계적 방법으로 사운드 보간을 수행할 수 있지만 이는 실제 비선형 음향 특성을 반영하기에 미흡하다. 이러한 문제를 해결하기 위해서 본 연구에서는 두 지점과 목표 지점의 음향신호를 기반으로 심층신경망을 훈련하여 사운드 보간을 시도하였으며, 실험결과 통계적 방법에 비해 심층신경망 기반 사운드 보간 방법의 성능이 우수함을 보였다.

K-SVD 기반 사전 훈련과 비음수 행렬 분해 기법을 이용한 중첩음향이벤트 검출 (Overlapping Sound Event Detection Using NMF with K-SVD Based Dictionary Learning)

  • 최현식;금민석;고한석
    • 한국음향학회지
    • /
    • 제34권3호
    • /
    • pp.234-239
    • /
    • 2015
  • 비음수 행렬 분해(Nonnegative Matrix Factorization, NMF) 기법은 사전행렬과 크기성분을 번갈아 가며 업데이트 하면서 구하는 방법이며 직관적 해석 및 구현의 용이성으로 인해 중첩음향이벤트 분리 및 검출방법으로 널리 활용되었다. 하지만 비음수 행렬 분해의 고유한 특성인 부분기반표현(part-based representation)으로 인해 하나의 음향 이벤트를 구성 하는 사전(dictionary)의 파편화 현상이 발생하고, 다른 음향이벤트와 중복되는 사전이 생성되어 결과적으로 분리, 검출 성능의 저하 문제가 발생한다. 본 논문에서는 사전 획득 단계의 부분기반표현에 의한 문제를 해소하기 위해 K-Singular Value Decomposition(K-SVD)을 사용하여 사전을 획득하고, 음향이벤트 검출 단계 에서는 기존 비음수 행렬 분해 기법을 이용하여 크기를 획득 한다. 제안하는 방식을 통해 비음수 행렬 분해 기반의 사전을 사용하는 경우보다 중첩음향이벤트 검출 성능이 개선되는 것을 확인하였다.

어텐션 기반 엔드투엔드 음성인식 시각화 분석 (Visual analysis of attention-based end-to-end speech recognition)

  • 임성민;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제11권1호
    • /
    • pp.41-49
    • /
    • 2019
  • 전통적인 음성인식 모델은 주로 음향 모델과 언어 모델을 사용하여 구현된다. 이때 음향 모델을 학습시키기 위해서는 음성 데이터에 대한 정답 텍스트뿐만 아니라 음성인식에 사용되는 단어의 발음사전과 프레임 단위의 음소 정답 데이터가 필요하다. 이 때문에 모델을 훈련하기 위해서는 먼저 프레임 단위의 정답을 생성하는 등의 여러 과정이 필요하다. 그리고 음향 모델과 별도의 텍스트 데이터로 훈련한 언어 모델을 적용하여야 한다. 이러한 불편함을 해결하기 위하여 최근에는 하나의 통합 신경망 모델로 이루어진 종단간(end-to-end) 음성인식 모델이 연구되고 있다. 이 모델은 훈련에 여러 과정이 필요없고 모델의 구조를 이해하기 쉽다는 장점이 있다. 하지만 인식이 내부적으로 어떤 과정을 거쳐 이루어지는지 알기 어렵다는 문제가 있다. 본 논문에서는 어텐션 기반 종단간 모델을 시각화 분석하여 내부적인 작동 원리를 이해하고자 하였다. 이를 위하여 BLSTM-HMM 하이브리드 음성인식 모델의 음향 모델과 종단간 음성인식 모델의 인코더를 비교하고, 신경망 레이어 별로 어떠한 차이가 있는지 분석하기 위해 t-SNE를 사용하여 시각화하였다. 그 결과로 음향모델과 종단간 모델 인코더의 차이점을 알 수 있었다. 또한 종단간 음성인식 모델의 디코더의 역할을 언어모델 관점에서 분석하고, 종단간 모델 디코더의 개선이 성능 향상을 위해 필수적임을 알 수 있었다.