• 제목/요약/키워드: 음성 생성

검색결과 695건 처리시간 0.023초

시변 잡음에 강인한 음성 인식을 위한 PCA 기반의 Variational 모델 생성 기법 (PCA-based Variational Model Composition Method for Roust Speech Recognition with Time-Varying Background Noise)

  • 김우일
    • 한국정보통신학회논문지
    • /
    • 제17권12호
    • /
    • pp.2793-2799
    • /
    • 2013
  • 본 논문에서는 시간에 따라 변하는 잡음 환경에 강인한 음성 인식을 위해 효과적인 특징 보상 기법을 제안한다. 제안하는 기법에서는 기존의 Variational 모델 생성 기법의 모델 정확도를 향상시키고자 PCA를 도입한다. 제안된 기법은 다중 모델을 사용하는 PCGMM 기반의 특징 보상에 적용된다. 실험 결과는 제안한 PCA 기반의 Variational 모델 생성 기법이 배경 음악 환경의 다양한 SNR 조건에서 기존의 전처리 기법에 비하여 음성 인식 성능을 향상 시키는데 우수함을 입증한다. 제안한 모델 생성 기법이 기존의 Variational 모델 생성 방법에 비해 배경 음악 환경에서 평균 12.14%의 상대적 인식 성능 향상률을 나타낸다.

가변 운율 모델링을 이용한 고음질 감정 음성합성기 구현에 관한 연구 (A Study on Implementation of Emotional Speech Synthesis System using Variable Prosody Model)

  • 민소연;나덕수
    • 한국산학기술학회논문지
    • /
    • 제14권8호
    • /
    • pp.3992-3998
    • /
    • 2013
  • 본 논문은 고음질의 대용량 코퍼스 기반 음성 합성기에 감정 음성 코퍼스를 추가하여 보다 다양한 합성음을 생성할 수 있는 방법에 관한 것이다. 파형 접합형 합성기에서 사용할 수 있는 형태로 감정 음성 코퍼스를 구축하여 기존의 일반 음성 코퍼스와 동일한 합성단위 선택과정을 통해 합성음을 생성할 수 있도록 구현하였다. 감정 음성 합성을 위해 태그를 사용하여 텍스트를 입력하고, 억양구 단위로 일치하는 데이터가 존재하는 경우 감정 음성으로 합성하고, 그렇지 않은 경우 일반 음성으로 합성하도록 하였다. 그리고 음성에서 운율을 구성하는 요소로 휴지기(break)가 있는데, 감정 음성의 휴지기는 일반 음성보다 불규칙한 특성이 있다. 따라서 합성기에서 생성되는 휴지기 정보를 감정 음성 합성에 그대로 사용하는 것이 어려워진다. 이 문제를 해결하기 위해 가변 휴지기(Variable break)[3] 모델링을 적용하였다. 실험은 일본어 합성기를 사용하였고, 그 결과 일반 음성의 휴지기 예측 모듈을 그대로 사용하면서 자연스러운 감정 합성음을 얻을 수 있었다.

운율어를 이용한 한국어 위치 정보 데이터의 다중 발음 사전 생성 (Multiple Pronunciation Dictionary Generation For Korean Point-of-Interest Data Using Prosodic Words)

  • 김선희;전재훈;나민수;정민화
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.183-188
    • /
    • 2006
  • 본 논문에서 위치 정보 데이터란 텔레메틱스 분야의 응용을 위하여 웹상에서 수집한 Point-of-Interest (POI) 데이터로서 행정구역 및 지명 인명, 상호명과 같은 위치 검색에 사용되는 어휘로 구성된다. 본 논문은 음성 인식 시스템을 구성하는 발음 사전의 개발에 관한 것으로 250k 위치 정보데이터로부터 운율어를 이용하여 불규칙 발음과 발음 변이를 포함하는 가능한 모든 발음을 생성하는 방법을 제안하는 것을 목적으로 한다. 원래 모든 POI 는 한 번씩만 데이터에 포함되어 있으므로, 그 가운데 불규칙 발음을 포함하는 POI를 검출하거나 발음을 생성하기 위해서는 각각의 POI 하나하나를 일일이 검토하는 방법밖에 없는데, 대부분의 POI 가 복합명사구로 이루어졌다는 점에 착안하여 운율어를 이용한 결과, 불규칙 발음 검출과 다중 발음 생성을 효율적으로 수행할 수 있었다. 이러한 연구는 음성처리 영역에서는 위치정보데이터의 음성인식 성능을 향상하는 데 직접적인 기여를 할 수 있고, 무엇보다도 음성학과 음운론 이론을 음성 인식 분야에 접목한 학제적 연구로서 그 의미가 있다고 할 수 있다.

  • PDF

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제35권3호
    • /
    • pp.271-291
    • /
    • 2004
  • 전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.

  • PDF

HMM에 의한 한국어음성의 자동분할 시스템의 구현에 관한 연구 (A Study on the Implementation of an Automatic Segmentation System of Korean Speech based on the Hidden Markov Model)

  • 김윤중;김미경;이인동
    • 정보기술응용연구
    • /
    • 제1권3_4호
    • /
    • pp.1-23
    • /
    • 1999
  • 본 연구에서는 HMM(Hidden Markov Model) 및 Levelbuilding 알고리즘을 이용하여 인식대상 음소열의 표본 집합(훈련패턴 집합)을 입력으로 하는 음성의 자동 분할 시스템을 구현하였다. 본 시스템은 자연스럽게 발음되어진 연결음 음성으로부터 표준 음소모델을 생성한다. 본 시스템의 구성은 초기화 과정, HMM학습과정 그리고 Levelbuilding을 이용한 분리 및 CLustering 과정으로 구성되어 있다. 초기화 과정에서는 제어 정보를 이용하여 훈련패턴 집합으로부터 초기 음소 집합 군을 생성한다. Levelbuilding을 이용한 분리 및 Clustering 단계에서는 음소 모델과 제어 정보를 이용하여 훈련패턴들을 음소 단위로 분리하고, 분리된 후보 음소들을 Clustering하여 음소집합 군을 생성한다. 음소모델의 구성에 변화가 없을 때까지 이 작업을 반복 수행하여 최적의 음소모델을 생성한다. 본 연구에서는 3개 이하의 숫자단어로 구성된 연결되어 음성 패턴을 대상으로 실험하였다. 연결단어에 대한 음소의 표준모델 생성과정에서 가장 중요한 처리인 훈련패턴의 자동분할 과정을 분석하기 위하여 각 반복과정에서 분리된 정보를 그래프로 도시화하여 확인하였다.

  • PDF

음성인식 후처리를 위한 음가-표기 변환표 생성에 관한 연구 (A Study on Phonetic Value - Transcription Look-Up Table Generation for Postprocessing of Voice Recognition)

  • 김경징;최영규;이상범
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권5호
    • /
    • pp.585-594
    • /
    • 2002
  • 본 논문에서는 음성인식의 후처리를 위한 음가-표기 변환표의 생성과 구현에 관한 연구를 수행하였다. 음절 단위 음가를 인식하는 음성인식 시스템을 위한 후처리를 위하여 인식된 음가로 발음되는 표기 집합을 생성하는 표기 집합 생성기를 설계 구현하였다. 표준 발음법을 페트리넷으로 모델링하여 생성된 표기-음가 변환표를 기반으로 음가표기 변환표를 생성하였다. 음가-표기 변환표가 올바른 표기 집합을 생성함을 보이기 위하여 표기 집합 생성기를 설계 구현하고, 표준 발음법 예제와 발음법 사전에서 무작위로 추출된 단어에 대하여 실험한 결과 발성 이전의 표기가 포함된 올바른 표기 집합이 생성됨을 입증하였다.

  • PDF

음성정보처리기술 응용서비스

  • 구명완;김재인
    • 정보처리학회지
    • /
    • 제11권2호
    • /
    • pp.17-24
    • /
    • 2004
  • 음성정보처리 기술은 사람의 말을 음향, 언어, 심리학 및 공학적인 측면에서 연구하여 사람과 기계사이의 인터페이스를 자연스럽게 하는 것을 목표로 하고 있으며, 음성인식, 음성합성 및 언어처리 기술로 이루어져 있다. 음성인식기술이란 사람의 말을 이해하는 것뿐만 아니라 화자를 식별하고 인증하는 기술도 포함하고 있으며, 음성합성 기술이란 문자로부터 음성을 생성하는 기술을 의미한다. 그리고 언어처리 기술은 음성인식, 음성합성기술 속에 포함될 수 있으나 최근 마크업 언어를 활용하여 음성인식, 합성 등을 제어하는 경향이 도래함에 따라 언어처리 기술을 따로 분류하기도 한다[1][2].(중략)

  • PDF

한국어 음성 합성을 위한 음가 변환 테이블 생성 (Formation of A Phonetic-Value Look-up Table for Korean Voice Synthesis)

  • 이계영;임재걸;이태경
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 춘계학술발표논문집
    • /
    • pp.181-184
    • /
    • 2001
  • 문법적으로 정확한 한국어 음성을 합성하려면 표준어 규정의 '표준 발음법'을 준용해야 한다. 따라서 한국어 음가 합성 시스템에 사용되는 한글을 음성으로 변환하여 주는 규칙은 '표준 발음법'을 완전하게 반영하며 또한 무결해야 한다. 기존의 연구에서는 표준 발음법을 검증없이 적용하여 왔고, 표준 발음법자체에 모순이 있는가의 여부에 대해서도 체계적인 분석을 위한 시도가 전무하였다. 본 논문에서는 한국어 음가 생성의 기본 규칙으로 준용할 표준 발음법을 페트리넷으로 모델링하여 표준 발음법의 일관성을 검증하였다. 그리고, 음운 변동 현상을 설러 단계로 나누어 차례로 적용한다든지, 변동된 단어에 대하여 처음부터 다시 변환 작업을 재수행하는 기존의 음가 생성 방법의 문제점을 해결하기 위하여 한번의 테이블 탐색으로 모든 음운 변동이 완료되는 한국어 음성 합성을 위한 음가 변란 테이블을 구현하였다.

  • PDF

확률 발음사전을 이용한 대어휘 연속음성인식 (Large Vocabulary Continuous Speech Recognition using Stochastic Pronunciatioin Lexicon Modeling)

  • 윤성진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.315-319
    • /
    • 1998
  • 대어휘 연속음성인식을 위한 확률 발음사전 모델에 대해서 제안하였다. 제안된 확률 발음 사전은 연속음성과 같은 자연스런 발성에서 자주 발생되는 단어의 변이를 확률적인 subword-state로 이루어진 HMM으로 모델화 함으로써 단어의 발음 변이를 효과적으로 표현할 수 있으며, 단위 인식 시스템의 성능을 보다 높일 수 있도록 구성되었다. 확률 발음사전의 생성은 음성 자료와 음소 모델을 이용하여 단어 단위의 분할과 학습을 통해서 자동으로 생성되게 됨 음소와 같은 언어학적인 단위뿐만 아니라 PLU 이나 비언어학적인 인식 모델을 이용한 연속음성인식기에도 적용이 가능하다.연속음성인식실험결과 확률 발음사전을 사용함으로써 표준 발음 표기를 사용하는 인식 시스템에 비해 단어 오류율은 39.8%, 문장 오류율은 24.4%의 큰 폭으로 오류율을 감소시킬 수 있었다.

  • PDF