• 제목/요약/키워드: 음소 추출

검색결과 86건 처리시간 0.021초

3D 캐릭터에서의 자동 립싱크 MAYA 플러그인 개발 (Development of Automatic Lip-sync MAYA Plug-in for 3D Characters)

  • 이상우;신성욱;정성택
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.127-134
    • /
    • 2018
  • 본 논문에서는 한국어를 기반으로 음성 데이터와 텍스트 정보에서 한국어 음소를 추출하고 분할된 음소들을 사용하여 정확하고 자연스러운 3D 립싱크 애니메이션을 제작하기 위한 오토 립싱크 Maya 플러그인을 개발하였다. 여기서 개발된 시스템에서는 음소 분할은 Microsoft Speech API 엔진 SAPI에서 제공하는 49개의 음소를 참조하여 한글에 사용되는 음소들을 모음 8개, 자음 13개로 분류하였다. 또한 모음과 자음의 발음들은 다양한 입모양을 가지지만 일부 동일한 입모양에 대하여 같은 Viseme을 적용할 수 있도록 구현하였다. 이를 바탕으로 파이썬(Python) 기반의 오토 립싱크 Maya 플러그인을 개발하여 립싱크 애니메이션이 한 번에 자동으로 구현할 수 있게 하였다.

단어인식을 위한 음소의 동적 특징에 관한 검토 (A Study on the Dynamic Feature of Phoneme for Word Recognition)

  • 김주곤
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1997년도 영남지회 학술발표회 논문집 Acoustic Society of Korean Youngnam Chapter Symposium Proceedings
    • /
    • pp.35-39
    • /
    • 1997
  • 본 연구에서는 음소를 인식의 기본단위로 하는 한국어 단어인식 시스템의 인식정도를 개선하기 이해 각 음소의 시간방향의 정보를 포함하고 있는 동적특징인 회귀계수와 K-L(Karhunen-Loeve)변환으로 얻은 특징파라미터(이하 K-L계수라 함)를 이용하여 음소인식과 단어인식 실험을 수행한 결과 그 유효성을 확인하였다. 이를 위해 먼저 파열음을 대상으로 정적 특징과 파라미터인 멜-켑스트럼(Mel-Cepstrum)과 동적 특징 파라미터인 회귀계수(Regressive Coefficient) 와 K-L 계수(Karhunen-Loeve Coefficient)를 추출하여 음소 인식실험을 수행하였다. 그 결과 멜-켑스트럼을 사용한 경우 39.84%, 회귀계수를 사용한 경우 48.52%, K-L계수를 사용한 경우 52.40%의 인식률을 얻었다. 이를 참고로 각각의 특징 파라미터를 결합하여 인식실험한 결과 멜-켑스트럼과 K-L계수를 사용한 경우 47.17%,멜 -켑스트럼과 회귀계수의 경우 60.11%,K-L계수와 회귀계수의 경우 60.35%, 멜-켑스트럼과 K-L계수 , 회귀계수를 사용한 경우 58.13%를 인식률을 얻어 동적특징인 K-L 계수와 회귀계수를 사용한 경우와 멜-켑스트럼과 회귀계수를 사용한 경우가 높은 인식률을 보였으며 이를 단어로 확장하여 인식실험을 수행한 결과 기존의 특징 파라미터를 이용한 경우보다 높은 인식률을 얻어 동적 파라미터의 유효성을 확인하였다

  • PDF

음성 에너지계산에서 창함수-길이 변화영향의 개선에 관한 연구 (On Improving the Effects of Varying the Window Length on Speech Energy Computation)

  • 배명진;안수길
    • 한국음향학회지
    • /
    • 제9권2호
    • /
    • pp.34-41
    • /
    • 1990
  • 음성신호의 전처리과정에서 에너지 퍼래미터는 음소의 변화특성을 나타내기 때문에 많이 사용하고 있다. 그렇지만 추출과정에서 창함수를 적용하기 때문에 창함수길이에 따른 영향을 받게된다. 본논문에서는 창함수길이에 따른 영향을 측정하고 그 영향을 최소화시키는 에너지추출법을 새로이 제안하였다. 이방법으로 추출된 에너지변화도는 창함수길이의 영향을 제거시켰기 때문에 음소의 변화특성을 잘나타낸다. 또한 계산시간은 샘플당 한번의 뺄셈과 덧셈, 그리고 두 번의 비교연산만 있으면 된다.

  • PDF

한국어 규칙 합성을 위한 다이폰의 자동 추출 (An Automatic Diphone Segmentation for Korean Speech Synthesis-by-Rule)

  • 정인종;경연정;김한우;이양희
    • The Journal of the Acoustical Society of Korea
    • /
    • 제12권2E호
    • /
    • pp.63-72
    • /
    • 1993
  • 본 논문에서는 무제한 음성 생성을 위한 단위음성으로서의 다이폰을 2음절 자연음성으로부터 자동 추출하는 알고리즘을 제안한다. 입력음성을 개량 켑스트럼 파라미터로 분석하여 이로부터 다이폰 추출 파라미터들을 도출한다. 제안된 파라미터로는 에너지 레벨을 나타내는 0차 켑스트럼의 동적변화량, 스펙트럼의 시간 변화량 영교차율, 캡스트럼의 유클리디안 거리이다. 스펙트럼 포락의 변화가 완만한 모음 연쇄등의 음소 경계를 보다 효율적으로 검출하기 위해 스펙트럼의 시간 변화를 미세부분과 개형부분으로 나누어 각각을 파라미터로 사용한다. VV(모음연쇄), VCV(C: 반모음, 자음), VCCV형들로 이루어진 2음절 단어들에 대해 실험한 결과, 모음연쇄 등이 포함되어 있음에도 약 85% 정확도의 음소경계검출을 얻었다. 본 논문에 의한 다이폰을 이용한 합성음의 청취실험 결과 명료도가 높음을 확인하였다.

  • PDF

자동 음성분할 및 레이블링 시스템의 구현 (Implementation of the Automatic Segmentation and Labeling System)

  • 성종모;김형순
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.50-59
    • /
    • 1997
  • 본 논문에서는 한국어 음성 데이터베이스 구축을 위하여 자동으로 음소경계를 추출하는 자동 음성분할 및 레이블링 시스템을 구현하였다. 기존의 음성분할 및 레이블링 기술을 근간으로 본 시스템을 구현하였으며, 또한 사용자가 자동분할된 음소경계를 확인하여 그 경계를 쉽게 수정할 수 있도록 한글 모티프 환경에서 그래픽 사용자 인터페이스를 개발하였다. 개발된 시스템은 16kHz로 샘플링된 음성을 대상으로 하고 있으며, 레이블링 단위는 45개의 유사음소와 하나의 묵음으로 구성하였다. 그리고 언어학적 정보의 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴매칭 방법으로는 hidden Markov model(HMM)을 이용하였다. 개발된 시스템의 각 음소 모델은 수작업에 의해서 음소단위로 분할한 음성학적으로 균형잡힌 445 단어 데이터베이스를 이용해서 훈련되었다. 그리고 본 시스템의 성능평가를 위해 훈련에 사용되지 않는 문장 데이터베이스에 대해서 자동 음성분할 실험을 수행하였다. 실험결과, 수작업에 의해서 분할된 음소경계위치와의 오차가 20ms 이내인 것이 74.7%였으며, 40ms이내에는 92.8%가 포함되었다.

  • PDF

K-L 동적 계수를 이용한 단어 인식 (Word Recognition Using K-L Dynamic Coefficients)

  • 김주곤
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.103-106
    • /
    • 1998
  • 본 논문에서는 음성인식 시스템의 인식 정도의 향상을 위해서 동적 특징으로서 K-L(Karhanen-Loeve)계수를 이용하여 음소모델을 구성하는 방법을 제안하고, 음소, 단어, 숫자음 인식 실험을 통하여 그 유효성을 검토하였다. 인식 실험을 위한 음성자료는 한국 전자통신 연구소에서 채록한 445단어와 국어정보공학연구소에서 채록한 4연속 숫자음을 사용하였으며, K-L계수 동적 특징의 유효성을 확인하기 위해 정적 특징으로서 멜-켑스트럼과 동적 특징으로서 K-L계수 및 회귀계수를 추출한 후 음소, 단어, 숫자음 인식 실험을 수행하였다. 인식의 기본 단위로는 48개의 유사음소단위(Phoneme Likely Unite ; PLUs)를 음소모델로 사용하였으며, 단어와 숫자음 인식을 위해서는 유한상태 오토마타(Finite State Automata; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming)법을 이용하였다. 인식 실험 결과, 음소인식에 있어서는 정적특징인 멜-켑스트럼을 사용한 경우 39.8%, K-L 동적 계수를 사용한 경우가 52.4%로 12.6%의 향상된 인식률을 얻었다. 또한, 멜-켑스트럼과 회수계수를 사용한 경우 60.1%, K-L계수와 회귀계수를 결합한 경우에 있어서도 60.4%로 높은 인식률은 얻었다. 이 결과를 단어인식에 확장하여 인식 실험을 수행한 결과, 기존의 멜-켑스트럼 계수를 사용한 경우 65.5%, K-L계수를 사용한 경우 75.8%로 10.3% 향상된 인식률을 얻었으며, 멜-켑스트럼과 회귀계수를 결합한 경우 91.2%, K-L계수와 회귀계수를 결합한 경우 91.4%의 높은 인식률을 보였다. 도한, 4연속 숫자음에 적용한 경우에 있어서도 멜-켑스트럼을 사용한 경우 67.5%, K-L계수를 사용한 경우 75.3%로 7.8%의 향상된 인식률을 보였으며 K-L계수와 회귀계수를 결합한 경우에서도 비교적 높은 인식률을 보여 숫자음에 대해서도 K-L계수의 유효성을 확인할 수 있었다.

  • PDF

다이폰 군집화와 개선된 스펙트럼 완만화에 의한 음성합성 (Speech Synthesis using Diphone Clustering and Improved Spectral Smoothing)

  • 장효종;김관중;김계영;최형일
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.665-672
    • /
    • 2003
  • 본 논문에서는 단위음소들의 연결을 통한 음성합성 방법에 관하여 기술한다. 이때, 발생하는 가장 큰 문제점은 두 단위음소 사이의 연결부분에서 불연속이 발생하는 것이며, 특히 다른 화자로부터 녹음한 단위음소의 연결에서 불연속이 많이 발생한다. 이 문제를 해결하기 위하여 본 논문에서는 군집화된 다이폰을 이용하며, 포만트 궤적과 스펙트럼의 분포특성을 사용할 뿐 아니라 인간의 청각적인 특성을 반영하여 스펙트럼을 완만화하는 방법을 제안한다. 즉, 제안하는 방법은 단위음소 연결구간의 스펙트럼 분포특성의 유사도를 사용하여 단위음소들을 군집화하고 단위음소의 연결 구간에서 인간의 청각신경 특성을 고려하여 완만화의 양과 범위를 결정한 다음, 두 다이폰 경계의 스펙트럼 분포를 시간에 따라 가중치를 다르게 주어 스펙트럼 완만화를 수행한다. 이 방법은 불연속을 제거하며 완만화로 인하여 발생할 수 있는 음성의 왜곡을 최소화한다. 제안하는 방법의 성능을 평가하기 위하여 5명으로부터 녹음한 20개의 문장 중에서 추출한 500여 개의 다이폰을 사용하여 실험을 수행하였다.

파형 시퀀스의 공통 특징 추출 기반 모음 'ㅏ' 인식 구현 (Implementation of Korean Vowel 'ㅏ' Recognition based on Common Feature Extraction of Waveform Sequence)

  • 노원빈;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권11호
    • /
    • pp.567-572
    • /
    • 2014
  • 최근 네트워크와 컴퓨팅 기술의 발달로 정보기기가 소형화되고 이동성이 중요시되면서 간편하게 제어할 수 있는 음성 인식에 대한 수요가 증가하고 있다. 본 논문은 음성 인식 시스템의 일부로써 한국어 음소 중 모음 'ㅏ' 인식에 대한 연구 결과를 제시한다. 음소는 음성을 구성하고 있는 최소단위로서 음성을 인식하는데 매우 중요한 역할을 한다. 그러나 각각의 음소들을 정확하게 인식하려면 발음의 다양성 등으로 인해 많은 어려움이 존재한다. 본 논문에서는 한국어 음소 중 모음 'ㅏ'를 인식하기 위한 간단하고도 새로운 방식을 제안한다. 제안된 'ㅏ' 인식 휴리스틱은 파형 시퀀스의 공통 특징 추출을 기반으로 이루어졌으며, 이는 기존의 복잡한 방법에 비해 간단하면서도 실험 결과 90% 이상의 성공률로 'ㅏ'를 인식하는 것을 확인하였다.

인공 신경망을 이용한 한국어 문장단위 운율 발생에 관한 연구 (A study on the Prosody Generation of Korean Sentences using Artificial Neural networks)

  • 이일구;민경중;강찬구;임운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.105-108
    • /
    • 1999
  • TTS(Text-To-Speech) 시스템 합성음성의 자연감을 개선하기 위해 하나의 언어에 대해 존재하는 운율 법칙을 정확히 구현해야 한다. 존재하는 운율 법칙을 추출하기 위해서는 방대한 분량의 언어 자료 구축이 필요하다. 그러나 이 방법은 존재하는 운율 현상이 포함된 언어자료에 대해 완벽한 운율을 파악할 수 없으므로 합성음성의 질을 좋게 할 수 없다. 본 논문은 한국어 음성의 운율을 학습하기 위해 2개의 인공 신경망을 제안한다. 하나의 신경망으로 문장의 각 음소에 대한 피치 변화를 학습시키는 것이며, 다른 하나는 에너지 변화를 학습하도록 하였다. 신경망은 BP 신경망을 이용하며 11개의 음소를 나타내기 위해 11개의 입력과, 중간 음소의 피치와 에너지 변화곡선을 근사하는 다항식 계수를 출력하도록 하였다. 신경망시스템의 학습과 평가에 앞서, 음성학적 균형잡힌 고립단어를 기반으로 의미있는 문장을 구성하였다. 문장을 남자 화자로 하여금 읽게 하고 녹음하여 음성 DB를 구축하였다. 음성 DB에 대해 각 음소의 운율 정보를 수집하여 신경망에 맞는 목표 패턴과 훈련 패턴을 작성하였다. 이 목표 패턴은 회귀분석을 통한 추세선을 이용해 피치와 에너지에 대한 2차 다항식계수로 구성하였다. 본 논문은 목표패턴에 맞는 신경망을 학습시켜 좋은 결과를 얻었다.

  • PDF

전화 음성 인식을 위한 특징 추출 방법 비교 (Comparison of Feature Extraction Methods for the Telephone Speech Recognition)

  • 전원석;신원호;김원구;이충용;윤대희
    • 한국음향학회지
    • /
    • 제17권7호
    • /
    • pp.42-49
    • /
    • 1998
  • 본 논문에서는 전화망 환경에서 음성 인식 성능을 개선하기 위한 특징 벡터 추출 단계에서의 처리 방법들을 연구하였다. 먼저, 고립 단어 인식 시스템에서 채널 왜곡 보상 방 법들을 단어 모델과 문맥 독립 음소 모델에 대하여 인식 실험을 하였다. 켑스트럼 평균 차 감법, RASTA 처리, 켑스트럼-시간 행렬을 실험하였으며, 인식 모델에 따른 각 알고리즘의 성능을 비교하였다. 둘째로, 문맥 독립 음소 모델을 이용한 인식 시스템의 성능 향상을 위하 여 정적 특징 벡터에 대하여 주성분 분석 방법(principal component analysis)과 선형 판별 분석(linear discriminant analysis)과 같은 선형 변환 방법을 적용하여 분별력이 높은 벡터 공간으로 변환함으로써 인식 성능을 향상시켰다. 또한 선형 변환 방법을 켑스트럼 평균 차 감법과 결합하여 더욱 뛰어난 성능을 보여주었다.

  • PDF