• 제목/요약/키워드: 음소

검색결과 529건 처리시간 0.024초

클래스 종속 반연속 HMM을 이용한 립싱크 시스템 최적화 (Lip-Synch System Optimization Using Class Dependent SCHMM)

  • 이성희;박준호;고한석
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.312-318
    • /
    • 2006
  • 기존의 립싱크 시스템은 음소 분할 후, 각각의 음소를 인식하는 2단계의 과정을 거쳤다. 하지만, 정확한 음소 분할의 부재와 음성이 끊긴 분할 된 음소로 이루어진 훈련 데이터들은 시스템의 전체 성능을 크게 떨어뜨렸다. 이런 문제를 해결하기 위해 Head-Body-Tail (HBT) 모델을 이용한 단모음 연속어 인식 기술을 제안한다. 주로 소규모 어휘를 다루는데 적합한 HBT 모델은 Head 와 Tail 부분에 문맥 종속 정보를 포함하여 앞 뒤 문맥에 따른 조음효과를 최대한 반영한다. 또한, 7개의 단모음을 입모양이 비슷한 세 개의 클래스로 분류하여, 클래스에 종속적인 코드북 3개를 가진 반연속HMM (Hidden Markov Model)을 적용하여 시스템을 최적화하고, 변이 부분이 큰 단어의 처음과 끝은 연속HMM의 8 믹스쳐 가우시안 구조를 사용하여 모델링하였다. 제안한 방법은 HBT구조의 연속HW과 대등한 성능을 보이지만, 파라미터 수는 33.92% 감소하였다. 파라미터 감소는 계산 양을 줄여주므로, 시스템이 실시간으로 동작 가능하게 한다.

인공신경망의 운률 발생에 관한 연구 (A Study on the prosody generation of artificial neural networks)

  • 신동엽;민경중;강찬구;임운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.87-90
    • /
    • 2000
  • 문-음성 합성기의 자연감을 높이기 위해 주로 자연음에 존재하는 운률 법칙을 정확히 구현해 주어야 한다. 일반적으로 언어학적 정보를 이용하거나 자연음으로부터 추출한 운률 정보를 추출한 운률 법칙을 합성에 이용하고 있다. 이와 같이 구한 운률 법칙이 자연음에 존재하는 모든 운률 법칙을 포함할 수 있으면, 자연스러운 합성음을 들을 수 있겠으나, 실질적으로는 모든 법칙을 구현한다는 것은 어려운 실정이고, 자연음으로부터 추출한 운률 법칙이 잘못 구현되는 경우 합성음의 자연성이 떨어지는 것을 피할 수 없을 것이다. 이런 점을 고려하여 우리는 자연음에 내재하는 운율 법칙을 훈련을 통해 학습할 수 있는 인공 신경망을 제안하였다 운률의 세 가지 요소는 피치, 지속시간, 크기 변화가 있는데, 인공 신경망은 문장이 입력되면, 각 해당 음소의 지속시간에 따른 피치 변화와 크기 변화를 학습할 수 있도록 설계하였다. 신경망을 훈련시키기 위해 고립 단어군과 음소균형 문장군을 화자로 하여금 발성하게 하여, 녹음하고, 분석하여 운률 데이터베이스를 구축하였다. 자연음의 각 음소에 대해 지속시간과 피치변화 그리고 크기 변화를 구하여 곡선 적응 방법을 이용하여 각 변화 곡선에 대한 계수를 구해 데이터베이스를 구축한다. 이렇게 구축한 데이터베이스를 이용해 인공 신경망을 훈련시켜 평가한 결과 훈련용 데이터를 계속 확장하면 좀 더 자연스러운 운률을 발생시킬 수 있음을 관찰하였다.

  • PDF

음성의 시간변이와 상태분할을 고려한 강건한 문맥의존 음향모델에 관한 연구 (A study on the robust context-dependent acoustic models by considering the state splitting and the time variant of speech)

  • 오세진;김광동;노덕규;정현열
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.229-231
    • /
    • 2003
  • 일반적으로 음성은 시간함수로 표현되며 음성인식에서 표준모델을 모델링하는 것은 매우 중요한 문제이다. 음절 단어, 연속음성을 발성할 때 자음과 모음에 따라 발성시간에 차이가 있으며 이를 잘 모델링하는 것 또한 음성인식에서는 중요한 문제라고 할 수 있다. 따라서 본 연구에서는 강건한 음향모델을 학습하기 위해 시간의 변화와 상태분할과정에서의 모델의 변화를 고려하여 다양한 구조의 초기모델을 작성하였다. 각 초기모델에 의한 HM-Net 문맥의존 음향모델은 음소결정트리 기반 SSS 알고리즘(PDT-SSS)을 이용하였다. PDT-SSS 알고리즘은 미지의 문맥정보를 해결하기 위해 문맥방향과 시간방향으로 목표 상태수에 도달할 때까지 상태분할을 수행하여 모델을 작성하는 방법이다. 음성의 시간변이를 고려한 강건한 문맥의존 음향모델을 작성하기 위해 설정한 각 모델의 구조에 대한 유효성을 확인하기 위해 국어공학센터의 452 단어를 대상으로 음소와 단어인식 실험을 수행한 결과. 음소인식의 경우 상태수 2000개에서 2상태 구조의 모델에 비해 4상태 구조가 약 11.4% 향상된 인식성능과 39.2초의 인식시간을 단축할 수 있었다. 또한 단어인식의 경우 상태수 2000개에서 1상태 구조의 모델에 비해 4상태 구조가 약 5% 향상된 인식성능과 4상태 구조에서 한 단어를 인식하는데 평균 0.8초가 소요되었다. 따라서 강건한 문맥의존 음향모델을 작성하기 위해 수행한 초기모델의 구조에 관한 연구가 향후 음성인식 시스템을 구축하는데 유효함을 확인할 수 있었다.

  • PDF

일본인의 한국어 치경폐쇄음 지각 학습의 전이효과 (The Transfer Effects of Perceptual Learning by Japanese of Korean Alveolar Stop Consonants)

  • 김윤현;김정오
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2005년도 춘계학술대회
    • /
    • pp.154-157
    • /
    • 2005
  • 본 연구는 한국어를 학습한 경험이 없는 일본인의 한국어 치경폐쇄음 세 음소 범주(/ㄷ/, /ㄸ/, /ㅌ/)에 대한 지각 학습이 양순폐쇄음 세 음소(/ㅂ/. /ㅃ/, /ㅍ/) 지각에 미치는 효과를 검토하였다. 김윤현과 김정오 (2005)는 일본인들이 지각 학습과제에서 한국어 치경폐쇄음 세 범주를 구분할 때 기식성. 긴장성과 같은 변별 자질에 선택주의 하게 됨을 시사하는 결과를 얻었다. 치경음에 대한 지각 학습으로 적절한 단서에 선택주의 하게 되었다면, 같은 지각 차원에 따라 세 범주로 구분되는 양순음의 경우에도 치경폐쇄음 학습 후 음성자극들을 옳게 범주화를 할 것이다. 실험 결과, 치경폐쇄음 자극(/다/, /따/, /타/)만으로 이루어진 동일-상이판단 학습 과제에서 치경폐쇄음 파악의 정확율은 29.1%(표준오차=3.02) 증가하였고, 조음 위치의 변화에 따른 음향적 차이에도 불구하고 양순폐쇄음의 정반응율도 15.8%(표준오차=3.27)의 향상을 보였다. 이 전이효과는 치경음 지각 학습 때문에 일본인들이 폐쇄음의 세 음소 범주를 구분하는 적절한 지각 차원에 선택주의하게 되었음을 시사한다.

  • PDF

뇌성마비로 인한 마비말장애의 음소대조 낱말명료도와 문장명료도 (Perceptual-phonemic Contrasts of Single-word Intelligibility for Testing Korean Dysarthric Speech)

  • 김수진
    • 한국음향학회지
    • /
    • 제22권8호
    • /
    • pp.694-702
    • /
    • 2003
  • 이 연구는 말장애의 진단에 유용한 일음절 낱말대조 명료도 검사 (낱말명료도)의 타당도와 신뢰도를 얻기 위한 것이다. 첫번째로 낱말명료도의 타당성을 확인하기 위하여 문장명료도와의 상관을 구한 결과 상관은 .83으로 비교적 높았다. 두 번째로는 평가자들 간의 일치도를 분석하였다. 낱말명료도는 명료도 손상의 수준에 상관없이 평가자들간에 일정한 변산을 보였다. 마지막으로 낱말명료도 평가도구를 이용하여 마비말장애인의 명료도를 떨어뜨리는데 주요한 역할을 하는 음소대조 요인을 살펴본 결과 종성이 가장 오류가 많았으며 다음으로 초성, 중성의 순서였으나, 회귀분석 결과 초성이 전체 명료도에 미치는 영향이 가장 컸다.

바타차랴 알고리즘에서 HMM 특징 추출을 이용한 음성 인식 최적 학습 모델 (Speech Recognition Optimization Learning Model using HMM Feature Extraction In the Bhattacharyya Algorithm)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제11권6호
    • /
    • pp.199-204
    • /
    • 2013
  • 음성 인식 시스템은 정확하지 않게 입력된 음성으로부터 학습 모델을 구성하고 유사한 음소 모델로 인식하기 때문에 인식률 저하를 가져온다. 따라서 본 논문에서는 바타차랴 알고리즘을 이용한 음성 인식 최적 학습 모델 구성 방법을 제안하였다. 음소가 갖는 특징을 기반으로 학습 데이터의 음소에 HMM 특징 추출 방법을 이용하였으며 유사한 학습 모델은 바타챠랴 알고리즘을 이용하여 정확한 학습 모델로 인식할 수 있도록 하였다. 바타챠랴 알고리즘을 이용하여 최적의 학습 모델을 구성하여 인식 성능을 평가하였다. 본 논문에서 제안한 시스템을 적용한 결과 음성 인식률에서 98.7%의 인식률을 나타내었다.

한국어 연속음성 인식을 위한 단어 결합 모델링에 관한 연구 (A Study on Word Juncture Modeling for Continuous Speech Recognition of Korean Language)

  • 최인정;은종관
    • 한국음향학회지
    • /
    • 제13권5호
    • /
    • pp.24-31
    • /
    • 1994
  • 본 논문에서는 단어 조음결합의 음성학적 모델을 이용한 한국어 연속음성 인식에 관해 연구한다. 조음결합 현상에 의한 성능 감소를 줄이기 위해 단어내에서의 전이뿐만 아니라 단어간의 전이를 모델링하는 context-dependent (CD)단위를 사용한다. 모든 경우에서 각 단어의 첫 음소는 앞에 올 수 있는 모든 단어의 마지막 음소에 의해 지정되며, 각 단어의 마지막 음소도 유사한 방법으로 지정된다. Hidden Markov model (HMM) 파라미터들의 강인성을 개선하기 위해 공분산 행렬을 평활화한다. 또한 음성 단위들 사이의 분별력을 높이기 위해 position-dependent 단위를 사용한다. 실험 결과들은 개선된 조음결합 모델을 사용함으로서 intra-word 단위만을 사용하는 기본 인식 시스템에 비해 성능을 상당히 개선할 수 있음을 보여 주었다.

  • PDF

음소 기반의 유사율 알고리즘을 이용한 Home Network 환경에서의 음성 인식 (Voice Recognition using a Phoneme based Similarity Algorithm in Home Networks)

  • 이창섭;유재봉;박준석;양수호;김유섭;박찬영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.767-770
    • /
    • 2005
  • 네트워크상에서 전달되는 음성데이터는 전달되는 과정에서 잡음 등의 외부 요인으로 인하여 데이터에 손실이 생기는 문제가 발생한다. 이렇게 전달된 음성데이터가 음성 인식기를 통과하면 바로 음성 인식기를 통과했을 때 보다 인식률이 낮아진다. 본 연구에서는 홈 네트워크를 제어하는데 있어서 음성 인식률을 향상시키기 위해서 음성 데이터를 입력받아, 이를 음소단위 기반의 유사율 알고리즘을 적용시켜 이미 구축된 홈 네트워크 용어 관련 사전에 등록된 단어와의 유사성을 검토하여 추출된 결과로 홈 네트워크를 제어하는 방안을 제안한다. 음소단위 기반의 유사율 알고리즘과 다중발화를 이용했을 때 Threshold 값이 85% 일 경우 사전에 구축된 단어와 매칭된 인식률은 100%였으며, 사전에 없는 단어의 오인식률은 2%로 감소되었다.

  • PDF

중국 조선족 아동의 한글 자소-음소 대응능력의 발달과 글자읽기와의 관계에 관한 연구 (The Development of Grapheme-Phoneme Correspondence Rules and Kulja Reading in Korean-Chinese Children)

  • 윤혜경;박혜원
    • 아동학회지
    • /
    • 제26권4호
    • /
    • pp.145-155
    • /
    • 2005
  • This study was carried out to reveal Hangul acquisition processes in Korean-Chinese children who grow in a horizontal bilingual environment. In this experiment Grapheme substitution/deletion tasks and sensible/non-sensible Kulja reading tasks were administered to 3-, 4-, 5- and 6-year-old Korean-Chinese children growing up in a bilingual environment. Results were that Korean-Chinese children showed similar patterns of Hangul acquisition processes to Korean children but acquired grapheme-phoneme(G-P) correspondence earlier than Korean children. Hangul acquisition rates were 41.7%, 45.7%, 53% and 92.7% at age 3, 4, 5 and 6, respectively. Both Korean-Chinese and Korean children showed higher sensitivity for the final consonant than for the initial and middle consonants. Correlation between phoneme perception and reading was only significant among 6-year-olds in non-sensible Kulja reading tasks. Training in transforming ideographic Chinese to a phonetic system could effect early acquisition of G-P correspondence in Korean-Chinese children.

  • PDF

화자 정규화를 위한 비정형 워핑함수 도출에 관한 실험 (Experiments on Extraction of Non-Parametric Warping Functions for Speaker Normalization)

  • 신옥근
    • 한국음향학회지
    • /
    • 제24권5호
    • /
    • pp.255-261
    • /
    • 2005
  • 화자들 사이의 워핑특성을 알아보기 위해 비정형 워핑함수를 도출하는 실험을 수행하였다. 이를 위해 모음의 MFCC와 LP 스펙트럼을 이용하여 화자별, 음소별 대표 스펙트럼을 선정한 다음 음소별 기준 스펙트럼을 선택하였다. 기준 스펙트럼과 대표 스펙트럼을 스펙트럼의 전체대역에서 DTW로 비교하여 화자별 워핑함수를 구한 다음, 이들을 clustering함으로써 비정형 워핑함수의 집합을 도출하였다. 이 함수집합에서 남성화자와 여성화자의 함수들이 각각 구간선형함수와 파워함수와 유사함을 관찰할 수 있었으며, 이를 근거로 이 함수들을 조합한 하이브리드 워핑함수집합을 정의하였다. 음소단위의 인식 실험을 통하여 새로 정의된 함수들의 인식률을 시험하였으며 두 함수집합 모두에서 개선된 인식률을 얻을 수 있었다.