• 제목/요약/키워드: 모음 포만트

검색결과 22건 처리시간 0.024초

대화체 음성에서의 한국어 연결 숫자음 인식 (Recognition of Korean Connected Digits in a Natural Spoken Dialog)

  • 김중철;고종철;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.377-379
    • /
    • 2000
  • 대화체 음성의 인식을 위해서는 음성 파형에 관한 음향학적인 연구뿐만 아니라 인식하려는 언어자체에 대한 언어학적인 연구를 필요로 한다. 본 논문에서는 숫자음의 언어학적인 요소를 고려하고, 포만트 주파수를 숫자음 검출과 숫자음 인식에 적용하는 방식을 제안한다. 시스템의 입력은 특정 질의에 대한 응답으로 대화체 문장이며, 끝점 추출 기술을 이용하여 고립단어로 분류한 후, 숫자음만을 검출해 내고, 검출된 숫자음을 인식하기 위해 포만트 주파수를 이용한다. 한국어 연결 숫자음 인식은 한국어 숫자음이 단음절로 구성된다는 점과 발음상의 조음효과 등으로 한계를 가지고 있다. 본 논문에서는 숫자음과 발성에 필요한 음소들을 추출하고, 숫자들을 모음에 따라 6개의 그룹으로 분류하여 인식의 범위를 좁히고, 포만트 주파수 정보와 음소 HMM 모델에 의한 두 단계에 걸친 인식을 수행함으로써 연결 숫자음 인식에 대한 성능을 향상시킨다.

  • PDF

포만트 밴드폭 정규화를 이용한 음성인식 (Speech Recognition Using Formant Bandwidth Normalization)

  • 홍종진;강석건;박군작;박규태
    • 한국통신학회논문지
    • /
    • 제16권5호
    • /
    • pp.458-467
    • /
    • 1991
  • 본 논문에서는 기존의 선형예측기법의 문제점을 선형예측계수, ar필터의 POLE위치, 포만트-밴드폭의 관점에서 분석하고, 정문반사계수의 영향을 정도추정이론에 따라 분석했으며, 이러한 분석을 근거로 하여 포만트 밴드폭 정규화 방법을 보완하였다. 정분반사계수를 1로 변경하여 정문의 영향을 정규화되어 포만트가 최적으로 강조된 스펙트럽이 된다. 이 전형예측계수는 앞뒤로 대칭되면서, 표준편차가 정문반사계수를 변경시키지 않은 성형예측계수보다 증가하므로써, 음성부호화시에 bit rate을 50%로 줄일 수있으면서 정보의 양을 그대로 보존하고 있음을 알수 있었다. 이러한 포만트 밴드폭을 0으로 정규화하는 방법을 이용하여 한국어 5개 모음을 포만트에 의해서 소음환경에서 인식하기 위한 실험을 실시하여 96.7%의 인식율을 얻을 수 있었다.

  • PDF

한국어 모국어 화자의 영어 모음인지 연구 (A study on English vowel perception by Korean native speakers)

  • 한양구
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.317-320
    • /
    • 2000
  • 본 논문은 영어 모국어 화자(남, 여)들이 발성한 영어 모음 12개를 가지고 모음의 길이와 포만트 값(Fl, F2)을 측정하고, 인지실험에 사용할 시료를 만들어 원광대학교 학부생을 대상으로 음성학 수강반 학생 90명, 비 수강반 64명 두 그룹으로 나누어 총 154명을 대상으로 인지실험(Identification test)를 실시하였다. 인지실험결과 음성학 수강반 학생들의 모음인지율이 비 수강반 학생들 보다 대체적으로 좋았으며, 여자화자의 모음인지율이 남자화자의 인지율보다 대체적으로 높았다. 학생들의 인지율 가장 좋은 모음은 hayed, hard였으며, 인지율이 가장 낮은 모음은 head, had 등이였다.

  • PDF

음성특성을 이용한 LSP 변환시간 단축에 관한 연구 (A Study on the Reduction of LSP(Line Spectrum Pair) Transformation Time Using the Voice Characteristic)

  • 강은영;민소연;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.557-560
    • /
    • 2000
  • LSP 파라미터는 일정한 ,스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형보간이 용이하다는 장점을 갖는다. 피러나 LPC 계수를 LSP 파라미터로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다. 기존의 LSP 변환 방법 중 음성 부호화기에 주로 사용되는 Real Root 방법은 근을 구하기 위해 주파수 역을 순차적으로 검색하기 때문에 계산시간이 많이 소요된다. 본 논문에서 제안하는 방법은 음성 특성을 이용하는 것으로, 묵음의 경우는 묵음 구간에서 일정하게 나타나는 LSP 파라미터의 분포 특성을 이용하여 검색하고 유/무성음에 대해서는 LSP 파라미터의 분포도에 따라 검색구간의 순서와 검색간격을 달리한다. 또한, 모음에 대해서는 제1 포만트와 제2 포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 Real Root 방법과 제안한 방법을 비교한 결과 검색시간이 평균 46.5% 단축되었다.

  • PDF

음절신호의 음소 분리와 시간-주파수 판별 패턴의 설정 (Phoneme Separation and Establishment of Time-Frequency Discriminative Pattern on Korean Syllables)

  • 류광열
    • 한국통신학회논문지
    • /
    • 제16권12호
    • /
    • pp.1324-1335
    • /
    • 1991
  • 본 논문은 음절을 음소로 분리하고 각각의 특징을 추출하여 음소를 판별할 수 있는 패턴을 설정하는 실험에 관한 연구이다. 음소분리는 피치검출, 각 성문피크펄스의 폭, 포락실, 진폭의 바이어스, 발성시간 등의 파라메타를 적용한다. 최초의 피치는 성문펄스의 폭, 에너지, 정규화와 성문피크의 가변바이어스 등의 변화에 따라 모음 포라선의 봉우리 부분에서 검출, 이를 기준으로 전체의 피치구간을 추적한다. 모음은 포만트 패턴의 유동을 감소시키는 방법과 제2포만트만으로 모음의 판별이 가능함을 제시하며, 피치 고저에 무관한 압축파형을 추정한다. 자음은 포락실, 스펙트럼, 압추파형, 분석방법 등을 발음방법과 음소 상호 영향에서 패턴을 추출한다. 실험결과 모음음소 90%, 초성자음80%, 종성자음 60% 판별된다.

  • PDF

포만트 통계치를 이용한 장애모음 발음 훈련 보조 방법에 관한 연구 (Development of Vowel Training Assistant Method Using Formant Statistics)

  • 조철우;박일서;정은태
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.325-328
    • /
    • 2003
  • In this paper, we tried to develop a vowel training assistant method using vowel formant statistics. Formant statistics were obtained from PBW set consists of 452 words from 8 persons. Then, we calculated distance from input formants to each center of vowel formant space. Based on the distance, directions to correct the speaker's manner of articulation, i.e. position of jaw and tongue.

  • PDF

연속음성 인식기를 위한 벡터양자화기 기반의 화자정규화 (Vector Quantizer Based Speaker Normalization for Continuos Speech Recognition)

  • 신옥근
    • 한국음향학회지
    • /
    • 제23권8호
    • /
    • pp.583-589
    • /
    • 2004
  • 포만트 등의 음향학적인 정보를 이용하지 않는 연속음성인식 (CSR)을 위한 벡터 양자화기 기반의 화자 정규화 방법을 제안한다. 이 방법은 앞서 제안한 간단한 숫자음 인식기를 위한 화자정규화 방법을 개선한 것으로, 코드북의 크기를 증가시켜 가면서 벡터양자화기를 반복적으로 학습시킴으로써 정규화된 코드북을 구한 다음, 치를 이용하여 시험용화자의 워핑계수를 추정한다. 코드북 생성과 워핑계수 추정을 위해 모음 음소의 집합과 자음과 모음을 포함한 모든 음소의 집합 등 두 가지 음소집합을 이용i,겨 실험하였으며, 추정한 워핑계수에 상응하는 구간선형 워핑함수를 이용하여 인식기의 학습과 시험에 사용될 특징벡터를 워핑하였다. TIMIT 코퍼스와 HTK toolkit을 이용한 음소인식 실험을 수행하여 제안하는 방법의 성능을 조사한 결과, 포만트를 이용한 워핑 방법과 비슷한 성능을 가짐을 확인하였다.

통계적 방법과 인지실험을 통한 한국어 초성파열음의 음소단위 분석에 관한 연구 (A Study on the Phoneme Based Analysis of Korean Initial Plosives Using Statistical Method and Perception Tests)

  • 조철우;이우선;이규호;김종안;임광일;이태원
    • 한국음향학회지
    • /
    • 제8권5호
    • /
    • pp.78-85
    • /
    • 1989
  • 본 논문에서는 한국어의 규칙합성에 관한 연구중 파열음의 함성 파라미터를 추정하기 위하여 사용한 통계적 방법과 인지실험에 의한 방법에 관하여 기술하고 있다. 합성기로는 직렬 포만트 합성기를 구성하여 사용하였고 통제적 분석에 사용된 음성시료는 9개의 초성 파열음과 8개의 모음으로 구성되는 72개의 독립 CV형태를 갖는 단음절을 만일 화자를 통하여 수집하였다. 음성의 분석은 시간 및 주파수 평면에서 파라미터의 변화를 중심으로 행하였으며, 인지실험을 통한 파라미터 추정방법을 통하여 독립적으로 포만트 파라미터의 변화에 관하여 조사하였다.

  • PDF

신경망을 이용한 모음의 학습 및 인식 방법 (A Method of Learning and Recognition of Vowels by Using Neural Network)

  • 심재형;이종혁;윤태훈;김재창;이양성
    • 대한전자공학회논문지
    • /
    • 제27권11호
    • /
    • pp.144-151
    • /
    • 1990
  • 본 연구에서는, Ohotomo 등이 모음의 학습과 인식을 위해 구성한 BP 구조 신경망의 학습을 위해 사용하였던 입력 패턴의 방법을 보완하여, 포만트 주파수의 대역폭을 고려한 측면값을 학습용 입력패턴에 두어 수렵 속도와 인식율을 높이고자 한다. 본 연구에서 제안한 방법이 오인식율에서는 $30{\%}$정도의 감소와 수렴 속도며에서는 $7{\%}$의 증가를 컴퓨터 시뮬레이션을 통하여 알 수 있었다.

  • PDF

화자 인식을 위한 모음의 포만트 연구 (A Study on Formants of Vowels for Speaker Recognition)

  • 안병섭;신지영;강선미
    • 대한음성학회지:말소리
    • /
    • 제51호
    • /
    • pp.1-16
    • /
    • 2004
  • The aim of this paper is to analyze vowels in voice imitation and disguised voice, and to find the invariable phonetic features of the speaker. In this paper we examined the formants of monophthongs /a, u, i, o, {$\omega},{\;}{\varepsilon},{\;}{\Lambda}$/. The results of the present are as follows : $\circled1$ Speakers change their vocal tract features. $\circled2$ Vowels /a, ${\varepsilon}$, i/ appear to be proper for speaker recognition since they show invariable acoustic feature during voice modulation. $\circled3$ F1 does not change easily compared to higher formants. $\circled4$ F3-F2 appears to be constituent for a speaker identification in vowel /a/ and /$\varepsilon$/, and F4-F2 in vowel /i/. $\circled5$ Resulting of F-ratio, differences of each formants were more useful than individual formant of a vowel to speaker recognition.

  • PDF