• Title/Summary/Keyword: 음성의 다양화

Search Result 301, Processing Time 0.03 seconds

On the relationship between the phonetic realizations of the allophones of the Korean liquid /l/ and their prosodic status (한국에 유음 /l/의 변이음들의 음성적 실현과 운율적 위상과의 상관관계에 관하여)

  • 이숙향
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.7
    • /
    • pp.85-91
    • /
    • 1999
  • The purpose of this study is to investigate phonetic realization of flap [r], one of the allophones of Korean /l/. Phonetic realization of a segment is affected by not only its neighboring segments but also its prosodic position in an utterance. This study examined how various prosodic positions affect the phonetic realization of [r]. Effects of the four prosodic positions on the phonetic realization of [r] were examined: utterance initial, Intonation Phrase initial, Accentual Phrase initial, and Accentual Medial positions. Word positional effect was also examined: word initial, medial, and final positions. Acoustic and statistical analyses showed that flap [r] was realized in a variety of phonetic forms: from sonorant(the most reduced form) to short stop(the least reduced form). It was shown that generally. word-initial position is stronger than word-medial position. It was also shown that in many cases, utterance-initial position and intonation-phrase-initial position are stronger than accentual-phrase-initial and accentual-phrase-medial positions. Sonorants were observed more often in the prosodically weaker portions. VOT duration was also shorter in accentual-phrase-initial and accentual-phrase-medial positions.

  • PDF

Robust Speech Parameters for the Emotional Speech Recognition (감정 음성 인식을 위한 강인한 음성 파라메터)

  • Lee, Guehyun;Kim, Weon-Goo
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.22 no.6
    • /
    • pp.681-686
    • /
    • 2012
  • This paper studied the speech parameters less affected by the human emotion for the development of the robust emotional speech recognition system. For this purpose, the effect of emotion on the speech recognition system and robust speech parameters of speech recognition system were studied using speech database containing various emotions. In this study, mel-cepstral coefficient, delta-cepstral coefficient, RASTA mel-cepstral coefficient, root-cepstral coefficient, PLP coefficient and frequency warped mel-cepstral coefficient in the vocal tract length normalization method were used as feature parameters. And CMS (Cepstral Mean Subtraction) and SBR(Signal Bias Removal) method were used as a signal bias removal technique. Experimental results showed that the HMM based speaker independent word recognizer using frequency warped RASTA mel-cepstral coefficient in the vocal tract length normalized method, its derivatives and CMS as a signal bias removal showed the best performance.

Development of Continuous Speech Recognition System for Multimedia Mobile Terminal Applications (휴대 멀티미디어 단말용 음성인식 시스템 개발)

  • 김승희
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.59-62
    • /
    • 1998
  • 본 논문에서는 한국전자통신연구원의 Handy Combi 응용 도메인을 대상으로 한 화자독립 연속음성인식 시스템 개발에 관하여 기술한다. 불특정화자가 자연스럽게 발음한 연속음성을 인식하는 기술은 펜인식 등과 더불어 멀티모달 인터페이스의 핵심 요소로서, 이동 환경에서 사용자의 다양한 요구사항을 처리하는 지능형 에이전트에 구현을 위해 필수적으로 개발되어야 하는 기술이다. 본 논문에서는 연속확률분포를 가지는 Hidden Markov Model(HMM) 기반의 연속음성인식 시스템을 구현하였다. 개발된 시스템은 음성특징벡터로 MFCC를 사용하였으며, 음소 모델의 강인한 훈련을 위해 음성학적 지식에 기반을 둔 tree-based clustering 방식을 도입하였다. 인식단계에서는 인식속도를 개선시키기 위해 beam-search 기법을 적용하였다. 인식 실험 결과, 99.7%의 어절 인식률과 98.8%의 문장 인식률을 얻었으며, 최종적인 문장의 이해도는 99% 이상이었다.

  • PDF

성대 결절 환자의 발성 패턴에 따른 음성 치료 접근의 효과

  • 안철민;최영화
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.139-140
    • /
    • 2003
  • 성대 결절 환자들은 잘못된 발성 패턴으로 인한 음성의 오용과 남용이 질환의 원인인 경우가 대부분이다. 관찰할 수 있는 발성 패턴은 성대 내근과 외후두근의 사용, 인두, 혀, 턱의 움직임, 호흡 방법, 억양의 변화 등 다양하다. 이러한 발성 패턴이 하나 혹은 그 이상 잘못 되어 있을 경우에는 후두에 좋지 않은 영향을 미쳐 기능성 후두 질환, 성대 결절, 성대 폴립 등의 기질적 질환과 연계될 수 있다. 성대 결절에서 일반적으로 관찰되는 발성 패턴으로는 성대 전체를 강하게 접촉하여 발성하는 경우와 반대로 성대 수직면 위쪽 즉 상순쪽만 가볍게 부딪혀서 발성하는 경우로 나타난다. 두 경우 모두에서 성대 결절이 발생하며 그 기와 위치가 조금씩 달라지게 된다. 이렇게 성대 결절이 발생했을 경우 널리 제시되고 있는 치료 방법으로 환자의 잘못된 발성 습관에 대한 상담과 함께 하품-한숨 접근법이나 노래 조로 말하기, 저작하기와 같은 성대 접촉을 줄일 수 있도록 하는 것이다. 그러나 성대 접촉이 되지 않아 발생된 성대 결절 환자의 경우는 일시적으로 결절의 크기는 줄일 수 있을 것이나 치료 결과가 유지되는 측면의 고려가 부족한 것이 사실이다. 따라서 본 연구에서는 성대 결절 환자들의 발성 패턴을 관찰하고 그 상태에 따라 음성 치료를 접근하여 치료 결과 및 유지 효과를 확인하고자 한다. (중략)

  • PDF

Simultaneous Speaker and Environment Adaptation by Environment Clustering in Various Noise Environments (다양한 잡음 환경하에서 환경 군집화를 통한 화자 및 환경 동시 적응)

  • Kim, Young-Kuk;Song, Hwa-Jeon;Kim, Hyung-Soon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.6
    • /
    • pp.566-571
    • /
    • 2009
  • This paper proposes noise-robust fast speaker adaptation method based on the eigenvoice framework in various noisy environments. The proposed method is focused on de-noising and environment clustering. Since the de-noised adaptation DB still has residual noise in itself, environment clustering divides the noisy adaptation data into similar environments by a clustering method using the cepstral mean of non-speech segments as a feature vector. Then each adaptation data in the same cluster is used to build an environment-clustered speaker adapted (SA) model. After selecting multiple environmentally clustered SA models which are similar to test environment, the speaker adaptation based on an appropriate linear combination of clustered SA models is conducted. According to our experiments, we observe that the proposed method provides error rate reduction of $40{\sim}59%$ over baseline with speaker independent model.

Performance Evaluation of Multiplexing Algorithms with Both Delay and Loss Priorities in ATM Networks (ATM 통신망에서의 지연 및 손실 우선순위를 갖는 다중화 알고리즘의 성능 평가)

  • 전용희
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.19 no.5
    • /
    • pp.842-856
    • /
    • 1994
  • The various services that a broadband integrated services digital network (B-ISDN) carries, have a wide range of delay, delay jitter and cell loss probability requirements. Design of appropriate control schemes for B-ISDN is an extremely important and challenging problem. In this paper, we proposed multiplexing algorithm with both delay and loss priorities in order to satisfy the diverse requirements. For the implementation of cell lose priority, we assumed that voice cells are generated as non-discardable(i.e., high priority) and discardable (i.e., low priotity)cells. The low priority voice cell may be discarded inside the network if congestion occurs. The cell dropping scheme is shown to reduce cell losses as well as delays for both voice and data. Such a load shedding scheme is expected to improve significantly utilization of B-ISDN.

  • PDF

Development of a multimodal interface for mobile phones (휴대폰용 멀티모달 인터페이스 개발 - 키패드, 모션, 음성인식을 결합한 멀티모달 인터페이스)

  • Kim, Won-Woo
    • 한국HCI학회:학술대회논문집
    • /
    • 2008.02a
    • /
    • pp.559-563
    • /
    • 2008
  • The purpose of this paper is to introduce a multimodal interface for mobile phones and to verify its feasibility. The multimodal interface integrates multiple input devices together including speech, keypad and motion. It can enhance the late and time for speech recognition, and shorten the menu depth.

  • PDF

Improvement in Korean Speech Recognition using Dynamic Multi-Group Mixture Weight (동적 다중 그룹 혼합 가중치를 이용한 한국어 음성 인식의 성능향상)

  • 황기찬;김종광;김진수;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.544-546
    • /
    • 2002
  • 본 논문은 CDHMM(Continuous Density Hidden Markov Model)의 훈련하는 방법을 동적 다중 그룹 혼합 가중치(Dynamic Mutli-Group mixture weight)을 이용하여 재구성하는 방법을 제안한다. 음성은 Hidden 상태열에 의하여 특성화되고, 각 상태는 가중된 혼합 가우시안 밑도 함수에 의해 표현된다. 음성신호를 더욱더 정확하게 계산하려면 각 상태를 위한 가우시안 함수를 더욱더 많이 사용해야 하며 이것은 많은 계산량이 요구된다. 이러한 문제는 가우시안 분포 확률의 통계적인 평균을 이용하면 계산량을 줄일 수 있다. 그러나 이러한 기존의 방법들은 다양한 화자의 발화속도와 가중치의 적용이 적합하지 못하여 인식률을 저하시키는 단점을 가지고 있다. 이 문제를 다양한 화자의 발화속도에 적합하도록 화자의 화자의 발화속도에 따라 동적으로 5개의 그룹으로 구성하고 동적 다중 그룹 혼합 가중치를 적용하여 CDHMM 파라미터를 재구성함으로써 8.5%의 인식율이 증가되었다.

  • PDF

Design of a Variable half rate speech codec (가변율 half rate 음성 부호화기의 설계)

  • 성호상
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.293-296
    • /
    • 1998
  • 본 논문에서는 다양한 멀티미디어 서비스를 위해 가변율 half rate 음성 부호화기를 설계하였다. 유, 무성음과 묵음의 구분을 위해 본 논문에서는 프레임 에너지와 음성 파라메터들을 이용한 효과적인 voicing 결정 알고리즘을 사용하였다. 유성음을 위한 half rate 음성 부호화기는 저속에서 좋은 특성을 보이는 generalized AbS구조를 이용하였다. LPC 계수는 LSP 계수로 변환한 후 predictive 2-stage VQ를 통해서 양자화하며, 여기 신호는 음질저하를 최소화하며 복잡도를 감소시킨 shift 방식의 대수적 고정 코드북 구조를 사용하고, 적응코드북과 여기코드북의 이득은 VQ로 양자화 하였다. 무성음을 위한 부호화기는 대부분이 유성음을 위한 부호화기와 동일하지만, 무성음에서는 피치간 상관도가 매우 낮으므로 피치 보간 방법을 사용하지 않고 개루프로 피치 lag를 찾은 후 전체 프레임에 사용한다. 1 kb/s 부호화기는 묵음 구간과 주변소음 구간에 사용되며 이 구간의 신호를 피치 성분이 미약한 주변소음들로 제한하고 이에 최적인 부음성 부호화기를 설계하였다. 최종적으로 완성된 가변율 half rate 부호화기는 voice activity factor(VAF)가 0.47인 시험음성에서 약 2.6 kb/s의 평균 전송률을 보였다. 주관적 음질 평가의 일환으로 IS-96 표준 코덱인 가변율 8 kb/s QCELP와 A-B preference 시험을 실시하였다. 시험 결과 평균전송률이 약 2배인 가변율 8 kb/s QCELP 보다 우수한 음질 성능을 보였다.

  • PDF

밀리미터파용 소형 안테나 기술

  • 이재욱
    • The Proceeding of the Korean Institute of Electromagnetic Engineering and Science
    • /
    • v.16 no.2 s.54
    • /
    • pp.32-46
    • /
    • 2005
  • 통신시스템이 진보되고 다양화 되어감에 따라 안테나의 구조, 성능도 응용목적에 맞게 개선되어 왔다. 특히, 음성 및 멀티미디어 응용을 위한 고속 데이터 서비스(high speed data services), 고정 및 이동서비스를 위한 시스템 요구사항들이 점점 증가하고 있으며 그 결과로 밀리미터파 대역에서 동작하는 광대역 멀티미디어 무선 접속 기술이 출현하게 되었다. 본 논문에서는 소형, 경박이면서 밀리미터파 대역에서 광대역 특성을 가지는 안테나의 종류 및 구조에 관하여 설명하고, 패키지화 될 때 필수적인 저손실 전송선로 구조에 대해서 언급한다.