• Title/Summary/Keyword: 음성레벨

Search Result 138, Processing Time 0.026 seconds

Audio Mixer Algorithm for Enhancing Speech Quality of Multi-party Audio Telephony (다자간 음성통화 품질 향상을 위한 오디오 믹서 알고리즘)

  • Ryu, Sang-Hyeon;Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • v.32 no.6
    • /
    • pp.541-547
    • /
    • 2013
  • The speech quality of multi-party audio telephony between two, three or more participants is decreased by audio volume imbalance, audio volume saturation and noise level increase. To solve this issue, this paper proposes an advanced audio mixing algorithm for software-based multi-point control unit. Our approach is based on the combined voice activity detection and gain control technique that consists of a set of algorithms that classify audio signals, estimate audio volumes, adjust gain factors and mix audio signals of all channels. The proposed audio mixing algorithm is computationally efficient, delivers high-quality speech, and is suitable for use in any practical multi-party audio telephony.

Implementation of MPEG4-CELP Vocoder for Speech Codec of Internet Video Phone (인터넷 화상 전화용 음성 코텍을 위한 MPEG4-CELP 부호화기의 구현)

  • 김병수;김동형;강경옥;홍진우;정재호
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.119-122
    • /
    • 2000
  • 인터넷이 일상생활에 다양하게 활용되면서 인터넷 채널을 통한 정보의 형태는 문자와 이미지 외에 음성, 오디오 신호 및 동영상 부분까지 확대되고 있다. 본 논문에서는 MPEG4-CELP를 인터넷 화상 통신의 음성 코덱용으로 사용하기 위한 최적화 기법 및 알고리듬의 개선을, DSP칩이 내장된 보드가 아닌 인터넷의 터미널로 사용되고 있는 펜티엄 프로세서를 장착한 PC에 초점을 맞추어 수행하였다. MPEG4-CELP VM C소스를 분석 및 프로파일(Profile)한 결과를 토대로 패라미터 추출을 위해 많은 연산을 수행하는 부호화기에 대해서 CPU상에 부하를 많이 주는 함수들을 제 1차 최적화 대상 함수들로 선정하고, CPU에 부하를 많이 주지는 않으나 호출되는 회수가 많은 함수를 2차 최적화 대상 함수로 선정해, C소스 레벨의 소프트웨어 파이프 라이닝(Software Pipelinging) 기법들을 적용하여 최적화를 수행하였다. 또한 1차 최적화 대상 함수의 경우에는 소프트웨어 파이프라이닝의 적용과 함께 연산량 감소를 위한 알고리듬 변형까지 수행하였다. 위의 과정을 거쳐 최적화 된 MPEG4-CELP는 펜티엄Ⅲ 450㎒ PC에서 음성을 부호화 하는데 원 VM소스에 비해 약 2배정도의 시간이 단축되는 것을 확인하였다.

  • PDF

An Automatic Diphone Segmentation for Korean Speech Synthesis-by-Rule (한국어 규칙 합성을 위한 다이폰의 자동 추출)

  • 정인종;경연정;김한우;이양희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.2E
    • /
    • pp.63-72
    • /
    • 1993
  • 본 논문에서는 무제한 음성 생성을 위한 단위음성으로서의 다이폰을 2음절 자연음성으로부터 자동 추출하는 알고리즘을 제안한다. 입력음성을 개량 켑스트럼 파라미터로 분석하여 이로부터 다이폰 추출 파라미터들을 도출한다. 제안된 파라미터로는 에너지 레벨을 나타내는 0차 켑스트럼의 동적변화량, 스펙트럼의 시간 변화량 영교차율, 캡스트럼의 유클리디안 거리이다. 스펙트럼 포락의 변화가 완만한 모음 연쇄등의 음소 경계를 보다 효율적으로 검출하기 위해 스펙트럼의 시간 변화를 미세부분과 개형부분으로 나누어 각각을 파라미터로 사용한다. VV(모음연쇄), VCV(C: 반모음, 자음), VCCV형들로 이루어진 2음절 단어들에 대해 실험한 결과, 모음연쇄 등이 포함되어 있음에도 약 85% 정확도의 음소경계검출을 얻었다. 본 논문에 의한 다이폰을 이용한 합성음의 청취실험 결과 명료도가 높음을 확인하였다.

  • PDF

Design and Manufacture of a Device for the Recognition of Long Vowels (장모음 인식장치 설계 제작)

  • 구용회
    • Journal of the Korean Institute of Telematics and Electronics T
    • /
    • v.35T no.3
    • /
    • pp.9-14
    • /
    • 1998
  • The speech recognition on long vowels are carried out by electric circuits. A level compressor is able to transform the wave of voice to serial pulses. The obtained pulses have informations to distinguish the vowels. The sampling of the pulses is carried out by the register which picks up a series of serial signals in a pitch of a vowel as an unit. The timing control pulses such as sampling pulses are generated by using peak pulses in the speech wave. The parallel data in the register assign the phonetic symbol by means of the decision making circuit which carries out the IF-THEN rule.

  • PDF

Implementation of Bluetooth-VoIP Integration System Based Embedded Linux (RTOS 리눅스 환경에서의 Bluetooth-VoIP 통합 시스템 구현)

  • Yun, Jung-Mee;Cho, We-Duke;Kim, Dae-Hwan;Lee, Sang-Hak;Kim, Yong-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11b
    • /
    • pp.1371-1374
    • /
    • 2002
  • 본 논문에서는 내장형 리눅스를 기반으로 무선 네트웍과 실시간 음성처리 VoIP 와의 연동시스템을 설계 구현한다. 설계 구현하는 시스템의 하드웨어 스펙은 Motorola-XPC860 프로세서를 기반으로 설계되었으며, 음성 코덱칩을 사용하여 실시간으로 음성데이터를 처리하도록 설계하였다. 또한 2.4GHz 무선 통신 규약인 Bluetooth 를 무선 네트웍 인터페이스로 사용하였다. 실시간 음성데이터의 효과적인 처리를 위하여 실시간 운영 체제인 RTLinux 를 사용하였으며, 무선 네트워크의 동시다중 서비스 지원을 위해 커널레벨의 문자 디바이스 형태로의 Bluetooth 인터페이스 구현에 대해 살펴보도록 하겠다.

  • PDF

A Study on Regression Class Generation of MLLR Adaptation Using State Level Sharing (상태레벨 공유를 이용한 MLLR 적응화의 회귀클래스 생성에 관한 연구)

  • 오세진;성우창;김광동;노덕규;송민규;정현열
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.8
    • /
    • pp.727-739
    • /
    • 2003
  • In this paper, we propose a generation method of regression classes for adaptation in the HM-Net (Hidden Markov Network) system. The MLLR (Maximum Likelihood Linear Regression) adaptation approach is applied to the HM-Net speech recognition system for expressing the characteristics of speaker effectively and the use of HM-Net in various tasks. For the state level sharing, the context domain state splitting of PDT-SSS (Phonetic Decision Tree-based Successive State Splitting) algorithm, which has the contextual and time domain clustering, is adopted. In each state of contextual domain, the desired phoneme classes are determined by splitting the context information (classes) including target speaker's speech data. The number of adaptation parameters, such as means and variances, is autonomously controlled by contextual domain state splitting of PDT-SSS, depending on the context information and the amount of adaptation utterances from a new speaker. The experiments are performed to verify the effectiveness of the proposed method on the KLE (The center for Korean Language Engineering) 452 data and YNU (Yeungnam Dniv) 200 data. The experimental results show that the accuracies of phone, word, and sentence recognition system increased by 34∼37%, 9%, and 20%, respectively, Compared with performance according to the length of adaptation utterances, the performance are also significantly improved even in short adaptation utterances. Therefore, we can argue that the proposed regression class method is well applied to HM-Net speech recognition system employing MLLR speaker adaptation.

Voice Dialing System using Speaker Dependent Recognition for Korean Digit Speech (화자 종속 한국어 숫자음 음성 인식 다이얼링 시스템)

  • Park, Kee-Young;Shin, You-Shik;Kim, Chong-Kyo
    • Journal of the Korean Institute of Telematics and Electronics T
    • /
    • v.36T no.2
    • /
    • pp.56-62
    • /
    • 1999
  • This paper described a voice dialing system(VDS) and its hardware implementation for a speaker-dependent recognition of Korean digit speech using duty cycle. The proposed VDS consist of integrator, leveling divider circuit and recognition program. The analog speech signal is applied to the VDS through the low-pass filter cutoff frequency is 4.5(kHz). It is thoroughly confirmed that the speaker-dependent recognition of Korean digit speech is well behaved by the hardware system. Experimental results show that the recognition rate is 64% in average for Korean digit speech. Moreover, a high recognition rate of 100% is obtained for digits; /4/, /5/, /6/, /7/, /9/, /0/.

  • PDF

On an Adaptation of Announcement Sound Level in White Noise Environment (백색소음 환경에서 음성안내레벨 적응에 관한 연구)

  • Yun, Jong-Jin;Bae, Myung-Jin
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.49 no.1
    • /
    • pp.112-118
    • /
    • 2012
  • In daily life, there are many information broadcasting by using voice information systems. If surrounding noises are mixed with the information signals, the clarity of the signal become down graded too much to understand. Surrounding noises are not uniformed, but very irregular signals always changing. Therefore, it is very hard to control the output signals along with the irregular signals. This paper suggests a method to change the level of the voice information adapting to the surround noise in the white noise environment. The surround noise level is measured by subtracting the stored output voice signal from the voice signal degraded by the noise. The noise is used to estimation of SNR. And, the method to change the output level of voice signal adapting to the noise level. The suggested adaptive voice information system has the advantage to improve listeners' speech perception and to use amplifier's energy effectively.

A Study on the Intelligent Man-Machine Interface System: The Experiments of the Recognition of Korean Monotongs and Cognitive Phenomena of Korean Speech Recognition Using Artificial Neural Net Models (통합 사용자 인터페이스에 관한 연구 : 인공 신경망 모델을 이용한 한국어 단모음 인식 및 음성 인지 실험)

  • Lee, Bong-Ku;Kim, In-Bum;Kim, Ki-Seok;Hwang, Hee-Yeung
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.101-106
    • /
    • 1989
  • 음성 및 문자를 통한 컴퓨터와의 정보 교환을 위한 통합 사용자 인터페이스 (Intelligent Man- Machine interface) 시스템의 일환으로 한국어 단모음의 인식을 위한 시스템을 인공 신경망 모델을 사용하여 구현하였으며 인식시스템의 상위 접속부에 필요한 단어 인식 모듈에 있어서의 인지 실험도 행하였다. 모음인식의 입력으로는 제1, 제2, 제3 포르만트가 사용되었으며 실험대상은 한국어의 [아, 어, 오, 우, 으, 이, 애, 에]의 8 개의 단모음으로 하였다. 사용한 인공 신경망 모델은 Multilayer Perceptron 이며, 학습 규칙은 Generalized Delta Rule 이다. 1 인의 남성 화자에 대하여 약 94%의 인식율을 나타내었다. 그리고 음성 인식시의 인지 현상 실험을 위하여 약 20개의 단어를 인공신경망의 어휘레벨에 저장하여 음성의 왜곡, 인지시의 lexical 영향, categorical percetion등을 실험하였다. 이때의 인공 신경망 모델은 Interactive Activation and Competition Model을 사용하였으며, 음성 입력으로는 가상의 음성 피쳐 데이타를 사용하였다.

  • PDF

Voice Activity Detection in Noisy Environment using Speech Energy Maximization and Silence Feature Normalization (음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출)

  • Ahn, Chan-Shik;Choi, Ki-Ho
    • Journal of Digital Convergence
    • /
    • v.11 no.6
    • /
    • pp.169-174
    • /
    • 2013
  • Speech recognition, the problem of performance degradation is the difference between the model training and recognition environments. Silence features normalized using the method as a way to reduce the inconsistency of such an environment. Silence features normalized way of existing in the low signal-to-noise ratio. Increase the energy level of the silence interval for voice and non-voice classification accuracy due to the falling. There is a problem in the recognition performance is degraded. This paper proposed a robust speech detection method in noisy environments using a silence feature normalization and voice energy maximize. In the high signal-to-noise ratio for the proposed method was used to maximize the characteristics receive less characterized the effects of noise by the voice energy. Cepstral feature distribution of voice / non-voice characteristics in the low signal-to-noise ratio and improves the recognition performance. Result of the recognition experiment, recognition performance improved compared to the conventional method.