• Title/Summary/Keyword: 음성레벨

Search Result 138, Processing Time 0.023 seconds

측음 및 주위소음과 송화 음성레벨과의 상관

  • Gang, Gyeong-Ok;Gang, Seong-Hun
    • Electronics and Telecommunications Trends
    • /
    • v.6 no.3
    • /
    • pp.101-109
    • /
    • 1991
  • 전화통화시, 송화측음에 따른 송화자의 음성레벨의 변화와 송화시 전화기를 통한 실내소음에 따른 음성레벨의 변화에 대해 알아보았다. 그 결과, 송화자는 항상 자신의 귀로 되돌아 오는 음성의 심리적 크기를 일정하게 유지하려는 모니터 기능을 보여, 측음의 크기와 송화시 실내소음의 크기에 따라 자신의 음성레벨을 제어하는 경향을 보였다.

Speech recognition in car noise environments using multiple models according to noise masking levls (잡음 마스킹 레벨에 따른 복수 모델을 이용한 자동차 소음환경에서의 음성인식)

  • 정회인
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.60-64
    • /
    • 1998
  • 음성인식 시스템의 실용화 과정에서 훈련환경과 테스트 환경의 불일치로 인한 인식성능의 저하는 반드시 극복되어야 할 문제이다. 본 논문에서는 잡음 tR인 입력음성의 비음성구간에서 잡음레벨을 추정하여 음성 스펙트럼에서 추정된 잡음레벨을 빼는 스펙트럼 차감법고 스펙트럼 영역에서 미리 정해진 마스킹 레벨보다 낮은 에너지 값을 마스킹 레벨로 올려주는 잡음 마스킹을 함께 사용함으로써 훈련 환경과 테스트환경의 불일치를 줄이는 방법을 제안한다. 그리고 복수의 마스킹 레벨에 대한 모델들을 미리 만들어 두고 추정된 잡음 레벨에 따라 적합한 마스킹 레벨의 보델을 사용하여 인식을 수해?는 다중 모델 방법을 적용하였다. 자동차 소음환경에서 두 가지 마스킹 레벨에 대한 모델을 이용한 화자독립고립단어 인식 실험을 통하여 본 논문에서 제안한 방식은 정차중 무시동 환경에서 95.8%, 정차중 시동 환경에서 95.6%, 한적한 도로환경에서 92.8%, 복잡한 시내도로 환경에서 89.6%, 고속도로 환경에서 74.4%의 인식성능을 나타내었으며, 평균 90.7%의 성능을 얻을 수 있다.

  • PDF

Effects of Talker Sidetone and Room Noise on the Speech Level of a Talker (송화측음 및 실내소음이 송화 음성레벨에 미치는 영향)

  • Kang, Kyeong-Ok;Kang, Seong-Hoon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.11 no.1
    • /
    • pp.52-59
    • /
    • 1992
  • In order to see the effects of talker sidetone on a talker's speech level quantitatively when he converses with others on a telephone, we reviewed the measuring algorithm of speech level and assessed variation of speech level due to that of sidetone masking rating(STMR). We measured room noise effects on speech level, when STMR values were changed, as well. If we consider the effects of talker sidetone and room noise on speech level, the results of experiments suggest that a talker continuously tries to keep the psychological loudness of his own speech, heard by himeself via a telephone handset, at the constant and comfortable level by controlling his speaking level according as STMR value and room noise are change. That is, because the amount of his speech masked by his talker sidetone and room noise is different when STMR value and room noise are changed, we can see the tendency that he controls his speaking level in order to keep the perceived psychological loudness of his own speech to be constant.

  • PDF

A Study on the relation of closed pitch for Noise-Level Measurement (음성의 잡음레벨 추정을 위한 피치간 유사도 측정에 관한 연구)

  • Kang InGyu;Kang SungMo;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.73-76
    • /
    • 2004
  • 인간은 "습관적 피치 레벨" 즉 자연스럽게 말할 때 평균적으로 사용하는 피치를 갖는다. 하지만 음성에 잡음이 첨가되면 이 피치가 불규칙하게 바뀌게 된다. 이점을 이용하여 음성의 잡음레벨을 측정할 수 있다. 본 논문에서는 입력음성의 에너지를 구하고 일정 에너지레벨 이상에서의 구간에 대해 NAMDF(Normalized Average Magnitude Difference Function)방법으로 피치를 구하고, 각 프레임을 피치단위로 분절한 뒤 인근 피치간의 유사도를 측정하여 입력음성데이터의 잡음레벨을 검출하는 방법을 제안하였다.

  • PDF

A Study on the Noise-Level Measurement using the Energy and relation of closed pitch (에너지와 인근피치간에 유사도를 이용한 잡음레벨 검출에 관한 연구)

  • Kang InGyu;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.77-80
    • /
    • 2004
  • 인간은 "습관적 피치 레벨" 즉 자연스럽게 말할 때 평균적으로 사용하는 피치를 갖는다. 하지만 음성에 잡음이 첨가 되면 이 피치가 불규칙하게 바뀌게 된다. 이점을 이용하여 음성의 잡음레벨을 측정할 수 있다. 본 논문에서는 입력음성의 에너지를 구하고 일정 에너지레벨 이상에서의 구간에 대해 NAMDF(Normalized Average Magnitude Difference Function)방법으로 피치를 구하고, 각 프레임을 피치단위로 분절한 뒤 인근 피치간의 유사도를 측정하여 입력음성데이터의 잡음레벨을 검출하는 방법을 제안하였다.

  • PDF

Comparison of Sound Pressure Level and Speech Intelligibility of Emergency Broadcasting System at Longitudinal Corridor (장방향 복도 공간의 비상방송설비에 대한 음압 레벨과 음성 명료도 비교)

  • Jeong, Jeong-Ho;Lee, Sung-Chan
    • Fire Science and Engineering
    • /
    • v.32 no.4
    • /
    • pp.42-49
    • /
    • 2018
  • In this study, in order to investigate whether or not the emergency broadcasting sound generated from an emergency broadcasting speaker is clearly transmitted to the occupant through architectural sound simulation, when the loudspeaker for emergency broadcasting is installed at intervals of 25 m according to NFSC 202 for a rectangular hallway. The sound pressure level and speech intelligibility index were analyzed according to changes in building finishing materials. With a reflective material finishing, sound pressure level satisfied the standard while speech intelligibility index was low. As a result of applying the sound absorbing material finishing, clarity and speech transmission index was improved to a level that could be understood by the occupant, whereas the sound pressure level delivered to the occupant decreased in the same space.

Acoustic Properties of the Jeonju World Cup Stadium (전주월드컵 경기장의 음향특성 평가)

  • Yeon Chul-Ho;Haan Chan-Hoon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.495-500
    • /
    • 2002
  • 전주월드컵 경기장은 Fully Digital sidelobe-free array 방식의 음향시스템을 도입한 유일한 경기장으로서 대규모 경기장에 Line Array type의 스피커를 사용한 최초의 예가 된다. 현장음향실험을 통하여 경기장의 주요 음향 파라미터인 음압레벨(SPL), 잔향시간(RT), 음성명료도(D50), 음성이해도(RASTI) 등을 측정함으로 전주월드컵 경기장의 음향시스템의 특성과 종합적인 음향성능을 알아보고자 한다. 주음원(Messenger)만 사용하여 실험한 결과 음압레벨(SPL)은 관중석의 객석간 위치별 음압레벨 표준편차가 약 2.78dB로 나타났다. 이 값은 당초의 음압레벨분포편차의 목표치인 ${\pm}3dB$의 범위 이내로 나타났다. 또한 최대음압레벨은 평균 100.1dB로 목표치인 96dB을 초과하는 것으로 나타났다. 잔향시간(RT)은 공석시 전체 관중석 평균 2.94초로 나타났으며, 1000Hz에서의 평균 잔향시간은 2.58초로 나타났다. 잔향시간은 실제 경기장의 사용 시 약 0.3-0.4초의 감소가 발생되리라 판단된다. 음성명료도(D50)는 전체 관중석 평균 $56.2\%$로 매우 양호한 상태로 나타났고 음성이해도(RASTI)는 전체 관중석 평균 0.63으로 목표치인 0.5를 상회하는 것으로 나타났다. 이상의 현장음향실험 결과를 분석한 결과 전주월드컵 경기장의 음향성공은 음향설계 요건을 만족하는 것으로 나타났고 야외 경기장 같은 대형공간에서의 음향시스템에 있어서 Fully Digital sidelobe-free array 방식의 음향시스템의 적용가능성을 보여주고 있는 것으로 나타났다.

  • PDF

Speech syntheis engine for TTS (TTS 적용을 위한 음성합성엔진)

  • 이희만;김지영
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.23 no.6
    • /
    • pp.1443-1453
    • /
    • 1998
  • This paper presents the speech synthesis engine that converts the character strings kept in a computer memory into the synthesized speech sounds with enhancing the intelligibility and the naturalness by adapting the waveform processing method. The speech engine using demisyllable speech segments receives command streams for pitch modification, duration and energy control. The command based engine isolates the high level processing of text normalization, letter-to-sound and the lexical analysis and the low level processing of signal filtering and pitch processing. The TTS(Text-to-Speech) system implemented by using the speech synthesis engine has three independent object modules of the Text-Normalizer, the Commander and the said Speech Synthesis Engine those of which are easily replaced by other compatible modules. The architecture separating the high level and the low level processing has the advantage of the expandibility and the portability because of the mix-and-match nature.

  • PDF

Implementation of Automatic Microphone Volume Controller and Recognition Rate Improvement (자동 입력레벨 조절기의 구현 및 인식 성능 향상)

  • 김상진;한민수
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.503-506
    • /
    • 2001
  • In this paper, we describe the implementation of a microphone input level control algorithm and the speech improvement with this level controller in personal computer environment. The volume of speech obtained through a microphone affects the speech recognition rate directly. Therefore, proper input volume level control is desired fur better recognition. We considered some conditions for the successful volume controller implementation firstly, then checked its usefulness on our speech recognition system with common office environment speech database. Cepstral mean subtraction is also utilized far the channel-effect compensation of the database. Our implemented controller achieved approximately 50% reduction, i.e., improvement in speech recognition error rate.

  • PDF

Enhancement of SBR for Speech Signal Using Adaptive Noise Floor Level (가변 잡음 레벨을 이용한 음성신호에 대한 SBR 성능 항상 기술)

  • Lee, Se-Won;Oh, Seoung-Jun;Ahn, Chang-Beom;Lee, Tae-Jin;Kang, Kyoung-Ok;Park, Ho-Chong
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.2
    • /
    • pp.148-154
    • /
    • 2009
  • In audio coding, SBR technology synthesizes the high-bands using patched time-frequency information from low-bands and the correction parameters, Since SBR transmits only correction parameters for high-bands, it provides a low-rate coding of high-bands, and is used as a core module of MPEG-4 HE-AAC, SBR was originally designed for audio signal and its performance for speech signal tends to decrease, and the major reason is an excessive noise floor in high-bands which is caused by incorrect tonality computation, In this paper, a new method to determine noise floor level in an adaptive fashion according to the speech characteristics is proposed in order to solve the problem of SBR for speech signal, The proposed method maintains the compatibility with the standard SBR, and the subjective performance evaluation shows that the proposed method improves the SBR performance especially for male speech signal compared with the standard SBR.