• 제목/요약/키워드: 음성레벨

검색결과 138건 처리시간 0.026초

측음 및 주위소음과 송화 음성레벨과의 상관

  • 강경옥;강성훈
    • 전자통신동향분석
    • /
    • 제6권3호
    • /
    • pp.101-109
    • /
    • 1991
  • 전화통화시, 송화측음에 따른 송화자의 음성레벨의 변화와 송화시 전화기를 통한 실내소음에 따른 음성레벨의 변화에 대해 알아보았다. 그 결과, 송화자는 항상 자신의 귀로 되돌아 오는 음성의 심리적 크기를 일정하게 유지하려는 모니터 기능을 보여, 측음의 크기와 송화시 실내소음의 크기에 따라 자신의 음성레벨을 제어하는 경향을 보였다.

잡음 마스킹 레벨에 따른 복수 모델을 이용한 자동차 소음환경에서의 음성인식 (Speech recognition in car noise environments using multiple models according to noise masking levls)

  • 정회인
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.60-64
    • /
    • 1998
  • 음성인식 시스템의 실용화 과정에서 훈련환경과 테스트 환경의 불일치로 인한 인식성능의 저하는 반드시 극복되어야 할 문제이다. 본 논문에서는 잡음 tR인 입력음성의 비음성구간에서 잡음레벨을 추정하여 음성 스펙트럼에서 추정된 잡음레벨을 빼는 스펙트럼 차감법고 스펙트럼 영역에서 미리 정해진 마스킹 레벨보다 낮은 에너지 값을 마스킹 레벨로 올려주는 잡음 마스킹을 함께 사용함으로써 훈련 환경과 테스트환경의 불일치를 줄이는 방법을 제안한다. 그리고 복수의 마스킹 레벨에 대한 모델들을 미리 만들어 두고 추정된 잡음 레벨에 따라 적합한 마스킹 레벨의 보델을 사용하여 인식을 수해?는 다중 모델 방법을 적용하였다. 자동차 소음환경에서 두 가지 마스킹 레벨에 대한 모델을 이용한 화자독립고립단어 인식 실험을 통하여 본 논문에서 제안한 방식은 정차중 무시동 환경에서 95.8%, 정차중 시동 환경에서 95.6%, 한적한 도로환경에서 92.8%, 복잡한 시내도로 환경에서 89.6%, 고속도로 환경에서 74.4%의 인식성능을 나타내었으며, 평균 90.7%의 성능을 얻을 수 있다.

  • PDF

송화측음 및 실내소음이 송화 음성레벨에 미치는 영향 (Effects of Talker Sidetone and Room Noise on the Speech Level of a Talker)

  • 강경옥;강성훈
    • 한국음향학회지
    • /
    • 제11권1호
    • /
    • pp.52-59
    • /
    • 1992
  • 전화통화시에 송화측음과 실내소음에 따른 송화자의 음성레벨의 변화를 정량적으로 파악하기 위하여, 음성레벨 측정 알고리즘을 고찰하고, 송화측음과 실내소음의 함수로 송화 음성레벨을 측정하였다. 그 결과, 송화측음의 변화에 따라 송화자는 자신의 음성이 송화측음에 의해 마스킹되는 비율에 따라 음성레벨을 조절하여, 항상 자신의 귀로 되돌아오는 음성의 심리적 크기를 일정하게 유지하려는 모니터 기능을 보였다. 또한 송화기를 통한 실내소음이 측음의 변화에 따라 음성레벨에 미치는 영향에 대해서도 알아 본 결과, 실내소음이 증가할수록 피험자는 무의식적으로 송화시 전화기 핸드셋을 통한 자신의 음성이 소음에 의해 마스크되는 양만큼 자신의 음성을 크게 하여, 수화기를 통해 자신의 귀에 되돌아오는 심리적인 음성의 크기를 일정하게 유지하려는 경향을 보였다.

  • PDF

음성의 잡음레벨 추정을 위한 피치간 유사도 측정에 관한 연구 (A Study on the relation of closed pitch for Noise-Level Measurement)

  • 강인규;강성모;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.73-76
    • /
    • 2004
  • 인간은 "습관적 피치 레벨" 즉 자연스럽게 말할 때 평균적으로 사용하는 피치를 갖는다. 하지만 음성에 잡음이 첨가되면 이 피치가 불규칙하게 바뀌게 된다. 이점을 이용하여 음성의 잡음레벨을 측정할 수 있다. 본 논문에서는 입력음성의 에너지를 구하고 일정 에너지레벨 이상에서의 구간에 대해 NAMDF(Normalized Average Magnitude Difference Function)방법으로 피치를 구하고, 각 프레임을 피치단위로 분절한 뒤 인근 피치간의 유사도를 측정하여 입력음성데이터의 잡음레벨을 검출하는 방법을 제안하였다.

  • PDF

에너지와 인근피치간에 유사도를 이용한 잡음레벨 검출에 관한 연구 (A Study on the Noise-Level Measurement using the Energy and relation of closed pitch)

  • 강인규;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.77-80
    • /
    • 2004
  • 인간은 "습관적 피치 레벨" 즉 자연스럽게 말할 때 평균적으로 사용하는 피치를 갖는다. 하지만 음성에 잡음이 첨가 되면 이 피치가 불규칙하게 바뀌게 된다. 이점을 이용하여 음성의 잡음레벨을 측정할 수 있다. 본 논문에서는 입력음성의 에너지를 구하고 일정 에너지레벨 이상에서의 구간에 대해 NAMDF(Normalized Average Magnitude Difference Function)방법으로 피치를 구하고, 각 프레임을 피치단위로 분절한 뒤 인근 피치간의 유사도를 측정하여 입력음성데이터의 잡음레벨을 검출하는 방법을 제안하였다.

  • PDF

장방향 복도 공간의 비상방송설비에 대한 음압 레벨과 음성 명료도 비교 (Comparison of Sound Pressure Level and Speech Intelligibility of Emergency Broadcasting System at Longitudinal Corridor)

  • 정정호;이성찬
    • 한국화재소방학회논문지
    • /
    • 제32권4호
    • /
    • pp.42-49
    • /
    • 2018
  • 본 연구에서는 건축음향시뮬레이션을 통하여 재실자에게 비상방송 설비에서 발생되는 비상 방송음이 명확하게 전달되는지를 알아보기 위하여 장방형 복도를 대상으로 NFSC 202의 기준에 따라 25 m 간격으로 비상 방송용 확성기가 설치되었을 때 건축마감재료 변경에 따라 음압레벨, 음성명료도 지표를 비교분석하였다. 마감재료로 흡음특성이 낮은 재료를 적용한 경우 충분한 음압 레벨은 확보할 수 있었지만, 재실자가 비상 방송음을 알아듣기 매우 어려운 수준의 음성명료도를 보였다. 마감재료로 흡음재료를 적용함에 따라 음성 명료도, 음성 전달 지수는 재실자가 잘 알아들을 수 있는 수준으로 개선이 가능한 것으로 나타났지만 재실자에게 전달되는 음압 레벨이 감소되며 같은 공간 내 레벨 차이가 크게 발생되는 것으로 나타났다. 따라서 흡음재료를 사용하여 음성명료도를 확보하고자 할 경우 고른 음압 레벨 분포를 확보하기 위하여 비상 방송용 확성기를 설치간격 조정 등이 필요한 것으로 나타났다.

전주월드컵 경기장의 음향특성 평가 (Acoustic Properties of the Jeonju World Cup Stadium)

  • 연철호;한찬훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.495-500
    • /
    • 2002
  • 전주월드컵 경기장은 Fully Digital sidelobe-free array 방식의 음향시스템을 도입한 유일한 경기장으로서 대규모 경기장에 Line Array type의 스피커를 사용한 최초의 예가 된다. 현장음향실험을 통하여 경기장의 주요 음향 파라미터인 음압레벨(SPL), 잔향시간(RT), 음성명료도(D50), 음성이해도(RASTI) 등을 측정함으로 전주월드컵 경기장의 음향시스템의 특성과 종합적인 음향성능을 알아보고자 한다. 주음원(Messenger)만 사용하여 실험한 결과 음압레벨(SPL)은 관중석의 객석간 위치별 음압레벨 표준편차가 약 2.78dB로 나타났다. 이 값은 당초의 음압레벨분포편차의 목표치인 ${\pm}3dB$의 범위 이내로 나타났다. 또한 최대음압레벨은 평균 100.1dB로 목표치인 96dB을 초과하는 것으로 나타났다. 잔향시간(RT)은 공석시 전체 관중석 평균 2.94초로 나타났으며, 1000Hz에서의 평균 잔향시간은 2.58초로 나타났다. 잔향시간은 실제 경기장의 사용 시 약 0.3-0.4초의 감소가 발생되리라 판단된다. 음성명료도(D50)는 전체 관중석 평균 $56.2\%$로 매우 양호한 상태로 나타났고 음성이해도(RASTI)는 전체 관중석 평균 0.63으로 목표치인 0.5를 상회하는 것으로 나타났다. 이상의 현장음향실험 결과를 분석한 결과 전주월드컵 경기장의 음향성공은 음향설계 요건을 만족하는 것으로 나타났고 야외 경기장 같은 대형공간에서의 음향시스템에 있어서 Fully Digital sidelobe-free array 방식의 음향시스템의 적용가능성을 보여주고 있는 것으로 나타났다.

  • PDF

TTS 적용을 위한 음성합성엔진 (Speech syntheis engine for TTS)

  • 이희만;김지영
    • 한국통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.1443-1453
    • /
    • 1998
  • 본 논문은 컴퓨터에 입력된 문자정보를 음성정보로 변환하기 위한 음성합성엔진에 관한 것이며, 특히 명료성의 향상을 위해 파형처리 음성합성방식을 이용한다. 음성합성엔진은 컴맨드 스트림의 제어에 따라 자연성의 향상을 위한 피치조절, 길이 및 에너지 등을 제어하며 음성합성단위로서 반음절을 사용한다. 엔진에서 사용 가능한 컴맨드를 프로그램하여 음성합성엔진에 입력함으로서 음성을 합성하는 빙식은 구문분석, 어휘분석 등의 하이레벨과 파형의 편집 가공 등의 로우레벨을 완전 분리하므로 시스템의 융통성과 확장성을 높인다. 또한 TTS시스템의 적용에 있어 각 모듈을 객체/컴포넌트(Object/Component)로 각 모듈이 상호 독립적으로 작동되도록 하여 쉽게 대체가 가능하다. 하이 레벨과 로우 레벨을 분리하는 소프트웨어 아키택처는 음성합성 연구에 있어 각각 여러 분야별로 독립적으로 연구수행이 가능하여 연구의 효율성을 높이며 여러 소프트웨어의 조합사용(Mix-and-Match)이 가능하여 확장성과 이식성을 향상시킨다.

  • PDF

자동 입력레벨 조절기의 구현 및 인식 성능 향상 (Implementation of Automatic Microphone Volume Controller and Recognition Rate Improvement)

  • 김상진;한민수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.503-506
    • /
    • 2001
  • 본 논문에서는 마이크 입력레벨 조절기의 구현과 이를 이용한 인식률의 향상을 다룬다. 마이크를 통한 음성 입력이 너무 작거나 너무 크면 인식률에 직접 영향을 미치므로 인식에 적합한 입력레벨로 조절할 필요가 있다. 자동 입력레벨 조절기의 구현을 위해 고려할 사항을 연구했으며, 이를 통해 PC환경의 입력레벨 조절기를 구현했다. 수집된 음성 데이터베이스는 켑스트럼 평균차감법(CMS)을 이용하여 채널왜곡을 보상했으며, 구현된 조절기를 이용하여 실험한 결과, 이용하지 않은 경우에 비해 약 50%의 오인식율을 줄일 수 있었다.

  • PDF

가변 잡음 레벨을 이용한 음성신호에 대한 SBR 성능 항상 기술 (Enhancement of SBR for Speech Signal Using Adaptive Noise Floor Level)

  • 이세원;오승준;안창범;이태진;강경옥;박호종
    • 한국음향학회지
    • /
    • 제28권2호
    • /
    • pp.148-154
    • /
    • 2009
  • 오디오 부호화 기술에서 SBR은 고대역의 시판-주파수 정보를 저대역으로부터 구하고 보정 파라미터를 이용하여 고대역 정보를 보정하여 고대역 신호를 합성하는 기술이다. SBR은 고대역 정보의 부호화를 위하여 보정 파라미터만 전달하므로 매우 적은 비트로 오디오 신호를 압축할 수 있도록 하며, MPEG-4 HE-AAC의 핵심 모듈로 사용되고 있다. SBR은 원래 오디오 신호를 기반으로 개발되었기 때문에 음성 입력에 대하여 성능이 저하되는 문제점을 가지며, 성능 저하의 대표적인 이유는 톤 성질이 부정확하게 계산되어 잡음 레벨이 높게 설정되고 복원된 고대역 정좌에 과도한 잡음이 포함되기 때문이다. 본 논문에서는 음성 신호에 대한 SBR 성능 저하 문제를 해결하기 위하여 잡음 레벨을 입력 음성 신호의 특성에 맞게 가변적으로 적용하는 기술을 제안한다. 제안하는 SBR은 기존의 SBR과 호환성을 유지하며, 주관적 평가를 통하여 기존 SBR에 비하여 남성 음성에 대한 성능이 향상된 것을 확인하였다.