• 제목/요약/키워드: Voice-activity detection

검색결과 103건 처리시간 0.027초

잔향제거를 이용한 음성통신 시스템 성능 향상 (Performance Enhancement of Speech Communication System using Reverberation Rejection)

  • 김세영;강석엽;김기만
    • 한국정보통신학회논문지
    • /
    • 제13권10호
    • /
    • pp.2211-2217
    • /
    • 2009
  • 본 논문에서는 잔향이 존재하는 환경에서 단일 마이크로폰을 사용한 음성 개선 방법을 제시한다. 스펙트럼 차감법(Spectral Subtraction)은 스펙트럼 상에서 잔향성분 및 잡음을 제거 할 수 있는 효과적인 방법이다. 스펙트럼 차감법은 음성과 비음성 구간의 정확한 구분을 필요로 하며 성능을 향상시키기 위해 본 논문에서는 엔트로피(Entropy) 기반의 음성 구간 검출법을 적용하였다. 제시된 방법을 기존의 에너지 검출 기반의 음성 검출법을 적용한 스펙트럼 차감법과 비교하여 성능 평가를 수행하였다. SNR 및 잔향시간에 따른 잔향 제거비율을 평가지표로 사용하였으며, 시뮬레이션 결과 기존의 스펙트럼 차감법과 비교하여 제시된 방법이 우수한 성능을 보였다.

음성 및 데이터서비스를 위한 무선접속시스템에서 CDMA와 TDMA방식의 성능비교 (Performance Comparison of CDMA and TDMA protocols in radio access system for Integrated Voice/Data Services)

  • 고종하;양영님;이정규
    • 한국통신학회논문지
    • /
    • 제24권6A호
    • /
    • pp.820-831
    • /
    • 1999
  • 본 논문에서는 음성 및 데이터서비스를 위한 무선접속시스템에서 D-TDMA(Dynamic-Time Division Multiple Access)와 CDMA(Code Division Multiple Access) 프로토콜의 성능을 비교 분석하였다. D-TDMA 프로토콜에서 음성서비스는‘circuit mode’로 채널 사용 우선권을 부여하고 데이터서비스는 FCFS(First Come First Service) 형태의 동적 채널 할당 방식을 사용하였다. CDMA 프로토콜에서는 내부 셀과 외부 셀에 존재하는 다른 이동가입자들의 간섭잡음을 줄이기 위하여 음성검출 기법을 사용하고, 이 경우의 간선잡음전력을 분석하였다. 또한, 이 간섭잡음전력을 이용하여 실제 데이터의 BER(Bit Error Rate)를 구하고, 평균 데이터 길이와 평균 데이터 발생률의 변화에 따른 음성차단확률(음성패킷손실확률) 및 데이터전송 지연시간을 비교 분석하였다. 분석결과에 따르면 평균 데이터 길이가 짧을 경우, 데이터 발생률의 증감에 독립적으로 CDMA 프로토콜이 상대적으로 우수한 성능을 보였다. 그러나, 평균 데이터 길이가 길어질수록 데이터 전송 지연시간이 큰 폭으로 증가하는 CDMA 프로토콜보다 D-TDMA 프로토콜이 더 우수한 성능을 보였다.

  • PDF

휴머노이드 로봇을 위한 원거리 음성 인터페이스 기술 연구 (Distant-talking of Speech Interface for Humanoid Robots)

  • 이협우;육동석
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.39-40
    • /
    • 2007
  • For efficient interaction between human and robots, speech interface is a core problem especially in noisy and reverberant conditions. This paper analyzes main issues of spoken language interface for humanoid robots, such as sound source localization, voice activity detection, and speaker recognition.

  • PDF

An Improved Voice Activity Detection Algorithm Employing Speech Enhancement Preprocessing

  • Lee, Yoon-Chang;Ahn, Sang-Sik
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -2
    • /
    • pp.865-868
    • /
    • 2000
  • In this paper we derive a new VAD algorithm, which combines the preprocessing algorithm and the optimum decision rule. To improve the performance of the VAD algorithm we employ the speech enhancement algorithm and then apply the maximal ratio combining technique in the preprocessing procedure, which leads to maximized output SNR. Moreover, we also perform extensive computer simulations to demonstrate the performance improvement of the proposed algorithm under various background noise environments.

  • PDF

음성구간 검출기의 실시간 적응화를 위한 음성 특징벡터의 차원 축소 방법 (Dimension Reduction Method of Speech Feature Vector for Real-Time Adaptation of Voice Activity Detection)

  • 박진영;이광석;허강인
    • 융합신호처리학회논문지
    • /
    • 제7권3호
    • /
    • pp.116-121
    • /
    • 2006
  • 본 논문에서는 다양한 잡음환경에서의 실시간 적응화 기법을 적용하기 위한 선결 과제로 다차원 음성 특정 벡터를 저차원으로 축소하는 방법을 제안한다. 제안된 방법은 특징 벡터를 확률 우도 값으로 매핑시켜 비선형적으로 축소하는 방법으로 음성 / 비음성의 분류는 우도비 검증 (Likelihood Ratio Test; LRT) 을 이용하여 분류하였다. 실험 결과 고차원 특징 벡터를 이용하여 분류한 결과와 대등하게 분류됨을 확인할 수 있었다. 그리고, 제안된 방법에 의해 검출된 음성 데이터를 이용한 음성인식 실험에서도 10차 MFCC(Mel-Frequency Cepstral Coefficient)를 사용하여 분류한 경우와 대등한 인식률을 보여주었다.

  • PDF

잡음 환경에서의 전송률 감소를 위한 G.723.1 음성활동 검출기 성능 개선에 관한 연구 (Improvement of VAD Performance for the Reduction of the Bit Rate Under the Noise Environment in the G.723.1)

  • 김정진;장경아;배명진
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.42-47
    • /
    • 2001
  • 본 논문에서는 인터넷 폰 및 화상통신 등을 위해 개발된 G.723.1 부록 A 6.3kbps/5.3kbps 이중 전송율 음성 코덱의 음성활동 검출기의 성능을 개선한다. 본 논문에서는 에너지 레벨을 크게 3가지 범위로 구분하여 음성활동 유무 판정을 하도록 한다. 제안한 알고리즘에 대한 처리시간, 음질평가 및 전송율 감소량을 측정한 결과 처리시간의 경우 묵음구간에 대한 판정의 정확성에 기인하여 G.723.1에 비해 감소하고 주관적인 음질평가의 경우 G.723.1과 거의 차이가 없다. 전송율 측정을 위해 VAD=1로 판정한 프레임을 측정한 결과 묵음 구간이 많이 나타날수록 뚜렷한 전송율 감소효과를 얻을 수 있다.

  • PDF

잡음환경에서 Teager 에너지와 음성부재확률 기반의 음성향상 알고리즘 (Speech Enhancement Algorithm Based on Teager Energy and Speech Absence Probability in Noisy Environments)

  • 박윤식;안홍섭;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권3호
    • /
    • pp.81-88
    • /
    • 2012
  • 본 논문에서는 다양한 잡음환경에서 효과적인 잡음 제거 (NS, noise suppression)를 위한 새로운 음성향상 (speech enhancement) 알고리즘을 제안한다. 제안된 방법에서는 음성향상 알고리즘에서 잡음전력 갱신을 위한 음성검출 (VAD, voice activity detection)의 피쳐 (feature) 파라미터로서 오염된 음성신호를 기반으로 주파수 밴드 별로 도출되는 기존의 지역 음성부재확률 (LSAP, local speech absecne probability) 대신 오염된 음성신호의 Teager energy (TE)를 적용한 LSAP를 적용한다. 또한 적용된 TE operator의 성능을 개선하기 위하여 프레임 단위로 도출되는 전역 음성부재확률 (GSAP, global SAP)을 TE의 가중치 파라미터로서 적용한다. 제안된 알고리즘은 기존의 방법과 객관적인 실험을 통해 비교 평가한 결과 다양한 배경잡음 환경에서 향상된 성능을 보였다.

잡음환경에서 우리말 연속음성의 무성자음 구간 추출 방법 (Extraction of Unvoiced Consonant Regions from Fluent Korean Speech in Noisy Environments)

  • 박정임;하동경;신옥근
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.286-292
    • /
    • 2003
  • 음성 구간 추출이란 입력된 음성신호를 음성 구간과 묵음, 또는 잡음구간으로 구분하는 과정이다. 잡음이 섞여있는 음성신호의 무성자음 신호는 잡음신호와 매우 유사하다. 따라서 음성 구간을 추출하거나 잡음을 제거 또는 감소시킬 때 무성자음에 특별히 주의하지 않으면 무성자음을 손상시키거나 잘못된 잡음 추정으로 이어질 수 있다. 본 논문에서는 잡음 환경에서 연속음성신호의 음성 구간을 정확하게 추출하기 위해 잡음과 무성자음사이의 경계를 명시적으로 검출함으로써 무성자음의 구간을 추출하는 방법을 제안한다. 제안하는 추출방법은 Hirsch가 잡음 추정을 위해 사용한 히스토그램 방법과 연속된 프레임 사이의 주파수 성분의 유사성을 나타내는 파라미터들을 이용하였다. 제안한 방법의 성능을 평가하기 위해 음성신호에 SNR이 각각 10㏈와 15㏈인 7가지의 잡음을 첨가하여 무성자음신호의 추출 실험을 수행하였다.

IMT-2000 비동기식 단말기용 ASIC을 위한 적응형 다중 비트율 (AMR) 보코더의 구현 (Implementation of Adaptive Multi Rate (AMR) Vocoder for the Asynchronous IMT-2000 Mobile ASIC)

  • 변경진;최민석;한민수;김경수
    • 한국음향학회지
    • /
    • 제20권1호
    • /
    • pp.56-61
    • /
    • 2001
  • 본 논문은 비동기 방식의 IMT-2000 단말기용 ASIC (주문형 집적회로)에 포함되는 음성부호화기 알고리즘인 AMR(Adaptive Multi Rate) 보코더의 실시간 구현에 관한 것이다. 구현된 AMR 보코더는 12.2kbps에서 4.75kbps까지 8가지의 다중 비트율을 가지고 있으며, 인코더와 디코더 기능 외에 VAD (Voice Activity Detection) 블록과 SCR (Source Controlled Rate operation) 블록 등의 부가기능 및 시스템과의 접속 처리를 위한 프레임 구성 기능도 구현되어 있다. AMR 보코더를 구현하기 위하여 설계된 DSP (디지털 신호처리기)는 TeakLite 코어를 기반으로 하여 메모리 블록, 직렬접속 블록, CPU와의 접속을 위한 레지스터 파일 블록, 인터럽트 제어회로 등으로 구성된 16비트 고정 소수점형 DSP이다. 실시간 구현 방법에서는 메모리의 효율적인 관리를 통하여 계산량을 최적화하여 최대 동작 계산량을 약 24MIPS로 줄였으며, 구현된 AMR 보코더는 3GPP의 표준 시험 벡터를 모두 통과하여 검증을 완료하고, 실시간 보드 시험에서도 안정적으로 동작하는 것이 확인되었다.

  • PDF

VoIP의 음성품질/대역효율 개선을 위한 음성패킷 처리 (Voice Packet Processing Scheme for Voice Quality and Bandwidth Efficiency in VoIP)

  • 김재원;손동철
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.896-904
    • /
    • 2004
  • 본 논문에서는 10msec 프레임의 가변전송률 G.729 음성부호화기를 설계하여 VoIP에서의 대역 효율을 개선하고, 부전송률 부호화기 도입을 통한 인터넷 프로토콜에서 발생하는 패킷 손실구간의 음성 품질을 개선할 수 있는 방안을 도출하였다. 가변 전송률 음성부호화기 설계는 음성 통화중 발생하는 약 60% 정도의 묵음 구간을 활용하는 기법으로서 활성 음성구간은 8kbps로 전송하고,비 활성 음성구간은 1kbps로 전송함에 의하여 고정 전송률 방식의 음성 부호화기에 비하여 평균 패킷 전송량을 약 50% 감소시켜 대역 효율을 개선할 수 있다. 제안 방법의 성능은 동일 프레임 크기를 갖는 ITU-T G.729B방식과 감지 활성도의 변화분과 음성품질 손상 구간의 비율을 기준으로 비교 평가하였다. 그리고 인터넷 환경에서의 패킷 손실에 의한 음성 품질 저하 방지는 4kbps 부전송률 음성부호화기 도입과 오류 발생 전후의 패킷에 의한 오류은닉 방법을 활용하였으며, 성능은 재생 음성품질로서 평가하였다. 본 논문에서 설계한 가변 전송률 부호화 방식은 고정 전송률 방식에 대비하여 평균 음성 패킷의 전송량을 1/2로 감소시켜 대역효율 개선이 가능하며, 감소된 전송률을 손실 패킷구간에 활용하는 경우 8kbps 고정 전송률 방식과 동일 대역이용에서 3dB의 음성품질 개선이 가능하여 VoIP 성능 개선이 가능하리라 사료된다.

  • PDF