• Title/Summary/Keyword: 음성레벨

Search Result 138, Processing Time 0.034 seconds

Cepstral Distance and Log-Energy Based Silence Feature Normalization for Robust Speech Recognition (강인한 음성인식을 위한 켑스트럼 거리와 로그 에너지 기반 묵음 특징 정규화)

  • Shen, Guang-Hu;Chung, Hyun-Yeol
    • The Journal of the Acoustical Society of Korea
    • /
    • v.29 no.4
    • /
    • pp.278-285
    • /
    • 2010
  • The difference between training and test environments is one of the major performance degradation factors in noisy speech recognition and many silence feature normalization methods were proposed to solve this inconsistency. Conventional silence feature normalization method represents higher classification performance in higher SNR, but it has a problem of performance degradation in low SNR due to the low accuracy of speech/silence classification. On the other hand, cepstral distance represents well the characteristic distribution of speech/silence (or noise) in low SNR. In this paper, we propose a Cepstral distance and Log-energy based Silence Feature Normalization (CLSFN) method which uses both log-energy and cepstral euclidean distance to classify speech/silence for better performance. Because the proposed method reflects both the merit of log energy being less affected with noise in high SNR and the merit of cepstral distance having high discrimination accuracy for speech/silence classification in low SNR, the classification accuracy will be considered to be improved. The experimental results showed that our proposed CLSFN presented the improved recognition performances comparing with the conventional SFN-I/II and CSFN methods in all kinds of noisy environments.

Design of New Channel Codes, MLC(Multi-Level Code), with Fast Coding Time for Processing of Multimedia Data (멀티미디어 데이터를 위한 빠른 처리 속도를 가지는 새로운 채널코드, MLC(Multi-Level Code)의 설계)

  • 공형윤;이창희
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.25 no.11B
    • /
    • pp.1864-1871
    • /
    • 2000
  • 본 논문에서는 차세대 무선 통신 시스템에 적용이 가능한 새로운 FEC(Forward Error Correction) 부호화 방법으로 MLC(Multi-Level Convolutional) 부호화 방식을 제안한다. 차세대 무선통신서비스는 음성, 데이터, 영상 등 많은 종류의 서비스를 함으로써 데이터의 처리속도가 빠른 시스템이 요구된다. 데이터 처리시간을 단축시키기 위한 방법으로 다중 레벨을 이용하여 부호어를 만들어 내는 방식의 부호화 시스템을 설계하였다. MLC는 부호 처리시간을 단축시킬 뿐만 아니라 다양한 알고리즘을 이용해 부호어를 만들어 낼 수 있다는 특징을 가지게 된다. 모의실험은 MLC 코드의 두 가지 방법, Modulo- operation 방식과 Galois Field-Operation 방식을 이용하여 수행하였다. 또한 모의실험을 통하여 (s=2, T=2)인 경우가 MLC 부호기의 최적 연결다항식임을 알았다.

  • PDF

On the Research of a Speech Coder Using a Multi-Level Amplitude Codebook (다중레벨 진폭 코드북을 이용한 음성 부호화기에 관한 연구)

  • 홍성훈;김정진박영호배명진
    • Proceedings of the IEEK Conference
    • /
    • 1998.10a
    • /
    • pp.1219-1222
    • /
    • 1998
  • This paper analyzes the dynamic spars algebraic codebook used to model a residual signal and proposes a new algebraic codebook structure as well as a searching process with improved performance. The proposed algorithm improves the disadvantage of algebraic codebook without increased computation. First, this paper makes it possibel to select various pulse amplitudes differently from the conventional method which looks up the sign bit simply. In addition, two pulses are made to be selected on the same track. For speech quality on the telephone line 5.6kbps speech coder using the proposed algorithm was equivalent to the 6.3kbps MP-MLQ in the viewpoint of subjective speech quality. However, speech degradation was caused a little compared to the MP-MLQ where MNRU 1=15dB.

  • PDF

Library Optimization of the MPEG-4 Audio HVXC Coder using TMS320C6701 DSP (TMS320C6701 DSP용 MPEG-4 오디오 HVXC 부호기의 최적화 라이브러리 개발)

  • Na, Hoon;Lee, Ji-Woong;Kang, Kyeong-Ok;Lim, Young-Kwon;Hong, Jin-Woo;Jeong, Dae-Gwon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.11b
    • /
    • pp.197-200
    • /
    • 1999
  • MPEG-4 오디오 부호기의 일부인 HVXC(Harmonic and Vector excitation Coding) 부호기는 음성의 무성음 구간에서는 CELP 코덱, 유성음 구간에서는 MBE 코덱을 이용하여 부호화하는 구조로서, 많은 연산량을 필요로 하여 범용DSP를 이용한 실시간 구현의 장애요소로 작용한다. 본 논문에서는 TMS320C6701 DSP를 이용하여 많은 연산 시간을 요하는 함수들에 대한 C언어 및 어셈블리 레벨의 최적화를 수행하여 HVXC 함수들의 실행시간을 단축하고 이를 라이브러리화 하여 실시간 구현에 이용가능 하도록 하였다.

  • PDF

ATM 교환기에서의 연결 승인 제어 기법의 비교

  • 박항엽;전치혁;서재준
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 1994.04a
    • /
    • pp.3-11
    • /
    • 1994
  • 다양한 특성의 트래픽 서비스를 하나의 공통된 망을 통해 고속으로 전송하기위한 B-ISDN의 실용화 방안으로 ATM 기술이 적절한 것으로 인식되어 있다. 하지만 ATM 망에서는 데이타 통신과 같이 셀 손실률이 작아야 하는 트래픽, 음성 서비스와 같이 지연 시간이 문제가 되는 트래픽등 다양한 트래픽 소스들에 의해 서로 다른 서비스 품질 조건을 만족시켜야 하기 때문에 망의 효율적인 이용과 요구된 성능 목표치를 만족시키기 위해서는 여러 측면의 트래픽 기술이 필요하게 된다. 이러한 기술 중의 한 가지인 연결 승인 제어는 각 트래픽 호원들로부터 망으로의 연결이 요청되었을 경우 그 요청을 수락할 것인지의 여부를 결정하는 것인데, 이러한 연결 승인 제어에는 셀 혹은 호에 중점을 두느냐에 따라 여러가지 방법이 있을 수 있다. 본 연구에서는 이질적인 트래픽 호나경에서 비교적 적용이 잘 되는 셀 레벨에서의 한 방법인 적응적 연결 승인 제어를 제안한다. 그리고 적응적 연결 승인 제어의 성능을 시뮬레이션을 통해 분석하여 기존의 연결 승인 제어와의 비교를 통해 성능면에서 다소 좋음을 보여준다.

Designing the structure for secure transmission of spatial data (공간 데이터의 안전한 전송을 위한 구조설계)

  • Chang, Min-Young;Lim, Jung-Eun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.699-702
    • /
    • 2005
  • 최근 컴퓨터 성능과 네트워크 속도의 발전은 다양한 형태의 데이터를 유선 혹은 무선 환경상에서 주고 받고 처리할 수 있게 해주고 있다. 또한 일차원적인 텍스트, 이미지, 음성, 동영상뿐만 아니라 다차원 형태의 공간 데이터도 다양한 형태의 서비스로 제공되고 있다. 하지만 공간 데이터에 대한 연구는 공간 데이터 표준, 서비스, 성능적인 측면에 대한 연구만 진행이 되었을 뿐 보안적인 측면에 대한 연구는 미비한 상태이다. 이에 XML 의 보안 기법을 공간 데이터에 적용하여 공간 데이터 자체에 대한 보안 레벨과 암호화를 적용하여 공간 데이터 전송을 위한 보안구조를 제시하고자 한다.

  • PDF

Development of the Digital DBS Monitoring System (디지털 위성방송 모니터링 시스템 개발)

  • 고우종;박선규;김도원;조용섭
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1998.06a
    • /
    • pp.37-42
    • /
    • 1998
  • 외국에서 개발한 디지털 방송 모니터링 장비는 국내의 규격 및 방송 환경과 상이하여 정확한 오류검색이 불가한 상황이다. 따라서, 국내 방송환경에 적합한 디지털 위성방송의 송출 및 수신상태를 감시할 수 있는 계측 장비가 필요하다. 위성 본방송에 대비하고 위성방송의 안정적 운용을 위하여“디지털 위성방송 모니터링 시스템”을 국내 최초로 개발하였다. 시스템의 구성은 PC에 카드형 수신기를 내장하였으며, 응용 S/W로 다양한 모니터링이 가능하도록 설계하였다. 주요기능은 현재 방송중인 위성 중계기의 RF 레벨 및 채널상태, 영상 및 음성의 송출상태, Service Information의 송출상태를 동시에 검색한다. 그리고, 오류발생시 겨고 메시지를 발송하고 오류복구방안을 제시하며, 모니터링 결과를 저장한다.

  • PDF

Design and evaluations of Tonpilz Transducers with self noise suppressing structures (저소음 Tonpilz 트랜스듀서의 설계방안 연구)

  • 임종인
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1996.06a
    • /
    • pp.1-3
    • /
    • 1996
  • 수중 트랜스듀서는 진동하는 물체위에 설치되어 다양한 외부 소음원이 유입되는 환경에 노출되어 있다. 외부 소음원으로는 선체 진동. 프로펠러 소음, 그리고 유동 유기 소음들을 들 수 있고, 트랜스듀서의 실제 작동시 이들의 레벨이 상당히 높아서 센서의 정확한 작동에 장애가 되고 있다. 본 논문에서는 외부 소음원에 무관한 고 정밀, 저 소음 특성을 지닌 음향센서를 개발하기 위하여 유한요소법 (FEN)을 사용하여 소음 전달 특성을 분석하고, air pocket과 음향 감쇠층의 다양한 조합으로 이루어진 구조를 개선한 음향센서의 설계 및 내소음성 평가를 하였다. 또한 사용한 음향 감쇠층의 최적 물성을 제시하고자 한다. 그 결과 센서 측면 하단부에 소음원이 위치할 경우 가장 큰 잡음 신호로 작용하며, 구조를 변경한 결과 기존 음향센서에 비해 55% 이상 내 소음성을 증진 시켰다. 그리고 음향 감쇠층의 최적 음향 임피던슨는 1 Mrayl 이하 혹은 4mrayl 이상으로 분석되었다.

  • PDF

A Study of Acoustic Masking Effect from Formant Enhancement in Digital Hearing Aid (디지털 보청기에서의 포먼트 강조에 의한 마스킹 효과 연구)

  • Jeon, Yu-Yong;Kil, Se-Kee;Yoon, Kwang-Sub;Lee, Sang-Min
    • Journal of the Institute of Electronics Engineers of Korea SC
    • /
    • v.45 no.5
    • /
    • pp.13-20
    • /
    • 2008
  • Although digital hearing aid algorithms have been developed to compensate hearing loss and to help hearing impaired people to communicate with others, digital hearing aid user still complain about difficulty of hearing the speech. The reason could be the quality of speech through digital hearing aid is insufficient to understand the speech caused by feedback, residual noise and etc. And another thing is masking effect among formants that makes sound quality low. In this study, we measured the masking characteristics of normal listeners and hearing impaired listeners having presbyacusis to confirm masking effect in speech itself. The experiment is composed of 5 tests; pure tone test, speech reception threshold (SRT) test, word recognition score (WRS) test, puretone masking test and speech masking test. In speech masking test, there are 25 speeches in each speech set. And log likelihood ratio (LLR) is introduced to evaluate the distortion of each speech objectively. As a result, the speech perception became lower by increasing the quantity of formant enhancement. And each enhanced speech in a speech set has statistically similar LLR, however speech perception is not. It means that acoustic masking effect rather than distortion influences speech perception. In actuality, according to the result of frequency analysis of the speech that people can not answer correctly, level difference between first formant and second formant is about 35dB, and it is similar to result of pure tone masking test(normal hearing subject:36.36dB, hearing impaired subject:32.86dB). Characteristics of masking effect is not similar between normal listeners and hearing impaired listeners. So it is required to check the characteristics of masking effect before wearing a hearing aid and to apply this characteristics to fitting.

Erlang Capacity for the Reverse Link of a IS-95 Cellular System According to Approximation Method in Shadowing Channel (전파음영 채널에서 근사방법에 따른 IS-95 셀룰라 시스템의 역방향 링크에 대한 얼랑 용량)

  • Park, Young;Kim, Hang-Rae
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.10
    • /
    • pp.3210-3218
    • /
    • 2000
  • In a IS-95 cellular systm, blocking will occur when the reverse link user interference power reaches a predepermmed level which is set to maintam acceptable signal quality. In this paper, it is assumed that a mobile rdio channel is a shadowing channel and Erlang capacity is calculated for the reverse limk of an imperfect power controlled IS-95 cellular system. the blocking probability is derived using lognornal pproximation and the results according to guassian and lognormal approximation method are compared and analyzed respcctively. Assuming that blocking probability is 1% at the data rate of $R_b$=9.6kbps and $R_b$=14.4kbps, it is shown that Erlang capacity using Iognormal approximation is 13.68 Erlang and 7.08 Erlang and then the approximation erroris occurred about 24.4% and 40.4% inthe garssian approximation, respectively. It is also observed that if the power control becomes periect, the Erlang capacity is increased more 6.99 and 4.21 Erlang than that of the imperfect power control that the power contrl error is 2.5dB, and if voice activity is considered as 10%, the Erlang capacity is increased more 8.21 and 1.25 Erlang than that using non voice activity, respectively.

  • PDF