• Title/Summary/Keyword: ZCR

Search Result 59, Processing Time 0.027 seconds

Multi-party video telephony of audio gain control for low computation voice classification method (다자간 영상통화의 오디오 게인콘트롤을 위한 저연산 음성분류방식)

  • Ryu, Sang-Hyeon;Kim, Hyoung-Gook
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2012.05a
    • /
    • pp.349-350
    • /
    • 2012
  • 본 논문에서는 다자간 영상통화의 오디오 게인콘트롤을 위한 저연산 음성분류방식을 제안한다. 제안된 음성분류방식은 입력되는 음성신호를 음성신호의 특징에 따라서 묵음/무성음/유성음으로 분류한다. 입력된 음성신호의 에너지를 이용해서 음성구간과 비음성구간을 판별한다. 음성구간으로 판별된 구간에 대해서 ZCR(Zeor Crossing Rate)를 이용하여 유성음과 무성음으로 분류한다. 제안된 방식의 성능을 측정을 위해 음성분류 정확도와 연산시간을 측정하여 성능을 측정하였다.

  • PDF

The Voice Dialing System Using Dynamic Hidden Markov Models and Lexical Analysis (DHMM과 어휘해석을 이용한 Voice dialing 시스템)

  • 최성호;이강성;김순협
    • Journal of the Korean Institute of Telematics and Electronics B
    • /
    • v.28B no.7
    • /
    • pp.548-556
    • /
    • 1991
  • In this paper, Korean spoken continuous digits are ercognized using DHMM(Dynamic Hidden Markov Model) and lexical analysis to provide the base of developing voice dialing system. After segmentation by phoneme unit, it is recognized. This system can be divided into the segmentation section, the design of standard speech section, the recognition section, and the lexical analysis section. In the segmentation section, it is segmented using the ZCR, O order LPC cepstrum, and Ai, parameter of voice speech dectaction, which is changed according to time. In the standard speech design section, 19 phonemes or syllables are trained by DHMM and designed as a standard speech. In the recognition section, phomeme stream are recognized by the Viterbi algorithm.In the lexical decoder section, finally recognized continuous digits are outputed. This experiment shiwed the recognition rate of 85.1% using data spoken 7 times of 21 classes of 7 continuous digits which are combinated all of the occurence, spoken by 10 man.

  • PDF

Pattern Classification of the Strength of Concrete by Feature Parameters and Evidence Accumulation of Ultrasonic Signal (초음파신호의 특징 파라메터 및 증거축적 방법을 이용한 콘크리트 강도 분류)

  • Kim, Se-Dong;Sin, Dong-Hwan;Lee, Yeong-Seok;Kim, Seong-Hwan
    • The Transactions of the Korean Institute of Electrical Engineers A
    • /
    • v.48 no.10
    • /
    • pp.1335-1343
    • /
    • 1999
  • This paper presents concrete pattern recognition method to identify the strength of concrete by evidence accumulation with multiple parameters based on artificial intelligence techniques. At first, zero-crossing(ZCR), mean frequency(MEANF), median frequency(MEDF) and autoregressive model coefficient(ARC) are extracted as feature parameters from ultrasonic signal of concrete. Pattern recognition is carried out through the evidence accumulation procedure using distance measured with reference parameters. A fuzzy mapping function is designed to transform the distances for the application of the evidence accumulation method. Results are presented to support the feasibility of the suggested approach for concrete pattern recognition.

  • PDF

A Neural Networks Approach to Voiced-Unvoice-Silence Classification Incorporating Amplitude Distribution (음성 진폭분포로 신경망을 구동한 유-무-묵음 분류)

  • 이인섭;최정아;배명진;안수길
    • The Journal of the Acoustical Society of Korea
    • /
    • v.9 no.6
    • /
    • pp.15-21
    • /
    • 1990
  • 유-무-묵음 분류 과정은 음성분석시에 아주 중요한 문제중의 하나이다. 음성에너지, ZCR, 자기 상관계수, LPC 계수, 예측에러 에너지등을 퍼래미터로 사용하여 지금까지 많은 분류기법이 제안되어져 왔다. 이런기법들은 기본적으로 퍼래미터를 추출해야 하고, 이 때문에 많은 계산량이 요구되고, 이들 퍼 래미터는 음성 본래의 정보들의 대부분을 상실하게 된다. 이 때문에 각 프레임의 진폭분포를 사용하는 새로운 앨고리즘을 제안하였다. 첫째로 V-U-S 영역은 개별 진폭분포형태를 가지기 때문에 주어진 프레 임에서 진폭분포를 구한다. 그런 다음에는 신경망을 통해 분류를 하게 된다. 신경망은 문덕값을 별도로 선정할 필요없고, 배경잡음에 강력하며, 또한 실시간 처리에 적합하다.

  • PDF

The Recognition of Unvoiced Consonants Using Characteristic Parameters of the Phonemes (음소 특정 파라미터를 이용한 무성자음 인식)

  • 허만택;이종혁;남기곤;윤태훈;김재창;이양성
    • Journal of the Korean Institute of Telematics and Electronics B
    • /
    • v.31B no.4
    • /
    • pp.175-182
    • /
    • 1994
  • In this study, we present unvoiced consonant recognition system using characteristic parameters of the phoneme of the each syllable. For the recognition, the characteristic parameters on the time domain such as ZCR, total energy of the consonant region and half region energy of the consonant region, and those on the frequency domain such as the frequency spectrum of the transition region are used. The objective unvoiced consonants in this study are /ㄱ/,/ㄷ/,/ㅂ/,/ㅈ/,/ㅋ/,/ㅌ/,/ㅍ/ and /ㅊ/. Each characteristic parameter of two regions extracted from these segmented unvoiced consonants are used for each recognition system of the region, independently, And complementing two outputs of each other system, the final output is to be produced. The recognition system is implemented using MLP which has learning ability. The recognition simulation results for 112 unvoiced consonant samples are that average recognition rates are 96.4$\%$ under 80$\%$ learning rates and 93.7$\%$ under 60$\%$ learning rates.

  • PDF

A Study on the Emotional Caption System for Auditory Disabled Person (청각장애인을 위한 감성자막에 관한 연구)

  • Jang, Seung-Mo;Bae, Young-Rim;An, Young-Ki;Lee, Sang-Moon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2011.01a
    • /
    • pp.195-198
    • /
    • 2011
  • 현재 출시되어 있는 대부분의 콘텐츠들은 일반인들의 감각, 감성 욕구를 채워주고 있다. 하지만 사회의 소외계층인 장애인들을 위한 콘텐츠는 그리 많지 않으며 배제되어 왔다. 이 논문에서는 시각 장애인들을 위한 감성 전달 서비스 기법을 제시하였다. 기존의 콘텐츠는 자막 단순화로 인해 소리를 들을 수 없는 청각장애인들에게 매우 불편함을 주고 있다. 따라서 이 논문에서는 청각 장애인은 물론 일반인들에게도 소리를 들을 수 없는 환경에서 최적의 감성 전달 서비스를 제공할 수 있는 감성 지원 캡션시스템을 구현하여 제시한다.

  • PDF

A study on the voice command recognition at the motion control in the industrial robot (산업용 로보트의 동작제어 명령어의 인식에 관한 연구)

  • 이순요;권규식;김홍태
    • Journal of the Ergonomics Society of Korea
    • /
    • v.10 no.1
    • /
    • pp.3-10
    • /
    • 1991
  • The teach pendant and keyboard have been used as an input device of control command in human-robot sustem. But, many problems occur in case that the usef is a novice. So, speech recognition system is required to communicate between a human and the robot. In this study, Korean voice commands, eitht robot commands, and ten digits based on the broad phonetic analysis are described. Applying broad phonetic analysis, phonemes of voice commands are divided into phoneme groups, such as plosive, fricative, affricative, nasal, and glide sound, having similar features. And then, the feature parameters and their ranges to detect phoneme groups are found by minimax method. Classification rules are consisted of combination of the feature parameters, such as zero corssing rate(ZCR), log engery(LE), up and down(UD), formant frequency, and their ranges. Voice commands were recognized by the classification rules. The recognition rate was over 90 percent in this experiment. Also, this experiment showed that the recognition rate about digits was better than that about robot commands.

  • PDF

An Automatic Segmentation System Based on HMM and Correction Algorithm (HMM 및 보정 알고리즘을 이용한 자동 음성 분할 시스템)

  • Kim, Mu-Jung;Kwon, Chul-Hong
    • Speech Sciences
    • /
    • v.9 no.4
    • /
    • pp.265-274
    • /
    • 2002
  • In this paper we propose an automatic segmentation system that outputs the time alignment information of phoneme boundary using Viterbi search with HMM (Hidden Markov Model) and corrects these results by an UVS (unvoiced/voiced/silence) classification algorithm. We selecte a set of 39 monophones and a set of 647 extended phones for HMM models. For the UVS classification we use the feature parameters such as ZCR (Zero Crossing Rate), log energy, spectral distribution. The result of forced alignment using the extended phone set is 11% better than that of the monophone set. The UVS classification algorithm shows high performance to correct the segmentation results.

  • PDF

다양한 특징 파라미터와 선형변별분석을 이용한 후두암의 선별검사

  • 이원범;왕수건;권순복;전경명;전계록;김수미;김형순;양병곤;조철우
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.149-149
    • /
    • 2003
  • 후두질환 감별용 음성 분석방법인 multi-dimensional voice program (MDVP)으로 분석이 불가능할 정도로 주기성이 크게 훼손된 후두암 말기의 음성 에 대하여 효과적인 감별을 하기 위하여, 몇 가지 켑스트럼(cepstrum) 파라미터를 비롯하여, 주기성 및 그 동요 정도, 영교차율(zero-crossing rate, ZCR), 스텍트럼 중심 (spectral centroid, SC) 등 다양한 특징 파라미터를 이용한 감별 실험을 수행하였다. 후두암 감별 실험을 위해 부산대학교 병원 이비인후과에서 수집한 정상 남자 음성 데이터 50개, 양성 후두질환 남자 음성 데이터 50개 및 남성 후두암 환자 음성 데이터 105개를 사용하였다. 음성 데이터는 단모음 /아/ 발성만을 사용하였고, 정상인과 양성후두질환 환자, 그리고 MDVP 분석이 가능한 후두암 환자 음성 데이터 중 2/3는 학습에, 나머지 113은 감별실험에 사용하였다. 후두암 감별을 위한 분류기로는 Gaussian Mixture Model(GMM) 분류기를 사용하였으며, 이때 모델의 복잡도를 표현하는 mixture 수는 1에서 10까지 가변시키면서 가장 좋은 성능을 나타내는 값으로 결정하였다. 또한 모든 실험에서 켑스트럼 분석의 차수는 동일하게 12차로 고정시켰다. (중략)

  • PDF

Performance Comparison of Classification Algorithms in Music Recognition using Violin and Cello Sound Files (바이올린과 첼로 연주 데이터를 이용한 분류 알고리즘의 성능 비교)

  • Kim Jae Chun;Kwak Kyung sup
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.30 no.5C
    • /
    • pp.305-312
    • /
    • 2005
  • Three classification algorithms are tested using musical instruments. Several classification algorithms are introduced and among them, Bayes rule, NN and k-NN performances evaluated. ZCR, mean, variance and average peak level feature vectors are extracted from instruments sample file and used as data set to classification system. Used musical instruments are Violin, baroque violin and baroque cello. Results of experiment show that the performance of NN algorithm excels other algorithms in musical instruments classification.