• 제목/요약/키워드: ZCR

검색결과 59건 처리시간 0.026초

유성음 구간 검출을 위한 간단한 알고리즘에 관한 연구 (A Study on the Simple Algorithm for Discrimination of Voiced Sounds)

  • 장규철;우수영;박용규;유창동
    • 한국음향학회지
    • /
    • 제21권8호
    • /
    • pp.727-734
    • /
    • 2002
  • 본 논문에서는 유ㆍ무성음 구간을 검출하기 위한 간단한 알고리즘을 제안한다. 제안된 방법은 음성의 유ㆍ무성음의 주기성에 대한 특성을 보완할 수 있는 저대역 에너지와 영교차율, 그리고 주기성의 안정성을 판단하기 위한 피치 변화량을 파라미터로 사용하였다. 유ㆍ무성음의 구간검출을 음소단위의 검출이라는 측면에서 접근하여 음소군의 검출율과 음소군내의 음소의 검출율을 얻었다. TIMIT코퍼스 (corpus)를 데이터베이스로 사용하여 실험했을 때 유성음 음소 검출율이 약 13% 향상되었다.

Speech Emotion Recognition with SVM, KNN and DSVM

  • Hadhami Aouani ;Yassine Ben Ayed
    • International Journal of Computer Science & Network Security
    • /
    • 제23권8호
    • /
    • pp.40-48
    • /
    • 2023
  • Speech Emotions recognition has become the active research theme in speech processing and in applications based on human-machine interaction. In this work, our system is a two-stage approach, namely feature extraction and classification engine. Firstly, two sets of feature are investigated which are: the first one is extracting only 13 Mel-frequency Cepstral Coefficient (MFCC) from emotional speech samples and the second one is applying features fusions between the three features: Zero Crossing Rate (ZCR), Teager Energy Operator (TEO), and Harmonic to Noise Rate (HNR) and MFCC features. Secondly, we use two types of classification techniques which are: the Support Vector Machines (SVM) and the k-Nearest Neighbor (k-NN) to show the performance between them. Besides that, we investigate the importance of the recent advances in machine learning including the deep kernel learning. A large set of experiments are conducted on Surrey Audio-Visual Expressed Emotion (SAVEE) dataset for seven emotions. The results of our experiments showed given good accuracy compared with the previous studies.

유.무성음 및 묵음 식별에 관한 연구 (A Study on the Voiced, Unvoiced and Silence Classification)

  • 김명환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1984년도 추계학술발표회 논문집
    • /
    • pp.73-77
    • /
    • 1984
  • This paper reports on a Voiced-Unvoiced-Silence Classification of speech for Korean Speech Recognition. In this paper, it is describe a method which uses a Pattern Recognition Technique for classifying a given speech segment into the three classes. Best result is obtained with the combination using ZCR, P1, Ep and classification error rate is less than 1%.

  • PDF

음성 신호의 음소 단위 구분화에 관한 연구 (A Study on the Segmentation of Speech Signal into Phonemic Units)

  • 이의천;이강성;김순협
    • 한국음향학회지
    • /
    • 제10권4호
    • /
    • pp.5-11
    • /
    • 1991
  • 본 연구에서는 음성신호의 음소 단위 구분화 방법을 제안한다. 제안된 구분화 시스템은 화자 독립적이고, 음성신호에 대한 사전 정보 없이도 음소 단위로 구분화를 수행할 수 있는 특징을 갖는다. 구분화 처리는 입력 음성신호를 먼저 순수 유성을 구간과 순수 유성음이 아닌 구간으로 분리 시킨 후, 각각의 구간에 대해 세분화된 음소 단위로 분리시키는 2단계 구분화 알고리즘을 적용하였고, 이때 사용된 파라미터는 유성을 검출 파라미터, 영차 LPC 캡스트럼 계수의 시간변호 파라미터, ZCR 파라미터이다. 본 연구에서 제안한 구분화 알고리즘의 유용성을 입증하기 위해 사용한 대상어는 고립단어와 연속음성으로 구성된 어휘로서 전체 어휘중에 포함된 507개 음소에 대한 구분화율은 91.7% 이다.

  • PDF

음악정보와 음악적 성향 분석 및 협업 필터링을 이용한 음악추천시스템 (Music information and musical propensity analysis, and music recommendation system using collaborative filtering)

  • 공민서;홍진주;최재현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.533-536
    • /
    • 2015
  • 모바일 음악 시장이 점차 커지고 있다. 하지만 현재 적용되는 서비스는 사용자가 선호할 만한 음악을 추천하기에는 정확도가 떨어진다. 본 연구에서는 음악 정보와 사용자의 음악적 성향을 분석해 협업 필터링기법으로 사용자가 보다 선호하는 음악을 자동으로 추천해주는 음악 추천 시스템을 제안한다. 본 시스템은 음원의 메타데이터에서 장르 데이터를 추출해서 장르별로 구분하고, STFT기법의 ZCR, Spectral roll-off, Spectral flux의 요소 벡터값을 추출하여 유사한 음원끼리 군집화를 한 후, TF-IDF기법으로 각 음원 가사의 무드를 분류한 다음, 이 요소들로 협업 필터링기법을 이용해 유사한 취향의 사용자를 발견해 자동 음악 추천을 하는 시스템을 제안한다.

  • PDF

우리말 연속음성의 음절 분할법 (A Syllabic Segmentation Method for the Korean Continuous Speech)

  • 한학용;고시영;허강인
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.70-75
    • /
    • 2001
  • 본 논문은 우리말 연속음성에 대한 음절단위 분할법을 제안한다. 이 방법은 다음 3단계로 이루어진다: (1) 음성의 시간영역 분할 파라메터인 피치, 에너지, ZCR, PVR을 이용하여 음성데이터를 자음, 자음. 묵음 단위로 라벨링하여 토큰 (Token)을 형성, (2) 형성된 토큰을 유한상태오토마타를 이용하여 한국어 음절구조로 파서 (Parser)를 설계하여 스캐닝 (Scanning), (3) 의사 음절핵 정보를 이용하여 두개 혹은 여러 개의 음절을 가지는 음성부분에 대한 재분할을 통하여 음절단위 분할 완성. 제안된 방법에 대한 성능 평가를 위해서 문장과 단어단위 연속음성에 대한 분할 실험결과 각각 73.7%와 85.9%의 분할률을 얻었다.

  • PDF

DSP를 이용한 음성인식기 구현 (Implementation of Speech Recognizer using DSP(Digital Signal Processor))

  • 임창환;문철홍;전경남
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(4)
    • /
    • pp.187-190
    • /
    • 2000
  • In this paper, implementation of speech Recognizer system, Separated from Personal computer. By using DSP, this intends to extend the voice recognizing, limited into PC because of amount of data and calculations. For this performance The thesis uses the real time End point detector and organizes no additional device between human and the system, characteristic vector are that detects End point and voice from absolute energy and ZCR, that uses 12 difference Cepstrum from LPC, that uses the method to compensate the process of pattern separating and pre-calculated standard pattern limitation.

  • PDF

선형예측에 의한 숫자음성 자동인식 (A Spoken Korean-Digits Recognition System Based on Linear Prdiction Spectra)

  • 오영환
    • 대한전자공학회논문지
    • /
    • 제17권3호
    • /
    • pp.12-19
    • /
    • 1980
  • A speech recognition system for separately pronounced Korean digits is described. The system is composed of four stages ; parameter extraction, segmentation by voiced-unovied analysis, formant tracking and pattern matching. Digit speech is segmented into an unvoiced segment and/or a voiced one using ZCR and energy measurements, then to estimate the first three formant frequencies a relatively simple formant tracking scheme is applied to the raw formant data extracted from linear prediction spectra. Finally, pattern matching is made using dynamic programmig method. Recognition experiment is carried out for 150 digit utterences spoken by three male speakers, and recgnition rate 94 % is obtained.

  • PDF

LPC Vocoder 의 Excitation Source 개선에 관한 연구 (An Enhanced Excitation Source in LPC Vocoder)

  • 전지하;이근영
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1987년도 전기.전자공학 학술대회 논문집(II)
    • /
    • pp.881-883
    • /
    • 1987
  • This paper decribes a new technique for the generation of excitation sources in LPC system. We synthesize a speech signal using several excitation sources, according to residual signal energy and ZCR(zero Crossing Rate). One of the excitation sources mix the double differentiated glottal wave form source and noise source. As a result, we got improved speech signal than that produced by conventional LPC system.

  • PDF