• 제목/요약/키워드: Speech Data Classification

검색결과 116건 처리시간 0.021초

발화행태 특징을 활용한 응급상황 신고자 연령분류 (Age classification of emergency callers based on behavioral speech utterance characteristics)

  • 손귀영;권순일;백성욱
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권6호
    • /
    • pp.96-105
    • /
    • 2017
  • 본 논문에서는 실제 응급상황센터에 접수된 신고전화의 음성분석을 통하여 발화자의 연령을 분류하고자 한다. 2가지 발화행태적 특징요소인 무성휴지(Silent Pause), 대화반응시간(Turn-taking latency)를 활용하여 성인과 노인을 분류할 수 있는 특징에 대한 분류기준을 선정하고, 이를 기계학습 분류기인 SVM(Support Vector Machine)을 활용하여 분류정확도를 확인하였다. 먼저, 응급상황센터의 실제 신고전화에 대하여 발화행태적 특징 요소를 기반으로 청취분석을 통하여 발생길이에 대하여 성인과 노인사이에 통계적으로 유의하다는 것을 확인하였다(p<0.05). 또한, 성인과 노인 각 100개, 총 200개의 음성데이터를 5차 교차검증방법을 사용하여 기계학습을 실행한 결과, 2가지의 발화행태를 모두 사용한 복합기준(무성휴지+대화반응시간)일 경우, 70%의 가장 높은 분류정확도를 확인할 수 있었다. 본 연구의 결과는 음성에 기반한 연령을 분류하는 연구에 있어서, 기존의 음성정보와 더불어, 새로운 발화행태적 특징요소와의 결합을 통하여 연령구분을 가능하게 하는 새로운 방법으로 제안할 수 있을 것이다. 또한, 향후 음성기반 상황판단 시스템 기술 개발에 있어서 기초자료로 적용이 가능하며, 이를 통하여 신속한 연령분류를 판단을 통한 상황대처가 가능하도록 하는 데에 기여할 수 있을 것이다.

음성신호를 이용한 기계학습 기반 피로도 분류 모델 (Fatigue Classification Model Based On Machine Learning Using Speech Signals)

  • 이수화;권철홍
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.741-747
    • /
    • 2022
  • 피로는 개인의 능력을 저하되게 하여 업무 수행을 어렵게 하며, 피로가 누적되면 집중력이 저하되어 안전사고를 초래할 가능성이 증가하게 된다. 피로에 대한 자각은 주관적이나, 실제 현장에서는 피로의 수준을 정량적으로 측정할 필요가 있다. 기존 연구에서 피로 수준은 다원적 피로 척도와 같은 주관적 평가에, 생체신호 분석 등의 객관적지표를 추가하여 전문가의 판단으로 측정하는 방식이 제안되었으나, 이러한 방법은 일상생활에서 실시간으로 피로도를 평가하기 어렵다. 본 논문은 현장에서 녹음한 음성 데이터를 이용하여 실시간으로 작업자의 피로 수준을 판정하는 피로도 분류 모델에 관한 연구이다. 현장에서 수집한 음성 데이터를 이용하여 로지스틱 분류, 서포트 벡터 머신, 랜덤 포레스트 등의 기계학습 모델을 학습시킨다. 성능을 평가한 결과, 정확도가 0.677 ~ 0.758로 우수한 성능을 보여주었고, 이 중에서 로지스틱 분류가 가장 우수한 성능을 나타냈다. 실험 결과로부터 음성신호를 이용하여 피로도를 분류하는 것이 가능하다는 것을 알 수 있다.

Analysis of the Timing of Spoken Korean Using a Classification and Regression Tree (CART) Model

  • Chung, Hyun-Song;Huckvale, Mark
    • 음성과학
    • /
    • 제8권1호
    • /
    • pp.77-91
    • /
    • 2001
  • This paper investigates the timing of Korean spoken in a news-reading speech style in order to improve the naturalness of durations used in Korean speech synthesis. Each segment in a corpus of 671 read sentences was annotated with 69 segmental and prosodic features so that the measured duration could be correlated with the context in which it occurred. A CART model based on the features showed a correlation coefficient of 0.79 with an RMSE (root mean squared prediction error) of 23 ms between actual and predicted durations in reserved test data. These results are comparable with recent published results in Korean and similar to results found in other languages. An analysis of the classification tree shows that phrasal structure has the greatest effect on the segment duration, followed by syllable structure and the manner features of surrounding segments. The place features of surrounding segments only have small effects. The model has application in Korean speech synthesis systems.

  • PDF

연속 잡음 음성 인식을 위한 다 모델 기반 인식기의 성능 향상에 대한 연구 (Performance Improvement in the Multi-Model Based Speech Recognizer for Continuous Noisy Speech Recognition)

  • 정용주
    • 음성과학
    • /
    • 제15권2호
    • /
    • pp.55-65
    • /
    • 2008
  • Recently, the multi-model based speech recognizer has been used quite successfully for noisy speech recognition. For the selection of the reference HMM (hidden Markov model) which best matches the noise type and SNR (signal to noise ratio) of the input testing speech, the estimation of the SNR value using the VAD (voice activity detection) algorithm and the classification of the noise type based on the GMM (Gaussian mixture model) have been done separately in the multi-model framework. As the SNR estimation process is vulnerable to errors, we propose an efficient method which can classify simultaneously the SNR values and noise types. The KL (Kullback-Leibler) distance between the single Gaussian distributions for the noise signal during the training and testing is utilized for the classification. The recognition experiments have been done on the Aurora 2 database showing the usefulness of the model compensation method in the multi-model based speech recognizer. We could also see that further performance improvement was achievable by combining the probability density function of the MCT (multi-condition training) with that of the reference HMM compensated by the D-JA (data-driven Jacobian adaptation) in the multi-model based speech recognizer.

  • PDF

Classification of Pathological Voice Signal with Severe Noise Component

  • Li, Ta-O;Jo, Cheol-Woo
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.107-115
    • /
    • 2003
  • In this paper we tried to classify the pathological voice signal with severe noise component based on two different parameters, the spectral slope and the ratio of energies in the harmonic and noise components (HNR), The spectral slope is obtained by using a curve fitting method and the HNR is computed in cepstrum quefrency domain. Speech data from normal peoples and patients are collected, diagnosed and divided into three different classes (normal, relatively less noisy and severely noisy data), The mean values and the standard deviations of the spectral slope and the HNR are computed and compared with in the three kinds of data to characterize and classify the severely noisy pathological voice signals from others.

  • PDF

A Study on Image Recommendation System based on Speech Emotion Information

  • Kim, Tae Yeun;Bae, Sang Hyun
    • 통합자연과학논문집
    • /
    • 제11권3호
    • /
    • pp.131-138
    • /
    • 2018
  • In this paper, we have implemented speeches that utilized the emotion information of the user's speech and image matching and recommendation system. To classify the user's emotional information of speech, the emotional information of speech about the user's speech is extracted and classified using the PLP algorithm. After classification, an emotional DB of speech is constructed. Moreover, emotional color and emotional vocabulary through factor analysis are matched to one space in order to classify emotional information of image. And a standardized image recommendation system based on the matching of each keyword with the BM-GA algorithm for the data of the emotional information of speech and emotional information of image according to the more appropriate emotional information of speech of the user. As a result of the performance evaluation, recognition rate of standardized vocabulary in four stages according to speech was 80.48% on average and system user satisfaction was 82.4%. Therefore, it is expected that the classification of images according to the user's speech information will be helpful for the study of emotional exchange between the user and the computer.

분류 우선순위 적용과 후보정 규칙을 이용한 효과적인 한국어 화행 분류 (Effective Korean Speech-act Classification Using the Classification Priority Application and a Post-correction Rules)

  • 송남훈;배경만;고영중
    • 정보과학회 논문지
    • /
    • 제43권1호
    • /
    • pp.80-86
    • /
    • 2016
  • 화행이란 발화 속에 포함되어 있는 화자에 의해 의도된 언어적 행위이다. 대화 시스템에서 입력된 발화에 적합한 화행을 분류하는 것은 중요하다. 기존의 화행분류에 관한 연구는 규칙기반과 기계학습 기반의 방법을 많이 사용한다. 본 논문에서는 대표적인 기계학습 방법인 지지벡터기계(SVM)와 변환기반 학습(TBL)을 조합한 화행 분류 방법을 제안한다. 이를 위해, 화행별 학습 발화의 수에 기반하여 분류 우선순위를 조정함으로써 지지벡터기계의 분류 편향 문제를 해결하였고, 오답일 확률이 높은 분류 결과에 대해서 변환 기반 학습을 통해 생성된 보정 규칙을 적용함으로써 화행분류 성능을 개선하는 방법을 제안한다. 본 논문에서 화행별 학습 발화 수의 차이를 고려한 분류 우선순위 변화와 후보정 규칙을 이용한 화행분류 방법을 실험을 통해 평가하였으며, 이는 학습 발화 수가 낮은 화행의 우선순위를 고려하지 않은 기존의 화행 분류보다 성능이 향상되었다.

자유대화의 음향적 특징 및 언어적 특징 기반의 성인과 노인 분류 성능 비교 (Comparison of Classification Performance Between Adult and Elderly Using Acoustic and Linguistic Features from Spontaneous Speech)

  • 한승훈;강병옥;동성희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.365-370
    • /
    • 2023
  • 사람은 노화과정에 따라 발화의 호흡, 조음, 높낮이, 주파수, 언어 표현 능력 등이 변화한다. 본 논문에서는 이러한 변화로부터 발생하는 음향적, 언어적 특징을 기반으로 발화 데이터를 성인과 노인 두 그룹으로 분류하는 성능을 비교하고자 한다. 음향적 특징으로는 발화 음성의 주파수 (frequency), 진폭(amplitude), 스펙트럼(spectrum)과 관련된 특징을 사용하였으며, 언어적 특징으로는 자연어처리 분야에서 우수한 성능을 보이고 있는 한국어 대용량 코퍼스 사전학습 모델인 KoBERT를 통해 발화 전사문의 맥락 정보를 담은 은닉상태 벡터 표현을 추출하여 사용하였다. 본 논문에서는 음향적 특징과 언어적 특징을 기반으로 학습된 각 모델의 분류 성능을 확인하였다. 또한, 다운샘플링을 통해 클래스 불균형 문제를 해소한 뒤 성인과 노인 두 클래스에 대한 각 모델의 F1 점수를 확인하였다. 실험 결과로, 음향적 특징을 사용하였을 때보다 언어적 특징을 사용하였을 때 성인과 노인 분류에서 더 높은 성능을 보이는 것으로 나타났으며, 클래스 비율이 동일하더라도 노인에 대한 분류 성능보다 성인에 대한 분류 성능이 높음을 확인하였다.

인공지능 기반의 말더듬 자동분류 방법: 합성곱신경망(CNN) 활용 (AI-based stuttering automatic classification method: Using a convolutional neural network)

  • 박진;이창균
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.71-80
    • /
    • 2023
  • 본 연구는 말더듬 화자들의 음성 데이터를 기반으로 하여, 인공지능 기술을 활용한 말더듬 자동 식별 방법을 개발하는 것을 주목적으로 진행되었다. 특히, 한국어를 모국어로 하는 말더듬 화자들을 대상으로 CNN(convolutional neural network) 알고리즘을 활용한 식별기 모델을 개발하고자 하였다. 이를 위해 말더듬 성인 9명과 정상화자 9명을 대상으로 음성 데이터를 수집하고, Google Cloud STT(Speech-To-Text)를 활용하여 어절 단위로 자동 분할한 후 유창, 막힘, 연장, 반복 등의 라벨을 부여하였다. 또한 MFCCs(mel frequency cepstral coefficients)를 추출하여 CNN 알고리즘을 기반한 말더듬 자동 식별기 모델을 수립하고자 하였다. 연장의 경우 수집결과가 5건으로 나타나 식별기 모델에서 제외하였다. 검증 결과, 정확도는 0.96으로 나타났고, 분류성능인 F1-score는 '유창'은 1.00, '막힘'은 0.67, '반복'은 0.74로 나타났다. CNN 알고리즘을 기반한 말더듬 자동분류 식별기의 효과를 확인하였으나, 막힘 및 반복유형에서는 성능이 미흡한 것으로 나타났다. 향후 말더듬의 유형별 충분한 데이터 수집을 통해 추가적인 성능 검증이 필요함을 확인하였다. 향후 말더듬 화자의 발화 빅데이터 확보를 통해 보다 신뢰성 있는 말더듬 자동 식별 기술의 개발과 함께 이를 통한 좀 더 고도화된 평가 및 중재 관련 서비스가 창출되기를 기대해 본다.

퍼지추론을 이용한 한국어 자음분류에 관한 연구 (A Study on the Consonant Classification Using Fuzzy Inference)

  • 박경식
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1992년도 학술논문발표회 논문집 제11권 1호
    • /
    • pp.71-75
    • /
    • 1992
  • This paper proposes algorithm in order to classify Korean consonant phonemes same as polosives, fricatives affricates into la sounds, glottalized sounds, aspirated sounds. This three kinds of sounds are one of distinctive characters of the Korean language which don't eist in language same as English. This is thesis on classfication of 14 Korean consonants(k, t, p, s, c, k', t', p', s', c', kh, ph, ch) as a previous stage for Korean phone recognition. As feature sets for classification, LPC cepstral analysis. The eperiments are two stages. First, using short-time speech signal analysis and Mahalanobis distance, consonant segments are detected from original speech signal, then the consonants are classified by fuzzy inference. As the results of computer simulations, the classification rate of the speech data was come to 93.75%.

  • PDF