• 제목/요약/키워드: voice classification

검색결과 149건 처리시간 0.037초

다자간 영상통화의 오디오 게인콘트롤을 위한 저연산 음성분류방식 (Multi-party video telephony of audio gain control for low computation voice classification method)

  • 류상현;김형국
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2012년도 춘계학술발표대회논문집
    • /
    • pp.349-350
    • /
    • 2012
  • 본 논문에서는 다자간 영상통화의 오디오 게인콘트롤을 위한 저연산 음성분류방식을 제안한다. 제안된 음성분류방식은 입력되는 음성신호를 음성신호의 특징에 따라서 묵음/무성음/유성음으로 분류한다. 입력된 음성신호의 에너지를 이용해서 음성구간과 비음성구간을 판별한다. 음성구간으로 판별된 구간에 대해서 ZCR(Zeor Crossing Rate)를 이용하여 유성음과 무성음으로 분류한다. 제안된 방식의 성능을 측정을 위해 음성분류 정확도와 연산시간을 측정하여 성능을 측정하였다.

  • PDF

음성인식을 이용한 고객센터 자동 호 분류 시스템 (Automated Call Routing Call Center System Based on Speech Recognition)

  • 심유진;김재인;구명완
    • 음성과학
    • /
    • 제12권2호
    • /
    • pp.183-191
    • /
    • 2005
  • This paper describes the automated call routing for call center system based on speech recognition. We focus on the task of automatically routing telephone calls based on a users fluently spoken response instead of touch tone menus in an interactive voice response system. Vector based call routing algorithm is investigated and normalization method suggested. Call center database which was collected by KT is used for call routing experiment. Experimental results evaluating call-classification from transcribed speech are reported for that database. In case of small training data, an average call routing error reduction rate of 9% is observed when normalization method is used.

  • PDF

음성학적으로 본 사상체질 (A Phonetic Study of 'Sasang Constitution')

  • 문승재;탁지현;황혜정
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 춘계 학술대회 발표논문집
    • /
    • pp.63-66
    • /
    • 2005
  • Sasang Constitution, one branch of oriental medicine, claims that people can be classified into four different 'constitutions:' Taeyang, Taeum, Soyang, and Soeum. This study investigates whether the classification of the 'constitutions' could be accurately made solely based on people's voice by analyzing the data from 46 different voices whose constitutions were already determined. Seven source-related parameters and four filter-related parameters were phonetically analyzed and the GMM(gaussian mixture model) was tried with the data. Both the results from phonetic analyses and GMM showed that all the parameters (except one)failed to distinguish the constitutions of the people successfully. And even the single exception, the bandwidth of F2, did not provide us with sufficient reasons to be the source of distinction. This result seems to suggest one of the two conclusions: either the Sasang Constitutions cannot be substantiated with phonetic characteristics of peoples' voices with reliable accuracy, or we need to find yet some other parameters which haven't been conventionally proposed.

  • PDF

한국어 연속음인식에 관한 연구(유성음 분류 및 단모음 인식 ) (On the Classification of Voice Sound and the Recognition of Vowels for Korean Continuous Speech)

  • 하판봉;이철희;방승찬;안수길
    • 한국음향학회지
    • /
    • 제5권3호
    • /
    • pp.28-35
    • /
    • 1986
  • 우리나라 음성의 유성음을 모음, 비음 및 유성화 자음으로 분류하는 알고리즘을 기술하였다. 먼 저 기존의 PITCH 검출 알고리즘에 의하여 음성을 유성음과 무성음으로 나눈 뒤, 단지 정규화된 1차 상 관계수, 영교차율, LOG 에너지 및 LPG 에너지의 골짜기 검출만을 이용하여, 유성음은 모음, 비음 및 유 성화자음으로 분류하고 무성음은 실제의 무성음과 묵음으로 분류하였다. 그리고 이렇게 분류된 모음에 대하여 단모음 인식을 행하였다. 단지 한 FRAME으로 모음을 대표하였기 때문에 메모리 크기와 인식 시간을 줄였다. 여기서 UP & DOWN 및 수정된 영교차율을 새로이 정의하여 적용한 결과 만족한 결과 를 얻을 수 있었다. LPC 매개변수 및 전력 스펙트럼도 단모음 인식의 FEATURE로 사용하였다. 그리고 각 FEATURE 의 성능을 비교하였다. 이들 FEATURE을 잘 조합하여 2단계 인식을 행한 결과 92%의 높은 인식율을 얻을 수 있었다.

  • PDF

Determining the Optimal Number of Signal Clusters Using Iterative HMM Classification

  • Ernest, Duker Junior;Kim, Yoon Joong
    • International journal of advanced smart convergence
    • /
    • 제7권2호
    • /
    • pp.33-37
    • /
    • 2018
  • In this study, we propose an iterative clustering algorithm that automatically clusters a set of voice signal data without a label into an optimal number of clusters and generates hmm model for each cluster. In the clustering process, the likelihood calculations of the clusters are performed using iterative hmm learning and testing while varying the number of clusters for given data, and the maximum likelihood estimation method is used to determine the optimal number of clusters. We tested the effectiveness of this clustering algorithm on a small-vocabulary digit clustering task by mapping the unsupervised decoded output of the optimal cluster to the ground-truth transcription, we found out that they were highly correlated.

음성 데이터의 지능적 분류 및 컨텍스트 분석 시스템 구현 (Intelligent Classification and Context Analysis System of Voice Data)

  • 최현석;주성환;김대천;박예찬;염상길;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.162-163
    • /
    • 2016
  • 사람은 의사소통을 위해 음성, 글자, 몸짓 등 다양한 매개체를 활용한다. 오늘날 스마트폰의 발달로 문자의 비중이 높아지고 있지만 음성 대화는 여전히 사람들 사이에서 가장 많이 사용되어지는 의사소통 수단이다. 음성 대화는 녹음해서 음성 데이터로 남길 수 있다. 음성을 녹음하는 과정은 간편하지만 녹음파일에서 원하는 데이터를 찾는 것은 많은 시간이 소모된다. 본 논문에서는 음성 데이터를 인식하여 텍스트화 시키고 문자화 된 데이터를 분석하여 사용자에게 효율적으로 분류하는 시스템을 제안한다. 이 시스템으로 사용자는 음성 데이터의 내용을 들어보지 않고 파악할 수 있으며 원하는 내용을 찾을 수도 있다.

5음의 분석과 분류 (A study on the 5-Tone Analysis and Classification)

  • 조병서;이용동;;허웅;박영배
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(5)
    • /
    • pp.219-222
    • /
    • 2001
  • The human speech sounds are use to diagnosis in oriental medicine with ‘0-sung’theory. In general, human voice are sound waves which generated by phonation. Two major parts of phonation are vocal cords and vocal tract. The uniqueness of individual vocal sound depend on structure and usage of their vocal cords and tract. In the oriental medicine, “0-sung (5-tones)” has been used to classify constitution of human body In order to characterize the “0-sung”, their frequency characteristics are investigated, and a principal frequency component is extracted. Then, the principal component is applied to classify sounds into “0-sung.”

  • PDF

RUI용 음성신호기반의 감정분류를 위한 피치검출기에 관한 연구 (A study on pitch detection for RUI emotion classification based on voice)

  • 변성우;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.421-424
    • /
    • 2015
  • 컴퓨터 기술이 발전하고 컴퓨터 사용이 일반화 되면서 휴먼 인터페이스에 대한 많은 연구들이 진행되어 왔다. 휴먼 인터페이스에서 감정을 인식하는 기술은 컴퓨터와 사람간의 상호작용을 위해 중요한 기술이다. 감정을 인식하는 기술에서 분류 정확도를 높이기 위해 특징벡터를 정확하게 추출하는 것이 중요하다. 본 논문에서는 정확한 피치검출을 위하여 음성신호에서 음성 구간과 비 음성구간을 추출하였으며, Speech Processing 분야에서 사용되는 전 처리 기법인 저역 필터와 유성음 추출 기법, 후처리 기법인 Smoothing 기법을 사용하여 피치 검출을 수행하고 비교하였다. 그 결과, 전 처리 기법인 유성음 추출 기법과 후처리 기법인 Smoothing 기법은 피치 검출의 정확도를 높였고, 저역 필터를 사용한 경우는 피치 검출의 정확도가 떨어트렸다.

  • PDF

기계학습을 이용한 택배 고객의 소리 분류 (Classification of V.O.C in The Door-to-Door Delivery Service Using Machine Learning Techniques)

  • 홍성윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.329-332
    • /
    • 2012
  • 국내 택배시장 규모는 매출 3조원 이상, 물량 13 억 상자 이상을 처리하고 있다. 2000년 6천억원에서 불과 10년 사이에 500% 이상 확대되었다. 그에 반해 소비자들의 불만 역시 증가하였다. 따라서 현재의 수작업 VOC 분류 방식으로는 적정한 대응에 한계가 있을 수 밖에 없다. 이 논문에서는 효율적인 택배불만 처리를 위해서 불만의 종류와 정도를 기계학습을 이용하여 자동분류 하는 과정 및 결과를 기술한다. 약 93,000건의 VOC(voice of customer)를 대상으로 학습 데이터를 구축하고 여러 자질 선택 기법을 비교하였으며, 기존의 다양한 문서 자동 분류 방법들을 적용해 보았다. 실험결과 지지벡터기계가 가장 좋은 성능을 보였고, 각각의 F-measure 값은 불만의 정도는 83.1%, 불만의 종류는 75.9% 로 측정되었다.

CO2 Laser Microsurgery for Type 1 Posterior Glottic Stenosis Misdiagnosed as Bronchial Asthma: A Case Report

  • Ju, Yeo Rim;Park, Hyoung Sik;Lee, Sang Joon;Woo, Seung Hoon
    • Medical Lasers
    • /
    • 제9권1호
    • /
    • pp.79-83
    • /
    • 2020
  • This paper reports a case of type 1 posterior glottic stenosis in a 60-year-old woman that was misdiagnosed as bronchial asthma. The patient was intubated at another hospital after ingesting herbicide and extubated seven days later. Although her voice changed, she had not received treatment at that time. She visited a local internal medicine clinic when her condition deteriorated to the point of dyspnea, but several months of treatment for bronchial asthma failed to improve her symptoms. Upon admission to the author's hospital, a laryngoscopic examination revealed a type 1 posterior glottic stenosis, which was removed surgically using a CO2 laser.