• 제목/요약/키워드: Voice Training

검색결과 177건 처리시간 0.024초

음성인식을 이용한 고객센터 자동 호 분류 시스템 (Automated Call Routing Call Center System Based on Speech Recognition)

  • 심유진;김재인;구명완
    • 음성과학
    • /
    • 제12권2호
    • /
    • pp.183-191
    • /
    • 2005
  • This paper describes the automated call routing for call center system based on speech recognition. We focus on the task of automatically routing telephone calls based on a users fluently spoken response instead of touch tone menus in an interactive voice response system. Vector based call routing algorithm is investigated and normalization method suggested. Call center database which was collected by KT is used for call routing experiment. Experimental results evaluating call-classification from transcribed speech are reported for that database. In case of small training data, an average call routing error reduction rate of 9% is observed when normalization method is used.

  • PDF

Considering Dynamic Non-Segmental Phonetics

  • Fujino, Yoshinari
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2000년도 7월 학술대회지
    • /
    • pp.312-320
    • /
    • 2000
  • This presentation aims to explore some possibility of non-segmental phonetics usually ignored in phonetics education. In pedagogical phonetics, especially ESL/EFL oriented phonetics speech sounds tend to be classified in two criteria 1) 'pronunciation' which deals with segments and 2) 'prosody' or 'suprasegmentals', a criterion that deals with non-segmental elements such as stress and intonation. However, speech involves more dynamic processing. It is non-linear and multi-dimensional in spite of the linear sequence of symbols in phonetic/phonological transcriptions. No word is without pitch or voice quality apart from segmental characteristics whether it is spoken in isolation or cut out from continuous speech. This simply tells the dichotomy of pronunciation and prosody is merely a useful convention. There exists some room to consider dynamic non-segmental phonetics. Examples of non-segmental phonetic investigation, some of the analyses conducted within the frame of Firthian Prosodic Analysis, especially of the relation between vowel variants and foot types, are examined and we see what kind of auditory phonetic training is required to understand impressionistic transcriptions which lie behind the non-segmental phonetics.

  • PDF

Recognition of the Korean Alphabet using Phase Synchronization of Neural Oscillator

  • Lee, Joon-Tark;Bum, Kwon-Yong
    • 한국지능시스템학회논문지
    • /
    • 제14권1호
    • /
    • pp.93-99
    • /
    • 2004
  • Neural oscillator can be applied to oscillatory systems such as analyses of image information, voice recognition and etc. Conventional EBPA (Error back Propagation Algorithm) is not proper for oscillatory systems with the complicate input`s patterns because of its tedious training procedures and sluggish convergence problems. However, these problems can be easily solved by using a synchrony characteristic of neural oscillator with PLL(Phase Locked Loop) function and by using a simple Hebbian learning rule. Therefore, in this paper, a technique for Recognition of the Korean Alphabet using Phase Synchronized Neural Oscillator was introduced.

Machine Learning-Based Programming Analysis Model Proposal : Based on User Behavioral Analysis

  • Jang, Seonghoon;Shin, Seung-Jung
    • International journal of advanced smart convergence
    • /
    • 제9권4호
    • /
    • pp.179-183
    • /
    • 2020
  • The online education platform market is developing rapidly after the coronavirus infection-19 pandemic. As school classes at various levels are converted to non-face-to-face classes, interest in non-face-to-face online education is increasing more than ever. However, the majority of online platforms currently used are limited to the fragmentary functions of simply delivering images, voice and messages, and there are limitations to online hands-on training. Indeed, digital transformation is a traditional business method for increasing coding education and a corporate approach to service operation innovation strategy computing thinking power and platform model. There are many ways to evaluate a computer programmer's ability. Generally, piecemeal evaluation methods are used to evaluate results in time through coding tests. In this study, the purpose of this study is to propose a comprehensive evaluation of not only the results of writing, but also the execution process of the results, etc., and to evaluate the programmer's propensity habits based on the programmer's coding experience to evaluate the programmer's ability and productivity.

The Use of Blackboard by Students During the COVID-19 Pandemic

  • Alghamdi, Deena
    • International Journal of Computer Science & Network Security
    • /
    • 제22권3호
    • /
    • pp.319-325
    • /
    • 2022
  • By using the Blackboard (BB) system in the education sector, the educational process for both academics and students is facilitated. Two data resources were used to evaluate the use of the BB system by students of Umm Al-Qura University: statistical reports issued by the university and an online questionnaire. A total of 989 students from all colleges and different programmes provided by the university responded to the questionnaire survey. According to our findings, most students did not use the BB before the pandemic. Therefore, the sudden conversion to the BB system required intensive training courses. After the data analysis, the relationship between the use of the BB system before the pandemic and the problems students faced during the lockdown was revealed. The most critical issues raised by the respondents were: (1) "The voice of the lecturer went on and off during BB collaborate class", (2) "internet connection of the lecturer went on and off during BB collaborate class" and (3) "High possibility of IT problems during exams".

STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습 (Deep Learning-based Speech Voice Separation Training To Enhance STT Performance)

  • 김보경;양영준;황용해;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.851-853
    • /
    • 2022
  • 인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.

  • PDF

동적 시간 신축 알고리즘을 이용한 화자 식별 (Speaker Identification Using Dynamic Time Warping Algorithm)

  • 정승도
    • 한국산학기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.2402-2409
    • /
    • 2011
  • 음성에는 전달하고자 하는 정보 이외에 화자 고유의 음향적 특징을 담고 있다. 화자간의 음향적 차이를 이용하여 말하고 있는 사람이 누구인지 판단하는 방법이 화자 인식이다. 화자 인식에는 화자 확인과 화자 식별로 구분되는데 화자 확인은 1명의 음성을 대상으로 본인인지 아닌지를 검증하는 방법이다. 반면, 화자 식별은 미리 등록된 다수의 종속 문장으로부터 가장 유사한 모델을 찾아 대상 의뢰인이 누군지 식별하는 방법이다. 본 논문에서는 MFCC(Mel Frequency Cepstral Coefficient) 계수를 추출하여 특징 벡터를 구성하였고, 특징 간 유사도 비교는 동적 시간 신축(Dynamic Time Warping) 알고리즘을 이용한다. 각 화자마다 두 개의 종속 문장을 훈련 데이터로 사용하여 음운성에 기반을 둔 공통적 특징을 기술하였고, 이를 통해 데이터베이스에 저장되어 있지 않은 단어를 사용하더라도 동일 화자임을 식별할 수 있도록 하였다.

음성인식을 이용한 상황정보 기반의 스마트 흠 개인화 서비스 (Smart Home Personalization Service based on Context Information using Speech)

  • 김종훈;송창우;김주현;정경용;임기욱;이정현
    • 한국콘텐츠학회논문지
    • /
    • 제9권11호
    • /
    • pp.80-89
    • /
    • 2009
  • 유비쿼터스 컴퓨팅이 발전하면서, 스마트 홈 환경에서 개인화 서비스의 중요성이 부각되고 있다. 본 논문에서는 음성인식을 이용한 상황정보 기반의 스마트 홈 개인화 서비스를 제안한다. 제안된 서비스에서는 OSGi 프레임워크 기반의 서비스 이동 관리자, 서비스 관리자, 음성인식 관리자, 위치 관리자로 구성된다. 스마트 홈 공간을 정의하고 정의된 공간에서 가장 많이 사용하는 유닛의 명령어 및 센서 정보, 사용자 정보를 상황정보로 구성하였다. 특히, 본 서비스는 음성인식의 훈련모델과 패턴매칭 분석을 통하여 RFID로 구별하기 어려운 동일한 공간의 사용자들을 구별하고 상황 및 개인 정보를 사용하여 스마트 홈 어플리케이션의 개인화 서비스를 지원한다. 실험 결과, 동일 공간에서 사용자 확인을 통한 OSGi 기반의 자동화되고 개인화 된 서비스가 가능함을 확인하였다.

HMM과 연결 숫자음의 후처리를 이용한 음성 다이얼링에 관한 연구 (A Study on the Voice Dialing using HMM and Post Processing of the Connected Digits)

  • 양진우;김순협
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.74-82
    • /
    • 1995
  • 본 논문은 HMM과 연결 숫자음의 후처리를 이용한 음성 다이얼링에 관한 연구이다. HMM(Hidden Markov Model)은 좋은 결과를 보이면서 현재 음성 인식 분야에서 널리 사용되는 알고리즘이다. 그러나, HMM의 학습 방법인 maximum like-lihood estimation은 인식률을 극대화하는 모델의 파라메터 값을 생성하지 못하는 단점이 었다. 이러한 문제점을 보완하기 위하여 Segmental K-means 학습 과정에 후저리를 이용하여 인식 실험을 하였다. 한국어 연속 숫자음은 영어 연속 숫자음과 달리 연음 현상의 영향을 많이 받는다. Level Building 과정에서 연음에 의한 오류를 감소시키기 위해 연음에 의해 발생할 수 있는 단어를 별도의 모델로 추가하였다. 이렇게 추가된 단어 모델들에 대한 몇 가지 규칙을 인식 결과에 적용하여 출력을 다시 조정한다. 본 시 스템은 TMS320C30 프로세서를 내장한 DSP 보드와 IBM PC 상에서 구현되었고, 표준 패턴은 실험실 잡음 환경에서 남성 화자3명을 대상으로 작성하였다. 인식 실험 결과 21종 전화 번호 252개 데이타에 대하여 화자 종속의 경우 $91.6\%$, 회자 독립의 경우 $80.5\%$의 인식률을 나타내었다.

  • PDF

한국어 파열자음의 특성에 관한 연구 (The Study on the Characteristics of Korean Stop Consonants)

  • 서동일;표화영;강성석;최홍식
    • 대한후두음성언어의학회지
    • /
    • 제8권2호
    • /
    • pp.217-224
    • /
    • 1997
  • The present study was performed to investigate the voice onset time(VOT) of Korean stop consonants as the expanded research of Pyo and Choi(1996) : the intensity, and the air flow rate of Korean stops as the preliminary study f3r the classical singing training. Nine Korean stops(/P, P', $P^{h}$/, /t, t', $t^{h}$/, /k, k', $k^{h}$/) and a vowel /a/ were used as speech materials. CV and VCV syllable patterns were used for VOT measurement, and CV pattern was used for intensity and air flow rate measurement. Five males and five females pronounced the speech tasks with comfortable pitch and intensity : VOT, intensity, and air flow rate were measured. As results, the prevocalic stop consonants showed bilabials, the shortest VOT and velars, the longest one, except the unaspirated stops which showed the shortest was velar /k'/, and the alveolar /t'/ was the longest. Considering the tensity, heavily aspirated stops showed the longest, and the unaspirated, the shortest. Also the intervocalic stops showed similar results with the prevocalic stops, except the slightly aspirated stops which showed alveolar sound was the longest, and the bilabials, which showed the shortest was the slightly aspirated /p/, unlike the prevocalic stops, the unaspirated /p'/ the shortest. All of prevocalic stops showed the highest air flow rate in heavily aspirated stops, the second, thee slightly aspirated ones, and the lowest was the unaspirated stops. And as a whole, bilabials were the highest, and velars, the lowest, except in the heavily aspirated stops, which was the alveolar sound, the lowest. In the dimension of intensity, the unaspirated and bilabials were the highest, and the heavily aspirated and velars were e lowest, except the slightly aspirated stops, which were the bilabials the lowest, and the alveolars the highest.

  • PDF