• 제목/요약/키워드: speech file

검색결과 31건 처리시간 0.027초

CTI 호출 제어 방식을 이용한 행정 업무 지원 시스템의 개발 (A Development of Administrative Affairs Supporting System using Call Control Mode of CTI)

  • 최준기;조성범;정상수;이상정
    • 한국컴퓨터정보학회논문지
    • /
    • 제4권2호
    • /
    • pp.46-60
    • /
    • 1999
  • 최근들어 CTI(Computer Telephony Integration) 기술은 영상 회의, 파일 전송, 음성 사서함, 자동 메시지 전송, 자동 재다이얼 기능 등의 전통적인 분야에서부터 통합 메시징 및 네트워크 팩스 분야에 이르기까지 다양한 분야에 걸쳐서 활용되고 있다. 본 논문에서는 전화망을 이용한 CTI 응용분야로 대학에서 입시기간동안 수험생들의 전화 과중에 따른 업무와 학사 행정 서비스를 개선할 수 있는 CTI를 이용한 응용 시스템에 대하여 연구한다. 구현된 시스템은 최근 주목받고 있는 객체 모델링 기법(Object Modeling Technique)을 이용하여 데이터베이스를 설계하고, CTI 호출 제어 시스템을 이용하여 합격자 확인 자동 호출(Automatic Calling System), 합격자 발표 자동 안내(Automatic Response System) 등을 지원하도록 개발한다. 특히 합격자 자동 호출 시스템 구현시 합격 여부를 통지해 줄 때의 음성처리를 위하여 TTS(Text To speech) 모듈을 설계 구현한다.

  • PDF

Phoneme distribution and syllable structure of entry words in the CMU English Pronouncing Dictionary

  • Yang, Byunggon
    • 말소리와 음성과학
    • /
    • 제8권2호
    • /
    • pp.11-16
    • /
    • 2016
  • This study explores the phoneme distribution and syllable structure of entry words in the CMU English Pronouncing Dictionary to provide phoneticians and linguists with fundamental phonetic data on English word components. Entry words in the dictionary file were syllabified using an R script and examined to obtain the following results: First, English words preferred consonants to vowels in their word components. In addition, monophthongs occurred much more frequently than diphthongs. When all consonants were categorized by manner and place, the distribution indicated the frequency order of stops, fricatives, and nasals according to manner and that of alveolars, bilabials and velars according to place. These results were comparable to the results obtained from the Buckeye Corpus (Yang, 2012). Second, from the analysis of syllable structure, two-syllable words were most favored, followed by three- and one-syllable words. Of the words in the dictionary, 92.7% consisted of one, two or three syllables. This result may be related to human memory or decoding time. Third, the English words tended to exhibit discord between onset and coda consonants and between adjacent vowels. Dissimilarity between the last onset and the first coda was found in 93.3% of the syllables, while 91.6% of the adjacent vowels were different. From the results above, the author concludes that an analysis of the phonetic symbols in a dictionary may lead to a deeper understanding of English word structures and components.

법음성학에서의 오디오 신호의 위변조 구간 자동 검출 방법 연구 (An Automatic Method of Detecting Audio Signal Tampering in Forensic Phonetics)

  • 양일호;김경화;김명재;백록선;허희수;유하진
    • 말소리와 음성과학
    • /
    • 제6권2호
    • /
    • pp.21-28
    • /
    • 2014
  • We propose a novel scheme for digital audio authentication of given audio files which are edited by inserting small audio segments from different environmental sources. The purpose of this research is to detect inserted sections from given audio files. We expect that the proposed method will assist human investigators by notifying suspected audio section which considered to be recorded or transmitted on different environments. GMM-UBM and GSV-SVM are applied for modeling the dominant environment of a given audio file. Four kinds of likelihood ratio based scores and SVM score are used to measure the likelihood for a dominant environment model. We also use an ensemble score which is a combination of the aforementioned five kinds of scores. In the experimental results, the proposed method shows the lowest average equal error rate when we use the ensemble score. Even when dominant environments were unknown, the proposed method gives a similar accuracy.

한국인과 미국인이 발화한 영어전설모음의 상대적 거리 비교 (A Comparative Study of Relative Distances among English Front Vowels Produced by Korean and American Speakers)

  • 양병곤
    • 말소리와 음성과학
    • /
    • 제5권4호
    • /
    • pp.99-107
    • /
    • 2013
  • The purpose of this study is to examine the relative distances among English front vowels in a message produced by 47 Korean and American speakers in order to better instruct pronunciation skills of English vowels for Korean English learners. A Praat script was developed to collect the first and second formant values(F1 and F2) of eight words in each sound file which was recorded from an internet speech archive. Then, the Euclidean distances were measured between the three vowel pairs: [i-ɛ], [i-ɪ], and [ɛ-æ]. The first vowel pair [i-ɛ] was set as the reference from which the relative distances of the other two vowel pairs were measured in percent in order to compare the vowel sounds among speakers of different vocal tract lengths. Results show that F1 values of the front vowels produced by the Korean and American speakers increased from the high front vowel to the low front vowel wih differences among the groups. The Korean speakers generally produced the front vowels with smaller jaw openings than the American speakers did. Secondly, the relative distance of the high front vowel pair [i-ɪ] showed a significant difference between the Korean and American speakers while that of the low front vowel pair [ɛ-æ] showed a non-significant difference. Finally, the Korean speakers in the higher proficiency level produced front vowels with higher F1 values than those in the lower proficiency level. The author concluded that Korean speakers should produce the front high vowels distinctively by securing sufficient relative distance of the formant values. Further studies would be desirable to examine how strong the Korean speakers' English proficiency correlate with the relative distance of target words of comparable productions.

Automated Classification of Audio Genre using Sequential Forward Selection Method

  • Lee Jong Hak;Yoon Won lung;Lee Kang Kyu;Park Kyu Sik
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 학술대회지
    • /
    • pp.768-771
    • /
    • 2004
  • In this paper, we propose a content-based audio genre classification algorithm that automatically classifies the query audio into five genres such as Classic, Hiphop, Jazz, Rock, Speech using digital signal processing approach. From the 20 second query audio file, 54 dimensional feature vectors, including Spectral Centroid, Rolloff, Flux, LPC, MFCC, is extracted from each query audio. For the classification algorithm, k-NN, Gaussian, GMM classifier is used. In order to choose optimum features from the 54 dimension feature vectors, SFS (Sequential Forward Selection) method is applied to draw 10 dimension optimum features and these are used for the genre classification algorithm. From the experimental result, we verify the superior performance of the SFS method that provides near $90{\%}$ success rate for the genre classification which means $10{\%}$-$20{\%}$ improvements over the previous methods

  • PDF

시각과 청각 및 음향적 관점에서의 노랫말 모음 연구 (Visual.Auditory.Acoustic Study on Singing Vowels of Korean Lyric Songs)

  • 이재강
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.362-366
    • /
    • 1996
  • This paper is generally divided in 2 parts. One is the study on vowels about korean singer's lyric song in view of Daniel Jones' Cardinal Vowel. The other is acoustic study on vowels in my singing about korean lyric song. Analysis data are KBS concert video tape and CSL's. NSP file on my singing and Informants are famous singers i.e. 3 sopranos, 1 mezzo, 2 tenors, 1baritone, and me. Analysis aim is to find out Korean 8 vowels([equation omitted]) quality in singing. The methods of descrition are used in closed vowels, half closed vowels, half open vowels, open vowels and rounded vowels, unroundes vowels and formants. The study of the former is while watching the monitor screen to stop the scene that is to be analysixed. The study of the latter is to analysis the spectrogram converted by CSL's. SP file. Analysis results are an follows: Visual and auditory korean vowels quality in singing have the 3 tendency. One is the tendency of more rounded than is usual Korean vowels. Another is the tendency of centralized to center point in Cardinal Vowel and the other is the tendency of diversity in vowel quality. Acoustic analysis is studied by means of 4 formants. Fl and F2 show similiar step in spoken. In Fl there is the same formant values. This seems to vocal organization be perceived the singign situation. The width of F3 is the widest of all, so F3 may be the characteristics in singing. In conclude, the characteristics of vowels in Korean lyric songs are seems to have the tendencies of rounding, centralizing to center point in Cardinal Vowel, diversity in vowel quality and, F3'widest width in compared with usual Korean vowels.

  • PDF

연속음성인식의 음향모델 출력을 이용한 뉴스 데이터 분석 (News Data Analysis Using Acoustic Model Output of Continuous Speech Recognition)

  • 이경록
    • 한국콘텐츠학회논문지
    • /
    • 제6권10호
    • /
    • pp.9-16
    • /
    • 2006
  • 본 논문에서는 연속음성인식의 음향모델 출력을 이용하여 뉴스 데이터를 분석하였다. 실험에 사용된 뉴스 데이터베이스는 2,093개의 기사로 구성되어 있다. 기존의 한국어 연속음성인식은 열악한 언어모델 때문에 낮은 인식성능을 보여 뉴스 데이터 분석에 적합하지 않다. 본 논문에서는 이를 보완하기 위해서 상대적으로 견인한 음향모델의 인식결과를 후처리하여 핵심어 정보 파일을 만들었다. 음향모델의 출력레벨 문턱치가 100일 때 전체 인식대상 형태소의 86.9%가 인식되었다. 동일한 조건에 길이정보 기반 정규화를 적용하였더니 81.25%가 인식되었다. 정규화의 목적은 긴 길이의 형태소를 보상하는 것이다. 실험결과, 인식대상 형태소 인식률은 75.13%였다. 그리고 5,040MB의 뉴스 데이터에서 314MB의 핵심어 정보 파일이 만들어졌다. 이것은 절대적인 정보량이 93.8% 감소한 것이다.

  • PDF

음악 특징점간의 유사도 측정을 이용한 동일음원 인식 방법 (Same music file recognition method by using similarity measurement among music feature data)

  • 성보경;정명범;고일주
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.99-106
    • /
    • 2008
  • 최근 다양한 분야에서(웹 포털, 유료 음원서비스 등) 디지털 음악의 검색이 사용되고 있다. 기존의 디지털 음악의 검색은 음악 데이터에 포함된 자체 메타 정보를 이용하여 이루어진다. 하지만 메타 정보가 다르게 작성되었거나 작성되지 않은 경우 정확한 검색은 어렵다. 요즘 이러한 문제의 보완 방안으로 음악자체를 이용하는 내용기반정보 검색 기법에 대한 연구가 이루어지고 있다. 본 논문에서는 음악의 파형에서 추출된 특징 정보간의 유사도 측정을 통하여 동일음원을 인식하는 방법에 대해 논하고자 한다. 디지털 음악의 특징 정보는 단순화시킨 MFCC (Mel Frequency Cepstral Coefficient)를 이용하여 음악의 파형으로부터 추출하였다. 디지털 음악간의 유사도는 Vision 및 Speech Recognition 분야에서 사용되던 DTW (Dynamic Time Warping) 기법을 활용하여 측정하였다. 제안된 동일 음원 인식 방법의 검증을 위한 같은 장르에서 무작위 추출된 1000곡에서 시행한 500번의 검색은 모두 성공했다. 검색에 사용된 500개의 디지털 오디오는 60개의 디지털음원을 압축방식과 비트율을 다르게 조합하여 만들었다. 실험의 결과로 DTW을 이용한 유사도 측정법이 동일음원을 인식할 수 있음을 증명하였다.

  • PDF

VoiceXML과 GPS를 이용한 여행정보 서비스의 구현 (An Implementation of Travel Information Service Using VoiceXML and GPS)

  • 오재규;김선형
    • 한국산학기술학회논문지
    • /
    • 제8권6호
    • /
    • pp.1443-1448
    • /
    • 2007
  • 본 논문에서는 기존의 웹(인터넷)기반의 정보 제공 서비스의 범주를 벗어나, 음성 및 웹 브라우저 기반의 VoiceXML을 이용하여 웹과 음성 인터페이스를 동시에 사용할 수 있고 GPS 정보의 응용이 가능한 분산 환경 기반의 여행 정보 서비스를 제안한다. 기존의 여행 정보 콜 센터의 자동응답 서비스는 사전에 제작된 시나리오대로 운영돼 이용시간이 많이 걸릴 뿐 아니라 응답 내용을 바꿀 경우 시나리오를 다시 짠 후 녹음을 다시 해야 하는 불편함이 있었으나, 제안된 VoiceXML 기반의 여행 정보 시스템은 파일형태로 개별 대화 시나리오를 만들어 서버에 내장하는 방식으로 이루어져 시스템 개편이 쉬우며, GPS 정보를 이용한 사용자의 현 위치를 인지하고 이에 따른 다양한 여행 정보 서비스를 오지 환경과 같은 환경적 제약 변수에서도 쉽게 제공할 수 있다는 장점을 가지고 있다.

  • PDF

웹기반 청각장애인용 수화 웹페이지 제작 시스템 (Web-based Text-To-Sign Language Translating System)

  • 박성욱;왕보현
    • 한국지능시스템학회논문지
    • /
    • 제24권3호
    • /
    • pp.265-270
    • /
    • 2014
  • 소리가 잘 들리지 않는 청각장애인은 소리를 표시하는 글자를 익히고 복잡한 개념을 전달하는 글을 이해하는 데 어려움이 많다. 그래서 자연스럽게 표정, 몸짓, 손짓으로 의사를 전달하는 수화가 청각장애인들의 주요 의사소통수단으로 자리잡아왔지만 사회에서는 글과 말이 주요 정보전달 수단으로 이용되고 있어 청각장애인이 정보에 접근하고 지식을 넓혀 직업을 갖는데 큰 어려움이 있다. 특히 근래에 인터넷이 보편화됨에 따라 정상인의 정보 습득량은 크게 늘었지만, 글로 표현된 인터넷을 이해하기 어려운 청각장인들은 인터넷 정보에 접근하는데 어려움이 많다. 본 연구에서는 청각장애인을 위한 수화 웹페이지를 제작할 수 있는 수화 웹페이지 제작시스템을 개발하였다. 수화 웹페이지 제작 시스템은 청각장애인용 수화 웹페이지 제작자가 통상적인 인터넷 사용에 필요한 하드웨어 및 소프트웨어 환경만 갖추면 운영할 수 있도록 웹기반으로 개발하였다. 수화용 웹 페이지 제작자는 게시판 형태의 인터페이스를 이용하여 변역하고자하는 문장을 서버에 전송할 수 있다. 서버는 수신된 문장을 수화로 번역하여 3D 아바타 기반의 수화 그래픽 애니메이션을 랜더링한다. 수화 그래픽 애니메이션은 MP4 형식의 동영상으로 변환되며, 스트리밍 서버의 저장소에 보관된다. 저장된 수화 동영상의 이름과 주소는 수화 웹페이지 제작자가 처음 문장을 입력하였던 게시판에 표시되도록 하여 향후 청각장애인용 웹 페이지를 제작할 때 활용할 수 있도록 하였다. 또한 본 연구에서는 웹페이지 제작자가 공공기관의 웹페이지를 제작할 수 있도록, 이들 기관에서 현재 사용된 글들을 수화로 번역할 때 필요한 수화 단어를 수화 웹페이지 제작 시스템의 수화 사전에 추가하였다. 수화 단어를 추가함으로써 웹기반 수화 웹페이지 제작 시스템이 공공부문에 보다 더 많이 활용될 수 있을 것이다.