• 제목/요약/키워드: speech waveform

검색결과 135건 처리시간 0.02초

TMS320C5416을 이용한 G.729A 보코더와 계산량 감소된 SOLA-B 알고리즘을 통합한 가변 전송율 보코더의 실시간 구현 (Real-time Implementation of Variable Transmission Bit Rate Vocoder Integrating G.729A Vocoder and Reduction of the Computational Amount SOLA-B Algorithm Using the TMS320C5416)

  • 함명규;배명진
    • 대한전자공학회논문지SP
    • /
    • 제40권6호
    • /
    • pp.84-89
    • /
    • 2003
  • 본 논문에서는 8kbps의 전송율을 가진 ITU-T C.729A 보코더에 Henja가 제안한 SOLA-B (Synchronized Overlap Add) 알고리즘을 적용하여 가변 전송율의 보코더를 TMS320C5416에 실시간 구현하였다. 이 방법은 부호화 시 SOLA-B 알고리즘을 이용하여 음성의 속도를 빠르게 해주고, 복호화 시 다시 SOLA-B 알고리즘을 이용하여 음성의 속도를 느리게 해줌으로써 정상속도의 음성을 재생시켜준다. 이때 SOLA-B 알고리즘의 계산량을 줄이기 위해 상호 상관 함수가 수행되는 샘플의 간격을 3 샘플씩 건너뛰면서 처리하였다. 실시간 구현된 G.729A 와 SOLA-B 알고리즘의 보코더는 8kbps 전송율일 때 인코더는 10.2MIPS이고 디코더에서는 2.8%MIPS의 최대 복잡도를 나타내었다. 그리고 6kbps 전송율일 때 인코더 18.3MIPS이고 디코더는 13.1MIPS의 최대 복잡도를 나타내었으며, 4kbps 전송율일 때 인코더 18.5MIPS이고 디코더에서 13.1MIPS의 최대 복잡도를 나타내었다. 사용된 메모리는 program ROM 9.7kwords, table ROM 4.5kwords, RAM 5.1kwords 정도이다. 출력된 파형은 C simulator와 Bit Exact 한 출력 결과를 보여주었다. 또한, 실시간 구현된 가변 전송율 보코더의 음질 평가를 위해 MOS 테스트를 수행한 결과 4kbp의 전송율에서 MOS값이 3.69정도로 측정되었다.

Laryngograph와 EGG를 이용한 음향특성(音響特性)과 사상체질간(四象體質間)의 상관성(相關性) 연구(硏究) (A study on the correlation between Sound Characteristic and Sasang Constitution by Laryngograph, EGG)

  • 김선형;신미란;김달래;권기록
    • 사상체질의학회지
    • /
    • 제12권1호
    • /
    • pp.144-156
    • /
    • 2000
  • 1. 연구목적 한의학에서 음성을 듣고 환자의 상태를 알아내는 것은 문진에 해당되며 이는 내경시대부터 응용되어 왔다. "동의수세보원"에서도 말하는 기운이 각 체질별로 차이가 있는 것으로 언급하고 있다. 각 체질별 장국의 차이에 의해서 호산지기(呼散之氣) 흡취지기(吸聚之氣) 납적지기(納積之氣) 출방지기(出放之氣)등을 설명하고 있는데, 이는 또한 음성과 성대진동의 기본이 되는 공기의 흐름과도 연관이 있다. 한의학에서 성음을 통하여 사람에 관한 많은 것을 알 수 있다고 했는데, 여기서 논하는 성음의 개념은 매우 추상적이라서 객관적인 자료를 제시하기도 어렵고, 또한 임상연구에 응용이 매우 어려운 실정이다. 그러나 현대과학기술의 발전으로 음성을 수치, 그래프, 스펙트럼을 통하여 객관적으로 기록, 재생, 분석하는 것이 가능해졌다. 여기서는 음성에 직접적인 영향을 주는 요소 중의하나인 성대의 진동이 사상체질 진단의 객관적인 자료로 활용될 수 있는가를 알아보고자 했다. 2. 연구방법 (1) 연구대상자들을 사상체질분류검사지(QSCCII)와 사상의학 전문가가 체질을 분류한다. (2) 체질별로 CSL(Cmputerized Speech Lab)과 Laryngograph, Micrphone을 사용하여 음성과 성대진동양상을 녹취한다. (3) EEG processing option으로 녹취한 파형을 분석한다. (4) 분석한 항목을 통계 처리하여 항목별로 유의성을 살펴본다. 3. 연구결과 성대진동을 보여주는 EGG Waveform의 분석결과와 체질간의 상관성은 아래와 같다. 1. 남자/a/(0.5초)에서는 태음인보다 소양인의 Open Std Deviation, Contact Std Deviation이 더 높은 것으로 나타났다. 2. 남자/a/(2.5초)에서는 소음인과 태음인보다 소양인의 Pitch range가 더 높은 것으로 나타났다. 3. 여자/e/(0.5초)에서는 소음인보다 태음인의 Pitch range가 더 높은 것으로, 소양인보다 태음인의 Pitch Maximum이 더 높은 것으로, 소음인 소양인보다 태음인의 Pitch Std Deviation이 더 높은 것으로 나타났다. 4. 여자/a/(2.5초)에서는 소음인보다 태음인의 Contact Maximum이 더 높은 것으로, 태음인 보다 소음인의 Open mean, Open Miximum가 더 높은 것으로 나타났다. 5. 남자/e/(0.5초), 남자/e/(2.5초), 여자/a/(0.5초), 여자/e/(2.5초)에서는 체질간의 유의한 차이가 나타나지 않았다. 6. CART Algolism에서는 전체적으로 소음인과 태음인의 정판별력이 높았고, 소양인은 비교적 오차율이 높게 나타났다.

  • PDF

구개상 장착에 따른 한국어 어음의 조음시간 변화에 관한 연구 (A STUDY ON THE INFLUENCE OF THE PALATAL PLATES UPON THE DURATION OF KOREAN SOUNDS)

  • 고여준;김창회;김영수
    • 대한치과보철학회지
    • /
    • 제32권1호
    • /
    • pp.77-102
    • /
    • 1994
  • Many studies have been made on the masticatory and esthetic effects of prosthodontic treatments, but few on the restoration of pronunciation, especially in complete denture wearers. The purpose of this study is to provide a basis that could be of help to the complete denture wearers' speech adaptation by analyzing the influence of the palatal coverage upon the duration of consonants and vowels with the method of experimental phonetics. For this study, metal plates and resin plates were made for 3 male subjects in their twenties, who have good occlusion, and do not have speech and hearing disorders. Then 8 Korean consonants and 4 Korean vowels were selected, systemically considering phonetic variants such as the place and manner of articulation, lenis/fortis, mutual effect of each phoneme, etc. They were combined into meaningless tested words in the form of /VCV/, and were included in the carrier sentences. Each informant uttered the sentences 1) without the plate, 2) with the metal plate, 3) with the resin plate. The recorded data were analyzed through the waveform of sounds and spectrogram by using the program SoundEdit, Signalize, Statview 512+for the Macintosh computer. The duration of each segment was measured by searching for the boundaries between the preceding vowels and consonants, and between the consonants and the following vowels. The study led to the conclusion that. 1. With the palatal plate, the duration of all the tested words increased and the duration increased more with the resin plate than with the metal plate. 2. With the palatal plate, the duration of all the preceding vowels, consonants, and following vowels increased, but the temporal structure of the tested words was maintained. 3. As for the manner of articulation, fricative /s/(ㅅ) was greatly influenced by both kinds of palatal plates. 4. As for the place of articulation, alveolar sounds /d/(ㄷ), /n/(ㄴ) were greatly influnced by the kinds of palatal plates, and the velar sounds /n/(ㅇ), /g/(ㄱ) were influenced by the platal plates, but the kind of the palatal plates did not show any significance. 5. As for the lenis/fortis, lenis was influenced more by the kind of the palatal plates. 6. As for the influence of vowels upon each segment in the tested words, palatal vowel /i/(ㅣ) had greater influence than pharyngeal vowel /a/(ㅏ), and following vowels than preceding vowels.

  • PDF

Countertenor 1인의 Modal Register와 Falsetto Register에서의 공기역학적 변화 및 전기성문파형의 변화 연구 (Analysis of Phonatory Aerodynamic & Electroglottography of a Countertenor)

  • 남도현;최성희;최재남;최홍식
    • 대한후두음성언어의학회지
    • /
    • 제17권1호
    • /
    • pp.43-48
    • /
    • 2006
  • Background and Objectives: Countertenors who can produce higher vocal pitch like female classical singer's voice and use both modal and falsetto register. This study was conducted to study phonatory characteristics between modal and falsetto register of the countertenor. Materials and Methods: A male countertenor who had 8 years of experience was examined using a videostroboscopy and his voice was analyzed using aerodynamic measures; fundamental frequency(F0), Mean air flow rate(MFR), intensity(SLP), subglottal air pressure(Psub) with phonatory function analyzer(Nagashima) and acoustic measures; jitter, shimmer, HNR, closed quotient(CQ) using a Electro-glottography(EGG) of Lx. Speech Studio(Laryngoscope, Ltd, UK) and voice range profile of CSL(Kay elemetrics). Results: In the stroboscopy finding, the longitudinal length of vocal folds was increased at the falsetto register and the upper margin of vocal folds vibrated with incomplete closure of true vocal folds. In aerodynamic analysis, intensity was same at the modal and falsetto register. However, MFR, Psub, MPT were higher at the falsetto register. In the electroglottographic analysis, closed quotient(CQ) at the modal register was high and also much higher at the high-pitch falsetto than at the loud falsetto. In the VRP, intensity was similar though F0 was different between modal and falsetto register. Conclusion: It implied that countertenor could produce powerful voice quality by increasing of respiratory pressure and respiratory volume though glottal closure was incomplete. In addition, no change of EGG waveform, similar voice range with alto was observed.

  • PDF

WSOLA를 이용한 동영상 미세배속 재생 서비스에 대한 콘텐츠별 배속 선호도 분석 연구 (A Study about the Users's Preferred Playing Speeds on Categorized Video Content using WSOLA method)

  • 김이길
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권2호
    • /
    • pp.291-298
    • /
    • 2015
  • 빠르게 발전하는 IT환경 속에서 이제 동영상 콘텐츠는 TV를 통한 일방 시청이 아니라 언제 어디서든 다양한 단말에서 볼 수 있는 VOD (Video on Demand) 형태로 발전하고 있다. 이러한 동영상 시청형태의 변화는 디지털이란 특성 때문에 동영상의 재생 속도 또한 다양하게 조절할 수 있다는 부가적인 장점을 사용자에게 제공 한다. 지루하고 따분한 동영상 콘텐츠는 빠르게 돌려보고 흥미 있는 장면은 느리게 천천히 볼 수 있는 동영상 미세배속 재생 기능은 오늘날 다양한 동영상 플레이어에서 제공되고 있다. 동영상 미세배속 재생 시 동영상 콘텐츠 내용의 정확한 이해를 위해서는 시각정보 못지않게 음성정보 청취가 중요한데 정상속도 보다 빠르거나 느린 재생 시 발생하는 음성의 왜곡을 줄이기 위한 음성미세배속 기술들이 음성처리 분야에서 꾸준히 발전되어 왔다. 본 논문에서는 이중 WSOLA와 같은 우수한 음성미세배속 알고리즘에 대해 알아보고 동영상 시청 시 이러한 기능 제공이 실제 얼마나 사용자 니즈(needs)에 부합하는 지 분석해보고자 한다. 특히, 동영상 콘텐츠를 사용자의 콘텐츠 소비 목적에 따라 종류별로 구분하여 재생 배속의 선호도를 조사하고 그 결과를 분석해 봄으로써 동영상 미세배속 기능 제공시 콘텐츠별 소비 목적에 맞게 재생 배속을 제공하는 것이 필요하다는 것을 제안하고자 한다.