• 제목/요약/키워드: Pitch frequency

검색결과 471건 처리시간 0.028초

고음질 운율조절용 시간-주파수 혼성영역 피치변경법 (On a Pitch Alteration Technique in Time-Frequency Hybrid Domain for High Quality Prosody Control of Speech Signal)

  • 이상효;배명진
    • 한국음향학회지
    • /
    • 제16권4호
    • /
    • pp.106-109
    • /
    • 1997
  • 음성합성분야에서 파형부호화 합성방식은 합성음의 자연성과 명료성을 유지할 수 있다. 그렇지만 법칙에 의한 합성방식에 적용하려고 하면 운율조절을 위해 음성의 피치를 변경해야만 한다. 우리는 본 논문에서 시간영역에서 시간축조절 피치변경법에 의해 켑스트럼 피치변경법의 위상왜곡을 보상하는 시간-주파수 혼성형 피치변경법을 새로이 제안하였다. 이 방법은 연속 프레임에서 파형들간의 연결점에서 유발될 수 있는 위상스펙트럼 왜곡을 제거할 수 있고, 또한 200%의 피치변경에 대해서도 진폭스펙트럼의 왜곡이 1.18% 이하인 성능을 얻었다.

  • PDF

CELP보코더에서 Line Spectrum Frequency를 이용한 고속 피치검색 (A New Fast Pitch Search Algorithm using Line Spectrum Frequency in the CELP Vocoder)

  • 배명진;손상목;유하영;변경진
    • 한국음향학회지
    • /
    • 제15권2호
    • /
    • pp.90-94
    • /
    • 1996
  • 부호여기된 선형예측(CELP) 음성부호화기는 4.8kbps이하의 낮은 전송 비율에서도 좋은 성능을 갖는다. CELP형 부호기의 단점은 많은 계산량을 필요로 한다는 것이다. 본 논문에서, 우리는 복잡성을 줄이면서 CELP보코더의 음질을 유지하는 새로운 피치검색법을 제안하였다. 이 방법은 CELP보코더의 포만트 필터단에서 찾은 제 1 포만트를 이용하여 예비피치를 찾고, 피치검색을 예비피치 구간에서만 수행하는 것이다. 제안한 방법을 CELP보코더에 적용하므로써, 기존의 방법에 비해 약 64%의 복잡성이 감소되었다.

  • PDF

연령에 따른 정상인의 후두 위치 및 발화 기저주파수의 변화에 대한 연구 (A Study for the Changes of Laryngeal Position and Vocal Pitch with Ageing Process)

  • 홍기환;김현기;정경수;윤희완;김성완
    • 대한후두음성언어의학회지
    • /
    • 제9권1호
    • /
    • pp.79-85
    • /
    • 1998
  • Changes in the human voice occur between infancy and old age and reflect a myriad of biological changes that influence the size, shape, and physical properties of the larynx. The human larynx is located near the base of the neck and attached inferiorly to the trachea and opens superiorly into the pharynx. The larynx by the third month of fetal life has the same features recognizable at birth. The fundamental frequency of vocal fold vibration generally becomes higher in early age, lower in middle age, and higher in old age. These decreases in Fo undoubtedly result from a combination of factors, consisting of modest increase in length and mass of the muscle and connective tissues of the vocal fold. But the level of the larynx in the neck may be closely connected with Fo directly, high larynx in related with high pitch and low larynx with low pitch. The purpose of this study is to determine the developmental level difference from child to adult larynx using conventional radiography, and the change of speaking fundamental frequency from second decade to sixth decade.

  • PDF

음성인식에서 화자 내 정규화를 위한 진폭 변경 방법 (An Amplitude Warping Approach to Intra-Speaker Normalization for Speech Recognition)

  • 김동현;홍광석
    • 인터넷정보학회논문지
    • /
    • 제4권3호
    • /
    • pp.9-14
    • /
    • 2003
  • 기존의 성도 정규화 방법은 화자 간 정규화의 정확성을 개선하기 위한 매우 좋은 방법이다. 본 논문에서는 피치 변경 발성에 기반을 둔 새로운 화자 내 warping 인수 추정 방법을 제안한다. 화자 내 피치 변경 발성은 성문과 성도에 의해 발생되는 음성의 음향학적 차이 때문에 음성의 특징 공간 분포는 다르게 나타날 것이다. 발성의 변동은 frequency 성분과 amplitude 성분의 두가지 유형이 있다. 성도 정규화는 화자 간 정규화 방법들 중에서 주파수 정규화 방법이다. 여기에서는 화자 내 정규화를 위하여 진폭 변동을 정규화하는 방법을 제안한다. 참조 피치와 입력 피치의 역비례 계산에 의해서 진폭 warping 인수를 결정하는 것이 가능하다. 성능 평가를 위한 인식 실험 결과 숫자와 단어 인식에서 0.4%∼2.3% 정도의 인식 오류가 감소되었다.

  • PDF

Harmonic 분산값 최소화 알고리즘에 의한 주파수 영역 평탄화 기법 (The Technique of Spectrum Flattening by Algorithm for Minimized Harmonics Variance Value)

  • 민소연;김영규
    • 한국산학기술학회논문지
    • /
    • 제11권9호
    • /
    • pp.3558-3562
    • /
    • 2010
  • 음성신호처리 분야에 있어서 정확한 기본주파수(피치)를 검출하는 것은 매우 중요하다. 그러나 포만트의 영향과 천이 진폭의 영향으로 인하여 음성신호로부터 정확한 피치를 검출하는 것은 매우 어렵다. 따라서 본 논문에서는 음소의 천이나 변동의 영향이 적은 주파수 영역에서의 하모닉스 분산값 최소화 알고리즘을 통해 스펙트럼을 평탄화 하여 피치를 검출하는 방법에 대하여 연구하였다. 실험결과에서는 제안한 방법이 기존의 방법인 LPC법, 켑스트럼법과 비교하여 평탄화 특성이 어느 정도의 우수성을 보이는지를 평가하였다. 또한 각각의 방법을 적용하여 기본주파수를 검출한 결과를 비교함으로써 제안한 방법이 우수함을 입증하였다.

코퍼스 기반 한국어 합성기의 억양 구현 방안 (A Method of Intonation Modeling for Corpus-Based Korean Speech Synthesizer)

  • 김진영;박상언;엄기완;최승호
    • 음성과학
    • /
    • 제7권2호
    • /
    • pp.193-208
    • /
    • 2000
  • This paper describes a multi-step method of intonation modeling for corpus-based Korean speech synthesizer. We selected 1833 sentences considering various syntactic structures and built a corresponding speech corpus uttered by a female announcer. We detected the pitch using laryngograph signals and manually marked the prosodic boundaries on recorded speech, and carried out the tagging of part-of-speech and syntactic analysis on the text. The detected pitch was separated into 3 frequency bands of low, mid, high frequency components which correspond to the baseline, the word tone, and the syllable tone. We predicted them using the CART method and the Viterbi search algorithm with a word-tone-dictionary. In the collected spoken sentences, 1500 sentences were trained and 333 sentences were tested. In the layer of word tone modeling, we compared two methods. One is to predict the word tone corresponding to the mid-frequency components directly and the other is to predict it by multiplying the ratio of the word tone to the baseline by the baseline. The former method resulted in a mean error of 12.37 Hz and the latter in one of 12.41 Hz, similar to each other. In the layer of syllable tone modeling, it resulted in a mean error rate less than 8.3% comparing with the mean pitch, 193.56 Hz of the announcer, so its performance was relatively good.

  • PDF

한국 성인 음성의 음도인식에 관한 연구 (A Study on Pitch Perception of Normal Korean)

  • 정옥란;김형순;김영태;서장수
    • 음성과학
    • /
    • 제1권
    • /
    • pp.315-323
    • /
    • 1997
  • This study attempts to determine the fundamental frequency level of male and female voices that Koreans perceive as normal. Seventy-three college students majoring in Speech Pathology participated in the study on a voluntary basis. The subjects listened to a male voice with fundamental frequency of 60 Hz, 80 Hz, 100 Hz, 120 Hz, 140 Hz, 160 Hz, 180 Hz, and 200 Hz, and a female voice with fundamental frequency of 140 Hz, 160 Hz, 180 Hz, 200 Hz, 220 Hz, 240 Hz, 260 Hz, and 280 Hz. The PSOLA (Pitch Synchronous Overlap). method and harmonic modeling method of speech signal were used to change pitch in the 20 Hz interval. The voices were presented in a random order to prevent listener bias. The results were as follows; Firstly, $46.6\%$ judged male voice with 120 Hz as normal, and $19.2\%$ judged 140 Hz as normal, and another $19.2\%$ judged 160 Hz as normal. Secondly, $50.7\%$ perceived female voice with 220 Hz as normal, and $32.9\%\;and\;30.1\%$ responded to 200 Hz and 240 Hz, respectively. The problems and recommendations for a future investigation are discussed.

  • PDF

Identification of bridge bending frequencies through drive-by monitoring compensating vehicle pitch detrimental effect

  • Lorenzo Benedetti;Lorenzo Bernardini;Antonio Argentino;Gabriele Cazzulani;Claudio Somaschini ;Marco Belloli
    • Structural Monitoring and Maintenance
    • /
    • 제9권4호
    • /
    • pp.305-321
    • /
    • 2022
  • Bridge structural health monitoring with the aim of continuously assessing structural safety and reliability represents a topic of major importance for worldwide infrastructure managers. In the last two decades, due to their potential economic and operational advantages, drive-by approaches experienced growing consideration from researcher and engineers. This work addresses two technical topics regarding indirect frequency estimation methods: bridge and vehicle dynamics overlapping, and bridge expansion joints impact. The experimental campaign was conducted on a mixed multi-span bridge located in Lombardy using a Ford Galaxy instrumented with a mesh of wireless accelerometers. The onboard time series were acquired for a number of 10 passages over the bridge,performed at a travelling speed of 30 km/h, with no limitations imposed to traffic. Exploiting an ad-hoc sensors positioning, pitch vehicle motion was compensated, allowing to estimate the first two bridge bending frequencies from PSD functions; moreover, the herein adopted approach proved to be insensitive to joints disturbance. Conclusively, a sensitivity study has been conducted to trace the relationship between estimation accuracy and number of trips considered in the analysis. Promising results were found, pointing out a clear positive correlation especially for the first bending frequency.

AMDF의 회전변환을 이용한 피치 주기 검출 알고리즘 (Pitch Period Detection Algorithm Using Rotation Transform of AMDF)

  • 서현수;배상범;김남호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.1019-1022
    • /
    • 2005
  • 최근 정보 통신 기술의 급속한 발전에 의해 음성 신호 처리에 관련된 많은 연구가 진행됨에 따라 피치 주기는 음성 인식, 화자 식별, 음성 분석 및 합성 등과 같은 많은 응용분야에서 중요한 요소로써 적용되고 있다. 이러한 피치 주기 검출에 관련된 시간 영역과 주파수 영역에서의 많은 알고리즘이 제안되었으며, 시간 영역의 피치 검출 알고리즘의 하나인 AMDF(average magnitude difference function)는 각 valley점의 거리를 피치 주기로 계산한다. 그러나 피치 주기 검출을 위한 valley점 선정에 있어서 알고리즘이 복잡해지는 문제점이 발생한다. 따라서 본 논문에서는 AMDF의 회전변환을 이용하여 전체 최소 valley점을 음성 신호의 피치 주기로 인식하는 간단한 알고리즘을 제안하였으며, 음성의 시작구간에 대해 경계값을 설정하여 피치 주기 선정에 대한 판단기준으로 사용하였다. 그리고 제안한 알고리즘을 시뮬레이션을 통해 기존의 방법들과 비교하였다.

  • PDF

Emotion Recognition Based on Frequency Analysis of Speech Signal

  • Sim, Kwee-Bo;Park, Chang-Hyun;Lee, Dong-Wook;Joo, Young-Hoon
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제2권2호
    • /
    • pp.122-126
    • /
    • 2002
  • In this study, we find features of 3 emotions (Happiness, Angry, Surprise) as the fundamental research of emotion recognition. Speech signal with emotion has several elements. That is, voice quality, pitch, formant, speech speed, etc. Until now, most researchers have used the change of pitch or Short-time average power envelope or Mel based speech power coefficients. Of course, pitch is very efficient and informative feature. Thus we used it in this study. As pitch is very sensitive to a delicate emotion, it changes easily whenever a man is at different emotional state. Therefore, we can find the pitch is changed steeply or changed with gentle slope or not changed. And, this paper extracts formant features from speech signal with emotion. Each vowels show that each formant has similar position without big difference. Based on this fact, in the pleasure case, we extract features of laughter. And, with that, we separate laughing for easy work. Also, we find those far the angry and surprise.