• Title/Summary/Keyword: 음성 특성

Search Result 1,835, Processing Time 0.025 seconds

The Characteristics of the Vocalization of the Female News Anchors (여성 뉴스 앵커의 발성 특성 분석)

  • Kyon, Doo-Heon;Bae, Myung-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.7
    • /
    • pp.390-395
    • /
    • 2011
  • This paper covers the studies on common voice parameters through the voice analysis of female main news anchors on weekday evening by the station, and differences of relative voices and sounds among stations. To examine voice characteristics, 6 voice parameters were analyzed and it showed anchors of each station had distinctive characteristics of voices and phonations over all fields except the speech rate, and there were also differences in sound systems. As major analysis parameters, basic pitch, tone of the 1st formant and pitch ratio, level of closeness by pitch bandwidth, type of sentence closing through average pitch position within pitch bandwidth, average speech rate, and acoustic tone analysis by energy distribution by frequency band were used. Analyzed values and results could be referred to and utilized in the criteria of phonation characteristics for domestic female news anchors.

Impact of face masks on spectral and cepstral measures of speech: A case study of two Korean voice actors (한국어 스펙트럼과 캡스트럼 측정시 안면마스크의 영향: 남녀 성우 2인 사례 연구)

  • Wonyoung Yang;Miji Kwon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.43 no.4
    • /
    • pp.422-435
    • /
    • 2024
  • This study intended to verify the effects of face masks on the Korean language in terms of acoustic, aerodynamic, and formant parameters. We chose all types of face masks available in Korea based on filter performance and folding type. Two professional voice actors (a male and a female) with more than 20 years of experience who are native Koreans and speak standard Korean participated in this study as speakers of voice data. Face masks attenuated the high-frequency range, resulting in decreased Vowel Space Area (VSA) and Vowel Articulation Index (VAI)scores and an increased Low-to-High spectral ratio (L/H ratio) in all voice samples. This can result in lower speech intelligibility. However, the degree of increment and decrement was based on the voice characteristics. For female speakers, the Speech Level (SL) and Cepstral Peak Prominence (CPP) increased with increasing face mask thickness. In this study, the presence or filter performance of a face mask was found to affect speech acoustic parameters according to the speech characteristics. Face masks provoked vocal effort when the vocal intensity was not sufficiently strong, or the environment had less reverberance. Further research needs to be conducted on the vocal efforts induced by face masks to overcome acoustic modifications when wearing masks.

Effects of Presentation Modalities of Television Moving Image and Print Text on Children's and Adult's Recall (TV동영상과 신문텍스트의 정보제시특성이 어린이와 성인의 정보기억에 미치는 영향)

  • Choi, E-Jung
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.7
    • /
    • pp.149-158
    • /
    • 2009
  • Major purpose of this study is to explore effect of presentation modalities of Television and print on children's and adult's recall. So An experiment was conducted by comparing children's and adults' recall of information stories presented in three different modalities: "television moving Image1(auditory-visual redundancy)", "television moving Image2(auditory-visual redundancy)" and "print text". Results indicated that children remembered more infornation from the television moving Image than from print versions regardless of auditory-visual redundancy. But for the adults advantage of television was only found for information that had been accompanied by redundant pictures in television moving Image, providing support for the dual-coding hypothesis.

A clustering algorithm of statistical langauge model and its application on speech recognition (통계적 언어 모델의 clustering 알고리즘과 음성인식에의 적용)

  • Kim, Woo-Sung;Koo, Myoung-Wan
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.145-152
    • /
    • 1996
  • 연속음성인식 시스템을 개발하기 위해서는 언어가 갖는 문법적 제약을 이용한 언어모델이 요구된다. 문법적 규칙을 이용한 언어모델은 전문가가 일일이 문법 규칙을 만들어 주어야 하는 단점이 있다. 통계적 언어 모델에서는 문법적인 정보를 수작업으로 만들어 주지 않는 대신 그러한 모든 정보를 학습을 통해서 훈련해야 하기 때문에 이를 위해 요구되는 학습 데이터도 엄청나게 증가한다. 따라서 적은 양의 데이터로도 이와 유사한 효과를 보일 수 있는 것이 클래스에 의거한 언어 모델이다. 또 이 모델은 음성 인식과 연계시에 탐색 공간을 줄여 주기 때문에 실시간 시스템 구현에 매우 유용한 모델이다. 여기서는 자동으로 클래스를 찾아주는 알고리즘을 호텔예약시스템의 corpus에 적용, 분석해 보았다. Corpus 자체가 문법규칙이 뚜렷한 특성을 갖고 있기 때문에 heuristic하게 클래스를 준 것과 유사한 결과를 보였지만 corpus 크기가 커질 경우에는 매우 유용할 것이며, initial map을 heuristic하게 주고 그 알고리즘을 적용한 결과 약간의 성능향상을 볼 수 있었다. 끝으로 음성인식시스템과 접합해 본 결과 유사한 결과를 얻었으며 언어모델에도 음향학적 특성을 반영할 수 있는 연구가 요구됨을 알 수 있었다.

  • PDF

Acoustic Characteristics of the Smoking Patients in the Voice Disorders (흡연환자 음성의 음향학적 특성에 관한 연구)

  • Lee, Myeong-Hee;Lee, Seung-Rho;Moon, Seung-Young;Lim, Sang-Ho;Cho, Young-Joo;Hong, Ki-Hwan
    • Journal of the Korean Society of Laryngology, Phoniatrics and Logopedics
    • /
    • v.19 no.2
    • /
    • pp.123-127
    • /
    • 2008
  • Background and Objectives: Smoking has been identified as one of the main determinants of negative changes on the larynx histology. The purpose of this study is to investigate the voice characteristics and correlation between voice parameters of the smokers with vocal polyp or nodule or both of them. Materials and Method: MPT, $F_0$, jitter, shimmer, NHR of Korean /a/ vowel from 54 smokers and 50 nonsmokers diagnosed as vocal polyp or nodule were analyzed. A Computerized Speech Lab (4400) was for the analysis of each voice sample and statistical analysis was done by one-way ANOVA and Pearson correlation coefficient. Result and Conclusion: It showed that we can find difference between smokers and nonsmokers group in MPT, $F_0$, jitter, shimmer were different except NHR. each group shows difference in correlation coefficient between MPT, $F_0$, jitter, shimmer.

  • PDF

Acoustic Properties of the Jeonju World Cup Stadium (전주월드컵 경기장의 음향특성 평가)

  • Yeon Chul-Ho;Haan Chan-Hoon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.495-500
    • /
    • 2002
  • 전주월드컵 경기장은 Fully Digital sidelobe-free array 방식의 음향시스템을 도입한 유일한 경기장으로서 대규모 경기장에 Line Array type의 스피커를 사용한 최초의 예가 된다. 현장음향실험을 통하여 경기장의 주요 음향 파라미터인 음압레벨(SPL), 잔향시간(RT), 음성명료도(D50), 음성이해도(RASTI) 등을 측정함으로 전주월드컵 경기장의 음향시스템의 특성과 종합적인 음향성능을 알아보고자 한다. 주음원(Messenger)만 사용하여 실험한 결과 음압레벨(SPL)은 관중석의 객석간 위치별 음압레벨 표준편차가 약 2.78dB로 나타났다. 이 값은 당초의 음압레벨분포편차의 목표치인 ${\pm}3dB$의 범위 이내로 나타났다. 또한 최대음압레벨은 평균 100.1dB로 목표치인 96dB을 초과하는 것으로 나타났다. 잔향시간(RT)은 공석시 전체 관중석 평균 2.94초로 나타났으며, 1000Hz에서의 평균 잔향시간은 2.58초로 나타났다. 잔향시간은 실제 경기장의 사용 시 약 0.3-0.4초의 감소가 발생되리라 판단된다. 음성명료도(D50)는 전체 관중석 평균 $56.2\%$로 매우 양호한 상태로 나타났고 음성이해도(RASTI)는 전체 관중석 평균 0.63으로 목표치인 0.5를 상회하는 것으로 나타났다. 이상의 현장음향실험 결과를 분석한 결과 전주월드컵 경기장의 음향성공은 음향설계 요건을 만족하는 것으로 나타났고 야외 경기장 같은 대형공간에서의 음향시스템에 있어서 Fully Digital sidelobe-free array 방식의 음향시스템의 적용가능성을 보여주고 있는 것으로 나타났다.

  • PDF

A Study on the Reconstruction of a Frame Based Speech Signal through Dictionary Learning and Adaptive Compressed Sensing (Adaptive Compressed Sensing과 Dictionary Learning을 이용한 프레임 기반 음성신호의 복원에 대한 연구)

  • Jeong, Seongmoon;Lim, Dongmin
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.37A no.12
    • /
    • pp.1122-1132
    • /
    • 2012
  • Compressed sensing has been applied to many fields such as images, speech signals, radars, etc. It has been mainly applied to stationary signals, and reconstruction error could grow as compression ratios are increased by decreasing measurements. To resolve the problem, speech signals are divided into frames and processed in parallel. The frames are made sparse by dictionary learning, and adaptive compressed sensing is applied which designs the compressed sensing reconstruction matrix adaptively by using the difference between the sparse coefficient vector and its reconstruction. Through the proposed method, we could see that fast and accurate reconstruction of non-stationary signals is possible with compressed sensing.

Stimuli-responsive Smart Surface with Reversibly Switchable Wettability (자극 응답성 초발수-초친수 표면 특성 제어 기술)

  • Lim, Ka Hyun;Rho, Yoo Jin;Lim, Ho Sun
    • Prospectives of Industrial Chemistry
    • /
    • v.24 no.6
    • /
    • pp.3-18
    • /
    • 2021
  • 가역적인 표면 젖음성의 제어가 가능한 스마트 표면은 첨단 센서, 기능성 멤브레인 등 여러 산업분야에 적용될 수 있는 계면제어 기술로써 많은 관심을 받을 것으로 기대된다. 표면의 젖음성은 표면의 화학적 구조와 기하학적 입체 구조에 의해 영향을 받는 데, 특히 외부자극에 의해 소재 물성을 가변시킬 수 있는 스마트 고분자 소재를 나노구조가 제어된 표면에 도입함으로써 표면의 젖음성을 초발수에서 초친수로 가역적으로 전환시킬 수 있는 스마트 표면을 효과적으로 구현할 수 있다. 자극 응답성 스마트 소재는 인가하는 외부자극에 따라 물리적 자극(빛, 온도, 전기, 자기)과 화학적 자극(pH, 용매, 이온)으로 구분할 수 있으며, 이를 복합적으로 적용한 이중/다중 유발 자극에 반응하는 소재가 있다. 본 기고문에서는 외부자극에 응답하는 자극응답성 고분자를 나노 구조 표면에 도입하여 초발수에서 초친수로의 가역적인 젖음성 변화가 가능한 고기능성 스마트 표면의 최근 연구 동향과 미래 전망에 대해 소개하고자 한다. 이런 다양한 외부자극을 이용한 표면 특성의 가역적 제어 기술을 통해 물-오일의 분리, 바이오센서, 약물 전달, 소프트로보틱스와 같은 스마트 소재의 잠재적 발전 가능성 또한 엿볼 수 있을 것으로 기대된다.

DNN based Robust Speech Feature Extraction and Signal Noise Removal Method Using Improved Average Prediction LMS Filter for Speech Recognition (음성 인식을 위한 개선된 평균 예측 LMS 필터를 이용한 DNN 기반의 강인한 음성 특징 추출 및 신호 잡음 제거 기법)

  • Oh, SangYeob
    • Journal of Convergence for Information Technology
    • /
    • v.11 no.6
    • /
    • pp.1-6
    • /
    • 2021
  • In the field of speech recognition, as the DNN is applied, the use of speech recognition is increasing, but the amount of calculation for parallel training needs to be larger than that of the conventional GMM, and if the amount of data is small, overfitting occurs. To solve this problem, we propose an efficient method for robust voice feature extraction and voice signal noise removal even when the amount of data is small. Speech feature extraction efficiently extracts speech energy by applying the difference in frame energy for speech and the zero-crossing ratio and level-crossing ratio that are affected by the speech signal. In addition, in order to remove noise, the noise of the speech signal is removed by removing the noise of the speech signal with an average predictive improved LMS filter with little loss of speech information while maintaining the intrinsic characteristics of speech in detection of the speech signal. The improved LMS filter uses a method of processing noise on the input speech signal by adjusting the active parameter threshold for the input signal. As a result of comparing the method proposed in this paper with the conventional frame energy method, it was confirmed that the error rate at the start point of speech is 7% and the error rate at the end point is improved by 11%.

A Study on the Design and the Construction of a Korean Speech DB for Common Use (공동이용을 위한 음성DB의 설계 및 구축에 관한 연구)

  • Kim, Bong-Wan;Kim, Jong-Jin;Kim, Sun-Tae;Lee, Yong-Ju
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.4
    • /
    • pp.35-41
    • /
    • 1997
  • Speech database is an indispensable part of speech research. Speech database is necessary to use in speech research and development processes, and to evaluate performances of various speech-processing systems. To use speech database for common purpose, it is necessary to design utterance list that has all the possible phonetical events in minimal number of words, and is independent of tasks. To meet those restrictions this paper extracts PBW set from large text corpus. Speech database that was constructed using PBW set for utterance list and its properties are described in this paper.

  • PDF