• 제목/요약/키워드: 음향학적 평가

검색결과 137건 처리시간 0.024초

인공신경망의 운률 발생에 관한 연구 (A Study on the prosody generation of artificial neural networks)

  • 신동엽;민경중;강찬구;임운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.87-90
    • /
    • 2000
  • 문-음성 합성기의 자연감을 높이기 위해 주로 자연음에 존재하는 운률 법칙을 정확히 구현해 주어야 한다. 일반적으로 언어학적 정보를 이용하거나 자연음으로부터 추출한 운률 정보를 추출한 운률 법칙을 합성에 이용하고 있다. 이와 같이 구한 운률 법칙이 자연음에 존재하는 모든 운률 법칙을 포함할 수 있으면, 자연스러운 합성음을 들을 수 있겠으나, 실질적으로는 모든 법칙을 구현한다는 것은 어려운 실정이고, 자연음으로부터 추출한 운률 법칙이 잘못 구현되는 경우 합성음의 자연성이 떨어지는 것을 피할 수 없을 것이다. 이런 점을 고려하여 우리는 자연음에 내재하는 운율 법칙을 훈련을 통해 학습할 수 있는 인공 신경망을 제안하였다 운률의 세 가지 요소는 피치, 지속시간, 크기 변화가 있는데, 인공 신경망은 문장이 입력되면, 각 해당 음소의 지속시간에 따른 피치 변화와 크기 변화를 학습할 수 있도록 설계하였다. 신경망을 훈련시키기 위해 고립 단어군과 음소균형 문장군을 화자로 하여금 발성하게 하여, 녹음하고, 분석하여 운률 데이터베이스를 구축하였다. 자연음의 각 음소에 대해 지속시간과 피치변화 그리고 크기 변화를 구하여 곡선 적응 방법을 이용하여 각 변화 곡선에 대한 계수를 구해 데이터베이스를 구축한다. 이렇게 구축한 데이터베이스를 이용해 인공 신경망을 훈련시켜 평가한 결과 훈련용 데이터를 계속 확장하면 좀 더 자연스러운 운률을 발생시킬 수 있음을 관찰하였다.

  • PDF

음성인식에서 화자 내 정규화를 위한 진폭 변경 방법 (An Amplitude Warping Approach to Intra-Speaker Normalization for Speech Recognition)

  • 김동현;홍광석
    • 인터넷정보학회논문지
    • /
    • 제4권3호
    • /
    • pp.9-14
    • /
    • 2003
  • 기존의 성도 정규화 방법은 화자 간 정규화의 정확성을 개선하기 위한 매우 좋은 방법이다. 본 논문에서는 피치 변경 발성에 기반을 둔 새로운 화자 내 warping 인수 추정 방법을 제안한다. 화자 내 피치 변경 발성은 성문과 성도에 의해 발생되는 음성의 음향학적 차이 때문에 음성의 특징 공간 분포는 다르게 나타날 것이다. 발성의 변동은 frequency 성분과 amplitude 성분의 두가지 유형이 있다. 성도 정규화는 화자 간 정규화 방법들 중에서 주파수 정규화 방법이다. 여기에서는 화자 내 정규화를 위하여 진폭 변동을 정규화하는 방법을 제안한다. 참조 피치와 입력 피치의 역비례 계산에 의해서 진폭 warping 인수를 결정하는 것이 가능하다. 성능 평가를 위한 인식 실험 결과 숫자와 단어 인식에서 0.4%∼2.3% 정도의 인식 오류가 감소되었다.

  • PDF

정상 성인 말속도의 청지각적/음향학적 평가에 관한 기초 연구: 지역에 따른 말속도 차이를 중심으로 (Preliminary study of the perceptual and acoustic analysis on the speech rate of normal adult: Focusing the differences of the speech rate according to the area)

  • 이현정
    • 말소리와 음성과학
    • /
    • 제6권3호
    • /
    • pp.73-77
    • /
    • 2014
  • The purpose of this study is to investigate the differences of the speech rate according to the area in the perceptual and acoustic analysis. This study examines regional variation in overall speech rate and articulation rate across speaking situations (picture description, free conversation and story retelling) with 14 normal adult (7 in Gyeongnam and 7 in Honam area). The result of an experimental investigation shows that the perceptual speech rate differs significantly between two regional varieties of Koreans with a picture description examined here. A group of Honam speakers spoke significantly faster than a group of Gyeongnam speakers. However, the result of the acoustic analysis shows that the speech rate of the two groups did not differ. And there were significant regional differences in the overall speech rate and articulation rate on the other two speaking situation, free conversation and story retelling. It suggest that we have to study perceptual evaluation with regard to the free conversation and story retelling in future research, and based on the results of this study, a variety of researches on the speech rate will be needed on the various conditions, including various area and SLPs who have wider background and experiences. It is necessary for SLPs to train and experience more to assess patients properly and reliably.

Tracking Echo-Presence Uncertainty 기반의 잔여 반향 억제 (Residual Echo Suppression Based on Tracking Echo-Presence Uncertainty)

  • 박윤식;장준혁
    • 한국통신학회논문지
    • /
    • 제34권10C호
    • /
    • pp.955-960
    • /
    • 2009
  • 본 논문에서는 주파수영역에서 음향학적 반향 억제 (AES, acoustic echo suppression) 성능을 개선시키기 위해 tracking echo-presence uncertainty (TEPU) 기법에 근거한 새로운 잔여 반향 억제 (RES, residual echo suppression) 알고리즘을 제안한다. 제안된 방법은 RES를 위해 마이크로폰 입력신호 대 원단의 반향신호가 제거된 결과신호의 전력 비 (ratio)를 문턱 (threshold) 값에 의한 decision rule에 적용하여 추정된 echo-presence uncertainty를 RES 필터로 이용한다. 제안된 알고리즘은 각각의 주파수 채널에서 echo-presence uncertainty를 도출하여 용이하게 잔여 반향신호를 제거하는 장점을 가진다. 실제로 잔여 반향신호를 제거하기 위한 기존의 방법과 객관적인 실험을 통해 비교 평가한 결과 우수한 성능을 보였다.

잡음환경에서 Teager Energy 기반의 전역 음성부재확률을 이용하는 음성검출 (Voice Activity Detection Using Global Speech Absence Probability Based on Teager Energy in Noisy Environments)

  • 박윤식;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권1호
    • /
    • pp.97-103
    • /
    • 2012
  • 본 논문에서는 잡음환경에서 효과적인 음성을 검출하기 위한 새로운 음성 검출 (VAD, voice activity detection) 알고리즘을 제안한다. 통계적 모델에 기반의 Likelihood ratio (LR)를 통하여 도출되는 전역 음성부재확률 (GSAP, global speech absence probability)은 음성검출을 위한 피쳐 (feature) 파라미터로 널리 적용되고 있다. 하지만 신호 대 잡음 비 (SNR, signal-to-noise ratio)가 낮은 잡음환경에서는 정확한 GSAP 추정이 어려운 문제점을 가지고 있다. 따라서 제안된 방법에서는 잡음환경에서 강인한 VAD 알고리즘을 위하여 Teager energy (TE) 기반의 GSAP를 피쳐 파라미터로 적용한다. 제안된 알고리즘은 기존의 방법과 객관적인 실험을 통해 비교 평가한 결과 다양한 배경잡음 환경에서 향상된 성능을 보였다.

문장단위 운율발생용 인공신경망에 관한 연구 (A Study on the Artificial Neural Networks for the Sentence-level Prosody Generation)

  • 신동엽;민경중;강찬구;임운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.53-56
    • /
    • 2000
  • 무제한 어휘 음성합성 시스템의 문-음성 합성기는 합성음의 자연감을 높이기 위해 여러 가지 방법을 사용하게되는데 그중 하나가 자연음에 내재하는 운을 법칙을 정확히 구현하는 것이다. 합성에 필요한 운율법칙은 언어학적 정보를 이용해 구현하거나, 자연음을 분석해 구한 운을 정보로부터 운율 법칙을 추출하여 합성에 이용하고 있다. 이와 같이 구한 운을 법칙이 자연음에 존재하는 운율 법칙을 전부 반영하지 못했거나, 잘못 구현되는 경우에는 합성음의 자연성이 떨어지게 된다. 이런 점을 고려하여 우리는 자연음의 운율 정보를 이용해 인공 신경망을 훈련시켜, 문장단위 운율을 발생시킬 수 있는 방식을 제안하였다. 운율의 세 가지 요소는 피치, 지속시간, 크기 변화가 있는데, 인공 신경망은 문장이 입력되면, 각 해당 음소의 지속시간에 따른 피치 변화와 크기 변화를 학습할 수 있도록 설계하였다. 신경망을 훈련시키기 위해 고립 단어 군과 음소균형 문장 군을 화자로 하여금 발성하게 하여, 녹음하고, 분석하여 구한 운을 정보를 데이터베이스로 구축하였다. 문장 내의 각 음소에 대해 지속시간과 피치 변화 그리고 크기 변화를 구하고, 곡선적응 방법을 이용하여 각 변화 곡선에 대한 다항식 계수와 초기치를 구해 운을 데이터베이스를 구축한다. 이 운을 데이터베이스의 일부를 인공 신경망을 훈련시키는데 이용하고, 나머지를 이용해 인공 신경망의 성능을 평가한 결과 운을 데이터베이스를 계속 확장하면 좀더 자연스러운 운율을 발생시킬 수 있음을 관찰하였다.

  • PDF

음성질환자의 음성검사 시 강도 증가에 따른 음향학적 지표의 변화 (Changes in Acoustic Parameters According to Intensity Increase in Voice Assessment)

  • 남도현;임성수;윤보람;조선아;최홍식
    • 대한후두음성언어의학회지
    • /
    • 제22권2호
    • /
    • pp.143-150
    • /
    • 2011
  • Background and Objectives : Clinically, as a tool for voice assessment before and after the operation or the voice treatment, acoustic analysis is widely used. However, in clinical situations, acoustic parameters vary according to how the assessment is made. Thus, with voice disease patients as subjects, we are to investigate what influence intensity increase exerts on acoustic parameters and how to reduce variation according to the way of assessing. Material and Method : At the voice clinic of the department of otorhinolaryngology in Gangnam Severance Hospital, with 30 female voice-disease patients (40.6 years old on the average) and 23 male voice-disease patients (40.1 years old on the average) as subjects, using the Dr Speech vocal-assessment program, we statistically tested the significance of the difference in each of acoustic parameters between when the "Ah" vowel is produced with a normal voice and when the "Ah" vowel is produced with a loud voice. Results : Acoustic parameters that showed a statistically significant difference according to intensity increase were Jitter, SD F0, and NNE for females, and Jitter, SD F0, HNR, SNR, and NNE for males. Voice quality estimates showed a statistically significant difference according to intensity increase in female hoarse voice, female breathy voice, and male breathy voice. Conclusion : In this research, acoustic analysis, which is generally used for voice assessment before and after the operation or the voice treatment, showed a tendency that acoustic parameters became better under the influence of intensity increase except for the cases where a voice disease was severe. Thus, to raise the reliability of voice assessment, the range of intensity needs to be set up. This should be the topic for the future research.

  • PDF

T1a 병기 성문암의 방사선 치료 후 음성에 관한 연구 (Quantitative Analysis of Voice Quality after Radiation Therapy for Stage T1a Glottic Carcinoma)

  • 이준규;정웅기
    • Radiation Oncology Journal
    • /
    • 제23권1호
    • /
    • pp.17-21
    • /
    • 2005
  • 목적 : 후두암에서 방사선 치료는 음성을 보존할 수 있기 때문에 조기 성문암의 일차적인 치료법으로 사용된다. 이에 T1a 병기 성문암에서 방사선 치료가 환자의 음성에 미치는 영향을 알아보고자 하였다. 대상 및 방법 : 조기 성문암(T1a)으로 진단 받고 방사선 치료를 받은 후 최소 1년이 지난 17명의 남자 환자들을 대상으로 객관적인 음성검사들(음향분석, 공기역학검사, 후두 스트로보스코피)을 이용하여 음성을 평가하였고, 이것을 성별과 연령을 맞춘 정상 대조군과 비교하였다. 음향분석으로는 평균 기본주파수(Fo), jitter, shimmer, 잡음 대 조화음 비율(Noise to Harmonics Ratio)을 측정하였다. 공기역학적 검사로는 최대발성지속시간, 평균호기류율, 음강도, 성문하압, 성문저항, 성문효율, 성문력을 측정하였다. 결과 : 방사선 치료를 받은 환자에서 음향분석의 shimmer만이 통계학적으로 의의 있게 높았다. 그 외 다른 검사나 공기역학검사에서는 두 군 간에 통계학적인 유의성이 없었다. 결론 : 본 연구에서는 단지 shimmer만이 방사선 치료 환자군에서 높았기 때문에 T1a 병기 성문암에서의 방사선치료는 음성의 질에 큰 영향을 미치지 않은 것으로 사료된다.

지선낭종의 초음파 소견: 조직학적으로 진단된 14개 병변의 분석 (Sonographic Appearance of Steatocystoma: An Analysis of 14 Pathologically Confirmed Lesions)

  • 윤혜영;강유선;박휘룡;안중모;이영준;이준우;강흥식
    • 대한영상의학회지
    • /
    • 제82권2호
    • /
    • pp.382-392
    • /
    • 2021
  • 목적 지선낭종의 초음파 소견을 분석하고, 표피낭종 및 지방종과의 감별진단에 도움이 되는 소견을 알아보고자 하였다. 대상과 방법 10명의 환자에서 14개의 조직학적으로 확진된 지선낭종의 초음파 소견을 후향적으로 검토하였다. 병변의 위치, 모양, 경계, 에코 발생 정도, 후방 음향 특징 및 테두리 벽 또는 병변 내 줄무늬의 존재 여부를 평가하였다. 지선낭종의 초음파 소견을 분석하고, 표피낭종 및 지방종과의 감별진단에 도움이 되는 소견을 알아보고자 하였다. 결과 지선낭종의 대부분은 피하 종괴(n = 6, 42.9%) 또는 피부층과 피하층을 함께 침범한 종괴로(n = 6, 42.9%) 나타났다. 병변은 대부분 경계가 잘 지어지고(n = 12, 85.7%) 균질한 에코 발생을 보였으며(n = 9, 64.3%), 후방 음향 특징을 나타내지 않았다(n = 9, 64.3%). 표피낭종을 지선낭종과 구별하는 가장 중요한 소견은 균질한 내부 에코 발생과(p = 0.009), 현저하지 않은 후방 음향 향상이다(p < 0.001). 지선낭종과 지방종의 구별되는 특징은 경계(p < 0.001), 에코 발생성(p = 0.034), 내부 에코 성상(p = 0.004) 및 병변 내 줄무늬의 부재였다(p < 0.001). 결론 지선낭종은 초음파 검사상 경계가 좋고 균질하며, 후방 음향 향상이 경도로 있거나 없는 종괴로 관찰되었다.

음성신호 분석에 의한 판소리의 음성학적 특징 연구 (A Study on the Acoustic Characteristics of the Pansori by Voice Signals Analysis)

  • 김현숙
    • 한국산학기술학회논문지
    • /
    • 제14권7호
    • /
    • pp.3218-3222
    • /
    • 2013
  • 판소리는 우리나라 전통 성악곡이며 소리, 대화, 몸짓이 어울린 종합 예술로 독창성과 우수성을 세계적으로 인정받은 세계무형유산이다. 특히, 판소리는 소리꾼의 해학적 표현과 청중의 참여도가 높은 점에서 예술적 가치가 있으며 모든 계층이 두루 즐기는 예술로서 사회적 통합의 기능을 담당한 것으로 평가되고 있다. 따라서 본 논문에서는 사회와 시대를 표현한 판소리의 음향학적 특징을 분석하기 위해 판소리 다섯 마당을 대상으로 음성신호 분석 기술을 적용한 상관성 추출 연구를 수행하였다. 이를 위해 판소리 다섯 마당에 대한 스펙트로그램, 피치, 안정도 및 강도 분석을 실험하였다. 실험 결과를 통해 판소리는 청중들에게 집중과 흥미를 지속적으로 유지시키면서 이야기를 풀어가는 특징을 잘 반영하기 위해 목소리의 파동 및 성대 떨림의 변화 폭이 크고 안정적이며 음성 에너지가 큰 소리로 표현하고 있는 것으로 분석되었다.