• 제목/요약/키워드: Speech Synthesis

검색결과 381건 처리시간 0.025초

실데이터 기반 능동 소나 신호 합성 방법론 (Real data-based active sonar signal synthesis method)

  • 김윤수;김주호;석종원;홍정표
    • 한국음향학회지
    • /
    • 제43권1호
    • /
    • pp.9-18
    • /
    • 2024
  • 최근 수중표적의 저소음화와 해상교통량의 증가로 인한 주변 소음의 증가로 능동 소나 시스템의 중요성이 증대되고 있다. 하지만 신호의 다중 경로를 통한 전파, 다양한 클러터와 주변 소음 및 잔향 등으로 인한 반향신호의 낮은 신호대잡음비는 능동 소나를 통한 수중 표적 식별을 어렵게 만든다. 최근 수중 표적 식별 시스템의 성능을 향상 시키기 위해 머신러닝 혹은 딥러닝과 같은 데이터 기반의 방법을 적용시키려는 시도가 있지만, 소나 데이터셋의 특성 상 훈련에 충분한 데이터를 모으는 것이 어렵다. 부족한 능동 소나 데이터를 보완하기 위해 수학적 모델링에 기반한 방법이 주로 활용되어오고 있다. 그러나 수학적 모델링에 기반한 방법론은 복잡한 수중 현상을 정확하게 모의하는 데에는 한계가 있다. 따라서 본 논문에서는 심층 신경망 기반의 소나 신호 합성 기법을 제안한다. 제안하는 방법은 인공지능 모델을 소나 신호 합성 분야에 적용하기 위해, 음성 합성 분야에서 주로 사용되는 타코트론 모델의 주요 모듈인 주의도 기반의 인코더 및 디코더를 소나 신호에 적절하게 수정하였다. 실제 해상 환경에 모의 표적기를 배치해 수집한 데이터셋을 사용하여 제안하는 모델을 훈련시킴으로써 보다 실제 신호와 유사한 신호를 합성해낼 수 있게 된다. 제안된 방법의 성능을 검증하기 위해, 합성된 음파 신호의 스펙트럼을 직접 분석을 진행하여 비교하였으며, 이를 바탕으로 오디오 품질 인지적 평가(Perceptual Quality of Audio Quality, PEAQ)인지적 성능 검사를 실시하여 총 4개의 서로 다른 환경에서 생성된 반사 신호들에 대해 원본과 비교해 그 차이가 최소 -2.3이내의 높은 성적을 보여주었다. 이는 본 논문에서 제안한 방법으로 생성한 능동 소나 신호가 보다 실제 신호에 근사한다는 것을 입증한다.

Modulated Lapped Transform 영역에서 적응 필터링을 이용한 음향 반향 제거기의 구현 (An Implementation of Acoustic Echo Canceller Using Adaptive Filtering in Modulated Lapped Transform Domain)

  • 백수진;박규식
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.425-433
    • /
    • 2003
  • 음향 반향 제거기 (Acoustic Echo Canceller: AEC)는 원거리 회의 시스템이나 차량 내 핸즈프리 통화 등에서 필연적으로 발생하는 반향을 제거하기 위해 이용된다. 이러한 반향을 제거하기 위해 다양한 적응 필터링 알고리즘이 제안되었으며 LMS(Least Mean Square) 알고리즘은 다른 알고리즘에 비해 매우 단순하고, 비교적 강인하여 많은 응용 분야에 사용되고 있다. 그러나 LMS 알고리즘은 음성과 같은 상관도가 높은 유색 신호에 대해 음향반향 제거기의 수렴 속도를 저하시켜 전체적인 음향 반향 제거 성능을 떨어뜨리게 한다. 이를 보완하기 위하여 DCT나 DFT 등의 직교 변환 행렬을 이용하여 입력신호의 상관성을 저하시킨 후 LMS 적응 필터링 알고리즘을 적용하는 변환 영역 음향 반향 제거 알고리즘 등이 제안되었다. 본 논문에서는 MLT (Modulated Lapped Transform) 직교 변환행렬을 이용한 MLT영역의 적응음향반향 제거 알고리즘을 제안한다. 제안된 알고리즘은 기존의 NXN DCT, DFT, Hadamad등의 정방 행렬 대신에 2NXN 크기의 MLT 변환 행렬을 사용함으로서 유색 입력 신호에 대해 효과적인 상관성 저하와 빠른 수렴 속도를 달성할 수 있었으며 실제 음향 반향 제거 시스템에 적용하여 그 성능을 비교 입증하도록 하였다. 합성 음성신호와 실제 음성 신호를 이용한 모의 실험 결과 제안된 MLT 영역 음향 반향 제거 시스템은 기존의 DCT 변환 영역 음향 반향 시스템에 비해 약 2배 이상의 빠른 수렴속도와 약 20∼30 ㏈ 정도의 ERLE (Echo Return Loss Enhacement) 향상을 얻을 수 있었다

PG-GAN을 이용한 패션이미지 데이터 자동 생성 (Automaitc Generation of Fashion Image Dataset by Using Progressive Growing GAN)

  • 김양희;이찬희;황태선;김경민;임희석
    • 사물인터넷융복합논문지
    • /
    • 제4권2호
    • /
    • pp.1-6
    • /
    • 2018
  • 이미지와 같은 고차원 데이터로부터 새로운 샘플 데이터를 생성하는 기술은 음성 합성, 이미지 변환 및 이미지 복원 등에 다양하게 활용되고 있다. 본 논문은 고해상도의 이미지들을 생성하는 것과 생성한 이미지들의 variation을 높이기 위한 방안으로 Progressive Growing of Generative Adversarial Networks(PG-GANs)을 구현 모델로 채택하였고, 이를 패션 이미지 데이터에 적용하였다. PG-GANs은 생성자(Generator)와 판별자(discriminator)를 동시에 점진적으로 학습하도록 하는데, 저해상도의 이미지에서부터 계속해서 새로운 레이어들을 추가하여 결과적으로 고해상도의 이미지를 생성할 수 있게끔 하는 방식이다. 또한 생성 데이터의 다양성을 높이기 위하여 미니배치 표준편차 방법을 제안하였고 GAN 모델을 평가하기 위한 기존의 MS-SSIM이 아닌 Sliced Wasserstein Distance(SWD) 평가 방법을 제안하였다.

프로그램 가능한 SC Filter의 설계 (Design of Programmable SC Filter)

  • 이병수;이종악
    • 한국통신학회논문지
    • /
    • 제11권3호
    • /
    • pp.172-178
    • /
    • 1986
  • 스위치드 커패시터 필터(Switched-capacitor filter)의 유리한 점은 IC화 할 때 능동 RC회로의 RC적(RC Product)에 해다아는 것이 커패시턴스의 비로 되어 정확하게 그 값을 유지하는 것이 쉽고 클럭주파수에 의하여 중심주파수를 선형적으로 변화시킬 수 있다는 것이다. 본 논문에서는 프로그램 가능한 2차 SC필터를 구성한 후 디지털 신호에 의하여 중심주파수, 선택도 및 최대이득이 제어가능함을 실험을 통하여 입증하였다. 실험결과 필터의 ${omega}_0$는 모든 수동소자에 대해 저감도를 유지할 수 있었으나 스위치의 기생용량이 커패시터의 비에 미치는 영향은 피할 수 없었다. SC 필터는 클럭주파수, 저항 어레이등에 의하여 전달특성을 가변시킬 수 있으므로 디지탈 신호의 처리나 음성의 분석 및 합성에도 이용될 수 있을 것이다.

  • PDF

동적 세그멘테이션을 이용한 폴리포닉 오디오 신호의 정현파 모델링 (Sinusoidal Modeling of Polyphonic Audio Signals Using Dynamic Segmentation Method)

  • 장호근;박주성
    • 한국음향학회지
    • /
    • 제19권4호
    • /
    • pp.58-68
    • /
    • 2000
  • 본 논문에서는 폴리포닉 오디오 신호에 대한 정현파 모델링 방법을 제안한다. 정현화 모델링을 폴리포닉 오디오 신호에 적용하는데 있어서 가장 큰 문제점은 스펙트럼 분석을 위한 분석 윈도우의 크기를 결정할 수 없다는 것이다. 또한 고음질의 합성음을 위해서는 악기음의 특성을 결정짓는 어택이 잘 보존되어야 한다. 본 논문에서는 입력 신호를 6개의 옥타브 벤드 구조의 다중 해상도 필터 뱅크를 통과시키고, 각 서브벤드 신호에 대해 서로 다른 크기의 분석 윈도우를 적용시킴으로써 폴리포닉 오디오 신호에 대한 분석 윈도우 크기 결정 문제를 해결한다. 정현파 모델링에서 발생하는 어택과 같은 천이 구간에서의 퍼짐 현상을 개선하기 위해 각 서브밴드 신호에 동적 세그맨테이션 방법을 적용하여 천이 구간 근처에서는 분석과 합성 프레임 크기를 작게 하는 방법을 사용한다. 이 방법을 통해 서브밴드 신호의 구간별 시간-주파수 특성에 따라 적절한 크기의 윈도우를 선택할 수 있다. 동적 세그멘테이션 방법으로는 기존의 방법보다 계산량과 성능 면에서 더 나은 특성을 보이는 방법을 제안한다. 여러가지 폴리포닉 오디오 신호에 대한 시뮬레이션 결과 제안한 정현파 모델링 방법이 음질의 손상 없이 원래 신호를 잘 복원할 수 있음을 확인하였다.

  • PDF

고차 미분에너지 기반 노인 음성에서의 음성 구간 검출 알고리즘 연구 (Development of Voice Activity Detection Algorithm for Elderly Voice based on the Higher Order Differential Energy Operator)

  • 이지연
    • 디지털융복합연구
    • /
    • 제14권11호
    • /
    • pp.249-255
    • /
    • 2016
  • 노인 음성은 연령에 따른 호흡, 발성, 공명 등의 생리적 변화에 의하여 다량의 잡음이 발생된다. 따라서 노인 음성으로 음성인식 및 합성, 분석 소프트웨어등과 같은 융복합 헬스케어 기기를 동작시키고자 할 때, 성능을 저하시키는 결과를 야기한다. 그러므로 노인 음성을 분석하여 그들의 목소리로 다양한 헬스케어 기기를 잘 운영할 수 있는 위한 연구 개발이 필요하다. 따라서 본 연구는 노인 음성 잡음을 고려하여 기존의 대칭 구조 고차 미분 에너지 함수를 이용하여 노인 음성에서의 음성 구간 검출 알고리즘을 연구하였으며, 자기상관함수와 AMDF 방법과 비교하여 노인 음성에서의 음성 구간 검출에 보다 우수한 성능을 가지는 것을 확인하였다. 본 논문에서 제시하는 음성 구간 검출 알고리즘은 노인을 위한 음성 인터페이스에 적용함으로써 노인들의 스마트 기기에의 접근성을 높이고, 더 나아가 노인들을 위한 융복합 웨어러블 디바이스 성능 개선 및 다양한 개발이 가능할 것으로 전망한다.

마이크로폰 어레이를 위한 최적 패턴 형성 (Optimum Pattern Synthesis for a Microphone Array)

  • 장병건;권태능;변윤식
    • 한국음향학회지
    • /
    • 제16권1호
    • /
    • pp.47-53
    • /
    • 1997
  • 이 논문은 원거리회의 환경에서 음성신호와 같은 광대역 신호를 다룰 수 있는 마이크로폰 어레이의 빔패턴(beam pattern)을 형성하는 효과적인 방법에 대하여 서술한다. 어레이의 변수를 반복적으로 변화시킴으로써, 측면롭의 높이를 조정하여 일정한 수준의 측면롭을 형성하며, 갱신된 측면롭을 대수적으로 찾지 않고 수치적으로 찾는 접근방법을 제안하였다. 어레이 계수나 마이크로폰 간격을 어레이변수로 사용하였으며, 마이크로폰 어레이 가시범위에 공간적으로 균일하게 입력되는 방향성잡음 또는 배경잡음을 효과적으로 줄일 수 있는 Dolph-Chebyshev형태의 최적화패턴을 형성하였다. 어레이 계수보다 마이크로폰 간격을 변화시키는 것이 광대역신호를 더 효과적으로 다룰 수 있는 최적화 패턴을 제공하는 것이 판명되었다. 또한 방향조정(scanning)상황 하에서 측면롭에 강한(robust)패턴을 형성할 수 있는 방법을 제안하였으며, 컴퓨터 실험결과를 제시하였다.

  • PDF

한국어 자음생성의 생리음성학적 특성 (Physiologic Phonetics for Korean Stop Production)

  • 홍기환;양윤수
    • 대한후두음성언어의학회지
    • /
    • 제17권2호
    • /
    • pp.89-97
    • /
    • 2006
  • The stop consonants in Korean are classified into three types according to the manner of articulation as unaspirated (UA), slightly aspirated (SA) and heavily aspirated (HA) stops. Both the UA and the HA types are always voiceless in any environment. Generally, the voice onset time (VOT) could be measured spectrographically from release of consonant burst to onset of following vowel. The VOT of the UA type is within 20 msec of the burst, and about 40-50 msec in the SA and 50-70 msec in the HA. There have been many efforts to clarify properties that differentiate these manner categories. Umeda, et $al^{1)}$ studied that the fundamental frequency at voice onset after both the UA and HA consonants was higher than that for the SA consonants, and the voice onset times were longest in the HA followed by the SA and UA. Han, et $al^{2)}$ reported in their speech synthesis and perception studies that the SA and UA stops differed primarily in terms of a gradual versus a relatively rapid intensity build-up of the following vowel after the stop release. Lee, et $al^{3)}$ measured both the intraoral and subglottal air pressure that the subglottal pressure was higher for the HA stop than for the other two stops. They also compared the dynamic pattern of the subglottal pressure slope for the three categories and found that the HA stop showed the most rapid increase in subglottal pressure in the time period immediately before the stop release. $Kagaya^{4)}$ reported fiberscopic and acoustic studies of the Korean stops. He mentioned that the UA type may be characterized by a completely adducted state of the vocal folds, stiffened vocal folds and the abrupt decreasing of the stiffness near the voice onset, while the HA type may be characterized by an extensively abducted state of the vocal folds and a heightened subglottal pressure. On the other hand, none of these positive gestures are observed for the SA type. Hong, et $al^{5)}$ studied electromyographic activity of the thyroarytenoid and posterior cricoarytenoid (PCA) muscles during stop production. He reported a marked and early activation of the PCA muscle associated with a steep reactivation of the thyroarytenoid muscle before voice onset in the production of the HA consonants. For the production of the UA consonants, little or no activation of the PCA muscle and earliest and most marked reactivation of the thyroarytenoid muscle were characteristic. For the SA consonants, he reported a more moderate activation of the PCA muscle than for the UA consonant, and the least and the latest reactivation of the thyroarytenoid muscle. Hong, et $al^{6)}$ studied the observation of the vibratory movements of vocal fold edges in terms of laryngeal gestures according to the different types of stop consonants. The movements of vocal fold edges were evaluated using high speed digital images. EGG signals and acoustic waveforms were also evaluated and related to the vibratory movements of vocal fold edges during stop production.

  • PDF

Cyclosporin A-induced Gingival Overgrowth is Closely Associated with Regulation Collagen Synthesis by the Beta Subunit of Prolyl 4-hydroxylase and Collagen Degradation by Testican 1-mediated Matrix Metalloproteinase-2 Expression

  • Park, Seong-Hee;Kim, Jae-Yoen;Kim, Hyun-Jeong;Park, Kwang-Kyun;Cho, Kyoo-Sung;Choi, Seong-Ho;Chung, Won-Yoon
    • International Journal of Oral Biology
    • /
    • 제33권4호
    • /
    • pp.205-211
    • /
    • 2008
  • Gingival overgrowth can cause dental occlusion and seriously interfere with mastication, speech, and dental hygiene. It is observed in 25 to 81% of renal transplant patients treated with cyclosporine A (CsA). CsA-induced gingival overgrowth (CIGO) is caused by quantitative alteration of the extracellular matrix components, particularly collagen. However, the molecular mechanisms involved in the pathogenesis of CIGO remain poorly understood, despite intense clinical and laboratory investigations. The aim of the present work is to identify differentially expressed genes closely associated with CIGO. Human gingival fibroblasts were isolated by primary explant culture of gingival tissues from five healthy subjects (HGFs) and two patients with the CIGO (CIGO-HGFs). The proliferative activity of CsA-treated HGFs and CIGO-HGFs was examined using the MTT assay. The identification of differentially expressed genes in CsA-treated CIGO-HGF was performed by differential display reverse transcriptase-polymerase chain reaction (RT-PCR) followed by DNA sequencing. CsA significantly increased the proliferation of two HGFs and two CIGO-HGFs, whereas three HGFs were not affected. Seven genes, including the beta subunit of prolyl 4-hydroxylase (P4HB) and testican 1, were upregulated by CsA in a highly proliferative CIGO-HGF. The increased P4HB and testican-1 mRNA levels were confirmed in CsA-treated CIGO-HGFs by semiquantitative RT-PCR. Furthermore, CsA increased type I collagen mRNA levels and suppressed MMP-2 mRNA levels, which are regulated by P4HB and testican-1, respectively. These results suggest that CsA may induce gingival overgrowth through the upregulation of P4HB and testican-1, resulting in the accumulation of extracellular matrix components.

장애인을 위한 하이-테크놀로지 보완·대체의사소통체계 실험 연구 동향 분석 (A Research Review of High-technology AAC Intervention for Individuals with Disabilities)

  • 송재옥;전병운
    • 재활복지
    • /
    • 제20권4호
    • /
    • pp.203-228
    • /
    • 2016
  • 본 연구의 목적은 장애인을 대상으로 이루어진 국내외 하이-테크놀로지 기반 보완 대체의사소통 중재 실험 연구의 최근 동향을 분석하여 하이-테크놀로지 기반 보완 대체의사소통체계를 활용한 중재와 연구 등에 필요한 기초 자료를 제시하는 것이다. 분석 기준에 따라 전자 데이터베이스를 활용하여 2009년부터 2016년 6월까지의 문헌을 검색하여 총 46편(국내 연구 23편, 국외 연구 23편)이 선정되었다. 선정된 문헌을 (1) 중재 대상 (2) 연구 설계 (3) 중재 환경 (4) 독립변인 (5) 종속변인 (6) 사용된 의사소통 기술 (7) 중재에 사용된 하이-테크 AAC 기기의 유형 (8) 사용된 소프트웨어의 종류 등의 기준에 따라 분석하였다. 중재 대상은 총 126명이었으며, 연령별로는 6-11세가 가장 많았고, 장애 영역별로는 자폐성 장애의 비율이 가장 높았다. 연구 설계는 국내 연구의 경우 중다 간헐 기초선 설계가 많았고, 국외 연구에서는 중재 교대 설계가 가장 많았다. 중재 환경은 특수학교나 특수학급과 같이 분리된 학교 상황의 교실 등에서 실시한 경우가 가장 많았다. 독립변인의 분석 결과, 국내 연구에서는 하이-테크 AAC 기기를 기반으로 하는 중재 프로그램(전략)의 효과를 알아보는 연구가 많았고, 국외 연구에서는 다양한 유형의 AAC 도구를 활용한 중재 비교연구의 비율이 높았다. 종속변인으로는 의사소통 기능 향상이 국내외 모두 가장 많았다. 중재에 사용된 하이-테크 AAC 도구는 태블릿 PC의 사용 비율이 가장 높았고, 소프트웨어는 국내에서는 '마이토키', 국외에서는 'Proloquo2Go'의 사용 비율이 높았다. 이러한 분석 결과를 바탕으로 장애인 대상 하이-테크놀로지 AAC 도구와 관련한 중재 연구, 현장 적용, 기기 개발 등의 방향성을 논의하였다.