• 제목/요약/키워드: Prosody

검색결과 208건 처리시간 0.019초

대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안 (UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS)

  • 이정철
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권7호
    • /
    • pp.91-98
    • /
    • 2010
  • 대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 그러나 자연성, 개인성, 어조, 감정구현 등에서 활용성을 높이기 위해서는 음성DB의 크기가 비례적으로 증가하게 되므로 음운환경과 음향적 특성이 유사한 다수의 음편들을 제거하여 음성DB의 크기를 감축하기 위한 연구가 필수적이다 본 논문에서는DB감축을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 이용하여 한국어 TTS용 합성단위음편 데이터베이스 구축 방법을 제안한다. 그리고 클러스터링방법에 대한 성능 평가를 위해서 언어 처리기, 운율 처리기, 음편 선택기, 합성음 생성기, 합성단위 음편데이터베이스, 음성신호 출력기로 구성되는 한국어 TTS 기본 시스템을 이용하여 합성음을 생성하였고 트리 클러스터링 방법 CM1, CM2와 전체 DB (Full DB)와 감축된 DB(Reduced DB)의 4가지 조합별로 제작된 음편 데이터베이스를 이용하여 각 조합에 대한 MOS 테스트를 수행하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 청취실험 결과 높은 MOS를 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.

콘텐츠를 위한 한ㆍ불 정형시가 낭송법의 비교 고찰 (A study of reciting the formal poetries of Korea and French in digital era - Shijo(Korean verse) vs Sonnet (French))

  • 이산호
    • 한국시조학회지:시조학논총
    • /
    • 제19권1호
    • /
    • pp.85-106
    • /
    • 2003
  • 본질적으로 입으로 소리내어 읊조리고 청각으로 감상하기 위해 만들어지고, 일정한 형식 안에서 음성의 조화와 운율의 음악성을 중시한 소네트와 시조의 표현형식은 전반적으로 기의signifie와 관련하여 고찰되어야 한다. 보들레르의 <깨진 종>과 김종서의 <삭풍가>을 표현형식의 의미작용을 중심으로 분석해 본 결과 시적 자아의 정서는 표현형식과 밀접하게 연관되어 있다. 소네트나 시조는 의미, 율격, 각운, 음성구조, 리듬 등 여러 개별적 요소들의 집합체가 아니라 이 모든 요소들이 서로 상호 작용하는 통일된 유기체이다. 시대의 흐름에 발맞춰 낭송법에 대한 이론을 체계적으로 정립하여 시를 콘텐츠화 하여 유통방식의 변화를 꾀해야 한다. 그러기 위해서 그 자체가 표현가치를 가지는 표현형식은 낭송에 있어서 최우선 적으로 고려되어야 할 기본원리이다.

  • PDF

특발성 파킨슨병의 시상밑부핵 심부뇌자극술 관련 말 평가 과제에 대한 문헌연구 (Speech Evaluation Tasks Related to Subthalamic Nucleus Deep Brain Stimulation in Idiopathic Parkinson's Disease: A Review)

  • 김선우;김향희
    • 재활복지
    • /
    • 제18권4호
    • /
    • pp.237-255
    • /
    • 2014
  • 특발성 파킨슨병(idiopathic Parkinson disease, IPD)은 알 수 없는 원인으로 인해 중뇌의 흑질신경세포가 손실되는 대표적인 퇴행성 신경계 질환이다. IPD 환자는 신체 운동 이상을 주로 호소하지만 이들 중 70~90%가 운동저하형 마비말장애(hypokinetic dysarthria)를 동반하는 것으로 알려져 있다. 진행된 심도의 IPD 환자의 운동 증상 호전에 가장 효과적인 치료 방법으로 알려진 시상밑부핵 심부뇌자극술(subthalamic nucleus deep brain stimulation, STN-DBS)은 말 산출에서는 그 효과가 일관되지 않게 보고된다. 이에 본 연구에서는 STN-DBS가 말 산출에 미치는 영향을 살펴보고, 연구에서 어떠한 말 평가 과제가 사용되었는지를 조사하기 위하여 medline을 통해 2012까지 이루어진 연구 논문을 수집하였다. 총 32편 중, 연구대상자들에서 술 후 말 상태의'호전'이 관찰된 논문은 42%,'악화'는 29%,'엇갈리는 결과'는 26%,'변화 없음'은 3%로 확인되었다. 말 효과 간에는 문맥발화(contextual speech)가 연구에 사용된 비중이 높을수록 술 후 말 상태는 부정적인 결과로 보고되었으며, 말 산출 단계 중 일부 단계(예: 호흡 및 발성만, 혹은 조음만)만이 반영된 평가 과제가 연구마다 선택적으로 사용되었음을 확인하였다. 이에 본 연구는 STN-DBS를 받은 IPD 환자의 말 평가는 말 산출 하부 단계를 모두 반영하는 문맥발화 과제를 통일적으로 사용할 것을 제안한다.

한국형 감정 음성 데이터베이스 구축을 위한 타당도 연구 (Development and validation of a Korean Affective Voice Database)

  • 김예지;송혜선;전예솔;오유림;이영미
    • 말소리와 음성과학
    • /
    • 제14권3호
    • /
    • pp.77-86
    • /
    • 2022
  • 본 연구는 운율을 기반으로 감정을 인식하는 능력을 측정할 때 이용할 수 있는 한국형 감정 음성 데이터베이스(Korean Affective Voice Database, 이하 KAV DB)를 개발하고, 해당 DB가 의사소통장애 관련 임상과 연구에서 활용될 수 있는지를 점검하기 위하여 신뢰도, 민감도, 특이도를 산출하여 그 타당성을 살펴보았다. 본 연구에서는 배우 2명(남 1명, 여 1명)이 의미적으로 중립적인 문장 10개를 행복, 분노, 공포, 슬픔, 놀람, 중립의 6개 정서로 표현하도록 하여 음성을 녹음하였다. 녹음된 음성 중에서 목표 정서가 잘 표현된 문장을 선별하여 타당도 점검을 위한 음성파일 세트를 구성하였으며, 청자 31명(남 14명, 여 17명)이 시각적 아날로그 평정법을 이용하여 각 음성에서 6개의 정서가 얼마나 반영되었는지 평정하도록 하였다. 그 결과, KAV DB에 대한 청자의 내적 일관성 신뢰도는 .872, 전체 민감도 82.8%, 전체 특이도 83.8%였다. 이를 통하여, 타당도가 확보된 KAV DB는 감정 음성 인식 및 산출과 관련된 연구와 임상 콘텐츠 제작 등에 활용될 수 있을 것으로 기대된다.

Interferometric Monitoring of Gamma-Ray Bright AGNs: 4C +28.07 and Its Synchrotron Self-Absorption Spectrum

  • Myoung-Seok Nam;Sang-Sung Lee;Whee Yeon Cheong
    • 천문학회지
    • /
    • 제56권2호
    • /
    • pp.231-252
    • /
    • 2023
  • We present the analysis results of the simultaneous multifrequency observations of the blazar 4C +28.07. The observations were conducted by the Interferometric Monitoring of Gamma-ray Bright Active Galactic Nuclei (iMOGABA) program, which is a key science program of the Korean Very Long Baseline Interferometry (VLBI) Network (KVN). Observations of the iMOGABA program for 4C +28.07 were conducted from 16 January 2013 (MJD 56308) to 13 March 2020 (MJD 58921). We also used γ-ray data from the Fermi Large Array Telescope (Fermi-LAT) Light Curve Repository, covering the energy range from 100 MeV to 100 GeV. We divided the iMOGABA data and the Fermi-LAT data into five periods from 0 to 4, according to the prosody of the 22 GHz data and the presence or absence of the data. In order to investigate the characteristics of each period, the light curves were plotted and compared. However, a peak that formed a hill was observed earlier than the period of a strong γ-ray flare at 43-86 GHz in period 3 (MJD 57400-58100). Therefore, we assumed that the minimum total CLEANed flux density for each frequency was quiescent flux (Sq) in which the core of 4C +28.07 emitted the minimum, with the variable flux (Svar) obtained by subtracting Sq from the values of the total CLEANed flux density. We then compared the variability of the spectral indices (α) between adjacent frequencies through a spectral analysis. Most notably, α22-43 showed optically thick spectra in the absence of a strong γ-ray flare, and when the flare appeared, α22-43 became optically thinner. In order to find out the characteristics of the magnetic field in the variable region, the magnetic field strength in the synchrotron self-absorption (BSSA) and the equipartition magnetic field strength (Beq) were obtained. We found that BSSA is largely consistent with Beq within the uncertainty, implying that the SSA region in the source is not significantly deviated from the equipartition condition in the γ-ray quiescent periods.

분산 시간지연 회귀신경망을 이용한 피치 악센트 자동 인식 (Automatic Recognition of Pitch Accent Using Distributed Time-Delay Recursive Neural Network)

  • 김성석
    • 한국음향학회지
    • /
    • 제25권6호
    • /
    • pp.277-281
    • /
    • 2006
  • 본 논문에서는 시간지연 회귀신경회로망을 이용한 음절 레벨에서의 피치 악센트 자동 인식 방법을 제안한다. 시간지연 회귀 신경회로망은 두 종류의 동적 문맥정보를 표현한다. 시간지연 회귀신경회로망의 시간지연 입력 노드는 시간 축 상의 피치 및 에너지 궤도를 표현하고, 회귀 노드는 피치 악센트의 특성을 반영하는 문맥 정보를 표현한다. 본 논문에서는 이러한 시간지연 회귀신경회로망을 두 가지 형태로 구성하여 피치 악센트 자동 인식에 적용한다. 하나의 형태는 단일 시간지연 회귀 신경회로망에서 복수 개의 운율 특정파라미터 (피치, 에너지, 지속시간)를 입력 노드에 함께 공급하여 피치 악센트 인식을 수행하고, 다른 하나는 분산 시간지연 회귀 신경회로망을 이용하여 피치 악센트 인식을 수행한다. 분산 시간지연 회귀 신경회로망은 여러 개의 시간지연 회귀 신경회로망으로 구성되고, 각 시간지연 회귀 신경회로망은 단일 운율 특징 파라미터만으로 학습된다. 분산 시간지연 회귀 신경회로망의 인식결과는 개별 시간지연 회귀 신경회로망의 출력 값의 가중치 합으로 결정된다. 화자 독립 피치 악센트 인식 실험을 위해 보스톤 라디오 뉴스 코퍼스 (BRNC)를 사용하였다. 실험결과, 분산 시간지연 회귀 신경회로망은 83.64%의 피치 악센트 인식률을 보였다.

일본어 악센트 특징을 이용한 합성단위 선택 기반 일본어 TTS의 후보 합성단위의 사전선택 방법 (A Pre-Selection of Candidate Units Using Accentual Characteristic In a Unit Selection Based Japanese TTS System)

  • 나덕수;민소연;이광형;이종석;배명진
    • 한국음향학회지
    • /
    • 제26권4호
    • /
    • pp.159-165
    • /
    • 2007
  • 본 논문에서는 합성단위 선택 (unit selection) 기반 일본어 합성기에 필요한 후보 합성단위들에 대한 사전선택 (pre-selection)의 새로운 방법을 제안한다. 일반적인 사전선택 방법은 하나의 억양구에서 음소 열에 대한 비용을 계산하여 이용하는 방법이다. 그런데, 일본어는 다른 언어와는 다르게 상대적인 피치의 높낮이로 나타나는 악센트를 가지는 언어이고, 몇 개의 단어가 하나의 악센트구를 형성하는 특징이 있다. 또한 일본어의 운율은 악센트 구를 기본 단위로 하여 변화하는 특징이 있어서, 사전선택에서 이러한 악센트 구 단위의 운율 변화를 반영함으로써 음질을 향상시킬 수 있고, 악센트 구에서 음소 열에 대한 비용을 계산하여 억양구에서 하는 것보다 계산량을 줄일 수 있다. 제안한 방법은 일본어의 악센트 구를 정의하여 음소 열에서 이것을 분석하고, 각 악센트 구에서 합성 할 음소의 각 후보에 대해 CCL (Connected Context Length)을 구하는 악센트 구 매칭을 이용하여 사전선택을 수행하는 방법이다. 제안한 방법은 Voiceware의 합성기인 VoiceText를 baseline 시스템으로 사용하여 구현하였고, 인지적 에러 (억양 에러, 연결 에러)와 합성시간에 대해 평가하였다. 실험 결과, 제안한 방법은 합성 음질을 보다 자연스럽게 향상시켰고, 합성 속도를 개선하였다.

텍스트마이닝을 활용한 북한 관련 뉴스의 기간별 변화과정 고찰 (An Investigation on the Periodical Transition of News related to North Korea using Text Mining)

  • 박철수
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.63-88
    • /
    • 2019
  • 북한의 변화와 동향 파악에 대한 연구는 북한관련 정책에 대한 방향을 결정하고 북한의 행위를 예측하여 사전에 대응 할 수 있다는 측면에서 매우 중요하다. 현재까지 북한 동향에 대한 연구는 전문가를 중심으로 과거 사례를 서술적으로 분석하여, 향후에 북한의 동향을 분석하고 대응하여 왔다. 이런 전문가 서술 중심의 북한 변화 및 동향 연구에서 비정형데이터를 이용한 텍스트마이닝 분석이 더해지면 보다 과학적인 북한 동향 분석이 가능할 것이다. 특히 북한의 동향 파악과 북한의 대남 관련 행위와 연관된 연구는 통일 및 국방 분야에서 매우 유용하며 필요한 분야이다. 본 연구에서는 북한의 신문 기사 내용을 활용한 텍스트마이닝 방법으로 북한과 관련한 핵심 단어를 구축하였다. 그리고 본 연구는 김정은 집권 이후 최근의 남북관계의 극적인 관계와 변화들을 기반으로 세 개의 기간을 나누고 이 기간 내에 국내 언론에 나타난 북한과 관련성이 높은 단어들을 시계열적으로 분석한 연구이다. 북한과 관련한 주요 단어들을 세 개의 기간별로 분류하고 당시에 북한의 태도와 동향에 따라 해당 단어와 주제들의 관련성이 어떻게 변화하였는지를 파악하였다. 본 연구는 텍스트마이닝을 이용한 연구가 남북관계 및 북한의 동향을 이해하고 분석하는 방법론으로서 얼마나 유용한 것이지를 파악하는 것이었다. 앞으로 북한의 동향 분석에 대한 연구는 물론 대북관계 및 정책에 대한 방향을 결정하고, 북한의 행위를 사전에 예측하여 대응 할 수 있는 북한 리스크 측정 모델 구축을 위한 연구로 진행 될 것이다.