• 제목/요약/키워드: speech waveform

검색결과 135건 처리시간 0.027초

베트남인 한국어 학습자와 한국인의 한국어 겹받침 발음 비교 연구 (A Comparative Study on the Pronunciations of Korean and Vietnamese on Korean Syllable Final Double Consonants)

  • 장경남;유광복
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.637-646
    • /
    • 2022
  • 본 논문은 한국어의 겹받침 발음에 대하여 베트남인 한국어 학습자와 한국인을 비교 연구하였다. 언어학적인 연구를 통하여 조사하고 분석한 겹받침 발음에 관한 여러 오류와 제시한 교육 방법에 대하여 공학적 특히 음성 신호처리의 분석 방법을 활용하여서 이런 연구 결과를 확인하였고 이에 우리는 본 논문에서 새로운 교육 방법을 제시하였다. 인공지능의 기계 학습에 많이 활용되고 있는 서포팅 벡터 머신 (supporting vector machine, SVM)을 사용하여서 베트남인 학습자의 발음과 한국인의 발음을 비교하였다. SVM의 초결정 평면을 구할 수 있다는 것은 베트남인 학습자의 겹받침 발음이 한국인의 발음과 차이를 보인다는 것이고, 그 반대라면 발음을 잘하고 있다는 것이다. 본 논문에서 우리가 제시한 새로운 교육 방법은 쓰기와 듣기로만 구성하는 것이 아닌 음성 신호의 시간 영역에서 파형과 그것에 대응하는 신호의 에너지 등과 같은 피교육자에게 보일 수 있는 것들을 포함하는 효율적인 발음 교육 방법이다.

V/S/TSIUVC를 이용한 멀티펄스 음성부호화 방식에 관한 연구 (A Study on Multi-Pulse Speech Coding Method by Using V/S/TSIUVC)

  • 이시우
    • 한국멀티미디어학회논문지
    • /
    • 제7권9호
    • /
    • pp.1233-1239
    • /
    • 2004
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음질저하 현상이 나타난다. 본 논문에서는 음질을 개선하기 위해 V/S/TSIUVC 스위칭, 개별피치 펄스와 TSIUVC 근사합성 방법을 사용한 새로운 멀티펄스 음성부호화 방식을 제시한다. TSIUVC는 영교차율과 개별피치 펄스에 의하여 추출되며, TSIUVC의 추출율은 여자와 남자음성에서 각각 91%와 95.2%를 얻었다. 여기에서 중요한 사실은 양질의 TSIUVC 합성 파형을 얻기 위해서는 0.547kHz 이하와 2.813kHz 이상의 주파수 정보를 사용하여야 한다. V/UV를 이용한 MPC와 V/S/TSIUVC를 이용한 FBD-MPC의 비교평가를 하였다. 실험결과, FBD-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

  • PDF

TMS320C5416을 이용한 SOLA-B 알고리즘과 G.729A 보코더의 음질 향상된 가변 전송률 보코더의 실시간 구현 (Real-time Implementation of Variable Transmission Bit Rate Vocoder Improved Speech Quality in SOLA-B Algorithm & G.729A Vocoder Using on the TMS320C5416)

  • 함명규;배명진
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.241-250
    • /
    • 2003
  • In this paper, we implemented the vocoder of variable rate by applying the SOLA-B algorithm to the G.729A to the TMS320C5416 in real-time. This method using the SOLA-B algorithm is that it is reduced the duration of the speech in encoding and is played at the speed of normal by extending the duration of the speech in decoding. But the method applied to the existed G.729A and SOLA-B algorithm is caused the loss of speech quality in G.729A which is not reflected about length variation of speech. Therefore the proposed method is encoded according as it is modified the structure of LSP quantization table about the length of speech is reduced by using the SOLA-B algorithm. The vocoder of variable rate by applying the G.729A and SOLA-B algorithm is represented the maximum complexity of 10.2MIPS about encoder and 2.8MIPS about decoder in 8kbps transmission rate. Also it is evaluated 17.3MIPS about encoder, 9.9MIPS about decoder in 6kbps and 18.5MIPS about encoder, 11.1MIPS about decoder in 4kbps according to the transmission rate. The used memory is about program ROM 9.7kwords, table ROM 4.69kwords, RAM 5.2kwords. The waveform of output is showed by the result of C simulator and Bit Exact. Also, the result of MOS test for evaluation of speech quality of the vocoder of variable rate which is implemented in real-time, it is estimated about 3.68 in 4kbps.

  • PDF

음성신호 압축 및 복원을 위한 음성 천이구간 검출과 근사합성 방식 (Speech Transition Detection and approximate-synthesis Method for Speech Signal Compression and Recovery)

  • 이광석;김봉기;강성수;김현덕
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.763-767
    • /
    • 2008
  • 유 무성음의 음원을 이용한 음성부호화 시스템에서는 프레임 내에 유성자음과 무성자음이 공존하는 경우 음질의 왜곡을 수반할 수 있다. 따라서 프레임 내에 유성자음과 무성자음이 공존하지 않도록 하기 위해서 무성자음을 탐색 및 검출을 포함하는 천이구간을 제안하였다. 본 연구는 최소 자승법과 주파수 대역 분할법을 사용함으로써 TS 근사합성의 새로운 방식을 제시하였다 결과적으로 이 방식은 0.547kHz이하와 2.813kHz 이상에서의 주파수 정보를 이용함으로써 TS내에서 고품질의 근사합성 파형을 얻을 수 있었다. 중요한 것은 최대 오류신호는 TS내에 저 왜곡 근사 합성파형이 생길 수 있다는 것이다. 이 방식은 유성음/묵음/TS의 새로운 음성부호화, 음성해석 및 음성합성에 적용할 수 있으리라 생각한다.

  • PDF

천이구간 추출 및 근사합성에 의한 음성신호 압축과 복원 (Speech Signal Compression and Recovery Using Transition Detection and Approximate-Synthesis)

  • 이광석;이병로
    • 한국정보통신학회논문지
    • /
    • 제13권2호
    • /
    • pp.413-418
    • /
    • 2009
  • 유 무성음의 음원을 이용한 음성부호화 시스템에서는 프레임 내에 유성자음과 무성자음이 공존하는 경우에 음질왜곡을 일으킬 수 있다. 따라서 프레임 내에 유성자음과 무성자음이 공존하지 않도록 하기 방법으로써 무성자음을 탐색하고 검출을 포함하는 천이 구간을 제안하였다. 본 연구는 최소 자승법과 주파수 대 역 분할법을 사용함으로써 TS 근사합성의 새로운 방식을 제시하였으며 결과적으로 이는 0.547KHz이하와 2.813kHz 이상에서의 주파수 정보를 이용함으로써 TS내에서 고품질의 근사합성 파형을 얻을 수 있었다. 보다 중요한 것은 최대 오류신호는 TS 내에 저 왜곡 근사 합성파형이 생길 수 있다는 것이다. 이 방식은 유성음/묵음/TS의 새로운 음성부호화, 음성해석 및 음성 합성에 적용할 수 있으리라 생각한다.

TTS 적용을 위한 음성합성엔진 (Speech syntheis engine for TTS)

  • 이희만;김지영
    • 한국통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.1443-1453
    • /
    • 1998
  • 본 논문은 컴퓨터에 입력된 문자정보를 음성정보로 변환하기 위한 음성합성엔진에 관한 것이며, 특히 명료성의 향상을 위해 파형처리 음성합성방식을 이용한다. 음성합성엔진은 컴맨드 스트림의 제어에 따라 자연성의 향상을 위한 피치조절, 길이 및 에너지 등을 제어하며 음성합성단위로서 반음절을 사용한다. 엔진에서 사용 가능한 컴맨드를 프로그램하여 음성합성엔진에 입력함으로서 음성을 합성하는 빙식은 구문분석, 어휘분석 등의 하이레벨과 파형의 편집 가공 등의 로우레벨을 완전 분리하므로 시스템의 융통성과 확장성을 높인다. 또한 TTS시스템의 적용에 있어 각 모듈을 객체/컴포넌트(Object/Component)로 각 모듈이 상호 독립적으로 작동되도록 하여 쉽게 대체가 가능하다. 하이 레벨과 로우 레벨을 분리하는 소프트웨어 아키택처는 음성합성 연구에 있어 각각 여러 분야별로 독립적으로 연구수행이 가능하여 연구의 효율성을 높이며 여러 소프트웨어의 조합사용(Mix-and-Match)이 가능하여 확장성과 이식성을 향상시킨다.

  • PDF

V/S/TSIUVC 스위칭을 이용한 음성부호화 방식에 관한 연구 (A study on Speech Coding Method using V/S/TSIUVC Switching)

  • 이시우
    • 한국산학기술학회논문지
    • /
    • 제7권6호
    • /
    • pp.1180-1184
    • /
    • 2006
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서 모음과 무성자음이 있는 프레임에서 음질저하 현상이 나타난다. 본 논문에서는 음질을 개선하기 위해 V/S/TSIUVC 스위칭과 TSIUVC 근사합성 방법을 사용한 새로운 멀티펄스 음성부호화 방식을 제시한다. TSIUVC는 영교차율과 개별피치 펄스에 의하여 추출되며, TSIUVC의 추출율은 여자와 남자음성에서 각각 91%와 96.2%를 얻었다. 여기에서 중요한 사실은 양질의 TSIUVC 합성 파형을 얻기 위해서는 0.547kHz 이하와 2.813kHz 이상의 주파수 정보를 사용하여야 한다. V/UV를 이용한 MPC와 V/S/TSIUVC를 이용한 FBD-MPC의 비교평가를 하였다. 실험결과, FBD-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

  • PDF

시간 영역 시퀀스 패턴에 기반한 한국어 모음 'ㅐ'의 음성 인식 (Speech Recognition of the Korean Vowel 'ㅐ', Based on Time Domain Sequence Patterns)

  • 이재원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권11호
    • /
    • pp.713-720
    • /
    • 2015
  • 컴퓨팅 기술과 네트워크의 발달로 인해, 정보 기기가 소형화되고 이동성이 강조되고 있다. 이에 따라 모바일 환경에서 작동 가능한 음성 인식 시스템에 대한 수요가 최근 급격히 증대되고 있다. 본 논문은 음소 기반 한국어 음성 인식 시스템의 일부로서, 한국어 모음 'ㅐ'에 대한 새로운 인식 방식을 제안한다. 제안하는 방식은 주파수 영역에서의 분석을 배제하고, 시간 영역에서의 시퀀스 패턴에 기반하여 인식을 수행함으로써, 계산 비용을 현저히 절감할 수 있다. 'ㅐ'의 전형적인 시퀀스 패턴들을 탐지하기 위한 세 가지 알고리즘이 제시되며, 이를 결합하여 최종 판별을 수행한다. 실험 결과를 통해, 제안하는 방식이 89.1%의 정확도로 모음 'ㅐ'를 인식할 수 있음을 확인하였다.

융복합 시스템의 8kbps에 있어서 APC-MPC에 관한 연구 (A Study on APC-MPC in 8kbps of Convergence System)

  • 이시우
    • 디지털융복합연구
    • /
    • 제13권7호
    • /
    • pp.177-182
    • /
    • 2015
  • 유성음원과 무성음원을 사용하는 멀티펄스 음성부호화 방식(MPC)에 있어서, 유성음의 파형에서 일그러짐이 발생한다. 이러한 문제를 해결하기 위해, 재생파형의 일그러짐이 감소하도록 피치구간 마다 멀티펄스의 진폭과 위치를 보정하는 APC-MPC를 제안하였다. 또한 융복합 시스템의 8kbps 부호화 조건에서 APC-MPC의 SNRseg를 검토하고 부호화 시스템으로 구현하였다. APC-MPC의 SNRseg를 평가한 결과, APC-MPC의 남자음성에서 14.3dB, 여자음성에서 13.9dB 임을 확인할 수 있었다. 본 방법은 셀룰러폰이나 스마트폰과 같이 Low Bit Rate의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

에너지 연산자에 기초한 간단한 피치 추적 방법 (A Simple Pitch Tracking Algorithm based on the Energy Operator)

  • Tai-Ho Lee
    • 융합신호처리학회논문지
    • /
    • 제5권1호
    • /
    • pp.1-5
    • /
    • 2004
  • 유성음의 피치주파수 궤적을 추정할 수 있는 새로운 방법을 제시하였다. 이 방법은 에너지연산자[1]를 두 번 적용하는데 기초하고 있다. Kaiser의 에너지연산자는 정현파의 진폭과 주파수 정보를 추출하는 기능을 가지고 있다. 변조모형에 의하면 유성음은 피치 신호로 변조된 포만트들의 합성으로 파악될 수 있으므로 이 파형의 진폭 포락선을 추출해서 피치 신호와 유사한 파형을 얻는다. 이 파형의 평균 주파수를 검출하여 피치 주파수를 구하는 것이다. 앞부분은 Gopalan의 접근법[9]과 마찬가지이나, 뒷부분의 LPC-스펙트럼 분석등의 과정 대신 또 한번 에너지 연산자를 적용하도록 하여 매우 단순화되고 온라인 적용이 가능한 알고리듬을 얻었다. 추정 결과는 거친 편이지만 온라인으로 피치 궤적의 일반적 스케치를 얻는데 유용할 것으로 기대된다.

  • PDF