• Title/Summary/Keyword: 음합성

Search Result 333, Processing Time 0.025 seconds

Parallel Network Model of Abnormal Respiratory Sound Classification with Stacking Ensemble

  • Nam, Myung-woo;Choi, Young-Jin;Choi, Hoe-Ryeon;Lee, Hong-Chul
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.11
    • /
    • pp.21-31
    • /
    • 2021
  • As the COVID-19 pandemic rapidly changes healthcare around the globe, the need for smart healthcare that allows for remote diagnosis is increasing. The current classification of respiratory diseases cost high and requires a face-to-face visit with a skilled medical professional, thus the pandemic significantly hinders monitoring and early diagnosis. Therefore, the ability to accurately classify and diagnose respiratory sound using deep learning-based AI models is essential to modern medicine as a remote alternative to the current stethoscope. In this study, we propose a deep learning-based respiratory sound classification model using data collected from medical experts. The sound data were preprocessed with BandPassFilter, and the relevant respiratory audio features were extracted with Log-Mel Spectrogram and Mel Frequency Cepstral Coefficient (MFCC). Subsequently, a Parallel CNN network model was trained on these two inputs using stacking ensemble techniques combined with various machine learning classifiers to efficiently classify and detect abnormal respiratory sounds with high accuracy. The model proposed in this paper classified abnormal respiratory sounds with an accuracy of 96.9%, which is approximately 6.1% higher than the classification accuracy of baseline model.

Compression of the Rules of Producing Phonetic Values (음가 생성 규칙의 압축)

  • 이계영;임재걸;김경징
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.201-203
    • /
    • 1999
  • 음성합성에서 자연스러운 합성음을 생성하기 위하여 표준 발음법을 페트리넷 근저행렬로 모델링하는 방법으로 표준 발음법을 음가 생성 규칙으로 만들 수 있다. 본 논문은 페트리넷으로 모델링된 음가 생성 규칙의 크기를 줄이는 방법을 제안하고 구현하였다. 압축하기 전의 음가 생성 테이블의 크기는 719*107의 2차원 배열이었으며 구현된 시스템으로 압축한 결과 41*40의 2차원 구조체 배열로 압축되었다.

  • PDF

Design of the 2.9kbps LP-SMBE vocoder (2.9kbps LP-SMBE 음성부호기 개발)

  • 김승주
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.175-178
    • /
    • 1994
  • 본 논문에서는 선형 예측 방법과 다중 대역 여기 방법의 장점을 조합하여 낮은 전송률에서 고품질의 합성음을 제공하는 LP-SMBE 부호기를 제안한다. LP-SMBE 부호기에서는 선형 예측 방법과 단순화된 여기 신호 추정방법을 이용하여 성도 특성 정보와 여기 신호를 분리 추정한다. 제안한 단순화된 여기 신호 추정 방법은 정규화된 스펙트럼 영역에서 원음 스펙트럼과 합성 스펙트럼을 비교하여 여기 신호를 추정한다. 이 방법은 기존 MBE 방법의 여기 신호 추정 방법보다 연산량이 적고, 여기 신호르 F보다 정확히 추정할 수 있다.

  • PDF

Real-time Implementation of a 8 channel TTS Using a TMS320C6201 DSP (TMS320C6201 DSP를 이용한 8 채널 실시간 TTS 구현)

  • 최준용;박익현;박권원;안진형
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.497-500
    • /
    • 2000
  • 본 논문에서는 TTS 알고리듬을 16 비트 고정 소수점 DSP인 TMS320C6201을 이용해 다채널 실시간 구현하였으며, 실제로 음성처리 부가 서비스 시스템에 보드 형태로 구현하여 응용하였다. 구현된 TTS는 최적화 작업을 통해 최대 40 MHz 클록으로 채널 당 2초의 합성음 생성하도록 했으며, 개발된 TTS 보드는 두 개의 DSP를 사용하여 DSP 당 8 채널씩 총 16 채널을 수용하였다 실험 결과, 모든 채널에서 실시간적으로 음성 합성이 수행됨을 확인하였다.

  • PDF

Allophonic Information Necessary for Speech Technology (음성공학을 위한 변이음 정보)

  • Lee, Ho-Young;Zhi, Min-Je;Kim, Young-Song
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.131-139
    • /
    • 1993
  • 하나의 음소는 보통 음성환경에 따라 여러 변이음으로 실현된다. 음성합성기로 한국어의 문장을 자연스럽게 합성해 내려고 할 때나 음성인식기가 한국어의 문장을 정확하게 인식하도록 개발하고자 할 때 변이음에 관한 정보는 필수적이다. 따라서 이 논문의 목적은 음성공학에 필요한 변이음 정보를 제공하는 것이다. 이 논문에서는 음성공학에 필요한 한국어의 주오 변이음 규칙들을 간단히 논의하고 몇몇 중요한 변이음들의 음향적 특징을 논의한다.

  • PDF

Research Trends in Steel Composite Beam Structures (최근 강구조 합성보의 연구현황 분석)

  • Ryu, Jaeho;Lee, Ja Young;Ju, Young K.;Kim, Sang Dae
    • 한국방재학회:학술대회논문집
    • /
    • 2011.02a
    • /
    • pp.27-27
    • /
    • 2011
  • 기존에 연구 및 개발된 합성보 시스템에 대한 기초자료를 제공하고 앞으로 새로이 진행될 합성 구조 연구에 대한 방향을 제시하고자 국내 외 200여 편의 논문 및 학술기사를 기반으로 합성보에 대한 연구 및 기술 현황분석을 실시하였다. 그 결과 합성보에 대한 국내연구는 주로 실험적 연구가 63%로 해석적 연구(22%)에 비해 3배가량 높은 비율을 차지하고 있었으며, 국외의 경우 해석적 연구가 58%로 가장 높은 비중을 차지해 국내 연구방법과는 대조적인 모습을 나타냈다. 이에 앞으로는 지금까지 실시한 실험적 연구 내용을 토대로 보다 효율적인 연구 성과를 얻기 위해 해석적 연구의 기틀을 마련하는 것이 필요해 보였다. 또한 합성보 연구의 주제별 분류에 있어서도 기본적인 휨내력 평가뿐만 아니라 최근 들어, 관심이 높아진 사용자의 실제적인 생활 및 안전과 연관 있는 바닥진동, 충격음, 그리고 내화성능 등에 대한 다양한 검토가 깊이 있게 이루어져야 할 것이다. 마지막으로 기존의 구조용 재료를 대체하면서 경제적이고, 친환경성 및 재활용 재사용성 등을 고려한 미래지향적 합성구조시스템에 대한 연구 개발이 필요할 것으로 판단된다.

  • PDF

Modeling of Instrumental Tone Using Low Computation Sinusoidal Synthesis (저연산 정현파 합성을 이용한 악기음의 모델링)

  • Oh Bok Hwan;Lee Dong Gyu;Song In Ho;Lee Doo Soo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.185-188
    • /
    • 1999
  • 음향 신호의 모델링방법은 크게 분석,해석,합성의 3가지 과정으로 나눌 수 있다. 본 논문에서는 분석과 합성에 가산 합성방법의 한가지인 Analysis-by-synthesis/overlap-Add 방법을 사용한다. 그리고 해석에 해당하는 주파수 영역에서의 피크추출은 제안한 방법에 의한다. 제안한 피크 추출 방법은 고조파 성분이 기본 주파수의 정수배가 된다는 점을 고려하여 적은 연산량으로 음향학적으로 의미있는 순음을 검출하는 방법이다. 음질보다 연산량에 더 주를 두었지만 모의 실험 결과를 통하여 음질 면에서도 원음과 거의 차이가 없음을 알 수 있었다.

  • PDF

Study on formant transition for improvement of speech synthesis (음성 합성의 개선을 위한 포만트 변경에 관한 연구)

  • Lee Sang-hyun;Yang Sung-il;Kwon Y.
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.41-44
    • /
    • 2001
  • 본 논문에서는 음성합성 과정에서 음성유닛을 연결할 때 모음의 결합부분에서 포만트의 불일치로 일어나는 부자연스러운 합성음이 발생되는 문제점을 개선하기 위해서 앞에 오는 음성 유닛과 뒤에 오는 합성 유닛의 포만트 변경에 관한 방법을 제안한다. 요즘에 연구되는 코퍼스 방식에선 에너지와 피치와 음순지속시간 등을 기준으로 유닛을 선택한 후 연결하지만, 스펙트럼의 불일치가 이루어진다. 이런 스펙트럼의 불일치는 음질의 저하를 유도한다. 그래서 앞 음성유닛의 연결부분의 일정부분과 뒤 음성 유닛의 연결부분의 일정부분의 포만트를 천이시켜 일치시켜줌으로써 음질을 향상시켰다. 음성신호를 FFT한 후 magnitude와 phase를 분리한 후 앞 음성의 연결부분의 magnitude와 뒷 음성의 연결부분의 magnitude를 기준으로 linear interpolation한 값을 목표치로 이동하고 다시 합하여 원 신호를 복원하는 방식으로 포만트를 변경시켰다.

  • PDF

Implementation of Korean TTS Service on Android OS (안드로이드 OS 기반 한국어 TTS 서비스의 설계 및 구현)

  • Kim, Tae-Guon;Kim, Bong-Wan;Choi, Dae-Lim;Lee, Yong-Ju
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.1
    • /
    • pp.9-16
    • /
    • 2012
  • Though Android-based smart phones are being released in Korea, Korean TTS engine is not built on them and Google has not announced service or software developer's kit related to Korean TTS officially. Thus, application developers who want to include Korean TTS capability in their application have difficulties. In this paper, we design and implement Android OS-based Korean TTS system and service. For speed, text preprocessing and synthesis libraries are implemented using Android NDK. By using Java's thread mechanism and the AudioTrack class, the response time of TTS is minimized. For the test of implemented service, an application that reads incoming SMS is developed. The test shows that synthesized speech are generated in real-time for random sentences. By using the implemented Korean TTS service, Android application developers can transmit information easily through voice. Korean TTS service proposed and implemented in this paper overcomes shortcomings of the existing restrictive synthesis methods and provides the benefit for application developers and users.

Spectral Modeling of Haegeum Using Cepstral Analysis (캡스트럼 분석을 이용한 해금의 스펙트럼 모델링)

  • Hong, Yeon-Woo;Kang, Myeong-Su;Cho, Sang-Jin;Kim, Jong-Myon;Lee, Jung-Chul;Chong, Ui-Pil
    • The Journal of the Acoustical Society of Korea
    • /
    • v.29 no.4
    • /
    • pp.243-250
    • /
    • 2010
  • This paper proposes a spectral modeling of Korean traditional instrument, Haegeum, using cepstral analysis to naturally describe Haegeum sounds varying with time. To get a precise result of cepstral analysis, we set the frame size to 3 periods of input signal and more cepstral coefficients are used to extract formants. The performance is enhanced by flexibly controlling the cutoff frequency of bandpass filter depending on the resonances in the synthesis process of sinusoidal components and the deleting peaks remained in the residual signal. To detect the change of pitch, we divide the input frames into silence, attack, and sustain region and determine which region the current frame is involved in. Then, the proposed method readjusts the frame size according to the fundamental frequency in the case of the current frame is in attack region and corrects the extraction errors of the fundamental frequency for the frames in sustain region. With these processes, the synthesized sounds are much more similar to the originals. The evaluation result through the listening test by a Haegeum player says that the synthesized sounds are almost similar to originals (96~100 % similar to the original sounds).