• 제목/요약/키워드: Voice Training

검색결과 177건 처리시간 0.024초

서양 음악을 전공으로 하는 성악인의 음향학적 분석 (Acoustic Analysis of Classically Trained Western Singers)

  • 정성민
    • 대한후두음성언어의학회지
    • /
    • 제10권2호
    • /
    • pp.124-129
    • /
    • 1999
  • 1) 음성 장애를 호소하지 않는 성악인 50명중 여자는 59% 남자는 50%에서 후두스트로보스코피상 성대 병변이 발견되었다. 2) 성종별로는 소프라노에서 가장 성대 병변의 발생률이 높았다(66.7 %). 3) 최장발성 지속시간은 성악인의 경우 성대 병변에 관계없이 일반 정상인에 비해서 증가되어 있었으며 특히 정상 성대를 가진 여자 성악인에서는 일반인에 비해 통계적으로 의의 있게 증가되어 있었다. 4) 기본진동수, 기본진동수 표준편차, 기본진동수변 이들은 성악인이 일반인에 비해 안정되어 있었고, jitter. PPQ는 성악인이 성대 병변이 있더라도 일반인에 비해 감소되어 있었으며, 특히 남자 성악인에서는 통계적으로 유의하게 감소되어 있었고, Shimmer. APQ 역시 성악인이 성대 병변이 있더라도 일반인에 비해 통계적으로 의의 있게 감소되어 있었다.

  • PDF

이중 분기 디코더를 사용하는 복소 중첩 U-Net 기반 음성 향상 모델 (Complex nested U-Net-based speech enhancement model using a dual-branch decoder)

  • 황서림;박성욱;박영철
    • 한국음향학회지
    • /
    • 제43권2호
    • /
    • pp.253-259
    • /
    • 2024
  • 본 논문에서는 이중 분기 디코더를 갖는 복소 중첩 U-Net 기반의 새로운 음성 향상 모델을 제안하였다. 제안된 모델은 음성 신호의 크기와 위상 성분을 동시에 추정할 수 있도록 복소 중첩 U-Net으로 구성되며, 디코더는 스펙트럼 사상과 시간 주파수 마스킹을 각각의 분기에서 수행하는 이중 분기 디코더 구조를 갖는다. 이때, 이중 분기 디코더 구조는 단일 디코더 구조에 비하여, 음성 정보의 손실을 최소화하면서 잡음을 효과적으로 제거할 수 있도록 한다. 실험은 음성 향상 모델 학습을 위해 보편적으로 사용되는 VoiceBank + DEMAND 데이터베이스 상에서 이루어졌으며, 다양한 객관적 평가 지표를 통해 평가되었다. 실험 결과, 이중 분기 디코더를 사용하는 복소 중첩 U-Net 기반 음성 향상 모델은 기존의 베이스라인과 비교하여 Perceptual Evaluation of Speech Quality(PESQ) 점수가 0.13가량 증가하였으며, 최근 제안된 음성 향상 모델들보다도 높은 객관적 평가 점수를 보였다.

A Real-Time Embedded Speech Recognition System

  • Nam, Sang-Yep;Lee, Chun-Woo;Lee, Sang-Won;Park, In-Jung
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.690-693
    • /
    • 2002
  • According to the growth of communication biz, embedded market rapidly developing in domestic and overseas. Embedded system can be used in various way such as wire and wireless communication equipment or information products. There are lots of developing performance applying speech recognition to embedded system, for instance, PDA, PCS, CDMA-2000 or IMT-2000. This study implement minimum memory of speech recognition engine and DB for apply real time embedded system. The implement measure of speech recognition equipment to fit on embedded system is like following. At first, DC element is removed from Input voice and then a compensation of high frequency was achieved by pre-emphasis with coefficients value, 0.97 and constitute division data as same size as 256 sample by lapped shift method. Through by Levinson - Durbin Algorithm, these data can get linear predictive coefficient and again, using Cepstrum - Transformer attain feature vectors. During HMM training, We used Baum-Welch reestimation Algorithm for each words training and can get the recognition result from executed likelihood method on each words. The used speech data is using 40 speech command data and 10 digits extracted form each 15 of male and female speaker spoken menu control command of Embedded system. Since, in many times, ARM CPU is adopted in embedded system, it's peformed porting the speech recognition engine on ARM core evaluation board. And do the recognition test with select set 1 and set 3 parameter that has good recognition rate on commander and no digit after the several tests using by 5 proposal recognition parameter sets. The recognition engine of recognition rate shows 95%, speech commander recognizer shows 96% and digits recognizer shows 94%.

  • PDF

HSI 컬러 공간과 신경망을 이용한 내용 기반 이미지 검색 (Content-based Image Retrieval Using HSI Color Space and Neural Networks)

  • 김광백;우영운
    • 한국전자통신학회논문지
    • /
    • 제5권2호
    • /
    • pp.152-157
    • /
    • 2010
  • 컴퓨터와 인터넷의 발달로 정보의 형태가 다양화 되어 문서 위주의 자료들로부터 이미지, 오디오, 비디오, 음성 등의 모습으로 혼합되어 가고 있다. 하지만 대부분의 검색은 문서 위주로 하기 때문에 이미지, 오디오, 비디오 등은 파일의 이름이 명확하게 설정되어 있지 않을 경우에는 검색을 할 수 없다. 이러한 문제점을 해결하기 위해 문서가 아닌 내용을 기반으로 검색하는 방법을 내용 기반 검색이라고 한다. 그리고 이미지의 내용을 기반으로 검색하는 방법을 내용 기반 이미지 검색이라고 한다. 본 논문에서는 HSI 컬러 공간, ART2 알고리즘, SOM 알고리즘을 이용한 내용 기반 이미지 검색 방법을 제안한다. 제안하는 방법은 학습 대상을 선정하기 위해 원 영상의 특징을 분할한다. 그리고 사용자가 학습 대상을 선정하도록 하기 위해 분할된 특징을 SOM 알고리즘에 적용하여 비슷한 특징을 가지는 영상들로 군집화 한다. 군집화된 영상들에 대해 사용자가 학습 대상을 선정하여 ART2 알고리즘에 적용하여 학습한다. 제안한 방법을 적용하여 이미지 검색을 실험한 결과 제안된 방법은 하나의 이미지가 여러 개의 키워드를 가질 수 있기 때문에 이미지에 포함된 정보를 효과적으로 검색하는 것을 확인하였다.

시각장애인을 위한 점자 교육 시스템 (OnDot: Braille Training System for the Blind)

  • 김학진;문준혁;송민욱;이세민;공기석
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.41-50
    • /
    • 2020
  • 본 논문에서는 기존의 점자 학습 제품의 단점들을 보완한 점자 교육 시스템을 다룬다. 시각장애인 전용 어플리케이션은 사용자 편의성을 위해 터치 제스처 및 음성 안내를 통하여 전체 기능을 수행할 수 있도록 구성한다. 점자키트는 아두이노와 3D 프린팅을 통해 교육 목적에 맞게 제작한다. 시스템은 다음과 같은 기능들을 지원한다. 첫 째, 초성·종성·모음·약어 등 기초적인 점자의 학습. 둘 째, 단계별 퀴즈를 풀어 학습한 점자를 확인하는 기능. 셋 째, 모르는 점자가 있을 때 번역하는 기능이다. 실험을 통한 터치 제스처의 인식률과 점자 표현의 정확도를 확인하였고 번역의 경우 의도한대로 번역이 되는 것을 확인하였다. 이 시스템을 통해 시각장애인이 효율적으로 점자를 학습할 수 있다.

융합 인재 교육(STEAM) 연수를 통해 교수.학습 자료 개발 및 현장적용을 경험한 초등교사들의 인식 조사 (Primary Teachers' Perception Analysis on Development and Application of STEAM Education Program)

  • 이지원;박혜정;김중복
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제32권1호
    • /
    • pp.47-59
    • /
    • 2013
  • The purpose of this study is to investigate the perception about STEAM education of primary teachers who have developed and applied STEAM education to their students through teacher training program. For this study, 101 among 172 attendance are responded to questionnaire of three categories consisting of development and application teaching material for STEAM instruction, and spreading STEAM education. The major findings are as follows: First, when primary teachers develop materials for STEAM education, they consider applicabilities in real classes. Second, they feel the burden of time when they develop STEAM material. Third, they think that their own program has significant educational effectiveness and that students enjoyed the program. Especially, they think that STEAM education program can raise students' interest about learning. Fourth, primary teachers point out the constraints for application of STEAM education program, which are lack of expertise and difficulty acquiring class time. Fifth, primary teachers evaluate the effect of STEAM education program on primary education is positive, and they answer that we need many teaching materials for STEAM education, operating as a regular curriculum, and securing budget. In order to spread STEAM education in field of primary education successfully, administrators have to consider and reflect the voice of teachers.

임무 재생을 위한 데이터 기록장치 연구 (The Study of Data Recorder for Mission Replay)

  • 이상명;김영길
    • 한국정보통신학회논문지
    • /
    • 제16권8호
    • /
    • pp.1817-1823
    • /
    • 2012
  • 네트�p 중심전(NCW) 및 정보화 시대에 발맞추어 군에서도 고성능 작전콘솔을 활용하여 다양하고 복잡한 메시지 교환 및 운용병간 음성통화를 통해 신속하게 상태 및 정보를 공유함으로써 임무수행의 효율을 극대화하는 추세로 발전하고 있다. 작전 또는 훈련종료 후 임무 분석 및 검토를 통해 추후 새로운 작전계획을 세울 목적으로 작전상황을 기록하는 장치가 개발되어 운용되고 있다. 기록장치의 기록방식은 전시영상을 직접 기록하는 방식과 연동되는 데이터를 기록하는 방식으로 나뉜다. 본 연구는 데이터 기반 기록방식의 재생준비시간 개선을 위한 새로운 기록 방식과 개선방안을 제안한다.

Proposed Efficient Architectures and Design Choices in SoPC System for Speech Recognition

  • Trang, Hoang;Hoang, Tran Van
    • 전기전자학회논문지
    • /
    • 제17권3호
    • /
    • pp.241-247
    • /
    • 2013
  • This paper presents the design of a System on Programmable Chip (SoPC) based on Field Programmable Gate Array (FPGA) for speech recognition in which Mel-Frequency Cepstral Coefficients (MFCC) for speech feature extraction and Vector Quantization for recognition are used. The implementing process of the speech recognition system undergoes the following steps: feature extraction, training codebook, recognition. In the first step of feature extraction, the input voice data will be transformed into spectral components and extracted to get the main features by using MFCC algorithm. In the recognition step, the obtained spectral features from the first step will be processed and compared with the trained components. The Vector Quantization (VQ) is applied in this step. In our experiment, Altera's DE2 board with Cyclone II FPGA is used to implement the recognition system which can recognize 64 words. The execution speed of the blocks in the speech recognition system is surveyed by calculating the number of clock cycles while executing each block. The recognition accuracies are also measured in different parameters of the system. These results in execution speed and recognition accuracy could help the designer to choose the best configurations in speech recognition on SoPC.

대학생들이 또렷한 음성과 대화체로 발화한 영어문단의 구글음성인식 (Google speech recognition of an English paragraph produced by college students in clear or casual speech styles)

  • 양병곤
    • 말소리와 음성과학
    • /
    • 제9권4호
    • /
    • pp.43-50
    • /
    • 2017
  • These days voice models of speech recognition software are sophisticated enough to process the natural speech of people without any previous training. However, not much research has reported on the use of speech recognition tools in the field of pronunciation education. This paper examined Google speech recognition of a short English paragraph produced by Korean college students in clear and casual speech styles in order to diagnose and resolve students' pronunciation problems. Thirty three Korean college students participated in the recording of the English paragraph. The Google soundwriter was employed to collect data on the word recognition rates of the paragraph. Results showed that the total word recognition rate was 73% with a standard deviation of 11.5%. The word recognition rate of clear speech was around 77.3% while that of casual speech amounted to 68.7%. The reasons for the low recognition rate of casual speech were attributed to both individual pronunciation errors and the software itself as shown in its fricative recognition. Various distributions of unrecognized words were observed depending on each participant and proficiency groups. From the results, the author concludes that the speech recognition software is useful to diagnose each individual or group's pronunciation problems. Further studies on progressive improvements of learners' erroneous pronunciations would be desirable.

The effects of Korean music Pansori Sugungga on mental health sung by Dong-jin Park

  • Ko, Kyung Ja;Hwang, Sung Yeoun
    • 셀메드
    • /
    • 제7권1호
    • /
    • pp.5.1-5.3
    • /
    • 2017
  • The purpose of this article is to show that satire through Sugungga is beneficial for the mental health of people. Dong-jin Park is one of the greatest singers of Han Ak (Korean music, 韓樂). He is an authentic singing master through long-term training, which explains why his cheerful voice will certainly allow us to become unburdened. The story of Pansori Sugungga is akin to that of David and Goliath, the art of battling giants but a Korean version. Satire is a technique found in Pansori, Korean epic songs which use humor as a cover for more serious social criticism. Koreans have believed that outbursts of sentiment through satire are good for their mental health. For a long time, these singers have entertained Koreans with political satire and indirect counter-drives. Pansori Sugungga's keen wit and satire have earned the love of Koreans. Koreans want vivid descriptions and surprising turns that end with catharsis through Sugungga and are therefore thrilled with Sugungga. Therefore, Sugungga in Han Ak (Korean music, 韓樂) is a good means of music therapy for better mental health.