• 제목/요약/키워드: Voice problem

검색결과 338건 처리시간 0.024초

음성패턴인식 인터랙티브 콘텐츠 개발 (Interactive content development of voice pattern recognition)

  • 나종원
    • 한국항행학회논문지
    • /
    • 제16권5호
    • /
    • pp.864-870
    • /
    • 2012
  • 언어 학습 콘텐츠에서 공통적으로 가질 수 있는 문제점들을 분석하고 문제점에 대하여 음성 패턴인식기술을 적용하여 기존의 문제점을 해결하였다. 언어 학습 콘텐츠의 첫 번째 문제점은 온라인 학습 자세이다. 수업 진행은 되었지만 다른 웹 페이지를 열어 게임을 하는 등 학생들의 집중력은 떨어졌다. 두 번 째 문제점은 Speaking 학습 과정을 만들었지만 실제로 따라 읽는지 판단할 수가 없었다. 세 번 째 문제점은 학습 관리 시스템에 의한 기계적 진행이 아니라 선생님들의 평가에 의해 잘하는 학생들과 못하는 학생간의 학습 진행에 차이를 둘 필요가 생겼다. 마지막으로 가장 큰 문제는 기존에 만들어 놓은 콘텐츠들은 그대로 유지되면서 위의 문제들을 해결할 수 있어야 했다. 이러한 배경 하에 음성 패턴인식기술은 말하기 학습 전용 학습 프로그램으로 학습 진행을 위한 음성인식은 물론 학습 자체를 위한 음성인식 기능들을 모두 가지고 있으며 인식 절차에 사용된 학습자의 발화 데이터를 원하는 형태의 오디오 파일로 변경하여 서버의 특정 위치로 전송하거나 SQL서버에 등록할 수도 있으며, 또한 컴포넌트이기 때문에 그 어떠한 시스템이나 프로그램이라도 모두 적용 가능하고 이미 만들어진 콘텐츠 전체를 손상시키지 않고 쉽게 삽입하여 새로운 기능들을 사용할 수 있었다. 본 논문으로 교육 방식을 보다 인터렉티브하게 바꾸어 적극적인 수업참여가 되도록 기여하였다.

음성 에너지 분포 처리와 에너지 파라미터를 융합한 음성 인식 성능 향상 (Voice Recognition Performance Improvement using a convergence of Voice Energy Distribution Process and Parameter)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.313-318
    • /
    • 2015
  • 전통적인 음성 향상 방법은 잘못된 잡음의 추정에 따라 남아있는 잡음이 발생하여 음성 스펙트럼을 왜곡하거나 음성 프레임을 찾지 못하여 음성 인식 성능을 저하시키는 문제가 발생된다. 본 논문에서는 음성 에너지 분포 처리와 음성 에너지 파라미터를 융합한 음성 검출 방법을 제안하였다. 제안한 방법은 음성 에너지를 최대화시켜 잡음의 영향을 적게 받는 특성을 이용하였다. 또한, 음성 신호의 특징 파라미터 중에서 작은 값을 가지는 로그에너지 특징의 구간에서는 큰 에너지를 가지는 구간에 비해 상대적으로 로그에너지 값을 더 많이 키워서 잡음이 포함한 음성신호의 로그에너지 특징의 크기와 비슷하게 하여 훈련과 인식 환경의 불일치를 융합으로 인해 줄여준다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었으며, car 잡음 환경의 음성 구간 적중률은 낮은 SNR구간인 0dB과 5dB에서는 97.1%와 97.3%의 정확도를 보였으며, 높은 SNR구간인 10dB와 15dB에서는 98.3%, 98.6%의 정확도를 보였다.

Hybrid Fiber Coaxial망에서 VoIP 서비스 구현 (Implementation of VoIP Service in Hybrid Fiber Coaxial Network)

  • 주재한
    • 한국항행학회논문지
    • /
    • 제21권1호
    • /
    • pp.113-118
    • /
    • 2017
  • 최근 모바일기기 및 네트워크에 대한 관심이 높아짐에 따라 기존의 IP (internet protocol) 망을 이용하여 음성데이터를 전송하는 기술인 VoIP (voice over internet protocol)서비스가 급속히 확산됨에 따라 무선 인터넷망을 활용하여 언제 어디서나 저렴한 음성 통화 서비스가 가능해졌다. 그리고 디지털방송서비스가 보급되면서 방송과 통신의 융합을 통해 광대역케이블망을 이용하는 HFC (hybrid fiber coaxial)망 기술은 기존의 통신시스템 및 망설비를 활용하여 양방향 방송서비스 및 인터넷, 전화 등 다양한 신규 서비스를 제공하고 있다. 따라서 실제 HFC 인터넷서비스망에서 음성데이터의 품질보장을 위해 VoCM에 UGS-AD를 MTA에는 RTPS를 적용하면 실제 상용 HFC 인터넷서비스망에서 문제가 되는 협소한 상향대역에서의 음성데이터 전송을 원활히 수행할 수 있음을 확인하였으며, HFC 인터넷서비스 망에서 음성데이터의 QoS개선을 통해 기존 대비 개선된 VoIP서비스를 구현하는 방안을 제시하였다.

음성인식기술의 노인간병 적용을 위한 정책연구 (A policy study for the voice recognition technology based on elderly health care)

  • 조병철;전수영;김갑년;육현승
    • 디지털융복합연구
    • /
    • 제16권2호
    • /
    • pp.9-17
    • /
    • 2018
  • 본 연구는 음성인식기술이 급격한 고령화를 맞고 있는 우리 사회의 노인문제 해결을 위해 어떻게 활용될 수 있는지를 목표로 삼았다. 국내에서도 본격적으로 고령자들을 위한 공공지원서비스나 민간간병 서비스 등이 확대될 것으로 예상된다. 이 때 음성인식기술은 미디어인터페이스에 익숙하지 못한 노인들에게 다양하게 활용될 수 있다. 이를 위해 본 연구진은 국내의 음성인식기술의 활용가능성과 일본 방문시 노인 간병에서 음성인식기술을 통해 이룬 성과를 조사했다. 특히 간병인들이 보고서를 작성할 때 음성인식기술을 이용해 수기로 작성하던 보고를 대체하여 업무시간을 크게 축소한 바 있는데, 이러한 방법은 국내에서도 쉽게 정책적으로 실행될 수 있다고 판단했으며, 음성인식기술이 탑재된 로봇의 개발을 통해 노인부양의 사회적 비용을 줄여야 한다는 결론 역시 도달했다. 아울러 음성인식기술이 다양한 정서인식기능의 인공지능기반 프로그램과 결합을 통한 다양한 정책이 도모되어야 한다는 사실 역시 제안할 수 있게 되었다.

잡음 환경에서 음성 인식률 향상에 필요한 MEMS 장치 개발에 관한 연구 (The research on the MEMS device improvement which is necessary for the noise environment in the speech recognition rate improvement)

  • 양기웅;이형근
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1659-1666
    • /
    • 2018
  • 입력된 소리가 음성과 음향이 혼재된 경우 잡음의 영향으로 음성 인식률이 저하됨을 알 수 있으며 S/W적 처리 한계를 극복코자 H/W 장치인 MEMS 장치를 개발하여 음성 인식률을 향상시켰다. MEMS 마이크로폰 장치는 음성을 입력하는 장치로서 다양한 모양으로 구현되어 사용된다. 기존 MEMS 마이크로폰은 일반적으로 우수한 성능을 발휘하나 잡음 과 같은 특수 환경에선 음성과 음향이 혼재되어 처리 성능이 저하되는 문제점이 발생됨을 알 수 있었다. 이러한 문제점을 개선코자 초기 입력장치에 음성 특성을 구분하여 검출할 수 있는 신규 고안된 MEMS 장치를 사용하여 향상시켰다.

Development of Voice Guide Service for Pharmaceutical Information based on Ontology

  • Lee, Kyung Min;Kang, Min Soo;Jung, Yong Gyu
    • International Journal of Advanced Culture Technology
    • /
    • 제6권1호
    • /
    • pp.50-59
    • /
    • 2018
  • Generally, disabled people have a lot of bad health status at low income levels, the need for health care is higher than for non-disabled people. Although the number of persons with disabilities is increasing with each passing year, their medical services and support are still limited and limited. This problem is not so different from approach to medical information. Conventional medical information is usually printed and transmitted to the patient, but visually impaired people have difficulty accessing such printed information. In the case of the visually impaired, there are many cases where it is not possible to read not only the printed letter but also the braille because the acquired incidence is high. Therefore, this paper tried to solve this problem by transmitting the information of medicine by voice using RFID. In addition, ontology was used to select more accurate drug information. Currently, there are drug information sites provided by the Ministry of Health and Welfare. However, since duplicate information is scattered on these sites, the ontology was used to build up the database.

Extraction of voice signal embedded in 1/f noise using wavelet

  • Toyama, Naoki;Sasaya, Takashi;Akizuki, Kageo
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1997년도 한국자동제어학술회의논문집; 한국전력공사 서울연수원; 17-18 Oct. 1997
    • /
    • pp.564-567
    • /
    • 1997
  • This paper deals with the problem of extraction of voice signal embedded in 1/f noise. We propose the extraction method using wavelet. This method is based on Wornell's modelling which can construct 1/f process in terms of uncorrelated variables and is well suited on treating 1/f process. Finally, we show further describe our method through simulation.

  • PDF

갑상선 절제 술 후 기능적 음성장애의 공기역학적 특징과 음성치료 중재 (Aerodynamic Features and Voice Therapy Interventions of Functional Voice Disorder after Thyroidectomy)

  • 이창윤;안수연;장현;정희석;손희영
    • 대한후두음성언어의학회지
    • /
    • 제26권1호
    • /
    • pp.25-33
    • /
    • 2015
  • Background and Objectives:The objective of this study was to investigate the features of post-thyroidectomy subjective voice disorder by Voice Handicap Index (VHI) and Voice Symptom Scale (VOISS) through aerodynamic analysis and to investigate the appropriate voice therapy intervention. Materials and Methods:Twenty post-thyroidectomy patients who had no recurrent laryngeal nerve paralysis through laryngeal stroboscopy were enrolled for this study. Acoustic and aerodynamic evaluations were performed before operation, 2 weeks and 3 months after operation. Subjective voice evaluation was performed by VHI and VOISS. Aerodynamic evaluation was compared and analysed by maximum phonation time(MPT), phonation threshold pressure(PTP), mean air flow rate(MFR), etc. Subjective voice evaluation was surveyed through VHI and VOISS. To evaluate patients' symptoms related to functional voice disorder, scores on physical domain in VHI and VOISS were selected to be compared for each session. Results: The 10 out of 20 participants who complained of voice symptoms had no significant difference with pre-operation in acoustic evaluation, but all showed higher scores on 2 weeks and 3 months after operation compared to pre-operation, in VHI-physical domain and selected questionnaires in VOISS. They reduced MPT and increased PTP value simultaneously. Laryngeal massage and breathing training were simultaneously treated to them, 5 participants resulting in improvement in MPT and PTP compared to pre-treatment. Conclusion:Patients who complained voice change with no organic damage after thyroidectomy were all shown to have reduced MPT and increased PTP in some by aerodynamic evaluations. Reduced MPT may imply some problem in air flow beneath glottis. Increased PTP suggests much more effort in vocalization mechanism than pre-operation. Comparing aerodynamic evaluations in post-thyroidectomy may provide information on behavioral interventions. Additionally, study on laryngeal massage and breathing training simultaneously treated to patients with such voice disorder is needed to be conducted with larger number of participants.

  • PDF

VoiceXML을 이용한 음성 DB 수집 시스템 구현 (An Implementation of Speech DB Gathering System Using VoiceXML)

  • 김동현;노용완;홍광석
    • 인터넷정보학회논문지
    • /
    • 제6권1호
    • /
    • pp.39-50
    • /
    • 2005
  • 음성 DB는 음성학, 음성인식, 음성합성 등을 연구할 때 가장 기본적으로 필요한 요소이다. 음성 DB의 양과 질이 개발하고자하는 시스템의 성능을 좌우한다고 할 정도로 음성 DB의 중요성 및 역할은 막중하다. 최근 음성포탈을 비롯한 다양한 전화 서비스 기술의 발달로 인하여 전화 음성 DB 수집의 필요성이 시급한 상황이다. 기존 CTI 분야의 IVR 애플리케이션 전화음성 DB 수집 시스템은 C/C++언어나 전용 개발 도구를 사용하여 이루어져 왔으며, 이로 인하여 각 응용서비스간 자원의 재활용이 어려운 실정이며 많은 인력과 시간을 필요하다는 문제점을 가지고 있다. 그러나, VoiceXML의 전화 음성 DB 수집시스템은 XML에 내포된 태그형식을 갖는 언어로써 쉽고, 간단한 문법체계를 가지고 있어 조금만 노력을 기울이면 손쉽게 작성할 수 있어 인력과 시간을 절약할 수 있는 장점을 가지고 있다. 또한 단지 웹서버에 연결된 DB의 내용만을 변경함으로써 다양한 전화 음성 DB를 수집할 수 있는 장점을 가지고 있다. 본 논문에서는 음성인식이나 음성합성 등 음성정보처리기술의 개발에 가장 중요한 요소인 음성 DB를 Voiceful을 사용하여 전화 음성 DB를 수집하는 시스템을 소개한다.

  • PDF

전맹인의 접근성 향상을 위한 모바일 음성 메모 파일 관리 서비스 (Mobile Voice Note File Management Service For Improving Accessibility of the Blind)

  • 임순범;이미지;최유진;육주혜;박주현;이종우
    • 한국멀티미디어학회논문지
    • /
    • 제22권11호
    • /
    • pp.1215-1222
    • /
    • 2019
  • Recently, people with disabilities also search for and collect information from the web through smart devices, and save collected information on smart devices or take notes. For non-disabled people, various memo applications are provided on the market, so it is more convenient to choose according to their preference. However, existing memo services are limited for use by blind people due to the importance of visual information. The problem with blind people when using smart devices is that the screen is not recognized, so it is not possible to check in which location the menu of the application exists. In addition, it is difficult to input and manipulate text, and systematic file management and control are not possible. Therefore, in this paper, we propose the development of voice memo service that blind people can use only voice and hearing information and can operate menu with Bluetooth remote controller. We will develop a system that includes a comprehensive voice file management function for storing, searching, playing, and deleting files, rather than simply storing voice files.