• Title/Summary/Keyword: 음성효율

Search Result 866, Processing Time 0.026 seconds

DNN based Robust Speech Feature Extraction and Signal Noise Removal Method Using Improved Average Prediction LMS Filter for Speech Recognition (음성 인식을 위한 개선된 평균 예측 LMS 필터를 이용한 DNN 기반의 강인한 음성 특징 추출 및 신호 잡음 제거 기법)

  • Oh, SangYeob
    • Journal of Convergence for Information Technology
    • /
    • v.11 no.6
    • /
    • pp.1-6
    • /
    • 2021
  • In the field of speech recognition, as the DNN is applied, the use of speech recognition is increasing, but the amount of calculation for parallel training needs to be larger than that of the conventional GMM, and if the amount of data is small, overfitting occurs. To solve this problem, we propose an efficient method for robust voice feature extraction and voice signal noise removal even when the amount of data is small. Speech feature extraction efficiently extracts speech energy by applying the difference in frame energy for speech and the zero-crossing ratio and level-crossing ratio that are affected by the speech signal. In addition, in order to remove noise, the noise of the speech signal is removed by removing the noise of the speech signal with an average predictive improved LMS filter with little loss of speech information while maintaining the intrinsic characteristics of speech in detection of the speech signal. The improved LMS filter uses a method of processing noise on the input speech signal by adjusting the active parameter threshold for the input signal. As a result of comparing the method proposed in this paper with the conventional frame energy method, it was confirmed that the error rate at the start point of speech is 7% and the error rate at the end point is improved by 11%.

음성통신을 위한 잡음처리 기술

  • Sin, Jong-Won;Jang, Jun-Hyeok;Kim, Nam-Su
    • Information and Communications Magazine
    • /
    • v.24 no.4
    • /
    • pp.27-35
    • /
    • 2007
  • 음성 통신을 할 때 배경 잡음이 존재하게 되면 일반적으로 음질이 저하된다. 이것은 잡음 자체가 듣기 싫다거나 음성을 더 작게 들리게 만들기 때문이기도 하고 음성 코덱이 잡음이 섞이지 않은 깨끗한 음성에 최적화되어 있어서 잡음이 섞인 음성에 대한 코딩 효율이 떨어지기 때문이기도 하다. 이 논문에서는 잡음에 의한 음성 통신의 품질 저하를 막기 위한 방법으로서 음성 향상(speech enhancement) 기술과 음성 강화(speech reinforcement) 기술에 대해 소개한다. 음성 향상 기술이란 전송부의 마이크에서 녹음된 잡음과 음성이 섞인 입력 음성으로부터 깨끗한 음성을 추정하는 기술을 말한다. 음성 향상 기술은 상당히 오랜 기간 동안 연구되어 온 기술이며, 최근에는 각 파라미터의 분포에 의존하는 방법보다 확률 모델에 기반한 방법이 각광을 받고 있으며 인간의 청각 특성을 고려한 음성 향상 방법도 제안되고 있다. 음성 강화 기술이란 수신단에서 주변 잡음에 따라 전송되어 온 음성을 주파수별로 증폭하여 더 잘 들리도록 만드는 기술이다. 음성 향상이 내 주위의 잡음이 상대방에게 들리는 음성에 미치는 영향 혹은 상대방 주변의 잡음이 나에게 들리는 소리에 미치는 영향을 줄여주는 기술이라면 음성 강화는 내 주위의 잡음이 나에게 들리는 음성에 미치는 영향을 상쇄해 주는 기술이다. 이 경우 주변 잡음은 어떤 전자 시스템도 거치지 않고 귀로 직접 들어오기 때문에 잡음 자체를 줄여 주는 것은 힘들고 전송되어 온 음성을 적절히 증폭 혹은 변형함으로써 귀에 들리는 음질 또는 명료성을 개선하게 된다. 이 논문에서는 통계 모델을 기반으로 한 음성 향상 기법과 인간의 청각 특성을 고려한 음성 향상 기법, 그리고 음성 강화 기법에 대해 설명한다.을 시도한 결과 안정적이고 반복 가능한 급성 심부전 모델을 얻을 수 있었다. bench scale실험결과와 같이 AOC는 배수관망에서의 박테리아 증식과 크게 상관관계를 갖고 있는 것으로 밝혀졌다.)', 'have a headache (2.10±0.79)', 'poor memory (2.09±0.83)', 'no appetite (1.99±0.85)', As for the correlation between iron parameter and clinical symptoms related to anemia, the hematocrit rate was negatively correlated with 'get a cold easily', 'pale face', 'feeling blue', 'difficult digestion' (p<0.05). The level of iron was negatively correlated with 'tired out easily', 'get a cold easily' (p<0.05) and TS (%) were negatively correlated with 'tired out easily (p<0.05)', 'get a cold easily (p<0.01). Our study resulted that the prevalence of a iron deficiency of a middle school girl is very high, therefore the guidelines for iron supplementation and nutritional education to improve their iron status should be provided.한 질소제거를 N-balance로부터

An Implementation of Multimedia Game using Speech Recognition for Windows (Windows환경에서 음성인식을 이용한 멀티미디어 게임의 구현)

  • 윤재선
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.335-338
    • /
    • 1998
  • 본 논문에서는 음성인식 알고리즘인 HMM을 사용하여 Windows 환경에서 온라인으로 사용할 수 있는 음성인식 게임“Voice Illust Magic”개발에 관하여 소개한다. 사용자와 컴퓨터가 상호작용(Interaction)할 수 있는 매체를 마우스와 키보드뿐만 아니라 게임에 필요한 명령어를 음성인식으로 실행함으로써 정보전달이 매우 효과적으로 이루어져 사용자가 접근하기 쉽고 편리하게 되었으며 의사전달 효율을 높일 수 있었다. 음성인식 과정을 온라인으로 마이크를 통해 들어온 음성을 자동으로 끝점을 검출한 후, Mel-Cepstrum을 추출하여 Word 단위의 reference HMM과 비교하여 최적의 model이 선택되면, 윈도우즈에게 메시지를 보내어 마우스나 키보드가 동작하는 것과 마찬가지로 실행되도록 하였다. 또한, 입력 음성을 모든 reference pattern과 비교하는 것이 아니라 그 상황에 적용될 수 있는 표준 패턴을 한정함으로써 탐색시간을 줄일 수 있었으며 높은 인식률을 나타내었다.

  • PDF

The Extraction of Effective Index Database from Voice Database and Information Retrieval (음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색)

  • Park Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • v.35 no.3
    • /
    • pp.271-291
    • /
    • 2004
  • Such information services source like digital library has been asked information services of atypical multimedia database like image, voice, VOD/AOD. Examined in this study are suggestions such as word-phrase generator, syllable recoverer, morphological analyzer, corrector for voice processing. Suggested voice processing technique transform voice database into tort database, then extract index database from text database. On top of this, the study suggest a information retrieval model to use in extracted index database, voice full-text information retrieval.

  • PDF

Digital Doorlock with Voice Recognition (음성 인식 디지털 도어락)

  • Heo, Gyeongyong;Jang, Woo-Young;Park, Jun-Pyo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2012.07a
    • /
    • pp.269-270
    • /
    • 2012
  • 본 논문에서는 키패드로만 동작하는 디지털 도어락에 보안을 강화하기 위해 음성 인식 장치를 추가한 음성 인식 디지털 도어락을 설계하고 구현하였다. 비밀번호로만 동작하는 도어락은 비밀번호의 분실 가능성이 있기 때문에 보안을 위해서는 화자의 특징을 인식할 수 있는 화자 종속 방식의 음성인식이 효율적이다. 본 논문에서 제안하는 방식은 가정집뿐만이 아니라 회사에서 보다 높은 수준의 보안이 필요한 곳에서 사용이 가능하다. 또한 구현한 시스템은 장애인을 위해 음성만으로 동작하는 시스템 등으로 쉽게 변경이 가능하다. 제안한 시스템은 ATmega128을 기반으로 키패드, 텍스트 LCD, 음성인식 모듈을 결합하여 구성하였다.

  • PDF

The Construction of a Children Speech Database for Speech Recognition and The Validation of Acoustic Models (음성인식용 아동음성데이터베이스의 구축 및 음향모델의 검토)

  • Kim, Yoen-Whoa;Lee, Yong-Ju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.717-720
    • /
    • 2003
  • 최근 아동음성을 이용한 응용분야가 활기를 띄고 있다. 따라서 아동음성DB의 구축이 시급히 필요하게 되었다. 이러한 요구에 따라 아동음성을 여러 응용분야에 적용하기 위한 한 방법으로 아동음성DB를 구축하였고, 이를 이용한 음향모델을 작성하였다. 아동음성의 효율적인 인식을 위한 음향모델을 고찰하기 위하여 연령대별로 음향모델을 만들고, 이를 이용하여 훈련 및 평가용 데이터로 인식 실험한 결과를 비교 검토한다.

  • PDF

Design and Implementation of a Phone System Operating on PDA (PDA기반 음성전화시스템의 설계 및 구현)

  • 안용운;김상철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.199-201
    • /
    • 2001
  • 최근 모바일 컴퓨팅 기술이 발전되면서, PDA 등과 같은 소형 컴퓨팅 장치가 빠른 속도로 보급되고 있다. PDA는 이동전화나 무선 LAN 등을 통해서 다른 PDA 또는 일반 컴퓨터에 접속해서 메일 수신, 인터넷, 채팅 등에 사용되고 있다. 우리는 PDA간 또는 PDA와 데스크탑 컴퓨터간의 음성통신 기능을 제공하는 음성 전화 시스템을 개발하였다. 본 논문은 우리가 개발한 음성 전화 시스템의 기능, 구조, 구현을 소개한다. 우리의 음성 전화 시스템은 Windows CE 환경 하에서 동작하고 H.323을 지원하도록 설계되어있다. 또한, 본 논문에서는 음성통신을 위한 송, 수신 버퍼 사용의 효율적인 방법을 제안한다. 우리의 조사에 의하면, Windows CE 기반의 음성전화시스템에 대한 기존 연구가 거의 발표되지 않았다.

Design and Implementation of effective ECC Encryption Algorithm for Voice Data (음성 데이터 보안을 위한 효율적인 ECC 암호 알고리즘 설계 및 구현)

  • Kim, Hyun-Soo;Park, Seok-Cheon
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.15 no.11
    • /
    • pp.2374-2380
    • /
    • 2011
  • Many people is preferred to mVoIP which offers call telephone-quality and convenient UI as well as free of charge. On the other hand, security of mVoIP is becoming an issue as it using Internet network may have danger about wiretapping. Although traditionally encryption algorithm of symmetric key for security of voice data has been used, ECC algorithm of public key type has been preferring for encryption because it is stronger in part the strength of encryption than others. However, the existing way is restricted by lots of operations in poor mobile environment. Thus this paper proposes the efficiency of resource consumption way by reducing cryptographic operations.

Unified coding scheme of speech and music (음악 및 음성 신호의 융합 압축 기술)

  • O, Eun-Mi
    • Broadcasting and Media Magazine
    • /
    • v.16 no.4
    • /
    • pp.59-71
    • /
    • 2011
  • 오디오와 음성 압축 기술적 근간은 서로 다르지만, 최근의 모바일 멀티미디어 기기 시장의 컨버전스 현상에 따라 압축하고자 하는 신호가 혼용되고 있으며, 비슷한 목표 전송률과 음질로 수렴하고 있다. 현재는 동일 기기에서 서로 다른 압축 기술을 적용하고 있으나, 음성과 음악이 동시에 서비스 되는 멀티미디어 기기에서는 단일 압축 방식으로 처리하고자 하는 이슈가 부각되고 있다. 특히, 스마트 폰 및 음악 콘텐츠 포탈 서비스의 대중화를 고려할 때, 음성 및 음악 신호 모두를 효율적으로 압축하는 음악 및 음성 신호의 융합 압축 기술이 더욱 필요해 보인다. 본 고에서는 MPEG 오디오 그룹에서 가장 최근 진행한 Unified Speech and Audio Coding(USAC)의 탄생 배경 및 표준화 현황을 소개한다. USAC는 64kbps 이하에서 기술적으로 최고 성능을 지닌 AMR-WB+ 및 HE-AAC v2보다도 우월한 음질을 보이며, 높은 비트율에서도 동등한 음질을 보장한다. 이런 우수한 음질에 기여한 USAC의 스위칭 구조와 더불어 기술적으로 향상된 주요 모듈인 파라미터 기반 스테레오 및 고주파 압축, 그리고 엔트로피 코딩 방식에 대해서 살펴 본다. 향후, 다양한 오디오 신호를 효율적으로 압축하는 USAC는 디지털 라디오, 모바일 TV, 그리고 오디오 북과 같은 사용자 시나리오에서 사용될 확률이 높아 보인다. 또한, USAC는 배경 잡음이나 배경 음악이 있는 경우에도 성능이 우수하기 때문에 YouTube 및 podcast 등과 같이 사용자가 콘텐츠를 생성할 때도 유용하게 사용 될 수 있다.

A WATM MAC Protocol for the Efficient Transmission of Voice Traffic in the Multimedia Environment (멀티미디어 환경에서 효율적인 음성 전송을 위한 WATM MAC 프로토콜)

  • 민구봉;최덕규;김종권
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.25 no.1A
    • /
    • pp.96-103
    • /
    • 2000
  • The voice traffic is one of the most important real-time objects in WATM(Wireless Asynchronous Transfer Mode) networks. In this paper, we propose a new MAC(Medium Access'Control) protocol for the efficienttransmission of voice traffic over WATM networks in the multimedia environment and compare the performanceto existing similar protocols. The new protocol separates the reservation slot period for voice and that for data toguarantee some level of QoS(Quality of Service) in voice traffic. This is denoted by a slot assignment functiondepending on the frame size. According to the characteristics of voice traffic which is repeatedly in silent states,the protocol allocates voice reservation request slots dynamically with respect to the number of silent(off state)voice sources and also sends the first block of talkspurt restarted after silent period with a reservation requestslot to reduce the access delay.The simulation results show that the proposed protocol has better performance than Slotted Aloha in bandwidthefficiency, and can serve a certain level of QoS by the given slot assignment function even when the number ofvoice terminals varies dynamically. This means we can observe that the new MAC protocol is much better thanthe NC-PRMA(None Collision-Packet Reservation Multiple Access) protocol.

  • PDF