• 제목/요약/키워드: Voice Recognition Technology

검색결과 212건 처리시간 0.028초

CNN(Convolutional Neural Network) 알고리즘을 활용한 음성신호 중 비음성 구간 탐지 모델 연구 (A Study on a Non-Voice Section Detection Model among Speech Signals using CNN Algorithm)

  • 이후영
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.33-39
    • /
    • 2021
  • 음성인식 기술은 딥러닝과 결합되며 빠른 속도로 발전하고 있다. 특히 음성인식 서비스가 인공지능 스피커, 차량용 음성인식, 스마트폰 등의 각종 기기와 연결되며 음성인식 기술이 산업의 특정 분야가 아닌 다양한 곳에 활용되고 있다. 이러한 상황에서 해당 기술에 대한 높은 기대 수준을 맞추기 위한 연구 역시 활발히 진행되고 있다. 그중에서 자연어처리(NLP, Natural Language Processing)분야에서 음성인식 인식률에 많은 영향을 주는 주변의 소음이나 불필요한 음성신호를 제거하는 분야에 연구가 필요한 상황이다. 이미 많은 국내외 기업에서 이러한 연구를 위해 최신의 인공지능 기술을 활용하고 있다. 그중에서 합성곱신경망 알고리즘(CNN)을 활용한 연구가 활발하게 진행되고 있다. 본 연구의 목적은 합성곱 신경망을 통해서 사용자의 발화구간에서 비음성 구간을 판별하는 것으로 5명의 발화자의 음성파일(wav)을 수집하여 학습용 데이터를 생성하고 이를 합성곱신경망을 활용하여 음성 구간과 비음성 구간을 판별하는 분류 모델을 생성하였다. 이후 생성된 모델을 통해 비음성 구간을 탐지하는 실험을 진행한 결과 94%의 정확도를 얻었다.

스마트 폰 음성 인식 서비스의 상황별 만족도 조사 (Study on the Situational satisfaction survey of Smart Phone based on voice recognition technology)

  • 이윤정;김승인
    • 디지털융복합연구
    • /
    • 제15권8호
    • /
    • pp.351-357
    • /
    • 2017
  • 본 연구는 스마트 폰 음성인식 서비스를 분석하고 음성인식 서비스의 상황별 만족도 조사를 통하여 사용자들의 기대요구와 만족도 간의 관련성을 분석하여 더 나은 음성인식 서비스 발전을 모색하고자 하였다. 1차로 문헌연구를 통하여 음성인식 서비스의 개념과 현황을 알아보고, 2차로 육하원칙을 기조로 한 설문지를 통해 설문 조사를 진행하였다. 그 결과, 사용자는 스마트 폰 음성인식 서비스를 전화를 걸 때에 가장 많이 사용하며, 주로 혼자 있을 때 사용하며 시간대는 대체로 평이하지만, 저녁 시간이 가장 많았다. 또한, 해당 서비스는 집에서 가장 많이 사용하며 손을 사용할 수 없을 때 서비스를 가장 많이 사용하는 것으로 나타났다. 이러한 상황별 다양한 결과를 통해 개인화 서비스, 조건 인식 기능, 위급 상황 자동인식, 음성으로 잠금 해제 등 다양한 방안을 도출할 수 있었다. 본 연구를 바탕으로 추후 국내 스마트 폰 음성인식 서비스 개선과 웨어러블 디바이스 개발을 위해 효과적으로 활용할 수 있을 것으로 기대한다.

음성명령기반 26관절 보행로봇 실시간 작업동작제어에 관한 연구 (A Study on Real-Time Walking Action Control of Biped Robot with Twenty Six Joints Based on Voice Command)

  • 조상영;김민성;양준석;구영목;정양근;한성현
    • 제어로봇시스템학회논문지
    • /
    • 제22권4호
    • /
    • pp.293-300
    • /
    • 2016
  • The Voice recognition is one of convenient methods to communicate between human and robots. This study proposes a speech recognition method using speech recognizers based on Hidden Markov Model (HMM) with a combination of techniques to enhance a biped robot control. In the past, Artificial Neural Networks (ANN) and Dynamic Time Wrapping (DTW) were used, however, currently they are less commonly applied to speech recognition systems. This Research confirms that the HMM, an accepted high-performance technique, can be successfully employed to model speech signals. High recognition accuracy can be obtained by using HMMs. Apart from speech modeling techniques, multiple feature extraction methods have been studied to find speech stresses caused by emotions and the environment to improve speech recognition rates. The procedure consisted of 2 parts: one is recognizing robot commands using multiple HMM recognizers, and the other is sending recognized commands to control a robot. In this paper, a practical voice recognition system which can recognize a lot of task commands is proposed. The proposed system consists of a general purpose microprocessor and a useful voice recognition processor which can recognize a limited number of voice patterns. By simulation and experiment, it was illustrated the reliability of voice recognition rates for application of the manufacturing process.

음성인식에 의한 측량자료취득 모듈개발 (The Development of Data Capturing Modules by Speech-Voice Recognition)

  • 조규전;이영진;차득기
    • 한국측량학회지
    • /
    • 제18권3호
    • /
    • pp.279-285
    • /
    • 2000
  • 컴퓨터 기술의 발달과 휴먼인터페이스에 대한 인간욕구로 지능형 MMI(Man-Machine Interface)컴퓨터기술에 키보드나 다른 입력장치를 사용하지 않고 사람의 음성으로 컴퓨터를 조작하거나 필요한 명령을 수행할 수 있게 되었다. 특히 복잡한 측량작업에서 현장자료 취득과 측설작업에 음성인식기술을 응용함으로써 작업시간의 절감과 지루함을 덜 수 있다. 본 연구에서는 50,000어휘 인식소프트웨어엔진과 60어휘 인식용 고도집접회로(IC)에 의한 음성인식기술을 Total-station과 RTK-GPS와 연계하여 적용한 결과 25개 어휘만으로 실시간 Geo-Coding 및 도형처리가 가능하였다.

  • PDF

다양한 음성을 이용한 자동화자식별 시스템 성능 확인에 관한 연구 (Variation of the Verification Error Rate of Automatic Speaker Recognition System With Voice Conditions)

  • 홍수기
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.45-55
    • /
    • 2002
  • High reliability of automatic speaker recognition regardless of voice conditions is necessary for forensic application. Audio recordings in real cases are not consistent in voice conditions, such as duration, time interval of recording, given text or conversational speech, transmission channel, etc. In this study the variation of verification error rate of ASR system with the voice conditions was investigated. As a result in order to decrease both false rejection rate and false acception rate, the various voices should be used for training and the duration of train voices should be longer than the test voices.

  • PDF

이동로봇의 자율주행제어에 관한 연구 (A study on Autonomous Travelling Control of Mobile Robot)

  • 이우송;심현석;하언태;김종수
    • 한국산업융합학회 논문집
    • /
    • 제18권1호
    • /
    • pp.10-17
    • /
    • 2015
  • We describe a research about remote control of mobile robot based on voice command in this paper. Through real-time remote control and wireless network capabilities of an unmanned remote-control experiments and Home Security / exercise with an unmanned robot, remote control and voice recognition and voice transmission are possible to transmit on a PC using a microphone to control a robot to pinpoint of the source. Speech recognition can be controlled robot by using a remote control. In this research, speech recognition speed and direction of self-driving robot were controlled by a wireless remote control in order to verify the performance of mobile robot with two drives.

Implementation of Extracting Specific Information by Sniffing Voice Packet in VoIP

  • Lee, Dong-Geon;Choi, WoongChul
    • International journal of advanced smart convergence
    • /
    • 제9권4호
    • /
    • pp.209-214
    • /
    • 2020
  • VoIP technology has been widely used for exchanging voice or image data through IP networks. VoIP technology, often called Internet Telephony, sends and receives voice data over the RTP protocol during the session. However, there is an exposition risk in the voice data in VoIP using the RTP protocol, where the RTP protocol does not have a specification for encryption of the original data. We implement programs that can extract meaningful information from the user's dialogue. The meaningful information means the information that the program user wants to obtain. In order to do that, our implementation has two parts. One is the client part, which inputs the keyword of the information that the user wants to obtain, and the other is the server part, which sniffs and performs the speech recognition process. We use the Google Speech API from Google Cloud, which uses machine learning in the speech recognition process. Finally, we discuss the usability and the limitations of the implementation with the example.

Characteristics of Cow´s Voices in Time and Frequency domains for Recognition

  • Ikeda, Yoshio;Ishii, Y.
    • Agricultural and Biosystems Engineering
    • /
    • 제2권1호
    • /
    • pp.15-23
    • /
    • 2001
  • On the assumption that the voices of the cows are produced by the linear prediction filter, we characterized the cows’voices. The order of this filter was determined by examining the voice characteristics both in time and frequency domains. The proposed order of the linear prediction filter is 15 for modeling voice production of the cow. The characteristics of the amplitude envelope of the voice signal was investigated by analyzing the sequence of the short time variance both in time and frequency domains, and the new parameters were defined. One of the coefficients o the linear prediction filter generating the voice signal, the fundamental frequency, the slope of the straight line regressed from the log-log spectra of the short time variance and the coefficients of the linear prediction filter generating the sequence of the short time variance of the voice signal can differentiate the two cows.

  • PDF

0.18㎛ CMOS 공정을 이용한 MEMS 마이크로폰용 이중 채널 음성 빔포밍 ASIC 설계 (An ASIC implementation of a Dual Channel Acoustic Beamforming for MEMS microphone in 0.18㎛ CMOS technology)

  • 장영종;이재학;김동순;황태호
    • 한국전자통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.949-958
    • /
    • 2018
  • 음성 인식 제어 시스템은 사용자의 음성을 인식하여 주변 장치를 제어하는 시스템이다. 최근 음성 인식 제어 시스템은 스마트기기 뿐만 아니라, IoT(: Internet of Things), 로봇, 차량에 이르기까지 다양한 환경에 적용되고 있다. 이러한 음성 인식 제어 시스템은 사용자의 음성 외에 주변 잡음에 의한 인식률 저하가 발생한다. 이에 본 논문은 사용자의 음성 외에 주변 잡음을 제거하기 위하여 MEMS(: Microelectromechanical Systems) 마이크로폰용 이중 채널 음성 빔포밍 하드웨어 구조를 제안하였으며, 제안한 하드웨어 구조를 TowerJazz $0.18{\mu}m$ CMOS(: Complementary Metal-Oxide Semiconductor) 공정을 이용하여 ASIC(: Application-Specific Integrated Circuit)을 설계하였다. 설계한 이중 채널 음성 빔포밍 ASIC은 $48mm^2$의 Die size를 가지며, 사용자의 음성에 대한 지향성 특성을 측정한 결과 4.233㏈의 특성을 보였다.

Adaptive Post Processing of Nonlinear Amplified Sound Signal

  • Lee, Jae-Kyu;Choi, Jong-Suk;Seok, Cheong-Gyu;Kim, Mun-Sang
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.872-876
    • /
    • 2005
  • We propose a real-time post processing of nonlinear amplified signal to improve voice recognition in remote talk. In the previous research, we have found the nonlinear amplification has unique advantage for both the voice activity detection and the sound localization in remote talk. However, the original signal becomes distorted due to its nonlinear amplification and, as a result, the rest of sequence such as speech recognition show less satisfactorily results. To remedy this problem, we implement a linearization algorithm to recover the voice signal's linear characteristics after the localization has been done.

  • PDF