• 제목/요약/키워드: Voice Recognition

검색결과 645건 처리시간 0.034초

인간과 로봇 협력작업을 위한 로봇 지능제어알고리즘 개발에 관한 연구 (A Study on Intelligent Control Algorithm Development for Cooperation Working of Human and Robot)

  • 이우송;정양근;박인만;정종교;김희진;김민성;한성현
    • 한국산업융합학회 논문집
    • /
    • 제20권4호
    • /
    • pp.285-297
    • /
    • 2017
  • This study proposed a new approach to develop an Intelligent control algorithm for cooperative working of human and robot based on voice recognition. In general case of speaker verification, Gaussian Mixture Model is used to model the feature vectors of reference speech signals. On the other hand, Dynamic Time Warping based template matching techniques were presented for the voice recognition about several years ago. We converge these two different concepts in a single method and then implement in a real time voice recognition enough to make reference model to satisfy 95% of recognition performance. In this paper it was illustrated the reliability of voice recognition by simulation and experiments for humanoid robot with 18 joints.

음성인식 기능을 이용한 시각장애인용 키오스크 (Kiosk for the Visually Impaired using Voice Recognition)

  • 김대영;이아현;이건행;김세현;이붕주
    • 한국전자통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.873-882
    • /
    • 2022
  • 본 논문에서는 현대사회에서 많이 사용되는 키오스크가 시각장애인들이 이용하는 것에 있어서 불편함을 보완해야 한다고 생각하여 편리성을 위한 음성인식 시스템 키오스크를 연구하였다. 초음파센서, 적외선센서를 활용하여 80cm-40cm 범위 안에 시각장애인을 인식하고, MP3 모듈을 통한 키오스크 소개 및 가까이 오도록 유도를 하고 40cm 이내의 시각장애인을 인식하면 MP3모듈을 통해 상품 설명 및 주문을 유도한다. 녹음 기반 데이터 음성인식 시스템과 서보모터를 통해 원하는 물건이 출력되는 키오스크를 연구하였다. 제작된 음성인식 키오스크에 대한 적외선, 초음파, 음성인식, 충격감지센서의 동작실험 및 최적화 실험을 통해 시각장애인의 편리성을 위한 키오스크를 제작하였고, 보안성을 강화하기 위해 충격감지센서, 비상벨을 활용했기 때문에 방범적인 측면에서도 기능을 추가한 시스템을 연구하였다.

잡음 환경에서 음성 인식률 향상에 필요한 MEMS 장치 개발에 관한 연구 (The research on the MEMS device improvement which is necessary for the noise environment in the speech recognition rate improvement)

  • 양기웅;이형근
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1659-1666
    • /
    • 2018
  • 입력된 소리가 음성과 음향이 혼재된 경우 잡음의 영향으로 음성 인식률이 저하됨을 알 수 있으며 S/W적 처리 한계를 극복코자 H/W 장치인 MEMS 장치를 개발하여 음성 인식률을 향상시켰다. MEMS 마이크로폰 장치는 음성을 입력하는 장치로서 다양한 모양으로 구현되어 사용된다. 기존 MEMS 마이크로폰은 일반적으로 우수한 성능을 발휘하나 잡음 과 같은 특수 환경에선 음성과 음향이 혼재되어 처리 성능이 저하되는 문제점이 발생됨을 알 수 있었다. 이러한 문제점을 개선코자 초기 입력장치에 음성 특성을 구분하여 검출할 수 있는 신규 고안된 MEMS 장치를 사용하여 향상시켰다.

소아애성에 영향을 주는 환경에 대한 연구 (Environments of Hoarseness in Children)

  • 안철민;박상준;이건영
    • 대한후두음성언어의학회지
    • /
    • 제8권2호
    • /
    • pp.173-177
    • /
    • 1997
  • The speech movements are acquired activity, not determined by instincts or by biologic inheritance either. The child listens to the sound from the surrounding persons, observes the speech movement of the people and tried to imitate them. Then the child acquires their specific phonation pattern. We guessed that the parents influences to the child are very important in the developing of the speech movements. Because the parents are first contact person to the baby. The recognition of parents about the voice changes in the child will be important too. And social environments such as kindergarden, school, friends contact with, can influence to the voice of the child. We investigated the state of the voice, parents influence and social environmental factor. In the bases of this study, we knew that the parents recognition about the voice changes of child, faulty vocal habits of child, social environmental factors influenced to the voice of child. And we thought we have to do our best for the early detection of voice changes and proper treatment.

  • PDF

Alexa를 이용한 대학안내 시스템 (The University Gusdance System using the Alexa)

  • 김태진;김동현
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2061-2066
    • /
    • 2017
  • 음성인식 기술은 사용자의 음성을 인식하여 명령을 실행하는 기술로 현재는 자연어 처리 기법과 접목되어 인공지능 음성인식 서비스로 제공되어 지고 있다. 이러한 인공지능 음성인식 서비스는 IoT기기를 제어하거나 뉴스 또는 날씨와 같은 정보 제공 분야에서 활용되고 있다. 정보 제공 분야의 하나인 대학 정보는 주로 웹을 통하여 제공되나 너무 많은 데이터를 제공하기 때문에 사용자가 신속하게 원하는 정보를 검색할 수 없는 문제가 있다. 이 논문에서는 사용자가 찾고자 하는 정보를 음성으로 인식하고 제공하기 위한 대학 안내 시스템을 설계하고 구현한다. 대학정보를 각 주제별로 분류하고 이를 제공하기 위한 람다 함수를 설계한다. 그리고 알렉사 스킬 키트를 이용하여 노드제이에스로 구현된 모듈을 아마존웹서비스에 업로드하여 음성인식을 이용하여 대학 정보를 제공한다.

생성형 AI 기술을 적용한 음성 및 모션 인식 기반 양방향 대화형 알고리즘 (Two-way Interactive Algorithms Based on Speech and Motion Recognition with Generative AI Technology)

  • 장대성;김종찬
    • 한국전자통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.397-402
    • /
    • 2024
  • 음성 인식과 모션 인식 기술은 다양한 스마트 디바이스에 적용되어 사용되고 있으나, 단순한 명령어 인식 형태로 구성되어 단순 기능으로 사용되고 있다. 인식 데이터에 대한 단순 기능에서 벗어나 다양한 분야에서 학습된 데이터를 기반으로 전문적인 명령어 수행 능력이 요구되고 있다. 현재 세계적으로 경쟁이 이루어지고 있는 생성형 AI를 활용하여 사용자에게 최적의 데이터를 제공하고, 음성 인식과 모션 인식을 통해 상호작용할 수 있는 시스템 플랫폼에 대한 연구가 진행되고 있다. 본 연구를 위해 설계한 주요 기술 프로세스는 음성 및 모션 인식 기능, AI 기술 적용, 양방향 커뮤니케이션 등 기술을 이용한 설계하였다. 본 논문에서는 AI 기술을 적용한 디바이스와 음성인식과 모션 인식 기술을 통해 디바이스와 사용자 간 양방향 커뮤니케이션을 다양한 입력방식에 의해 이루어질 수 있도록 하였다.

음성인식프로그램을 이용한 무후두 음성의 말 명료도와 병적 음성의 수술 전후 개선도 측정 (Speech Intelligibility of Alaryngeal Voices and Pre/Post Operative Evaluation of Voice Quality using the Speech Recognition Program(HUVOIS))

  • 김한수;최성희;김재인;임재열;최홍식
    • 대한후두음성언어의학회지
    • /
    • 제15권2호
    • /
    • pp.92-97
    • /
    • 2004
  • Background and Objectives : The purpose of this study was to examine objectively pre and post operative voice quality evaluation and intelligibility of alaryngeal voice using speech recognition program, HUVOIS. Materials and Methods : 2 laryngologists and 1 speech pathologist were evaluated 'G', 'R', 'B' in the GRBAS sclae and speech intelligibility using NTID rating scale from standard paragraph. And also acoustic estimates such as jitter, shimmer, HNR were obtained from Lx Speech Studio. Results : Speech recognition rate was not significantly different between pre and post operation for pathological vocie samples though voice quality(G, B) and acoustic values(Jitter, HNR) were significantly improved after post operation. In Alaryngeal voices, reed type electrolarynx 'Moksori' was the highest both speech intelligibility and speech recognition rate, whereas esophageal speech was the lowest. Coefficient correlation of speech intelligibility and speech recognition rate was found in alaryngeal voices, but not in pathological voices. Conclusion : Current study was not proved speech recognition program, HUVOIS during telephone program was not objective and efficient method for assisting subjective GRBAS scale.

  • PDF

최대 흐름 정합을 이용한 실시간 음소인식 시스템 구현 (Real-time Phoneme Recognition System Using Max Flow Matching)

  • 이상엽;박성원
    • 한국게임학회 논문지
    • /
    • 제12권1호
    • /
    • pp.123-132
    • /
    • 2012
  • 스마트 디바이스를 이용한 다양한 게임들이 증가하고 있는데, 음소인식은 스마트 디바이스를 사용한 효율적인 입력 방법은 음성이 될 수 있다. 게임에서 음성인식은 매우 빠르게 인식되면서 구동 되어야하는데, 본 연구에서는 게임 분야에서 유용하게 활용할 수 있는 최적화된 음소 인식 방법을 개발하였다. 본 논문에서 제안하는 음소 인식 방법은 음성 파장을 FFT로 전환하고, 해당 값을 Z평면에 도시한 후, 영역 데이터를 추출한 후 데이터베이스에 저장한다. 그리고 해당 값을 가중치 있는 두 갈래 그래프 최대 흐름 정합을 사용하여 음소 인식을 한다. 제안된 방법은 게임 또는 로봇과 같은 분야에서 빠른 음소 인식을 하고자 할 때 매우 유용한 방법이다.

CNN(Convolutional Neural Network) 알고리즘을 활용한 음성신호 중 비음성 구간 탐지 모델 연구 (A Study on a Non-Voice Section Detection Model among Speech Signals using CNN Algorithm)

  • 이후영
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.33-39
    • /
    • 2021
  • 음성인식 기술은 딥러닝과 결합되며 빠른 속도로 발전하고 있다. 특히 음성인식 서비스가 인공지능 스피커, 차량용 음성인식, 스마트폰 등의 각종 기기와 연결되며 음성인식 기술이 산업의 특정 분야가 아닌 다양한 곳에 활용되고 있다. 이러한 상황에서 해당 기술에 대한 높은 기대 수준을 맞추기 위한 연구 역시 활발히 진행되고 있다. 그중에서 자연어처리(NLP, Natural Language Processing)분야에서 음성인식 인식률에 많은 영향을 주는 주변의 소음이나 불필요한 음성신호를 제거하는 분야에 연구가 필요한 상황이다. 이미 많은 국내외 기업에서 이러한 연구를 위해 최신의 인공지능 기술을 활용하고 있다. 그중에서 합성곱신경망 알고리즘(CNN)을 활용한 연구가 활발하게 진행되고 있다. 본 연구의 목적은 합성곱 신경망을 통해서 사용자의 발화구간에서 비음성 구간을 판별하는 것으로 5명의 발화자의 음성파일(wav)을 수집하여 학습용 데이터를 생성하고 이를 합성곱신경망을 활용하여 음성 구간과 비음성 구간을 판별하는 분류 모델을 생성하였다. 이후 생성된 모델을 통해 비음성 구간을 탐지하는 실험을 진행한 결과 94%의 정확도를 얻었다.

A Voice Controlled Service Robot Using Support Vector Machine

  • Kim, Seong-Rock;Park, Jae-Suk;Park, Ju-Hyun;Lee, Suk-Gyu
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1413-1415
    • /
    • 2004
  • This paper proposes a SVM(Support Vector Machine) training algorithm to control a service robot with voice command. The service robot with a stereo vision system and dual manipulators of four degrees of freedom implements a User-Dependent Voice Control System. The training of SVM algorithm that is one of the statistical learning theories leads to a QP(quadratic programming) problem. In this paper, we present an efficient SVM speech recognition scheme especially based on less learning data comparing with conventional approaches. SVM discriminator decides rejection or acceptance of user's extracted voice features by the MFCC(Mel Frequency Cepstrum Coefficient). Among several SVM kernels, the exponential RBF function gives the best classification and the accurate user recognition. The numerical simulation and the experiment verified the usefulness of the proposed algorithm.

  • PDF