• 제목/요약/키워드: 음성제어

검색결과 696건 처리시간 0.032초

Raspberry Pi를 이용한 영상 및 음성인식 기반 스마트 미러 개발 (Development of Smart Mirror System Controlled by Voice Based on Raspberry Pi)

  • 린즈밍;이양원;김철원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.228-230
    • /
    • 2019
  • 일상생활에서 빈번히 사용되는 주변 생활 제품은 기술의 급속한 발전과 더불어 지능화 정도가 가속화 되고 있는 추세에 있다. 일반적으로 LED 조명이나 실내 에어컨을 자동으로 조정하거나 자동청소로봇 등은 이미 일반화된 제품들이다. 그럼에도 불구하고 우리 생활에서 가장 필요한 용품인 거울에 대한 지능적인 제품은 비교적 고가이어서 소비자가 쉽게 접근하기 어려운 생활용품이 되고 있어서 지능화 제품의 보급이 더딘편이다. 따라서 본 논문에서는 Raspberry Pi 3B+ 를 기반으로 하여 음성제어가 가능한 스마트 미러를 설계하고 구현하였다. 이를 위하여 저렴한 raspberry pi의 WiFi를 통해 네트워크에 연결하도록 하여 미러가 시간, 날씨 및 뉴스 정보 기능을 자동으로 업데이트 할 수 있도록 하였고 기상 조건, 사전 시간 또는 음악 재생과 같은 음성 제어가 가능하기 위하도록 Google Asistant 음성 인터페이스를 적용하였다. 본 논문에서 제안한 제품이 실용화될 경우 저가이면서 고기능 사양을 제공하고 있어서 스마트 미러 보급에 많은 기여가 예산된다.

장애인을 위한 음성 인터페이스 설계 (Designing Voice Interface for The Disabled)

  • 최동욱;이지훈;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.697-699
    • /
    • 2019
  • IT 기술의 발달에 따라 전자기기의 이용량은 증가하였지만, 시각장애인들이나 지체 장애인들이 이용하는 데에 어려움이 있다. 따라서 본 논문에서는 Google Cloud API를 활용하여 음성으로 프로그램을 제어할 수 있는 음성 인터페이스를 제안한다. Google Cloud에서 제공하는 STT(Speech To Text)와 TTS(Text To Speech) API를 이용하여 사용자의 음성을 인식하면 텍스트로 변환된 음성이 시스템을 통해 응용 프로그램을 제어할 수 있도록 설계한다. 이 시스템은 장애인들이 전자기기를 사용하는데 많은 편리함을 줄 것으로 예상하며 나아가 장애인들뿐 아니라 비장애인들도 활용 가능할 것으로 기대한다.

음성인식을 이용한 ROS 기반 서빙 로봇 원격 제어 연구 (A Study on ROS based Control of Serving Robot Using Speech Recognition)

  • 김병준;이서현;조은영;박해준;권남규
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.211-212
    • /
    • 2021
  • 본 논문에서는 싱글보드 컴퓨터 Jetson nano 기반 음성 라이브러리 Snowboy를 활용하여 음성인식 시스템을 구현하여 Turtlebot의 동작을 제어하였다. Turtlebot은 ROS(Robot Operating System) 기반으로 동작하며 ROS core를 통해 Jetson nano와 데이터전송이 가능하다. 사용자에 의해 실시간으로 Snowboy에 저장된 특정 음성을 인식하고 지정된 좌표로 변환한다. 변환된 좌표에 따라 Turtlebot이 지정된 위치로 이동한다. Lidar센서를 활용하여 장애물을 감지하고 다른 경로를 생성해 지정된 위치로 이동한다.

  • PDF

산업용 다관절로봇 음성제어솔루션 설계 (Design of Voice Control Solution for Industrial Articulated Robot)

  • 곽광진;김대연;박정민
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.55-60
    • /
    • 2021
  • 스마트 팩토리화가 진행됨에 따라 자동화 설비 및 로봇의 활용이 늘어나고 있다. 또한 IT 기술의 발달로 음성인식을 활용한 시스템의 활용도도 올라가고 있다. 음성인식 기술은 스마트홈과 각종 IoT 기술에서 두각을 나타내고 있는 기술이지만 공장의 특수성으로 공장에 적용되기 힘든 상황에 있다. 따라서 본 연구에서는 제조 현장의 상황을 고려한 음성인식 기술을 활용하여 산업용 다관절 로봇을 제어하는 방법을 설계하였다. 모바일을 통해 로봇 조작을 위한 음성명령을입력 받은 후 네트워크 프로토콜 변환 및 명령어 변환 과정을 거쳐 로봇을 제어할 수 있음을 확인하였다.

홈오토메이션에서 음성인터페이스의 구현 (Implementation of Voice Interface for HomeAutomation)

  • 박정남;이종혁
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.300-303
    • /
    • 2003
  • 정보 통신의 발전으로 교육, 문화, 의료, 경제 등 사회 시스템과 가정이 결합하여 주택의 개념이 바뀌고 있다. 따라서 생활의 편의를 위한 가정 내 가전기기 및 각종 기기의 원격 제어 욕구가 증가하여 주택시설의 첨단화가 요구되고 있다. 또한 복잡하고 많은 기기를 쉽고 통합적으로 관리하는 통합관리 시스템이 필요하다. 이에 본 논문에서는 사용자가 직접 음성 명령어를 편집할 수 있는 음성인터 페이스를 제안하고 이를 홈오토메이션 시스템에 적용하여 더 높은 사용자편리성을 제공하였다.

  • PDF

셀룰러 환경에서 통합된 음성과 데이터 트랙픽의 성능분석 (Performance Analysis of Integrated Voice and Data Traffic in a Cellular Environment)

  • 김기완;김두용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.265-267
    • /
    • 2000
  • 본 논문은 셀룰러 이동통신 환경하에서 음성과 데이터가 통합된 통신 시스템의 트래픽 분석 방법을 제안한다. 통합된 통신 시스템에서 음성과 데이터 트래픽은 고유의 채널 영역을 갖고 있고 음성 영역에 유휴한 채널이 있을 경우 데이터 트래픽이 음성 채널을 사용할 수 있으며 음성이 발생하여 필요시 데이터 채널은 preempt 할 수 있는 시스템 제어 방식을 갖는다. 따라서, 본 논문에서는 이와 같이 가변하는 경계를 갖는 시스템의 블록킹 확률과 핸드오프 실패확률 등을 분석한다.

  • PDF

인터넷 웹페이지의 음성합성을 위한 엔진 및 플러그-인 설계 및 구현 (Design and Implementation of a Speech Synthesis Engine and a Plug-in for Internet Web Page)

  • 이희만;김지영
    • 한국정보처리학회논문지
    • /
    • 제7권2호
    • /
    • pp.461-469
    • /
    • 2000
  • 본 논문은 인터넷 웹페이지의 텍스트 정보를 추출하여 이를 음성으로 합성하기 위한 음성합성 엔진 및 넷스케이프 플러그인의 설계 및 구현에 관한 것이다. 인터넷 웹페이지를 음성으로 합성하는 방법은 audio/x-esp MIME 타입을 임베딩한 웹페이지가 발견되면서 이에 상응하는 플러그-인이 작되며 해당 플러그인은 URL로 지정된 HTML 문서를 네트워크에서 가져와 컴맨더 모브젝트에 보내교, 컴맨더 오브젝트는 HTML 문서를 파싱하여 합성엔진 제어용 TAG를 추출한다. 제어용 TAG에는 음성합성 데이터베이스 변경 및 합성음의 길이 또는 피치조절 파라미터 등의 정보를 갖고 있어 동적으로 합성음을 제어할 수 있다. 또한 컴맨더 오브젝트는 HTML 문서 내부의 특정 태그로 지정된 문장을 추출하여 전처리 과정을 수행한 후 합성엔진을 위한 컴맨드 스트림을 발생한다. 음성합성엔진은 컴맨드 스트림을 훼치(Fetch)하여 명령어를 해석하고 해당 명령어를 상응하는 멤버함수를 실행하여 음성을 합성한다. 컴맨더 오브젝트와 음성합성엔진은 각각 독립적인 객체로 설계하여 이식성과 유연성을 높인다.

  • PDF

조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성향상 (Speech Enhancement Based on Minima Controlled Recursive Averaging Technique Incorporating Conditional MAP)

  • 금종모;박윤식;장준혁
    • 한국음향학회지
    • /
    • 제27권5호
    • /
    • pp.256-261
    • /
    • 2008
  • 본 논문에서는 기존의 최소값 제어 재귀 평균기법(minima controlled recursive averaging, MCRA) 알고리즘에 조건 사후 최대 확률 (maximun a posteriori, MAP)을 적용한 음성향상을 제안한다. 기존의 MCRA는 파워스펙트럼에 평균을 취하고 각 서브밴드에서 음성 신호 존재 확률로 조절하는 스무딩 매개변수를 사용한다. 본 논문에서 제안된 알고리즘은 현재 프레임에 들어온 신호가 이전 프레임에서의 음성의 존재와 부재에 대한 조건을 부여해 주어 음성 신호 존재확률을 수정하여 음성향상에 적용한다. 제안된 음성 향상은 ITU-T P.862 perceptual evaluation of speech quality (PESQ)와 주관적 음질평가를 이용하여 평가하였고 기존의 MCRA 방법보다 향상된 결과를 나타내었다.

자기피드백 마스킹 기법을 사용한 카오스 음성비화통신 (Chaotic Speech Secure Communication Using Self-feedback Masking Techniques)

  • 이익수;여지환
    • 한국지능시스템학회논문지
    • /
    • 제13권6호
    • /
    • pp.698-703
    • /
    • 2003
  • 본 논문에서는 카오스 신호를 이용하여 음성신호의 보안전송을 위한 아날로그 비화통신 시스템을 제안하고 통신성능을 분석하였다. 기존의 카오스 동기화 및 카오스 변조통신 알고리즘을 개선하여 통신환경에서 발생하는 다양한 조건들을 적용하여 음성신호의 복원능력을 모의실험 하였다. 일반적인 PC(Pecora & Carroll) 제어기법과 제안한 SFB(Self-FeedBack) 마스킹 기법을 사용하여 송신단에서 음성신호를 카오스 신호로 마스킹하여 변조하고, 통신채널에 잡음신호를 추가하여 전송하였다. 수신단에서는 카오스 응답시스템을 이용하여 음성신호를 복조하고, 복원성능을 계산하기 위하여 아날로그 복원 에러 신호의 평균전력을 제안하여 계산하였다. 실험결과 마스킹 정도, 파라미터들의 민감성, 채널잡음 등에 대하여 PC 제어기법보다 피드백 제어기법의 복원성능이 우수함을 정량적인 데이터로 확인할 수 있었다. 또한 로렌쯔 카오스 비화통신시스템에 사용할 경우 파라미터들의 조합으로 암호키를 구성해야 하므로 파라미터 변화율에 대응하는 복원에러율의 관계를 모의실험 값으로 구하였다.

피쳐 퓨전 모듈을 이용한 콘포머 기반의 노인 음성 인식 (Conformer-based Elderly Speech Recognition using Feature Fusion Module)

  • 이민식;김지희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.39-43
    • /
    • 2023
  • 자동 음성 인식(Automatic Speech Recognition, ASR)은 컴퓨터가 인간의 음성을 텍스트로 변환하는 기술이다. 자동 음성 인식 시스템은 다양한 응용 분야에서 사용되며, 음성 명령 및 제어, 음성 검색, 텍스트 트랜스크립션, 자동 음성 번역 등 다양한 작업을 목적으로 한다. 자동 음성 인식의 노력에도 불구하고 노인 음성 인식(Elderly Speech Recognition, ESR)에 대한 어려움은 줄어들지 않고 있다. 본 연구는 노인 음성 인식에 콘포머(Conformer)와 피쳐 퓨전 모듈(Features Fusion Module, FFM)기반 노인 음성 인식 모델을 제안한다. 학습, 평가는 VOTE400(Voide Of The Elderly 400 Hours) 데이터셋으로 한다. 본 연구는 그동안 잘 이뤄지지 않았던 콘포머와 퓨전피쳐를 사용해 노인 음성 인식을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 콘포머 모델보다 높은 수준의 정확도를 보임으로써 노인 음성 인식을 위한 딥러닝 모델 연구에 기여했다.

  • PDF