• 제목/요약/키워드: 음성 명령

검색결과 112건 처리시간 0.03초

음성인식을 이용한 Windows 95 제어 시스템의 구현 (The Implementation of Windows 95 Control System with Speech Recognition)

  • 남동선
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.43-46
    • /
    • 1998
  • 본 논문은 컴퓨터 사용에 미숙한 초보자나 키보드나 마우스를 사용할 수 없는 신체적인 조건을 가진 장애인 또는 PC사용에 미숙한 사용자들을 위해 기존의 인터페이스에 추가적으로 음성을 사용하여 더 효율적인 작업 환경을 만들기 위한 음성을 이용한 Window95 환경에서의 음성 인식 시스템 구현에 관한 것이다. 인터페이스 구현을 위해 사용되는 인식 알고리즘으로는 연결어 인식에 사용되는 OSDP[1] 알고리즘을 단독어 인식에 적용하여 사용하였다. 특징 벡터는 화자 독립적인 특성을 지닌 Perceptual Linear Predictive(PLP)[2] 13차 계수를 사용하였다. 인식 대상 어휘는 윈도우 사용자에게 자주 사용되는 60개의 명령어로 설정하였다. 인식된 후 그 결과는 구현된 시스템의 명령 실행 모듈로 전달되어 윈도우 상에서 실제 수행된다. 구현된 시스템에서는 노트북 내장 마이크를 사용하여 음성을 검출하였고 이를 위한 음성 구간 검출 알고리즘을 사용하였다. 기준 패턴은 20대 남성화자 9인이 2회 발성한 데이터를 이용하였고, 화자 독립으로 온라인 인식률은 91.71%이고, 오프라인 인식률은 96.4%의 인식률을 얻었다.

  • PDF

PDA용 음성명령기 개발 (The development of an application invocation using speech recognition on PDA)

  • 이상철;정영준
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 한국정보통신설비학회 2002년도 하계학술대회 및 세미나
    • /
    • pp.213-219
    • /
    • 2002
  • 본 논문은 상용 OS 인 windows CE 기반의 PDA에서 음성으로 각 응용 프로그램 을 실행하는 방법 및 구성을 제시한다. PDA는 기존 desktop PC 에 비해 사용자 입력수단이 많지 않고, 그 사용법조차 까다롭다. 예를 들어 SIP(Soft Input Panel)을 이용하여 채팅을 하거나 인터넷 웹 브라우저에 주소입력조차 쉽지 않다. 이에 KT의 자체 개발한 음성인식엔진을 이용하여 PDA내 응용프로그램 과 사용자입력 요구사항을 원활히 연결, 보다 편리한 사용자 입력인터페이스를 제공한다. KT의 음성인식엔진은 corpus 기반으로 HMM 모델을 이용, 사용자 음성을 인식하여 그 결과를 출력한다. 본 논문에서는 PDA에서의 이러한 음성인식엔진을 이용, 다수의 응용프로그램을 실행하고 제어하는 구성과 패턴을 제시한다.

  • PDF

독서장애인 전자책을 위한 음성인식을 이용한 어노테이션 브라우징 기법 (An Annotation Browsing Technique in e-book for Reading-disabled People Using Voice Recognition)

  • 박주현;이종우;임순범
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.403-405
    • /
    • 2012
  • 본 연구에서는 독서장애인을 위한 전자책용 어노테이션의 탐색 및 재생 기법을 제안하고 이를 음성 어노테이션 브라우징 시스템이라 칭하였다. 제안된 음성어노테이션 브라우징 시스템은 명령 입력, 중요도 분석 및 추천, 검색, 출력단계로 구성된다. 특히 본 연구에서는 대상 사용자가 청각 의존도가 높은 독서장애인들이기 때문에 완전히 청각에 의존해서 사용할 수 있도록 모든 단계에서 음성인식 기능을 제공한다. 제안된 음성 어노테이션 브라우징 시스템의 효율성을 검증하기 위해 안드로이드 환경에서 실행되는 전자책 소프트웨어와 음성 어노테이션 브라우징 시스템을 설계하고 구현하였다.

모바일 환경에서 인증과 음성인식을 위한 웹 서비스 구현 (An Implementation of the Web Service for Authorization and Speech Recognition in the Mobile Environment)

  • 오지영;김윤중;고유정
    • 한국멀티미디어학회논문지
    • /
    • 제8권2호
    • /
    • pp.225-232
    • /
    • 2005
  • PDA는 저장 공간이 제약적이고 입력을 위해 펜 기반장치를 사용해야 하므로 불편함을 지닌다. 본 논문에서는 이러한 불편함을 보완하기 위하여 기존의 음성인식 시스템을 XML(extensible Markup Language) 웹 서비스로 제공하고, PDA에서 음성인식 웹 서비스를 요청함으로써 음성명령이 가능하도록 구현하였다. 본 시스템의 구성은 모바일 클라이언트와 음성인식 웹 서비스 프로바이더로 되어 있다. 모바일 클라이언트는 사용자정보와 음성 데이터를 DIME(Direct Internet Message Encapsulation)을 이용하여 음성 인식 웹 서비스 프로바이더를 요청한다. 음성 인식 웹 서비스 프로바이더는 인증된 클라이언트에 한하여 음성 인식 결과와 사용자명을 반환하는 서비스를 제공한다. 따라서 이 시스템은 PDA에서 대용량의 음성 DB나 음성인식 시스템을 직접 탑재하지 않고도 음성인식 서비스를 이용할 수 있다.

  • PDF

주행중인 자동차 환경에서의 음성인식 연구 (A Study on Speech Recognition in a running automobile)

  • 유봉근
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.47-50
    • /
    • 1998
  • 본 논문은 자동차의 편의성 및 안전성의 동시 확보를 위하여, 보조적 스위치의 조작없이 상시 음성의 입,출력이 가능하도록 하며, band pass filter를 이용하여 잡음환경에서 자동으로 정확하게 음성구간 검출(End Point Detection)을 하게 하였다. Reference Pattern은 Dynamic Multi-Section(DMS)[1] 모델을 사용하였고 차량의 속도에 따라 자동으로 잡음환경에 강인한 모델을 선택하도록 하였으며, 음성의 특징 파라미터와 인식 알고리즘은 Perceptual Linear Predictive(PLP) 13차와 One Stage Dynamic Programming(OSDP)를 사용하였다. 주행중인 자동차 환경(30~70km/h)에서 자주 사용되는 차량제어 명령 33개에 대하여 화자독립 92.98%, 화자종속 94.44% 인식율을 구하였다. 또한 주행중인 차량에서 카폰, 핸드폰 사용으로 인한 사고를 줄이기 위하여 음성으로 전화를 걸 수 있도록 하는 Voice Dialing 기능도 구현하였다.

  • PDF

고속 주행중인 자동차 환경에서의 음성인식 연구 (A Study of Speech Recognition in a High Speed Automobile)

  • 유봉근
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.65-69
    • /
    • 1998
  • 고속 주행중인 자동차 환경에서 운전자의 안전 및 편의성을 위하여, 음성인식 기술을 이용한 각종 차량 편의장치를 제어하는 것으로, 운전자와 자동차와의 Man Machine Interface 구조로 구성되었다. 이 시스템은 주행중인 자동차 환경에서 보조적인 스위치의 조작없이 상시 음성의 입, 출력이 가능하도록 하며, band pass filter를 이용하여 잡음 환경에 강인한 모델을 선택하도록 하였으며, 음성의 특징 파라미터와 인식 알고리즘은 perceptual linear predictive 13차와 one-stage dynamic programming을 사용하였다. off-line 실험 결과 고속 주행중인 자동차 환경에서 자주 사용하는 차량제어 명령 33개에 대하여 화자독립 82.47%(중부고속도로), 화자종속 94.44%의 인식율을 구하였다. 또한 고속 주행중인 차량에서 kvhs, 핸드폰 사용으로 인한 사고를 줄이기 위하여 음성으로 전화를 걸 수 있도록 하는 Voice Dialing기능도 구현하였다.

  • PDF

모바일 명함 검색을 위한 음성인식시스템 구현 (A Development of Speech Recognition System for Mobile Card Search)

  • 홍인숙;고유정;김윤중
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.138-141
    • /
    • 2009
  • 모바일 명함 관리 시스템은 간편하게 모바일 기기를 이용하여 명함을 등록하고 검색할 수 있으나 모바일 기기의 특징상 화면이 작고 정보를 이용하기 위해서는 펜을 이용하여 검색어를 입력해야하는 불편함이 있다. 이를 해결하기 위해 명령을 음성으로 처리하고자하는 VUI(Voice User Interface)의 필요성이 증가하였다. 또한 모바일 기기의 메모리 공간상의 제약으로 인한 음성인식엔진 탑재의 어려움이 있다. 이에 본 논문에서는 모바일 단말기로부터 음성을 입력받아 인식결과를 모바일 단말기로 되돌려 주는 음성인식 시스템을 구축하고 본 인식시스템과 모바일 클라이언트 시스템을 분산처리 가능한 웹서비스 환경으로 구성하였다.

OpenPose를 활용한 음성인식기반 드론제어 촬영시스템 (Speech-Recognition Drone Camera System using OpenPose)

  • 조유진;김세현;권예림;정순호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.1056-1059
    • /
    • 2020
  • 최근 드론과 1인 미디어 시장의 성장으로, 영상 촬영 분야에서의 드론 산업이 활발하게 발전되고 있다. 본 논문에서는 딥러닝 기반 다중 객체 인식 기술인 Openpose를 활용하여 인물촬영을 위한 음성인식 드론 제어 시스템을 제안한다. 해당 시스템은 자연어 처리된 음성명령어를 통해 드론이 각 촬영 객체에 대한 회전, 초점변화 등 실제 영상촬영기법에 사용되는 다수의 동작을 수행할 수 있도록 한다. 최종적으로 96.2%의 정확도로 음성명령에 따라 동작을 수행하는 것을 확인할 수 있다. 이는 누구나 전문적 지식이나 경험 없이 음성만으로 쉽게 드론을 제어할 수 있을 것으로 기대된다.

동작 관련 뇌파를 이용한 BCI

  • 조선영;김정애;황동욱;한승기
    • 정보과학회지
    • /
    • 제22권2호
    • /
    • pp.35-44
    • /
    • 2004
  • 인간이 기계를 운용하기 위해서는 인간의 의사를 적절한 방법으로 기계에 입력하여야 하고 명령에 따른 기계의 작동을 때맞추어 알아볼 수 있어야 한다. 이러한 인간과 기계간의 소통(interface)의 대표적인 예를 컴퓨터에서 찾을 수 있다. 인간이 컴퓨터와 소통하는 가장 전형적인 방법은 자판과 마우스, 그리고 모니터를 통한 입출력이다. 스캐너 펜이나 보이스 펜, 착용형 마우스, 또는 카드 리더기나 바코드 입력기, 지문 감식기와 같은 보다 전문적인 입력기기도 존재하며, 별도의 입력기기를 사용하지 않고 직접 음성으로 컴퓨터를 제어하는 음성인식 시스템 또한 활용단계에 이르렀다.

스마트 스피커 대상 가청 주파수 대역을 활용한 적대적 명령어 공격 방법 제안 (Proposal of Hostile Command Attack Method Using Audible Frequency Band for Smart Speaker)

  • 박태준;문종섭
    • 인터넷정보학회논문지
    • /
    • 제23권4호
    • /
    • pp.1-9
    • /
    • 2022
  • 최근 스마트 스피커의 기능이 다양해지면서 스마트 스피커의 보급률이 증가하고 있다. 보급이 증가함에 따라 스마트 스피커에 대해 비정상적인 행위를 발생시키는 기법이 제안되고 있으며 여러 가지 공격 중 Voice Controllable System(VCS)에 대해 비정상적인 행위를 발생시키는 DolphinAttack은 초음파(f>20kHz)를 이용하여 사용자의 인식 없이 VCS를 제3자가 제어하는 방법이다. 하지만 기존의 제어 방법은 초음파 대역을 사용하기 때문에 초음파 신호를 출력할 수 있는 초음파 스피커나 초음파 전용 장비의 설치가 필요했다. 본 논문에서는 추가적인 장비, 즉, 초음파 장비의 설치 없이 사람의 가청 주파수 대역이지만 노화에 의해 듣기 힘든 주파수(18k~20kHz)로 변조된 음성신호를 출력하여, 스마트 스피커를 제어하는 방법을 제안한다. 스마트 스피커의 경우 마이크가 내장되어 있어, 변조된 음성신호를 수신할 수 있다. 본 논문에서 제안한 방법으로 수행한 결과, 가청 대역임에도 불구하고 사람은 음성명령을 인식하지 못하였으며, 스마트 스피커에 대해 82~96%의 확률로 제어가 가능했다.