• Title/Summary/Keyword: 음성인터페이스

Search Result 401, Processing Time 0.027 seconds

Cursor Moving by Voice Command using Fuzzy Inference (퍼지 추론을 이용한 음성 명령에 의한 커서 조작)

  • 추명경;손영선
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2000.11a
    • /
    • pp.209-212
    • /
    • 2000
  • 본 논문에서 마우스 대신에 음성으로 명령을 입력하여 퍼지 추론을 통해 윈도우 화면상의 커서를 이동시키는 인터페이스를 구현하였다. 입력된 음성이 대체로 짧은 언어이기에 이를 인식하기 위하여 고립단어 인식에 강한 DTW방식을 사용하였다. DTW방식의 단점중인 하나가 음성길이가 비슷한 명령을 입력하였을 때 표준패턴 중 오차 값이 가장 작은 패턴으로 인식하는 것이다. 예를들면 아주 많이 이동해 라는 음성이 입력되었을 때 동일한 음성길이를 가진 아주 많이 오른쪽으로 인식하는 경우가 있다. 이런 오류를 해결하고자 각 패턴의 DTW 오차 값 범위와 표준 패턴의 음성길이를 기준으로 임계값을 퍼지 추론하여 명령으로서 수락 여부를 결정하였다. 판단이 애매한 부분은 사용자에게 질의를 하여 응답에 따라 수락 여부를 결정하였다.

  • PDF

Implementation of Interface to Support Mobile Accessibility Using Speech I/O APIs (음성 입출력 API를 이용한 모바일 접근성 지원 인터페이스 구현)

  • Oh, Seungchur;Yun, Young-Sun
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.1
    • /
    • pp.71-80
    • /
    • 2013
  • Due to the increased use of mobile devices, there is a lot of discussion on mobile accessibility. Mobile accessibility means that everyone, who includes the disabled, the elderly people, can easily use the functions of mobile devices. In this paper, we presented and implemented a mobile interface using a speech I/O APIs to improve the accessibility. The proposed interfaces are implemented on Android platforms and they used speech recognition and text-to-speech APIs supported as built-in services. In addition, to facilitate the internet access for visually impaired or blind people, we also implemented the web browsing application (web reader).

Design and Implementation of the Speech Recognition-based Dynamic EPG Control System in Digital Broadcasting environment (디지털 TV 환경에서 음성인식을 통한 동적 EPG 제어 시스템 설계 및 구현)

  • Kim, Seong-Won;Na, Hee-Joo;Si, Jang-Hyun;Kim, Jung-Hwan;Jung, Moon-Ryul
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.216-221
    • /
    • 2007
  • 디지털 방송은 수많은 프로그램과 기존의 아날로그 방송에서 볼 수 없었던 다양한 서비스를 제공하며 발전하고 있다. 하지만 시청자들에게는 방송 서비스 채널과 기능이 많아질수록 원하는 채널을 검색하고 전환하는 과정이 어렵고 복잡한 일이 되어 버릴 수 밖에 없을 것이다. 이에 본 논문에서는 이러한 정보 획득과정의 축소를 위해 전통적인 리모콘으로 채널을 검색하고 이동하는 절차를 벗어나 음성인식을 통한 동적 EPG(Electronic Program Guide) 제어 시스템을 설계하고 구현하고자 한다. 이는 EPG정보와 시청자의 TV시청 성향 및 History를 기반으로 구동되는 시스템으로 음성대화의 구조적 정의가 가능한 VXML(VoiceXML) 인터프리터를 활용한다. 본 논문에서 제안하는 대화형 인터페이스는 다양한 디지털방송 서비스에 접목이 가능 할 것이며, 새로운 형태의 디지털 가전기기 파일럿 인터페이스 개발에 도움이 될 것이라 기대한다.

  • PDF

Service Scenario Creator of Voice Processing System (음성 처리 시스템의 서비스 시나리오 생성기)

  • Hwang, Byung-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11b
    • /
    • pp.1313-1316
    • /
    • 2002
  • 본 논문은 음성 처리 시스템의 서비스 시나리오 생성기에 관한 것으로, 좀더 상세하게는, 음성 처리 시스템의 서비스 시나리오를 생성하기 위한 단위 서비스 상태를 각각 정의하고 수행하는 다수의 상태 정의 모듈과, 시나리오 작성자가 상기 다수의 상태 정의 모듈 중 서비스 시나리오의 작성에 필요한 상태 정의 모듈들을 추출하고 추출된 각 상태 정의 모듈의 입력 값, 비교 값 및 분기할 다음 상태 정의 모듈 명을 지정할 수 있도록 유저 인터페이스 기능을 제공하는 유저 인터페이스 모듈과, 시나리오 작성자에 의하여 추출된 상태 정의 모듈들에 상기 지정된 입력 값, 비교 값 및 분기할 다음 상태 정의 모듈 명을 입력하여 서비스 시나리오를 생성하는 서비스 시나리오 생성 모듈과, 생성된 서비스 시나리오를 제어부가 실행할 수 있는 실행 코드로 변환하여 제어부에 제공하는 실행 코드 변환 모듈로 이루어지는 음성 처리 시스템의 서비스 시나리오 생성기에 관한 것이다.

  • PDF

Implementation of Bluetooth-VoIP Integration System Based Embedded Linux (RTOS 리눅스 환경에서의 Bluetooth-VoIP 통합 시스템 구현)

  • Yun, Jung-Mee;Cho, We-Duke;Kim, Dae-Hwan;Lee, Sang-Hak;Kim, Yong-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11b
    • /
    • pp.1371-1374
    • /
    • 2002
  • 본 논문에서는 내장형 리눅스를 기반으로 무선 네트웍과 실시간 음성처리 VoIP 와의 연동시스템을 설계 구현한다. 설계 구현하는 시스템의 하드웨어 스펙은 Motorola-XPC860 프로세서를 기반으로 설계되었으며, 음성 코덱칩을 사용하여 실시간으로 음성데이터를 처리하도록 설계하였다. 또한 2.4GHz 무선 통신 규약인 Bluetooth 를 무선 네트웍 인터페이스로 사용하였다. 실시간 음성데이터의 효과적인 처리를 위하여 실시간 운영 체제인 RTLinux 를 사용하였으며, 무선 네트워크의 동시다중 서비스 지원을 위해 커널레벨의 문자 디바이스 형태로의 Bluetooth 인터페이스 구현에 대해 살펴보도록 하겠다.

  • PDF

A study on pitch detection for RUI emotion classification based on voice (RUI용 음성신호기반의 감정분류를 위한 피치검출기에 관한 연구)

  • Byun, Sung-Woo;Lee, Seok-Pil
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.421-424
    • /
    • 2015
  • 컴퓨터 기술이 발전하고 컴퓨터 사용이 일반화 되면서 휴먼 인터페이스에 대한 많은 연구들이 진행되어 왔다. 휴먼 인터페이스에서 감정을 인식하는 기술은 컴퓨터와 사람간의 상호작용을 위해 중요한 기술이다. 감정을 인식하는 기술에서 분류 정확도를 높이기 위해 특징벡터를 정확하게 추출하는 것이 중요하다. 본 논문에서는 정확한 피치검출을 위하여 음성신호에서 음성 구간과 비 음성구간을 추출하였으며, Speech Processing 분야에서 사용되는 전 처리 기법인 저역 필터와 유성음 추출 기법, 후처리 기법인 Smoothing 기법을 사용하여 피치 검출을 수행하고 비교하였다. 그 결과, 전 처리 기법인 유성음 추출 기법과 후처리 기법인 Smoothing 기법은 피치 검출의 정확도를 높였고, 저역 필터를 사용한 경우는 피치 검출의 정확도가 떨어트렸다.

  • PDF

Emotion Recognition of Speech Using the Wavelet Transform (웨이블렛 변환을 이용한 음성에서의 감정인식)

  • Go, Hyoun-Joo;Lee, Dae-Jong;Chun, Myung-Geun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.817-820
    • /
    • 2002
  • 인간과 기계와의 인터페이스에 있어서 궁극적 목표는, 인간과 기계가 마치 사람과 사람이 대화하듯 자연스런 인터페이스가 이루어지도록 하는데 있다. 이에 본 논문에서는 사람의 음성속에 깃든 6개의 기본 감정을 인식하는 알고리듬을 제안하고자 한다. 이를 위하여 뛰어난 주파수 분해능력을 갖고 있는 웨이블렛 필터뱅크를 이용하여 음성을 여러 개의 서브밴드로 나누고 각 밴드에서 특징점을 추출하여 감정을 이식하고 이를 최종적으로 융합, 단일의 인식값을 내는 다중의사 결정 구조를 갖는 알고리듬을 제안하였다. 이를 적용하여 실제 음성 데이타에 적용한 결과 기존의 방법보다 높은 90%이상의 인식률을 얻을 수 있었다.

  • PDF

음성인식 연구의 국내외 연구현황과 전망

  • 정현열
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.23-30
    • /
    • 1998
  • 음성인식기술이 어떻게 변천되어 왔는가를 살펴보고, 음성인식 연구에 관한 최근의 국내외 연구동향과 앞으로의 전망에 관하여 논하고자 한다. 국외의 경우 국가적 차원에서 대규모 프로젝트를 중심으로 연구가 진행되어 음성인식 기술이 크게 발전하여 현재 일부 실용화 시스템이 개발되어 사용되고 있다. 국내의 경우 1980년대부터 비교적 활발한 연구가 이루어져 최근 몇 년간 많은 발전을 가져왔다. 최근에는 대어휘 연속음성인식에서도 신뢰할 만한 결과가 많이 보고되고 있으며, 음성 인식 기술 뿐만 아니라 멀티미디어 기술을 이용한 다양한 휴먼 인터페이스를 제공하는 보다 편리한 휴대용 단말기에 관한 연구도 활발해지고 있다.

  • PDF

Speech Based Multimodal Interface Technologies and Standards (음성기반 멀티모달 인터페이스 및 표준)

  • Hong Ki-Hyung
    • MALSORI
    • /
    • no.51
    • /
    • pp.117-135
    • /
    • 2004
  • In this paper, we introduce the multimodal user interface technology, especially based on speech. We classify multimodal interface technologies into four classes: sequential, alternate, supplementary, and semantic multimodal interfaces. After introducing four types of multimodal interfaces, we explain standard activities currently being activated.

  • PDF

A Study on the Intelligent Man-Machine Interface System: The Experiments of the Recognition of Korean Monotongs and Cognitive Phenomena of Korean Speech Recognition Using Artificial Neural Net Models (통합 사용자 인터페이스에 관한 연구 : 인공 신경망 모델을 이용한 한국어 단모음 인식 및 음성 인지 실험)

  • Lee, Bong-Ku;Kim, In-Bum;Kim, Ki-Seok;Hwang, Hee-Yeung
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.101-106
    • /
    • 1989
  • 음성 및 문자를 통한 컴퓨터와의 정보 교환을 위한 통합 사용자 인터페이스 (Intelligent Man- Machine interface) 시스템의 일환으로 한국어 단모음의 인식을 위한 시스템을 인공 신경망 모델을 사용하여 구현하였으며 인식시스템의 상위 접속부에 필요한 단어 인식 모듈에 있어서의 인지 실험도 행하였다. 모음인식의 입력으로는 제1, 제2, 제3 포르만트가 사용되었으며 실험대상은 한국어의 [아, 어, 오, 우, 으, 이, 애, 에]의 8 개의 단모음으로 하였다. 사용한 인공 신경망 모델은 Multilayer Perceptron 이며, 학습 규칙은 Generalized Delta Rule 이다. 1 인의 남성 화자에 대하여 약 94%의 인식율을 나타내었다. 그리고 음성 인식시의 인지 현상 실험을 위하여 약 20개의 단어를 인공신경망의 어휘레벨에 저장하여 음성의 왜곡, 인지시의 lexical 영향, categorical percetion등을 실험하였다. 이때의 인공 신경망 모델은 Interactive Activation and Competition Model을 사용하였으며, 음성 입력으로는 가상의 음성 피쳐 데이타를 사용하였다.

  • PDF