Search | Korea Science

Real-time implementation of speaker dependent speech recognition hardware module using the TMS320C32 DSP (TMS320C32 DSP를 이용한 실시간 화자종속 음성인식 하드뒈어 모듈 구현)

Chung, Hoon;Chung, Ik-joo
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1998.08a
- /
- pp.14-22
- /
- 1998
본 연구에서는 Texas instruments 사의 저가형 부동소수점 디지털 신호 처리기인 TMS320C32를 이용하여 실시간 화자종속 음성인식 하드웨어 모듈을 개발하였다. 하드웨어 모듈의구성은 40MHz 의 TMS320C32, 14bit 코덱인 TLC32044, EPROM 과 SRAM 등의 메모리와 호스트 인터페이스를 위한 로직회로로 이루어져 있다. 뿐만 아니라 이 하드웨어 모듈을 PC 상에서 평가해보기 위한 PC 인터페이스용 보드 및 소프트웨어도 개발하였다. 음성인식 알고리즘은 C 및 어셈블리를 이용한 최적화를 통하여 계산속도를 대폭 개선하였다. 현재 인식률은 일반 사무실 환경에서 30단어에 대하여 95% 이상으로 매우 높은 편이며, 특히 배경음악이나 자동차 소음과 같은 잡음환경에서도 잘 동작한다.
PDF

VoiceEPG: Speech Interface for Electronic Program Guide (전자프로그램 가이드를 위한 음성 인터페이스)

김한수;황인준
- Proceedings of the Korean Information Science Society Conference
- /
- 2003.10c
- /
- pp.589-591
- /
- 2003
최근 디지털 TV 방송의 활성화에 힘입어 수많은 채널을 통한 TV 프로그램 방송이 가능하게 되었다. 이로 인해 디지털 TV 시청자들은 신문 또는 TV 가이드와 같은 기존 인쇄매체를 통해 자신이 원하는 TV 프로그램 스케줄을 얻기가 사실상 매우 어렵게 되었다. 이와 같은 문제점을 해결하기 위해 디지털 TV 환경에서는 전자 프로그램 가이드(EPG: Electronic Program Guide)를 제공한다. 현재 제공되고 있는 EPG 서비스들은 대개 디지털 TV 화면 또는 각 방송사 웹 사이트 그리고 이동 단말기 등을 통해서 서비스 되고 있다. 대부분의 기존 연구들은 EPG 정보를 화면상에 시각적으로 제공하는 측면에만 초점을 두고 있다. 하지만 실질적으로 사용자 입장에서는 원하는 방송 프로그램의 스케줄 정보를 찾기 위해서 수백 채널에 달하는 방송 프로그램에 대한 정보를 일일이 검색하는 것은 매우 힘든 일이다. 게다가 사용자가 원하는 키워드를 직접 입력하는 방식 또한 사용자를 매우 번거롭게 한다. 따라서 본 논문에서는 EPG 서비스 방식에 VoiceXML 관련 기술을 접목하여 이동 단말기상에서 간단한 음성입력을 통해 EPG 서비스를 제공받을 수 있는 음성 인터페이스를 제안한다.
PDF

Conversation Analysis based on User-Personality Traits for Voice User Interface (음성 인터페이스를 위한 사용자 성격 관련 담화분석)

Kim, Jinguk;Kwon, Soonil
- Proceedings of the Korea Information Processing Society Conference
- /
- 2011.11a
- /
- pp.341-343
- /
- 2011
이번 연구에서는 음성신호로부터 성격을 자동으로 인식하는 성격 인식 사용자 인터페이스에 대한 기술을 소개한다. 사용자의 음성대화 과정에서 말투로부터 성격 인식, 특히 외향과 내향을 구분해 내기 위해 사용되는 행동패턴에 있어서 대화중에 발생하는 생각을 위한 시간의 할애를 기초한다. 이를 바탕으로 질문이 주어진 후 이에 대한 답변을 시작하는데 걸리는 시간, 그리고 대화의 중간에 생각할 시간을 갖기 위해 활용하는 언어 주저형의 빈도수를 고려하여 사용자 성격분류의 실험을 실시하였다. 그 결과 평균적으로 약 65%의 성공률을 보였다.
https://doi.org/10.3745/PKIPS.y2011m11a.341 인용 PDF

음성인식기술의 현황과 전망

Lee, Jong-Rak
- Annual Conference on Human and Language Technology
- /
- 1992.10a
- /
- pp.689-707
- /
- 1992
인간의 가장 익숙한 정보교환 수단인 음성을 기계가 인식하게 함으로써 모든 기계를 말로써 작동시키고자 하는 것은 인간의 오랜 꿈이었다. 최근 컴퓨터 기술과 음성처리 기술의 급속한 발달에 힘입어 그 꿈은 현실로 다가오고 있다. 현재 고립어 인식은 충분히 실용화될 수 있는 단계에 들어 섰으며 이제 연속어 인식 내지 연속어 이해에 연구가 집중되고 있다. 인간과 기계를 인터페이스하는 언어의 전위레벨로서 날로 그 중요성이 부각되고 있는 음성인식 기술의 현황을 살펴보고 그것의 미래를 전망해 본다.
PDF

다중 서버 구조를 갖는 Web 기반 음성 수집 시스템

홍문기;강선미;장문수
- Proceedings of the KSLP Conference
- /
- 2003.11a
- /
- pp.230-232
- /
- 2003
음성에 관련된 연구분야에 있어서 음성 데이터 수집의 중요성은 매우 크다. 개발된 인식기나 분석기의 성능이 좋다 하더라도 실험에 사용된 음성 데이터의 질과 양에 따라서 실험 결과를 확정짓기가 어려운 점이 있다. 대개의 경우 음성 수집은 오프라인으로 이루어지는데, 실험에서 요구되는 특정 수집자에 대해서 일정 기간과 정해진 장소에서 반복 수집하는 것은 어려움이 많이 따른다. 그러므로 본 연구에서는 Web을 이용하여 음성 데이터 수집자로 하여금 다양한 시간과 장소에서 자유롭게 음성을 수집할 수 있도록 하였다. 이에 대하여 수집된 음성 데이터의 크기가 커짐에 따른 통신상에서 종종 발생하는 문제점을 개선하려는 목적으로 다중 서버를 두어 수집된 데이터는 지역 서버에 일단 저장되었다가 적절한 상황에서 메인 서버로 자동 전송하는 시스템을 구축하였다. 본 시스템은 서로 다른 실험에서 수집되는 데이터를 수집 지역서버를 지정해 줌으로서 수집자가 원하는 특정 지역 서버에서 별도로 관리할 수 있도록 구성되어 있다. 시간, 위치의 제약 없이 인터넷이 연결된 장소에서는 음성을 수집할 수 있고, 웹상 ActiveX 프로그램을 제공함으로써 일관된 끝점처리 및 잡음처리 기능을 반영할 수 있다. 또한 다양한 응용에 적절한 수집기의 인터페이스를 관리자 모드에서 변경하여 사용할 수 있도록 함으로서 넓은 층에서의 활용도를 높였다. (중략)
PDF

Speech Database for 3-5 years old Korean Children (만 3-5세 유아의 한국어 음성 데이터베이스 구축)

Yoo, Jae-Kwon;Lee, Kyung-Ok;Lee, Kyoung-Mi
- The Journal of the Korea Contents Association
- /
- v.12 no.4
- /
- pp.52-59
- /
- 2012
Children develop their language skill rapidly between age 3 and 5. To meet the child's language development through a variety of experiences, it is necessary to develop age-appropriate contents. So it needs to develop various contents using speech interface for children, but there is no speech database of korean children. In this paper, we develop speech database of 3 to 5 years old children in korean. For collecting accurate children's speech, child education experts examine in the speech database development process. The words for database are selected from MCDI-K in two stage and children speak a word three times. Such collected speech are tokenized by child and word and stored in database. This speech database will be transferred through web and, hopefully, be the foundation of development of children-oriented contents.
https://doi.org/10.5392/JKCA.2012.12.04.052 인용 PDF KSCI

An Emotion Recognition Technique Using Speech Signals (음성신호를 이용한 감정인식)

Jeong, Byeong-Uk;Cheon, Seong-Pyo;Kim, Yeon-Tae;Kim, Seong-Sin
- Proceedings of the Korean Institute of Intelligent Systems Conference
- /
- 2007.11a
- /
- pp.123-126
- /
- 2007
본 논문은 음성신호를 이용한 감정인식에 관한 연구이다. 감정인식에 관한 연구는 휴먼 인터페이스(Human Interface) 기술의 발전에서 인간과 기계의 상호작용을 위한 것이다. 본 연구에서는 음성신호를 이용하여 감정을 분석하고자 한다. 음성신호의 감정인식을 위해서 음성신호의 특정을 추출하여야한다. 본 논문에서는 개인에 따른 음성신호의 감정인식을 하고자하였다. 그래서 화자인식에 많이 사용되는 음성신호 분석기법인 Perceptual Linear Prediction(PLP) 분석을 이용하여 음성신호의 특정을 추출하였다. 본 연구에서는 PLP 분석을 통하여 개인화된 감정 패턴을 생성하여 간단하면서도 실시간으로 음성신호로부터 감정을 평가 할 수 있는 알고리즘을 만들었다.
PDF

Review of Educational Applications of Artificial Intelligence Speakers (인공지능 스피커의 교육적 활용 방안 고찰)

Ahn, Jeoung-Eun;Jun, Youngcook
- Proceedings of The KACE
- /
- 2018.01a
- /
- pp.93-95
- /
- 2018
음성인식 기술이 인공지능의 핵심 연구 분야로 떠오르면서 음성인식 기술은 인공지능(AI)과 결합하여 음성비서, 자율 주행차, 실시간 음성검색, 음성 통역 등 다양한 분야에서 활용될 것으로 기대되고 있다. 문자가 아닌 음성으로 검색하는 새로운 검색 시장이 확대되면서 '음성이용자인터페이스(VUI: Voice User Interface)' 인 음성비서 서비스 기능을 가진 인공지능(AI) 스피커 시장 경쟁이 시간이 갈수록 가열되고 있다. 이에 인공지능 스피커의 등장배경부터 현재 국내외 음성인식 기기 소개 그리고 앞으로의 교육의 방향에 맞는 음성인식 기기의 교육적 활용 방안에 대해서 알아보고자 한다.
PDF

Development of User Interface for Tablet PC-based PBL (Problem-based Learning) System (태블릿 PC 기반의 PBL 학습시스템 인터페이스 설계)

Na, Hye-Jung;Jun, Woo-Chun
- 한국정보교육학회:학술대회논문집
- /
- 2007.08a
- /
- pp.96-101
- /
- 2007
u-learning (Ubiquitous Learning) 환경에서는 학습자들이 언제, 어디에서나 어떤 단말기로도 자유롭게 학습할 수 있는 학습자 중심의 교육과정이 가능해야 한다. 최근 각광을 받고 있는 태블릿 (Tablet) PC는 펜을 주로 입력 매개로 활용하고, 음성을 인식하여 이를 문자로 변환하여 저장할 수 있는 기능도 가지고 있어 초등교육 현장에 적합한 단말기이다. 또한 PBL (Problem-based Learning)은 학습자들이 자기주도적으로 문제를 해결해 가는 과정에서 문제해결력과 비판적 사고 기능을 신장시킬 수 있는 학습형태로 태블릿 PC 기반의 PBL 학습시스템은 u-learning 환경에서 학습자 중심의 교육과정 실현에 적합한 시스템이다. 본 연구에서는 태블릿 PC 기반의 PBL 학습시스템의 인터페이스 설계 방안을 제시해 보았다. 본 연구에서 제시하는 사용자 인터페이스의 특징은 다음과 같다. 첫째, 학습의 프로세스를 프로젝트의 목적 및 과제 파악 단계, 학습계획 수립단계, 자료의 수집 및 정리단계, 프로젝트 마무리 단계로 구분하고, 각 단계에서의 학습자의 활동을 지원하는 시스템으로 구성한다. 둘째, 태블릿 PC 기반에서의 학습 활동에 서투른 학습자도 직관적으로 접근 할 수 있도록 인터페이스에 아이콘을 적절하게 활용한다. 셋째, 태블릿 PC에 펜이나 음성으로 입력된 자료를 문자, 도형, 이미지로 손쉽게 저장하고 축적할 수 있도록 한다. 넷째, 학습자들간의 상호작용과 교사의 피드백을 손쉽게 할 수 있도록 게시판, 자료실, 통합 메시지함의 기능을 활성화한다.
PDF

Trends of Hardware Accelerator for the Embedded Speech Recognition (내장형 음성인식기를 위한 전용 하드웨어가속기 기술개발 동향)

Kim, J.Y.;Kim, T.J.;Lee, J.H.;Eum, N.W.
- Electronics and Telecommunications Trends
- /
- v.29 no.4
- /
- pp.91-100
- /
- 2014
사람의 말소리를 문자로 변환하여 기기의 제어명령으로 활용하는 것이 음성인식 기술이다. 음성인식에 대한 기술개발 요구는 수십 년 전부터 있어 왔고, 꾸준히 제품화되고 있는 분야라 하겠다. 제품으로의 상용화가 가능한 알고리즘 및 데이터 처리체계는 HMM(Hidden Markov Model)이라는 수학적 모델링으로 정형화되어 있으며, 대규모의 반복적 데이터 수집과 정교한 학습 데이터베이스의 구축이 음성인식기술의 핵심요소라는 것이 일반적인 시각이다. 이러한 이유로 인해, 대용량 음성인식 데이터베이스의 수집, 가공 등이 가능한 인프라를 갖춘 기관 및 업체들이 음성인식기술 시장을 점유할 수 있는 것이다. 그러나, 이러한 음성인식의 서비스 제공 체계는 사물인터넷 또는 웨어러블 디바이스 등으로 음성인식 사용자 인터페이스가 확대되고 통신 및 네트워크가 연결이 불가한 경우 그 한계를 보일 수 있다. 본고에서는 이러한 문제를 해결하기 위한 내장형 음성인식기의 하드웨어가속기 기술개발에 대한 내용과 국내외 현황을 살펴보기로 한다.
PDF

Search Result 402, Processing Time 0.023 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)