• Title/Summary/Keyword: 자동 음성인식

Search Result 247, Processing Time 0.026 seconds

Current States and Future Plans for Speech Corpora at SITEC (음성정보기술산업지원센터의 음성 코퍼스 구축 현황 및 계획)

  • Kim Bong-Wan;Lee Yong-Ju
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.49-52
    • /
    • 2002
  • 최근 컴퓨터와 인간간의 대화 수단으로 음성을 활용하는 기술인 음성정보기술이 발달함에 따라 대어휘 연속 음성 인식 및 무제한 어휘 음성 합성의 고도화를 위한 연구가 진행되고 있다. 음성합성의 경우에도 최근 대형의 음성 데이터 베이스로부터 임의 길이의 음성 부분을 골라내어 접속함으로써 좋은 합성 품질을 얻고 있다. 따라서 이러한 연구에 사용될 음성 코퍼스에 관한 요구와 관심이 높아지고 있다. 본 논문에서는 음성정보기술산업지원센터(SITEC)에서 구축중인 음성 코퍼스의 현황과 향후 계획에 관하여 보고한다. 방음실환경에서의 인식 및 합성 연구용 코퍼스, 아동용 음성 코퍼스, Dictation용 음성 코퍼스, 자동차내 소음 및 음성 코퍼스 등의 구축 내용이 소개된다.

  • PDF

음성다이얼서비스 시스팀 개발

  • 신동헌
    • Korea Information Processing Society Review
    • /
    • v.3 no.1
    • /
    • pp.102-108
    • /
    • 1996
  • 통신 선진국들은 음성인식기술을 이용한 통신망에서의 여러 가지 부가서비스 개발을 추진함으로써 서비스를 자동화하여 인력절감 및 고부가치를 추구하는데 노력하여 왔으며 최근에는 가입자들을 대상으로 개발완료된 시스팀들의 시험서비스를 제공하면서 상용화에 박차를 가하고 있다 특히 미국의 NYNEX사는 '93년 3월부터 가입자들을 대상으로 "음성다이얼서비스"를 시험제공함으로써 음성인식기술을 활용한 교환서비스를 세계최초로 시작하였다 한국통신에서도 "자동통역전화요소기술 연구"를 통하여 그동안 음성인식기술에 대한 요소기술을 확보하였으며 현보유기술로도 자체적으로 국제 경쟁력이 있는 음성다이얼 서비스 구현이 가능하다고 판단되어 소프트웨어연구소에서는 '94년부터 시내사업본부 개발과제로 시스팀개발에 착수하였다. 본고에서는 음성다이얼서비스 개요와 서비스 구성, 그리고 장치의 구현에 대하여 단계별로 기술하였다. 구현에 대하여 단계별로 기술하였다.

  • PDF

Development of Smart Mirror System Controlled by Voice Based on Raspberry Pi (Raspberry Pi를 이용한 영상 및 음성인식 기반 스마트 미러 개발)

  • Lin, Zhi-Ming;Lee, Yang-weon;Kim, Chulwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.228-230
    • /
    • 2019
  • 일상생활에서 빈번히 사용되는 주변 생활 제품은 기술의 급속한 발전과 더불어 지능화 정도가 가속화 되고 있는 추세에 있다. 일반적으로 LED 조명이나 실내 에어컨을 자동으로 조정하거나 자동청소로봇 등은 이미 일반화된 제품들이다. 그럼에도 불구하고 우리 생활에서 가장 필요한 용품인 거울에 대한 지능적인 제품은 비교적 고가이어서 소비자가 쉽게 접근하기 어려운 생활용품이 되고 있어서 지능화 제품의 보급이 더딘편이다. 따라서 본 논문에서는 Raspberry Pi 3B+ 를 기반으로 하여 음성제어가 가능한 스마트 미러를 설계하고 구현하였다. 이를 위하여 저렴한 raspberry pi의 WiFi를 통해 네트워크에 연결하도록 하여 미러가 시간, 날씨 및 뉴스 정보 기능을 자동으로 업데이트 할 수 있도록 하였고 기상 조건, 사전 시간 또는 음악 재생과 같은 음성 제어가 가능하기 위하도록 Google Asistant 음성 인터페이스를 적용하였다. 본 논문에서 제안한 제품이 실용화될 경우 저가이면서 고기능 사양을 제공하고 있어서 스마트 미러 보급에 많은 기여가 예산된다.

A study on speech recognition using pitch detection in a car-noisy environment (자동차 환경에서 피치검출을 이용한 음성인식 연구)

  • Lee Jeong-gi;Yoo Bong-keun;Kim Hak-jin;Kim Soon-kyob
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.97-100
    • /
    • 1999
  • 본 논문은 자동차의 편의성 및 안전성의 동시 확보를 위하여, 보조적 스위치의 조작없이 상시 음성의 입$\cdot$출력이 가능하도록 하였고, 남성과 여성을 구별하기 위하여 피치검출법을 사용하여 속도별로 구분하였다. 또한, band pass filter를 이용하여 자동으로 잡음하에서 정확하게 음성추간 검출(End Point Detection)을 하게 하였다. Reference Pattern은 DMS(Dynaminc Multi-Section)[1]모델을 사용하려고, 음성의 특징 파라미터와 인식 알고리즘은 PLP 13차와 One Stage Dynamic Programming(OSDP)를 사용하였다. 시내주행중인 자동차 환경에서 자주 사용되는 차량제어 명령어 30단어를 가지고 실험한 결과 40-80km에서 화자독립 남성 $96\%$, 여성 $94.4\%$ 화자종속일 때 남성 $97\%$, 여성 $95\%$의 인식률을 얻을수 있었고 남성과 여성을 구분하므로 써 인식률을 향상 시켰다.

  • PDF

Rule-based Speech Recognition Error Correction for Mobile Environment (모바일 환경을 고려한 규칙기반 음성인식 오류교정)

  • Kim, Jin-Hyung;Park, So-Young
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.10
    • /
    • pp.25-33
    • /
    • 2012
  • In this paper, we propose a rule-based model to correct errors in a speech recognition result in the mobile device environment. The proposed model considers the mobile device environment with limited resources such as processing time and memory, as follows. In order to minimize the error correction processing time, the proposed model removes some processing steps such as morphological analysis and the composition and decomposition of syllable. Also, the proposed model utilizes the longest match rule selection method to generate one error correction candidate per point, assumed that an error occurs. For the purpose of deploying memory resource, the proposed model uses neither the Eojeol dictionary nor the morphological analyzer, and stores a combined rule list without any classification. Considering the modification and maintenance of the proposed model, the error correction rules are automatically extracted from a training corpus. Experimental results show that the proposed model improves 5.27% on the precision and 5.60% on the recall based on Eojoel unit for the speech recognition result.

Speaker Adapted Real-time Dialogue Speech Recognition Considering Korean Vocal Sound System (한국어 음운체계를 고려한 화자적응 실시간 단모음인식에 관한 연구)

  • Hwang, Seon-Min;Yun, Han-Kyung;Song, Bok-Hee
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.6 no.4
    • /
    • pp.201-207
    • /
    • 2013
  • Voice Recognition technique has been developed and it has been actively applied to various information devices such as smart phones and car navigation system. But the basic research technique related the speech recognition is based on research results in English. Since the lip sync producing generally requires tedious hand work of animators and it serious affects the animation producing cost and development period to get a high quality lip animation. In this research, a real time processed automatic lip sync algorithm for virtual characters in digital contents is studied by considering Korean vocal sound system. This suggested algorithm contributes to produce a natural lip animation with the lower producing cost and the shorter development period.

BackTranScription (BTS)-based Jeju Automatic Speech Recognition Post-processor Research (BackTranScription (BTS)기반 제주어 음성인식 후처리기 연구)

  • Park, Chanjun;Seo, Jaehyung;Lee, Seolhwa;Moon, Heonseok;Eo, Sugyeong;Jang, Yoonna;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.178-185
    • /
    • 2021
  • Sequence to sequence(S2S) 기반 음성인식 후처리기를 훈련하기 위한 학습 데이터 구축을 위해 (음성인식 결과(speech recognition sentence), 전사자(phonetic transcriptor)가 수정한 문장(Human post edit sentence))의 병렬 말뭉치가 필요하며 이를 위해 많은 노동력(human-labor)이 소요된다. BackTranScription (BTS)이란 기존 S2S기반 음성인식 후처리기의 한계점을 완화하기 위해 제안된 데이터 구축 방법론이며 Text-To-Speech(TTS)와 Speech-To-Text(STT) 기술을 결합하여 pseudo 병렬 말뭉치를 생성하는 기술을 의미한다. 해당 방법론은 전사자의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축 할 수 있다. 본 논문은 BTS를 바탕으로 제주어 도메인에 특화된 음성인식 후처리기의 성능을 향상시키기 위하여 모델 수정(model modification)을 통해 성능을 향상시키는 모델 중심 접근(model-centric) 방법론과 모델 수정 없이 데이터의 양과 질을 고려하여 성능을 향상시키는 데이터 중심 접근(data-centric) 방법론에 대한 비교 분석을 진행하였다. 실험결과 모델 교정없이 데이터 중심 접근 방법론을 적용하는 것이 성능 향상에 더 도움이 됨을 알 수 있었으며 모델 중심 접근 방법론의 부정적 측면 (negative result)에 대해서 분석을 진행하였다.

  • PDF

A Design of RC Car Controller by Voice Recognition of Smartphone (스마트폰 음성인식을 통한 RC카 제어기 설계)

  • Lee, Juwon;Kim, Bogun;Kim, Jinmin;Park, Seoljin;Kim, Jinil
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.05a
    • /
    • pp.770-771
    • /
    • 2017
  • 스마트폰 어플로 구글의 STT API를 이용하여 음성인식을 적용한다. 이는 문자열로 변환하고 블루투스 통신을 통하여 아두이노 RC카로 정보를 전달하여 동작하도록 제어한다. 아두이노 RC카에 부착한 라인센서와 초음파센서를 통해 차선변경의 유/무와 앞/뒤 차량 간의 거리를 측정하여 비상등을 자동으로 점등할 수 있도록 한다. 본 연구의 결과로써 운전자간의 예의범절을 갖춘 운행과 초보운전자들의 미숙한 상황대처를 보완할 수 있을 것으로 기대된다.

  • PDF

Synchronization of VOD Content and Captions Using Speech Recognition and Modified Dynamic Programming (음성인식과 변경된 동적계획법을 이용한 VOD 콘텐트와 자막의 동기화)

  • Oh, Juhyun
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2021.06a
    • /
    • pp.131-134
    • /
    • 2021
  • 지상파 방송에서는 청각장애인을 위해 폐쇄자막(closed caption) 서비스가 제공되고 있지만, 이를 저장하여 VOD 서비스 등에 제공하고자 할 때는 영상과의 비동기화(desynchronization) 문제로 인해 활용할 수 없는 문제가 있다. 본 논문에서는 이를 해결하기 위해 자동 음성인식(automatic speech recognition)과, 자막 동기화 문제에 맞게 변경된 동적계획법(modified dynamic programming)을 이용하는 방법을 제안한다. 문자열 정렬에서 삽입과 삭제 등 간격(gap)의 발생을 제어하는 제약조건과 그에 따른 점수 구조를 적용함으로써 문자열 정렬 성능을 개선한다. 또한 정렬된 폐쇄자막과 음성인식 문자열로부터 시간 동기정보를 복원하고 동기화된 자막을 생성하는 방법을 제안한다. 실제 TV 프로그램과 자막에 적용하여 기존 방법에 비해 성능의 향상이 있음을 확인하였다.

  • PDF