• 제목/요약/키워드: 음성공학

검색결과 1,130건 처리시간 0.03초

음성공학을 위한 변이음 정보 (Allophonic Information Necessary for Speech Technology)

  • 이호영;지민제;김영송
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.131-139
    • /
    • 1993
  • 하나의 음소는 보통 음성환경에 따라 여러 변이음으로 실현된다. 음성합성기로 한국어의 문장을 자연스럽게 합성해 내려고 할 때나 음성인식기가 한국어의 문장을 정확하게 인식하도록 개발하고자 할 때 변이음에 관한 정보는 필수적이다. 따라서 이 논문의 목적은 음성공학에 필요한 변이음 정보를 제공하는 것이다. 이 논문에서는 음성공학에 필요한 한국어의 주오 변이음 규칙들을 간단히 논의하고 몇몇 중요한 변이음들의 음향적 특징을 논의한다.

  • PDF

키워드 음성인식을 위한 음성합성 기반 자동 학습 기법 (A Automated Method for Training Keyword Spotter based on Speech Synthesis)

  • 임재봉;이종수;조용훈;백윤주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.494-496
    • /
    • 2021
  • 최근 경량 딥러닝 기반 키워드 음성인식은 가전, 완구, 키오스크 등 다양한 응용에 음성 인터페이스를 쉽게 적용할 수 있는 기술로서 주목받고 있다. 키워드 음성인식은 일부 키워드만 인식 가능한 음성인식 기술로서 저성능 디바이스에서 활용 가능한 장점이 있다. 그러나 응용에 따라 필요한 키워드에 대하여 다시 음성데이터를 수집해야하고 이를 학습하여 모델을 새로 준비해야하는 단점이 있다. 따라서 본 연구에서는 음성데이터 수집 없이 음성합성을 통해 생성한 음성으로만 키워드 음성인식 모델을 학습하는 음성합성 기반 자동 학습 기법을 제안하였다. 생성한 음성데이터를 활용하고자하는 시도가 활발히 이루어지고 있으나, 기존 연구에서는 정확도를 유지하기 위하여 수집한 실제 음성데이터가 필요한 한계가 있다. 제안한 자동 학습 기법은 생성한 음성데이터에 대해 복합 데이터 증대 기법을 적용하여 실제 음성데이터 없이 키워드 음성인식의 정확도를 높였다. 제안한 기법에 대하여 상용 음성합성 서비스를 기반으로 수집한 한국어 키워드 데이터세트를 활용하여 성능평가를 진행하였다. 20개 한국어 키워드에 대해 실험한 결과, 제안한 기법을 적용하여 학습시킨 키워드 음성인식 모델의 정확도는 86.44%임을 확인하였다.

음성인식을 이용한 URL Navigator 개발 (A Development of an URL Navigator using Speech Recognition)

  • 전한길;홍인숙;김윤중
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.122-125
    • /
    • 2009
  • 기존의 인터넷 익스플로러는 높은 보급률의 이점을 지니고 있지만 인터넷을 이용하기 위한 기본지식의 필요성과 키보드, 마우스와 같은 장치를 이용한 입력방식은 장애인 및 고령층의 사용자들이 이용하기에는 불편하다. 이와 같은 문제점을 해결하고자 본 논문에서는 웹 서비스 기술을 이용하여 기존의 음성인식 시스템을 웹 서비스로 재구성하고 클라이언트가 음성인식 웹 서비스를 요청하고 음성명령이 가능하도록 인터넷 익스플로러에 음성명령이 가능한 Navigaotr를 Toolbar 형태의 프로그램을 구현하였다. 본 시스템은 클라이언트가 사용하는 음성 Navigator Toolbar와 웹 서비스를 통해서 음성 서비스를 제공하는 음성 서비스 프로바이더로 구성된다. 음성 Navigator Toolbar는 인터넷 환경에서 음성데이터를 바이너리 포맷형식인 DIME을 이용하여 음성 서비스 프로바이더로 전송하고 반환 결과를 가지고 URL Navigator를 통해 인터넷 페이지를 이동시킨다. 음성 서비스 프로바이더는 사용자가 전송한 음성데이터를 인식기를 통해 인식하고 결과를 가지고 정보 Database를 검색하여 실제 인터넷 주소를 사용자에게 반환한다.

다국어 음성인식을 위한 언어별 출력 계층 구조 Wav2Vec2.0 (Language Specific CTC Projection Layers on Wav2Vec2.0 for Multilingual ASR)

  • 이원준;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.414-418
    • /
    • 2021
  • 다국어 음성인식은 단일언어 음성인식에 비해 높은 난이도를 보인다. 하나의 단일 모델로 다국어 음성인식을 수행하기 위해선 다양한 언어가 공유하는 음성적 특성을 모델이 학습할 수 있도록 하여 음성인식 성능을 향상시킬 수 있다. 본 연구는 딥러닝 음성인식 모델인 Wav2Vec2.0 구조를 변경하여 한국어와 영어 음성을 하나의 모델로 학습하는 방법을 제시한다. CTC(Connectionist Temporal Classification) 손실함수를 이용하는 Wav2Vec2.0 모델의 구조에서 각 언어마다 별도의 CTC 출력 계층을 두고 각 언어별 사전(Lexicon)을 적용하여 음성 입력을 다른 언어로 혼동되는 경우를 원천적으로 방지한다. 제시한 Wav2Vec2.0 구조를 사용하여 한국어와 영어를 잘못 분류하여 음성인식률이 낮아지는 문제를 해결하고 더불어 제시된 한국어 음성 데이터셋(KsponSpeech)에서 한국어와 영어를 동시에 학습한 모델이 한국어만을 이용한 모델보다 향상된 음성 인식률을 보임을 확인하였다. 마지막으로 Prefix 디코딩을 활용하여 언어모델을 이용한 음성인식 성능 개선을 수행하였다.

  • PDF

음성연구와 음성데이타베이스

  • 이용주;김봉완
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 2월 학술대회지
    • /
    • pp.115-124
    • /
    • 1996
  • 우리말의 음성언어학적, 공학적, 의학적 연구를 위해서는 체계적으로 수집, 정리 된 다양한 음성자료가 필수적이다. 본고에서는 음성언어의 연구대상자료인 음성데이타베이스에 관하여 관련분야에서의 구축필요성, 체계적인 구축을 위한 기술적인 고려사항 등에 대하여 논한다. 또한 공학적인 응용을 위해 각 기관별로 구축된 음성DB의 현황을 정리하고, 특히 공동이용을 목적으로 하여 국어공학센터에서 추진중인 음성데이타베이스의 구축현황을 상세히 소개한다.

  • PDF

음성인식 게임과 교육의 연관성: 현재 연구 동향과 전망 (The Relationship between Voice Recognition Games and Education: Current Research Trends and Future Perspectives)

  • 허세정;김성진;윤영현;백재순
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.397-398
    • /
    • 2023
  • 본 논문은 음성인식 기술을 활용한 게임과 교육 분야의 연계성에 대한 연구를 제시한다. 음성인식 게임은 사용자의 음성 명령을 인식하고 상호작용을 가능하게 함으로써 학습자의 참여와 흥미를 유발한다. 관련 연구들은 음성인식 게임이 언어 학습, 수학 학습, 학습 장애 학생 지원 등 다양한 교육 분야에서 효과적으로 활용될 수 있다는 것을 보여준다. 음성인식 게임은 교육 환경에서의 음성인식 기술의 잠재력을 제시하며, 추가 연구가 필요하다는 결론을 도출한다.

  • PDF

스마트폰환경에서 음성기반 감정인식 프레임워크 (Speech Emotion Recognition Framework on Smartphone Environment)

  • 방재훈;이승룡;정태충
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.254-256
    • /
    • 2013
  • 기존의 음성기반 감정인식 기술은 충분한 컴퓨팅 파워를 가진 PC에서 수백개의 특징을 사용하여 감정을 인식하고 있다. 이러한 음성기반 감정인식 기술은 컴퓨팅 파워에 제약이 많은 스마트폰 환경을 고려하지 않은 방법이다. 본 논문에서는 제한된 스마트폰 컴퓨팅 파워를 고려한 음성의 특징 추출 기법과 서버 클라이언트 개념을 도입한 효율적인 음성기반 감정인식 프레임워크를 제안한다.

음성공학의 전망

  • 안수길
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1994년도 2월 학술대회지
    • /
    • pp.166-172
    • /
    • 1994
  • PDF

피쳐 퓨전 모듈을 이용한 콘포머 기반의 노인 음성 인식 (Conformer-based Elderly Speech Recognition using Feature Fusion Module)

  • 이민식;김지희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.39-43
    • /
    • 2023
  • 자동 음성 인식(Automatic Speech Recognition, ASR)은 컴퓨터가 인간의 음성을 텍스트로 변환하는 기술이다. 자동 음성 인식 시스템은 다양한 응용 분야에서 사용되며, 음성 명령 및 제어, 음성 검색, 텍스트 트랜스크립션, 자동 음성 번역 등 다양한 작업을 목적으로 한다. 자동 음성 인식의 노력에도 불구하고 노인 음성 인식(Elderly Speech Recognition, ESR)에 대한 어려움은 줄어들지 않고 있다. 본 연구는 노인 음성 인식에 콘포머(Conformer)와 피쳐 퓨전 모듈(Features Fusion Module, FFM)기반 노인 음성 인식 모델을 제안한다. 학습, 평가는 VOTE400(Voide Of The Elderly 400 Hours) 데이터셋으로 한다. 본 연구는 그동안 잘 이뤄지지 않았던 콘포머와 퓨전피쳐를 사용해 노인 음성 인식을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 콘포머 모델보다 높은 수준의 정확도를 보임으로써 노인 음성 인식을 위한 딥러닝 모델 연구에 기여했다.

  • PDF

조각문을 고려한 음성 인식 문법 설계 (An Investigation of Grammar Design to Consider Minor Sentence in Speech Recognition)

  • 윤승;김상훈;박준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.409-410
    • /
    • 2007
  • 조각문이란 문장 성분을 온전히 갖추지 못한 문장으로 일반적인 문장과 달리 종결 어미로 문장을 끝맺지 못하는 문장을 말한다. 실험실 환경에서와 달리 실제 음성 인식 환경에서는 이러한 조각문이 비교적 빈번히 나타나므로 연속 음성 인식 시스템의 성능 향상을 위해서는 이러한 조각문에 대한 고려가 필수적이다. 본 연구에서는 음성 인식 문법 기술에 있어서 조각문을 반영한 경우와 그렇지 않은 경우의 커버리지를 비교해 봄으로써 조각문에 대한 고려가 음성 인식 성능 향상에 기여할 수 있음을 알아 보았다.