• Title/Summary/Keyword: 한국어 음성처리

Search Result 265, Processing Time 0.022 seconds

Statistical Korean Spoken Language Understanding System for Dialog Processing (대화처리를 위한 통계기반 한국어 음성언어이해 시스템)

  • Roh, Yoon-Hyung;Yang, Seong-II;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.215-218
    • /
    • 2012
  • 본 논문에서는 한국어 대화 처리를 위한 통계기반 음성언어이해 시스템에 대해 기술한다. 음성언어이해시스템은 대화처리에서 음성 인식된 문장으로부터 사용자의 의도를 인식하여 의미표현으로 표현하는 기능을 담당한다. 한국어의 특성을 반영한 실용적인 음성언어이해 시스템을 위해서 강건성과 적용성, 확장성 등이 요구된다. 이를 위해 본 시스템은 음성언어의 특성상 구조분석을 하지 않고, 마이닝 기법을 이용하여 사용자 의도 표현을 생성하는 방식을 취하고 있다. 또한 한국어에서 나타나는 특징들에 대한 처리를 위해 자질 추가 및 점규화 처리 등을 수행하였다. 정보서비스용 대화처리 시스템을 대상으로 개발되고 있고, 차량 정보서비스용 학습 코퍼스를 대상으로 실험을 하여 문장단위 정확률로 약 89%의 성능을 보이고 있다.

  • PDF

N-Best Reranking for Improving Automatic Speech Recognition of Korean (N-Best Re-ranking에 기반한 한국어 음성 인식 성능 개선)

  • Joung Lee;Mintaek Seo;Seung-Hoon Na;Minsoo Na;Maengsik Choi;Chunghee Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.442-446
    • /
    • 2022
  • 자동 음성 인식(Automatic Speech Recognition) 혹은 Speech-to-Text(STT)는 컴퓨터가 사람이 말하는 음성 언어를 텍스트 데이터로 전환하는 일련의 처리나 기술 등을 일컫는다. 음성 인식 기술이 다양한 산업 전반에 걸쳐 적용됨에 따라 높은 수준의 정확도와 더불어 다양한 분야에 적용할 수 있는 음성 인식 기술에 대한 필요성이 점차 증대되고 있다. 다만 한국어 음성 인식의 경우 기존 선행 연구에 비해 예사말/높임말의 구분이나 어미, 조사 등의 인식에 어려움이 있어 음성 인식 결과 후처리를 통한 성능 개선이 중요하다. 따라서 본 논문에서는 N-Best 음성 인식 결과가 구성되었을 때 Re-ranking을 통해 한국어 음성 인식의 성능을 개선하는 모델을 제안한다.

  • PDF

A Study on the Korean Continuous Speech Recognition using Phonetic Decision Tree-based State Splitting (음소결정트리 상태분할을 이용한 한국어 연속음성인식에 관한 연구)

  • 오세진;황철준;김범국;정호열;정현열
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2001.06a
    • /
    • pp.277-280
    • /
    • 2001
  • 본 연구에서는 연속음성인식 시스템의 성능개선을 위한 기초 연구로서 음소결정트리 상태분할과 한국어 음성학적 지식을 이용하여 문맥의존 음향모델의 작성방법을 검토하고. 한국어 연속음성인식에 적용을 소개한다. 음소결정트리 상태분할 알고리즘은 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어 집합에 따라 2진 트리로 SSS(Successive State Splitting) 알고리즘에 의해 상태분할 하는 방법으로서 상태분할 후 각 상태를 네트워크로 연결한 구조를 HM-Net(Hidden Markow Network)이라 하며 문맥의존 음향모델로 표현된다. 작성한 문맥의존 음향모델의 유효성을 확인하기 위해 본 연구실의 항공편 예약 문장(YNU200)에 대해 연속음성인식 실험을 수행하였다. 인식실험 결과, 문맥의존 음향모델에 대한 화자독립 연속음성인식률이 기존의 단일 HMM 모델보다 평균적으로 1-pass의 경우 9.9%, 2-pass의 경우 4.1% 향상된 인식률을 보였다. 따라서 문맥의존 음향모델을 작성하는데 음소결정트리 상태분할과 한국어 음성학적 지식이 유효함을 확인하였다.

  • PDF

Construction of the Standard Telephone Speec Database in Korean (한국어 표준 전화 음성 데이터 베이스 구축)

  • 김종교
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06a
    • /
    • pp.5-9
    • /
    • 1998
  • 음성처리 연구자들이 연구 수행을 하기 이해서 최초로 해야 할 일은 음성학적 범주가 풍부한 많은 사람이 발성한 음성 데이터의 확보이다. 그러나 음성 데이터를 확보하는 데는 많은 시간과 노력이 소요되므로 음성 DB의 구축이 필요하다. 따라서 본 연구에서는 한국어 전화 음성 인식 기술 연구시 시스템의 객관적 성능평가와 알고리즘 개발등에 모든 연구 개발자들이 공통으로 사용할 수 있는 표준 음성 데이터 베이스를 구축하여 국내 음성처리 연구의 활성화를 꾀할 수 있도록 하였다.

  • PDF

Allophonic Information Necessary for Speech Technology (음성공학을 위한 변이음 정보)

  • Lee, Ho-Young;Zhi, Min-Je;Kim, Young-Song
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.131-139
    • /
    • 1993
  • 하나의 음소는 보통 음성환경에 따라 여러 변이음으로 실현된다. 음성합성기로 한국어의 문장을 자연스럽게 합성해 내려고 할 때나 음성인식기가 한국어의 문장을 정확하게 인식하도록 개발하고자 할 때 변이음에 관한 정보는 필수적이다. 따라서 이 논문의 목적은 음성공학에 필요한 변이음 정보를 제공하는 것이다. 이 논문에서는 음성공학에 필요한 한국어의 주오 변이음 규칙들을 간단히 논의하고 몇몇 중요한 변이음들의 음향적 특징을 논의한다.

  • PDF

Comparative study of Korean speech recognition based on SpecAugment and Kaldi (SpecAugment와 Kaldi기반 한국어 음성인식 비교 연구)

  • Lee, Seounghoon;Park, Chanjun;Seo, Jaehyung;Kim, Gyeongmin;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.152-157
    • /
    • 2021
  • Kaldi는 음성인식 오픈소스 플랫폼이며 많은 기업에서 이를 이용하여 비즈니스 및 연구를 진행하고 있다. 그러나 국문으로 된 Kaldi에 대한 자세한 모듈 설명과 활용법은 아직 미비한 실정이다. 본 논문은 음성인식 오픈소스인 Kaldi에 대한 각 모듈별 자세한 설명과 더불어 데이터 증강 기법인 SpecAugment를 한국어 음성인식 시스템에 적용하여 성능 향상 여부를 검증하였다. 그리고 Kaldi의 음향모델과 언어모델을 변경하면서 어떠한 모듈들로 구성된 한국어 음성인식 모델을 사용하는 것이 가장 결과가 좋은 지를 검증하고 실시간 디코딩에 있어서 실용적인지를 비교하였다.

  • PDF

Language Specific CTC Projection Layers on Wav2Vec2.0 for Multilingual ASR (다국어 음성인식을 위한 언어별 출력 계층 구조 Wav2Vec2.0)

  • Lee, Won-Jun;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.414-418
    • /
    • 2021
  • 다국어 음성인식은 단일언어 음성인식에 비해 높은 난이도를 보인다. 하나의 단일 모델로 다국어 음성인식을 수행하기 위해선 다양한 언어가 공유하는 음성적 특성을 모델이 학습할 수 있도록 하여 음성인식 성능을 향상시킬 수 있다. 본 연구는 딥러닝 음성인식 모델인 Wav2Vec2.0 구조를 변경하여 한국어와 영어 음성을 하나의 모델로 학습하는 방법을 제시한다. CTC(Connectionist Temporal Classification) 손실함수를 이용하는 Wav2Vec2.0 모델의 구조에서 각 언어마다 별도의 CTC 출력 계층을 두고 각 언어별 사전(Lexicon)을 적용하여 음성 입력을 다른 언어로 혼동되는 경우를 원천적으로 방지한다. 제시한 Wav2Vec2.0 구조를 사용하여 한국어와 영어를 잘못 분류하여 음성인식률이 낮아지는 문제를 해결하고 더불어 제시된 한국어 음성 데이터셋(KsponSpeech)에서 한국어와 영어를 동시에 학습한 모델이 한국어만을 이용한 모델보다 향상된 음성 인식률을 보임을 확인하였다. 마지막으로 Prefix 디코딩을 활용하여 언어모델을 이용한 음성인식 성능 개선을 수행하였다.

  • PDF

Post-Processing of Voice Recognition Using Phonologic Rules and Morphologic analysis (음절 복원 규칙과 형태소 분석을 이용한 음성인식 후처리)

  • Seo, Sang-Hyun;Kim, Jae-Hong;Kim, Hae-Jin;Kim, Mi-Jin;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.495-499
    • /
    • 1997
  • 컴퓨터의 사용이 보편화됨에 따라 컴퓨터와 사용자 사이의 쉽고 자연스러운 의사 소통을 위한 자연어 인터페이스에 대한 연구가 활발히 진행되고 있다. 이 중에서 특히, 음성인식 분야는 음성명령, 받아쓰기 시스템 등 일반적인 컴퓨터 사용자의 요구를 충족시켜 줄 수 있는 분야로 주목을 받고 있다. 그러나 음성인식은 인식 자체만으로는 인식률에 한계가 있으며, 인식 결과를 향상시키기 위해서는 후처리 단계가 필요하다. 본 논문에서는 음성 인식의 성능을 향상시키기 위해 음성 인식의 결과로 들어온 연속된 한국어 음성을 올바른 음절로 복원시켜 주는 시스템을 구현하였다. 이 시스템에서는 어절단위의 연속된 한국어 음성을 입력으로 받아 한국어 발음 규칙을 역으로 적용하여 원래의 음절로 복원시키고, 형태소 분석기를 이용하여 복원된 음절이 올바른지를 확인하고 수정한다. 초등학교 교과서에 나오는 문장을 대상으로 본 시스템의 성능을 실험한 결과, 90.42%의 복원율을 나타내었다. 현재 정확하게 복원이 되지 않는 것 중에는 동음이의어가 차지하는 비중이 크며, 이 문제는 구문분석이나 의미분석을 이용하여 어느 정도 개선할 수 있을 것으로 보인다.

  • PDF

VCV Chain Analysis for Korean Speech Synthesis (한국어 음성 합성을 위한 VCV연쇄음 분석에 관한 연구)

  • Kim, Sung-Joo;Oh, Yung-Hwan
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.173-184
    • /
    • 1992
  • 본 논문에서는 일반적인 음성 합성 시스템과 모음-자음-모음(VCV) 연쇄음을 단위로 한 규칙 합성에 대해 고찰하고, 한국어의 음성 합성을 위한 VCV 연쇄음의 종류와 각 연쇄음의 빈도 및 사용예를 조사하기 위하여 약11만 단어의 어휘 목록과 3만 6천행 가량의 한글 문서를 분석, 연구한 결과를 기술하였다. 본 연구의 결과, 한국어의 음성 합성에는 약 2500여 증류의 VCV 연쇄음이 필요함을 확인하였다.

  • PDF

The Design and Implementation of Korean Text-to-Speech Conversion System on a Rule-Based Framework (한국어(韓國語) 규칙(規則) 음성(音聲) 합성(合成) 시스템의 구현(具現))

  • Son, Yung-Taek;Kim, Yong-Kap;Matsumoto, Tatsuro
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.141-148
    • /
    • 1993
  • 본고는, 한글 한자가 혼용된 입력 텍스트를 음성으로 변환 출력하는 포르만트 음성 합성 방식 즉, 한국어 규칙 음성 합성(이하에는 KTTS[Korean Text To Speech System]이라고 함)의 전반적인 처리 흐름에 대하여 소개한다. 특히, 입력 텍스트에 있어서, 한자 또는 각종 부호의 한글 변환 기능, 음성 출력용 문법 정보 추출에 필요한 입력문의 해석 및 구문경계 설정 기능, 또한 음소 기호 변환 및 파라메터 값 생성과 변경 처리기능을 중심으로 설명하고자 한다. 또한 본 시스템의 완성과 더불어 실시하였던 청취 실험 평가 결과에 대하여 덧붙이겠다.

  • PDF