• Title/Summary/Keyword: 한국어 음성처리

검색결과 263건 처리시간 0.022초

스펙트럼사상학습을 이용한 잡음환경에서의 한국어숫자음인식 (Korean Digit Recognition Under Noise Environment Using Spectral Mapping Training)

  • 이기영
    • 한국음향학회지
    • /
    • 제13권3호
    • /
    • pp.25-32
    • /
    • 1994
  • 본 연구에서는 정적지도적응알고리즘을 기초로 한 스펙트럼사상학습을 이용하여 잡음환경에서의 한국어숫자음인식방법을 제시하였다. 제시한 인식방법에서 잡음이 섞인 음성스펙트럼 공간을 잡음이 없는 음성스펙트럼 공간으로 사상한 결과, 잡음이 섞인 음성스펙트럼의 왜곡이 개선되어 잡음처리를 행하지 않은 기존의 VQ(vector quantizaton)와 DTW(dynamic time warping)를 이용한 방법보다 높은 인식율을 얻을 수 있었으며 , 0 dB의 SNR 레벨에서도 기존방법의 인식율을 10배 정도 향상시키므로써, 스펙트럼사상학습이 잡음환경의 음성에 대한 인식성능을 향상시킬 수 있는 방법임을 확인하였다.

  • PDF

BackTranScription (BTS)기반 제주어 음성인식 후처리기 연구 (BackTranScription (BTS)-based Jeju Automatic Speech Recognition Post-processor Research)

  • 박찬준;서재형;이설화;문현석;어수경;장윤나;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.178-185
    • /
    • 2021
  • Sequence to sequence(S2S) 기반 음성인식 후처리기를 훈련하기 위한 학습 데이터 구축을 위해 (음성인식 결과(speech recognition sentence), 전사자(phonetic transcriptor)가 수정한 문장(Human post edit sentence))의 병렬 말뭉치가 필요하며 이를 위해 많은 노동력(human-labor)이 소요된다. BackTranScription (BTS)이란 기존 S2S기반 음성인식 후처리기의 한계점을 완화하기 위해 제안된 데이터 구축 방법론이며 Text-To-Speech(TTS)와 Speech-To-Text(STT) 기술을 결합하여 pseudo 병렬 말뭉치를 생성하는 기술을 의미한다. 해당 방법론은 전사자의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축 할 수 있다. 본 논문은 BTS를 바탕으로 제주어 도메인에 특화된 음성인식 후처리기의 성능을 향상시키기 위하여 모델 수정(model modification)을 통해 성능을 향상시키는 모델 중심 접근(model-centric) 방법론과 모델 수정 없이 데이터의 양과 질을 고려하여 성능을 향상시키는 데이터 중심 접근(data-centric) 방법론에 대한 비교 분석을 진행하였다. 실험결과 모델 교정없이 데이터 중심 접근 방법론을 적용하는 것이 성능 향상에 더 도움이 됨을 알 수 있었으며 모델 중심 접근 방법론의 부정적 측면 (negative result)에 대해서 분석을 진행하였다.

  • PDF

음성특징의 거리 개념에 기반한 한국어 모음 음성의 시각화 (Speech Visualization of Korean Vowels Based on the Distances Among Acoustic Features)

  • 복거철
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.512-520
    • /
    • 2019
  • 음성을 시각적으로 표현하는 것은 외국어를 습득하는 과정의 학습자나 음성을 직접 들을 수 없는 청각장애자에게 매우 유용하며 기존에 다수의 연구가 이루어졌다. 그러나 기존의 연구들은 발음의 특징을 단지 컬러로 표현한다든가 입모양을 3차원 그래픽으로 표현하거나 입과 구강의 변화하는 형태를 애니메이션으로 보여 주는 방식에 머물러 있다. 따라서 이런 방식을 사용하는 학습자들은 자신의 발음이 표준 발음과 얼마나 멀리 떨어져 있는지 알 수가 없고 더 나아가서 학습 중에 스스로 교정을 해 나가는 시스템을 개발하기가 기술적으로 어려운 단점이 있다. 이를 극복하기 위해 본 논문에서는 음성 간의 상대적 거리를 토대로 음성을 시각화하는 모델을 제시하고, 이를 한국어 모음에 적용하여 모음의 음성적 특징을 이용한 시각화의 구체적인 구현 방법을 제시한다. 음성데이터에서 F1, F2, F3의 세 개의 포먼트를 구하고 이들 특징벡터를 코호넨 자기조직화맵 알고리즘으로 2차원 화면에 사상하여 각 음성을 화면 위의 각 점에 대응하여 표현하였다. 제안하는 시스템의 실제적인 구현은 인터넷에 공개된 음성처리 공개소프트웨어를 사용하고 한국인 교사의 표준 발음과 한국어를 배우고 있는 외국인 유학생의 음성을 이용하여 음성특징의 상호간 거리를 구하였으며, 사용자 인터페이스는 자바스크립트를 이용하여 구현하였다.

한국어 용언의 형태소 정보처리 특성 (A model of Korean Verb Processing)

  • 황유미;권유안;임희석
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.101-104
    • /
    • 2002
  • The purpose of this study was to investigate which model among Fullist, Decomposition, and Hybrid was appropriate for explaining the process of Korean verb, especially on tense prefinal ending, connective ending, and morphological passive affix. Three experiment was performed. The results of experiment 1, 2, 3 suggest that it is necessary for a new model of Korean verb processing.

  • PDF

한글 문자의 로마문자 표기에 대한 제안 (A Proposal for Roman Representation of Hangul Characters)

  • 강주상
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.10-14
    • /
    • 1989
  • 한글문자를 기계화하기 위하여 로마문자로 표기하는 방법에 대한 새로운 제안을 한다. 현재 남한안이나 북한안은 서로 이견을 보이고 있어서 국제적 합의에 이르지 못하고 있다. 본 제안에서는 남, 북한 안과는 달리 영문자의 대문자와 소문자를 모두 활용하며 다양한 모음의 구성에서 음성학적으로 표기한다. 이 표기법은 자체의 합리성, 국제표준과의 호환성 판독의 편리성, 음성인식에의 이용성등에서 기존 표기체계보다 유리하다.

  • PDF

문장음성 변환시스템 글소리II를 위한 읽기규칙

  • 최운천;지민제;이용주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.201-210
    • /
    • 1992
  • 이 논문은 문장음성 변환시스템인 글소리II를 위한 읽기규칙에 관한 것이다. 읽기규칙이란 텍스트를 소리나는대로 읽어주는 모든 처리를 말한다. 읽기규칙의 가장 대표적인 음운변동규칙을 비롯하여 모음의 발음, 장음처리, 숫자읽기, 약어 및 기호읽기 등이 포함된다. 이 논문에서는 음운변동규칙을 6개의 대규칙과 22개의 소규칙으로 정리하고, 대규칙들 사이의 적용순서를 정의하였다. 그리고 단어의 장단이 중시되는 우리말의 특성을 반영할 수 있도록 장음처리부분을 추가하였다. 위의 읽기규칙으로 처리할 수 없는 부분에 대해서는 예외발음사전을 이용하고 있다.

  • PDF

문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구 (A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling)

  • 한승규;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

단어추출을 기반으로 한 음성 대화처리 시스템 (Spoken Dialogue Management System based on Word Spotting)

  • 송창환;유하진;오영환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.313-317
    • /
    • 1994
  • 본 연구에서는 인간과 컴퓨터 사이의 음성을 이용한 대화 시스템을 구현하였다. 특별히 음성을 인식하는데 있어서 단어추출(word apotting) 방법을 사용하는 경우에 알맞은 의미 분석 방법과 도표 형태의 규칙을 기반으로 하여 시스템의 응답을 생성하는 방법에 대하여 연구하였다. 단어추출 방법을 사용하여 음성을 인식하는 경우에는 형태소분석 및 구문분석의 과정을 이용하여 사용자의 발화 의도를 분석하기 어려우므로 새로운 의미분석 방법을 필요로 한다. 본 연구에서는 퍼지 관계를 사용하여 사용자의 발화 의도를 파악하는 새로운 의미분석 방법을 제안하였다. 그리고, 사용자의 발화 의도에 적절한 시스템의 응답을 만들고 응답의 내용을 효율적으로 관리하기 위한 방범으로 현재의 상태와 사용자의 의도에 따른 응답 규칙을 만들었다. 이 규칙은 도표의 형태로 구현되어 규칙의 갱신 및 확장을 편리하게 만들었다. 대화의 영역은 열차 예매에 관련된 예매, 취소, 문의 및 관광지 안내로 제안하였다. 음성의 오인식에 의한 오류에 적절히 대처하기 위해 시스템의 응답은 확인 및 수정 과정을 포함하고 있다. 본 시스템은 문자 입력과 음성 입력으로 각각 실험한 결과, 사용자는 시스템의 도움을 받아 자신이 의도하는 목적을 달성할 수 있었다.

  • PDF

대어휘 음성인식을 위한 의사형태소 분석 시스템의 구현 (Implementation of A Morphological Analyzer Based on Pseudo-morpheme for Large Vocabulary Speech Recognizing)

  • 양승원
    • 한국산업정보학회논문지
    • /
    • 제4권2호
    • /
    • pp.102-108
    • /
    • 1999
  • 교착어인 한국어를 대상으로 대용량의 대화체 어휘를 포함하는 연속 음성을 인식하는 데에는 인식단위를 결정하는 것이 매우 중요하다. 본 논문에서는 어절이나 형태소를 사용하는 기존의 음성인식 시스템에서의 난점을 해소하고 새로운 인식단위인 의사형태소를 제안하고, 입력되는 문장을 의사 형태소 단위로 분석하는 형태소 분석기와 태거를 구현하였다. 의사형태소를 이용한 음성인식/합성은 어절이나 형태소단위의 음성인식/합성에서 보다 개선된 결과를 얻을 수 있게 해주며, 인식의 출력을 인식의 다음 단계인 언어처리부의 처리단위와 일치시킬 수 있으므로 전체적인 음성언어 번역시스템의 성능도 높일 수 있다. 본 논문에서 구현한 시스템은 일반 형태소를 대상으로 하는 시스템과 동일한 수준의 성능을 보였다.

  • PDF

음성합성을 위한 텍스트 음역 시스템과 숫자 음역 모호성 처리 (Text Transliteration System and Number Transliteration Disambiguation for TTS)

  • 박정연;신형진;육대범;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.449-452
    • /
    • 2018
  • TTS(Text-to-Speech)는 문자열을 입력받아 그 문자열을 음성으로 변환하는 음성합성 기술이다. 그러나 실제 입력되는 문장에는 한글뿐만 아니라 영단어 및 숫자 등이 혼합되어 있다. 영단어는 대소문자에 따라 다르게 읽을 수 있으며, 단위로 사용될 때는 약어로 사용되는 것이므로, 알파벳 단위로 읽어서는 안 된다. 숫자 또한 함께 사용되는 단어에 따라 읽는 방식이 달라진다. 본 논문에서는 한글과 숫자 및 단위, 영단어가 혼합된 문장을 분류하고 이를 음역하는 시스템을 구성하며 word vector를 이용한 숫자 및 단위의 모호성 해소방법을 소개한다.

  • PDF