• Title/Summary/Keyword: 한국어 음성처리

Search Result 263, Processing Time 0.022 seconds

The syllable recovrey rule-based system and the application of a morphological analysis method for the post-processing of a continuous speech recognition (연속음성인식 후처리를 위한 음절 복원 rule-based 시스템과 형태소분석기법의 적용)

  • 박미성;김미진;김계성;최재혁;이상조
    • Journal of the Korean Institute of Telematics and Electronics C
    • /
    • v.36C no.3
    • /
    • pp.47-56
    • /
    • 1999
  • Various phonological alteration occurs when we pronounce continuously in korean. This phonological alteration is one of the major reasons which make the speech recognition of korean difficult. This paper presents a rule-based system which converts a speech recognition character string to a text-based character string. The recovery results are morphologically analyzed and only a correct text string is generated. Recovery is executed according to four kinds of rules, i.e., a syllable boundary final-consonant initial-consonant recovery rule, a vowel-process recovery rule, a last syllable final-consonant recovery rule and a monosyllable process rule. We use a x-clustering information for an efficient recovery and use a postfix-syllable frequency information for restricting recovery candidates to enter morphological analyzer. Because this system is a rule-based system, it doesn't necessitate a large pronouncing dictionary or a phoneme dictionary and the advantage of this system is that we can use the being text based morphological analyzer.

  • PDF

Automatic Prediction of 'Anti-Search Variants' of Twitter based on Word Embeddings and Phonetic Similarity (단어 임베딩과 음성적 유사도를 이용한 트위터 '서치 방지 단어'의 자동 예측)

  • Lee, Sangah
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.190-193
    • /
    • 2017
  • '서치 방지 단어'는 SNS 상에서 사용자들이 작성한 문서의 검색 및 수집을 피하기 위하여 사용하는 변이형을 뜻한다. 하나의 검색 키워드가 있다면 그와 같은 대상을 나타내는 변이형이 여러 형태로 존재할 수 있으며, 이들 변이형에 대한 검색 결과를 함께 수집할 수 있다면 데이터 확보가 중요하게 작용하는 다양한 연구에 큰 도움이 될 것이다. 본 연구에서는 특정 단어가 주어진 키워드로부터 의미 벡터 상의 거리가 가까울수록, 그리고 주어진 키워드와 비슷한 음성적 형태 즉 발음을 가질수록, 해당 키워드의 변이형일 가능성이 높을 것이라고 가정하였다. 이에 따라 단어 임베딩을 이용한 의미 유사도와 최소 편집 거리를 응용한 음성적 유사도를 이용하여 주어진 검색 키워드와 유사한 변이형들을 제안하고자 하였다. 그 결과 구성된 변이형 후보의 목록에는 다양한 형태의 단어들이 포함되었으며, 이들 중 다수가 실제 SNS 상에서 같은 의미로 사용되고 있음이 확인되었다.

  • PDF

The Study of Korean Speech Recognition for Various Continue HMM (연속 HMM에 따른 우리말 음성인식 조사)

  • Lim Changwug;Shin Chwacheul;Kim Sukdong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.49-52
    • /
    • 2004
  • 본 논문은 연속 밀도 함수를 갖는 HMM별 한국어 연속 음성 인식에 관한 연구이다. 여기서 우리는 밀도 함수가 2개에서 44개까지 갖는 연속 HMM모델에서 가장 효율적인 연속 음성 인식을 위한 방법을 제시한다. 음성 모델은 36개로 구성한 기본음소를 사용한 CI-Model과 3,000개로 구성한 확장음소를 사용한 CD-Model을 사용하였고, 언어 모델은 N-gram을 이용하여 처리하였다. 이 방법을 사용하여 500개의 문장과 6,486 개의 단어에 대하여 화자 독립으로 CI Model에서 최고 $94.4\%$의 단어 인식률과 $64.6\%$의 문장 인식률을 얻었고, CD Model에서는 $98.2\%$의 단어 인식률과 $73.6\%$의 문장인식률을 안정적으로 얻었다.

  • PDF

Dependency relation analysis and mutual information technique for ASR rescoring (음성인식 리스코링을 위한 의존관계분석과 상호정보량 접근방법의 비교)

  • Chung, Euisok;Jeon, Hyung-Bae;Park, Jeon-Gue
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.164-166
    • /
    • 2014
  • 음성인식 결과는 다수의 후보를 생성할 수 있다. 해당 후보들은 각각 음향모델 값과 언어모델 값을 결합한 형태의 통합 정보를 갖고 있다. 여기서 언어모델 값을 다시 계산하여 성능을 향상하는 접근 방법이 일반적인 음성인식 성능개선 방법 중 하나이며 n-gram 기반 리스코링 접근 방법이 사용되어 왔다. 본 논문은 적절한 성능 개선을 위하여, 대용량 n-gram 모델의 활용 문제점을 고려한 문장 구성 어휘의 의존 관계 분석 접근 방법 및 일정 거리 어휘쌍들의 상호정보량 값을 이용한 접근 방법을 검토한다.

  • PDF

Speaker Verification for Spoken Digit Sequence by Probabilistic Neural Network (확률신경망에 의한 숫자음성열로부터의 화자확인)

  • Um, Ig-Tae;Kang, Kwon-Il;Kim, Moon-Hyn
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.178-183
    • /
    • 1999
  • 화자확인은 기본적으로 각 입력 음성에 대해 하나의 임계치를 기준으로 수락과 거부의 두 가지 결정을 내리나, 본 논문은 네 자리의 비밀번호를 음성으로 입력하였을 때 각 숫자음성에 대한 지역적인 결정을 두 개의 임계치를 이용하여 수락, 거부, 결정유보의 세 가지로 구분하고, 비밀번호 전체에 대한 판단 규칙을 제안하였다. 지역적 결정에 필요한 화자에 대한 신뢰척도의 측정치는 확률신경망을 통해 구하였다. 다섯 명의 화자를 대상으로 수행한 실험에서 하나의 임계치를 이용한 기존의 방식은 5.3%의 오류를 나타냈고, 본 논문에서 제안한 방식은 2.1%의 오류를 보였다.

  • PDF

CONFIDENCE MEAUSRING METHOD FOR CONTIUOUS SPEECH RECOGNITION USING MAXIMUM ENTROPY MODEL (최대 엔트로피 모델을 이용한 연속음성인식에서의 인식 신뢰도 측정)

  • Jung, Sang-Keun;Jeong, Min-Woo;Lee, Gary Geun-Baee
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.200-204
    • /
    • 2004
  • 음성인식기술을 실제 생활에 적용할 때 발생하는 대표적인 문제로. 인식기의 낮은 인식률로 인한 오동작을 들 수 있다. 본 연구에서는, 텔레뱅킹 도메인에서의 HTK(Hidden Markov Model Toolkit) 연속 음성 인식 시스템과, 최대 엔트로피 기법에 기반한 사용자 발화에서의 핵심이 되는 단어(주로 고유 명사들)들에 대한 인식 신뢰도의 측정 방법을 제시한다. 음향특징과 언어특징들을 모두 고려하여 인식 신뢰도를 구하였으며 인식된 단어들에 대해 오인식 되었음을 약 86%의 정확도로 판단할 수 있음을 확인하였다. 본 인식신뢰도를 이용하여 차후에 음성인식의 확인대화(Clarification Dialog)모델을 개발하는데 활용하고자 한다.

  • PDF

Emotion Transfer with Strength Control for End-to-End TTS (감정 제어 가능한 종단 간 음성합성 시스템)

  • Jeon, Yejin;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.423-426
    • /
    • 2021
  • 본 논문은 전역 스타일 토큰(Global Style Token)을 기준으로 하여 감정의 세기를 조절할 수 있는 방법을 소개한다. 기존의 전역 스타일 토큰 연구에서는 원하는 스타일이 포함된 참조 오디오(reference audio)을 사용하여 음성을 합성하였다. 그러나, 참조 오디오의 스타일대로만 음성합성이 가능하기 때문에 세밀한 감정 조절에 어려움이 있었다. 이 문제를 해결하기 위해 본 논문에서는 전역 스타일 토큰의 레퍼런스 인코더 부분을 잔여 블록(residual block)과 컴퓨터 비전 분야에서 사용되는 AlexNet으로 대체하였다. AlexNet은 5개의 함성곱 신경망(convolutional neural networks) 으로 구성되어 있지만, 본 논문에서는 1개의 신경망을 제외한 4개의 레이어만 사용했다. 청취 평가(Mean Opinion Score)를 통해 제시된 방법으로 감정 세기의 조절 가능성을 보여준다.

  • PDF

An Information Extraction Approach for Spoken Language Understanding in a Hostile Environment. (열악한 환경의 음성 언어 이해를 위한 정보 추출 접근 방식)

  • Eun, Ji-Hyun;Lee, Chang-Ki;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.20-24
    • /
    • 2004
  • 본 논문에서는 환경 잡음과 원거리 음성 입력 그리고 노인 발화 등의 열악한 음성 인식 환경에서의 음성 언어이해(spoken language understanding)를 위한 정보 추출 접근 방식에 대해 논하고 있다. 정보 추출의 목적은 미리 정의된 slot에 적절한 값을 찾는 것이다. 음성 언어 이해를 위한 정보 추출은 필수적인 요소만을 추출하는 것을 목적으로 하는 개념 집어내기(concept spotting) 접근 방식을 사용한다. 이러한 방식은 미리 정의된 개념 구조 slot에만 관심을 가지기 때문에. 음성 언어 이해에서 사용되는 정보 추출은 언어를 완전히 이해한다기보다는 부분적으로 이해하는 방식을 취하고 있다. 음성 입력 언어는 주로 열등한 인식 환경에서 이루어지기 때문에 많은 인식 오류를 가지고 이로 인해 텍스트 입력에 비해 이해하기 어렵다. 이러한 점을 고려하여, 특정 정보에 집중함으로써 음성 언어를 이해하고자 시도하였다. 도로 정보 안내 영역을 대상으로 한 실험에서 텍스트 입력(WER 0%)과 음성 입력(WER 39.0%)이 주어졌을 때, 개념 집어내기 방식의 F-measure 값은 각각 0.945, 0.823을 나타내었다.

  • PDF

Noun Extractor based on a multi-purpose Korean morphological engine implemented with COM (COM 기반의 다목적 형태소 분석기를 이용한 명사 추출기)

  • Lee, Joong-Young;Shin, Byuoung-Hoon;Lee, Kong-Joo;Kim, Jee-Eun;Ahn, Sahng-Gyou
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.167-172
    • /
    • 1999
  • 한국어 형태소 분석기는 한국어를 분석하여 여러 다른 응용프로그램에 적용할 수 있는 기본적인 도구이다. 형태소 분석기를 응용하여 맞춤법 검사기나 정보검색, 기계번역, 음성인식 등에 적용할 수 있다. 본 논문에서는 형태소 분석기를 이용하여 여러 응용프로그램에 다목적으로 적용할 수 있도록 COM(Component Object Model)으로 인터페이스를 설계하고, 일례로 명사를 추출하는 응용프로그램을 구현하였다.

  • PDF

Evaluation of the Translation Part of the Concept-based Spoken Language Translation System (개념기반 대화체 언어번역시스템의 번역부평가)

  • Choi, Un-Cheon;Han, Nam-Yong;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.322-325
    • /
    • 1996
  • 이 논문은 개념기반의 대화체 언어번역시스템의 번역부의 평가에 대해 기술한 것이다. 대상언어는 한국어와 영어로 한국어를 해석하여 영어로 번역하는 시스템이다. 개념기반 시스템은 개념을 기준으로 입력된 문장을 해석하고 그 개념을 이용하여 번역한다. 개념기반 시스템은 개념에 기반을 두기 때문에 자유로운 간투사의 사용, 빈번한 단어 생략 등의 특성을 가지는 대화체 번역에 유리하다. 시스템의 평가는 입력문에 대한 번역문의 결과가 의미적으로 어느 정도 전달되었는지를 평가자의 주관적인 판단에 의해 평가한다. 현재 개발된 시스템은 여행안내 영역(domain)을 대상으로 하고 있다. 개발된 시스템에 대한 평가는 대화체를 전사한 문장과 음성인식의 결과 두 가지의 입력에 대해 하였다.

  • PDF