• 제목/요약/키워드: 음소

검색결과 529건 처리시간 0.027초

전화기 숫자 자판을 이용한 대화형 한글 문자 입력 방법 (An Interactive Hangul Text Entry Method Using The Numeric Phone Keypad)

  • 박재화
    • 정보처리학회논문지B
    • /
    • 제14B권5호
    • /
    • pp.391-400
    • /
    • 2007
  • 휴대용 단말기의 숫자 자판을 이용해서 보다 편리하게 한글을 입력할 수 있도록 하는 대화형 방식을 제시하였다. 사용자는 입력하고자 하는 글자의 해당 자소가 있는 키를 한 번씩 눌러 키 시퀀스를 발생시킨다. 인터페이스는 사용자가 입력한 키 시퀀스에 대해 조합 가능한 모든 글자를 발생 시키고 사용자는 발생된 글자 중에서 입력하고자 하는 글자를 선택하도록 한다. 이를 통해 기존의 방법에서 공통으로 사용되는 수동적이고 일차원적인 자소 중심의 인터페이스를 상호 작용이 가능한 입체적인 글자 중심의 방법으로 개선 가능하다. 이 방법은 최종 글자의 입력을 완료하기 위해 필요한 글자 선택의 과정이 부가적으로 필요하지만, 기존 방법의 가장 큰 단점인 멀티탭과 불분명한 음소의 결정을 위한 키 조작의 불편함을 근본적으로 없앨 수 있다. 또한 모든 글자의 입력이 필기 순서와 동일하게 기본 자소에 의해 입력이 가능함으로 사용자의 문자입력에 대한 복잡도를 감소시킬 수 있다. 제안된 방법의 장단점을 실험을 통해 기존의 방법과 비교하였다.

음성인식 성능 개선을 위한 다중작업 오토인코더와 와설스타인식 생성적 적대 신경망의 결합 (Combining multi-task autoencoder with Wasserstein generative adversarial networks for improving speech recognition performance)

  • 고조원;고한석
    • 한국음향학회지
    • /
    • 제38권6호
    • /
    • pp.670-677
    • /
    • 2019
  • 음성 또는 음향 이벤트 신호에서 발생하는 배경 잡음은 인식기의 성능을 저하시키는 원인이 되며, 잡음에 강인한 특징을 찾는데 많은 노력을 필요로 한다. 본 논문에서는 딥러닝을 기반으로 다중작업 오토인코더(Multi-Task AutoEncoder, MTAE) 와 와설스타인식 생성적 적대 신경망(Wasserstein GAN, WGAN)의 장점을 결합하여, 잡음이 섞인 음향신호에서 잡음과 음성신호를 추정하는 네트워크를 제안한다. 본 논문에서 제안하는 MTAE-WGAN는 구조는 구배 페널티(Gradient Penalty) 및 누설 Leaky Rectified Linear Unit (LReLU) 모수 Parametric ReLU (PReLU)를 활용한 변수 초기화 작업을 통해 음성과 잡음 성분을 추정한다. 직교 구배 페널티와 파라미터 초기화 방법이 적용된 MTAE-WGAN 구조를 통해 잡음에 강인한 음성특징 생성 및 기존 방법 대비 음소 오인식률(Phoneme Error Rate, PER)이 크게 감소하는 성능을 보여준다.

한국인 화자의 외래어 발음 변이 양상과 음절 기반 외래어 자소-음소 변환 (Pronunciation Variation Patterns of Loanwords Produced by Korean and Grapheme-to-Phoneme Conversion Using Syllable-based Segmentation and Phonological Knowledge)

  • 류혁수;나민수;정민화
    • 말소리와 음성과학
    • /
    • 제7권3호
    • /
    • pp.139-149
    • /
    • 2015
  • This paper aims to analyze pronunciation variations of loanwords produced by Korean and improve the performance of pronunciation modeling of loanwords in Korean by using syllable-based segmentation and phonological knowledge. The loanword text corpus used for our experiment consists of 14.5k words extracted from the frequently used words in set-top box, music, and point-of-interest (POI) domains. At first, pronunciations of loanwords in Korean are obtained by manual transcriptions, which are used as target pronunciations. The target pronunciations are compared with the standard pronunciation using confusion matrices for analysis of pronunciation variation patterns of loanwords. Based on the confusion matrices, three salient pronunciation variations of loanwords are identified such as tensification of fricative [s] and derounding of rounded vowel [ɥi] and [$w{\varepsilon}$]. In addition, a syllable-based segmentation method considering phonological knowledge is proposed for loanword pronunciation modeling. Performance of the baseline and the proposed method is measured using phone error rate (PER)/word error rate (WER) and F-score at various context spans. Experimental results show that the proposed method outperforms the baseline. We also observe that performance degrades when training and test sets come from different domains, which implies that loanword pronunciations are influenced by data domains. It is noteworthy that pronunciation modeling for loanwords is enhanced by reflecting phonological knowledge. The loanword pronunciation modeling in Korean proposed in this paper can be used for automatic speech recognition of application interface such as navigation systems and set-top boxes and for computer-assisted pronunciation training for Korean learners of English.

한국어 연속음성 인식을 위한 발음열 자동 생성 (Automatic Generation of Pronunciation Variants for Korean Continuous Speech Recognition)

  • 이경님;전재훈;정민화
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.35-43
    • /
    • 2001
  • 음성 인식이나 음성 합성시 필요한 발음열을 수작업으로 작성할 경우 작성자의 음운변화 현상에 대한 전문적 언어지식을 비롯하여 많은 시간과 노력이 요구되며 일관성을 유지하기도 쉽지 않다. 또한 한국어의 음운 변화 현상은 단일 형태소의 내부와 복합어에서 결합된 형태소의 경계점, 여러 형태소가 결합해서 한 어절을 이룰 경우 그 어절 내부의 형태소의 경계점, 여러 어절이 한 어절을 이룰 때 구성 어절의 경계점에서 서로 다른 적용 양상을 보인다. 본 논문에서는 이러한 문제를 해결하기 위해서 형태음운론적 분석에 기반하여 문자열을 자동으로 발음열로 변환하는 발음 생성 시스템을 제안하였다. 이 시스템은 한국어에서 빈번하게 발생하는 음운변화 현상의 분석을 통해 정의된 음소 변동 규칙과 변이음 규칙을 다단계로 적용하여 가능한 모든 발음열을 생성한다. 각 음운변화 규칙을 포함하는 대표적인 언절 리스트를 이용하여 구성된 시스템의 안정성을 검증하였고, 발음사전 구성과 학습용 발음열의 유용성을 인식 실험을 통해 평가하였다. 그 결과 표제어 사이의 음운변화 현상을 반영한 발음사전의 경우 5-6% 정도 나은 단어 인식률을 얻었으며, 생성된 발음열을 학습에 사용한 경우에서도 향상된 결과를 얻을 수 있었다.

  • PDF

한국어 숫자음의 음운변화 및 화자 발성특성을 고려한 연결숫자 인식의 성능향상 (Performance Improvement of Connected Digit Recognition by Considering Phonemic Variations in Korean Digit and Speaking Styles)

  • 송명규;김형순
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.401-406
    • /
    • 2002
  • 한국어 숫자는 모두 단음절로 이루어져 있으며, 연속적으로 발음될 때 인접 숫자들의 상호조음현상에 의해 각 숫자의 고유 발음이 변화하고, 또한 그 숫자들의 경계도 모호해지는 문제점이 있다. 이러한 문제점들과 더불어 배경잡음이나 채널에 의한 왜곡에 따른 문제점들로 인해 한국어 연결숫자의 인식 성능은 만족스럽지 못한 것이 현실이다. 본 논문에서는 연결숫자의 인식성능 향상을 위해서 한국어 숫자들의 음운변화를 고려하여 유사음소 (phonelike units: PLUs)군을 정의하고, 사용자의 여러 가지 발성형태에 따른 다양한 음운 현상의 변화를 흡수할 수 있도록 인식 시스템을 구성하는 방식을 검토하였다. 전화망 4연숫자를 이용한 화자독립 인식 실험을 수행한 결과 제안된 방법의 숫자열 인식률은 상태당 믹스쳐 (mixture) 개수가 1인 경우 83.2%로, 기준 시스템 (baseline)에 대한 오류감소률이 7.2%였고 가장 높은 성능을 나타낸 믹스쳐 개수가 11인 경우 숫자열 인식률은 91.8% 오류감소율은 4.7%였다.

IPA를 활용한 다국어 음성 인식에 관한 연구 (A Study on the Multilingual Speech Recognition using International Phonetic Language)

  • 김석동;김우성;우인성
    • 한국산학기술학회논문지
    • /
    • 제12권7호
    • /
    • pp.3267-3274
    • /
    • 2011
  • 최근 다양한 모바일 기기의 사용자 환경과 다양한 음성인식 소프트웨어의 영향으로 음성인식 기술역시 빠르게 발전되고 있다. 그러나 다국어를 대상으로 하는 음성인식의 경우 다국어 혼합음성에 대한 이해 부족과 시스템 성능의 한계로 인하여 원활한 인식율의 개선은 이루어지지 않고 있다. 여러 나라의 혼합 언어로 표현된 음성의 경우 하나의(단일) 음성모델로 구현하는 것이 쉽지 않고, 또한 여러 개의 음성모델을 사용한 시스템의 경우 음성인식 성능의 저하라는 문제점이 있다. 이에 따라 다양한 언어로 구성되어 있는 음성을 하나의 음성모델로 표현할 수 있는 다국어 음성인식 모바일 시스템의 개발 필요성이 증가되고 이에 대한 연구가 필요하다. 본 논문에서는 모바일 시스템에서 다국어 혼합 음성모델을 사용하기 위한 기본연구로써 한국어와 영어 음성을 국제 음성기호(IPA)로 인식하는 통합음성모델 시스템 구축을 연구하였고, 한국어와 영어 음소를 동시에 만족하는 IPA모델을 찾는데 중점을 두어 실험한 결과 우리말 음성은 94.8%, 영어 음성은 95.36%라는 인식률을 얻을 수 있었다.

자율 학습을 이용한 선형 정렬 말뭉치 구축 (Construction of Linearly Aliened Corpus Using Unsupervised Learning)

  • 이공주;김재훈
    • 정보처리학회논문지B
    • /
    • 제11B권3호
    • /
    • pp.387-394
    • /
    • 2004
  • 본 논문에서는 자을 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축하는 방법을 제안한다. 기존의 자율 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축할 경우, 두 문자열의 길이가 서로 다르면 정렬된 두 문자열(입력열과 출력열)에 모두 공백문자가 나타난다. 이 방법을 그대로 사용하면 정렬 말뭉치의 구축은 용이하나 정렬된 말뭉치를 이용하는 응용 시스템에서는 탐색 공간이 기하급수적으로 늘어날 뿐 아니라 구축된 정렬 말뭉치는 다양한 기계학습 방법에 두루 사용될 수 없다는 문제가 있다. 본 논문에서는 이들 문제를 최소화하기 위해서 입력열에는 공백문자가 나타나지 않도록 기존의 자을 선형 정렬 알고리즘을 수정하였다. 이 알고리즘을 이용해서 한영 음차 표기 및 복원, 영어 단어의 발음 생성, 영어 발음의 단어 생성, 한국어 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하였으며, 간단한 실험을 통해, 그들의 실용성을 입증해 보였다.

정상 청력 아동의 음절 간 쉼 간격에 따른 어음이해도 변화 (Changes of Speech Discrimination Score Depending on Inter-syllable Pause Duration in Normal Hearing Children)

  • 박정인;이지연;허승덕
    • 재활복지공학회논문지
    • /
    • 제8권2호
    • /
    • pp.139-144
    • /
    • 2014
  • 어음 이해는 발화속도에 영향을 받는다. 발화속도는 쉼 간격으로 조절할 수 있는데, 쉼 간격은 정보 처리과정에서 여유 시간을 가질 수 있어서 정보의 과부하를 피할 수 있다. 이 연구는 쉼 간격이 노화에 따른 청력손실과 청각재활, 청각처리 과정에 미치는 영향을 알아보기 위한 기초 연구로서 그 정상치를 알아보고자 한다. 연구 대상은 청각학 및 언어병리학적 문제가 없는 일반 초등학생 남자 7명, 여자 8명으로 하였다. 검사 도구는 3음절 20개를 1 set으로, 모두 4 set를 제작하였다. 이들 모든 낱말은 각각 보통(250 ms), 느린(500 ms), 아주 느린(1000 ms) 속도로 쉼 간격을 조절하였다. 선택용 보기는 올바르게 표기한 3음절 낱말 하나와 음소 하나씩을 오류 표기한 세 개의 낱말을 포함한 4개의 낱말로 하였다. 대상자에게는 3음절 낱말을 들려 준 후, 하나를 선택하게 하였다. 연구 결과 쉼 간격에 따른 평균 어음이해도는 250, 500, 1,000 ms의 순서로 $73{\pm}19.4%$, $84{\pm}12.2%$, $88{\pm}8.8%$로 각각 나타났다.

  • PDF

Performance Comparison of Korean Dialect Classification Models Based on Acoustic Features

  • Kim, Young Kook;Kim, Myung Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권10호
    • /
    • pp.37-43
    • /
    • 2021
  • 말소리의 음향 특징을 이용하여 화자에 대한 중요한 사회, 언어학적 정보를 얻을 수 있는데 그 중 한 가지 핵심 특징은 방언이다. 화자의 방언 사용은 컴퓨터와의 상호작용을 방해하는 주요 요소이다. 방언은 발화의 음소, 음절, 단어, 문장 및 구와 같이 다양한 수준에서 구분할 수 있지만 이를 하나하나 식별하여 방언을 구분하기는 어렵다. 이에 본 논문에서는 음성 데이터의 특성 중 MFCC만 사용하는 경량화된 한국어 방언 분류 모델을 제안한다. 한국인 대화 음성 데이터를 통해 MFCC 특징을 활용하는 최적의 방법을 연구하고, 8가지 머신 러닝 및 딥러닝 분류 모델에서 경기/서울, 강원, 충청, 전라, 경상 5개의 한국어 방언 분류 성능을 비교한다. MFCC를 정규화하는 방법으로 대부분의 분류 모델에서 성능을 향상시켰으며, MFCC를 정규화하기 전 분류 모델의 최고 성능과 비교하여 정확도는 1.07%, F1-score는 2.04% 향상된 성능을 기록하였다.

후천성 인공와우 이식 성인의 청능훈련 사례 연구 (Case Study of Auditory Training for the Acquired Hearing loss Adult with Cochlear Implant)

  • 홍하나
    • 재활복지
    • /
    • 제17권4호
    • /
    • pp.371-382
    • /
    • 2013
  • 최근 인공와우 이식 수술에 대한 건강보험이 확대 되면서 이식자들의 수는 늘어나게 되었다. 2005~2009년 사이 최근 6년간 인공와우 수술을 받은 환자는 약 3,300여명이 이르며 그 중 성인의 인공와우 이식 수가 늘어가는 양상을 보이고 있다. 어린 아동의 경우 인공와우 이식 후 청능훈련을 적극적으로 받으며 관련 연구도 많이 있지만 성인에 대한 이식 후 청능훈련에 대한 연구는 많지 않다. 본 연구는 언어습득이후 인공와우를 이식한 성인여자(54세) 1명을 대상으로 Ling 6 sound test, 표준화된 자음과 모음 듣기 검사, 문장 검사 그리고 실생활에 필요한 환경음과 단어의 인지 및 확인 평가 도구를 이용하여 10주간 청능훈련을 실시하였다. 10주간의 청능 훈련 결과, 대상자는 Ling 6 sound의 모든 음소를 확인하였으며 표준화된 자모음과 문장 듣기 검사에서도 100%에 가까운 수행력을 보였다. 또한 실생활에 환경음과 단어의 인지 및 확인은 57%에서 95%까지 수행력이 개선되었다. 본 연구 결과는 성인을 대상으로 한 청능훈련은 체계적이고 효과적인 계획과 개인의 특성을 고려한 재활 프로그램이 필요함을 보여주었다.