• 제목/요약/키워드: 음소 추출

검색결과 86건 처리시간 0.021초

SOM과 LVQ에 의한 자음의 분류 (Classification of Consonants by SOM and LVQ)

  • 이채봉;이창영
    • 한국전자통신학회논문지
    • /
    • 제6권1호
    • /
    • pp.34-42
    • /
    • 2011
  • 음성타자기의 구현에 접근하려는 노력의 일환으로서, 우리는 본 논문에서 자음의 분류에 대해 연구한다. 많은 자음들은 시간에 따른 주기적 거동을 보이지 않고 따라서 그들에 대한 푸리에 해석의 타당성에 확신을 갖기 어렵다. 그러므로, 우선 음성 신호로부터 추출되는 MFCC와 LPCC 특징벡터들이 자음에 대해 어느 정도의 의미가 있는지를 파악하기 위하여 LBG 클러스터링을 통한 벡터양자화를 수행한다. VQ의 실험적 결과는 자음에 대한 푸리에 해석의 타당성에 관해 분명한 결론을 내리는 것이 쉽지 않음을 보여주었다. 자음의 분류를 위해 SOM과 LVQ의 두 가지 신경망이 사용되었다. SOM의 결과는 몇 쌍의 자음들이 나뉘어 분류되지 않음을 보여주었다. LVQ에서는 본질적으로 이 문제가 사라지지만 자음의 분류 정확도는 낮은 수준이었다. 이로부터, LVQ에 의한 자음 분류에 있어서는 MFCC 및 다른 특징 벡터들이 함께 사용되어야 함이 사료된다. 하지만 본 연구에서 도입한 MFCC/LVQ의 결합은 기존의 언어모델을 기반으로 하는 음소 분류에 비해 그 결과가 나쁘지 않은 것으로 나타났다. 모든 경우에 LPCC 특징벡터는 MFCC에 비해 그 결과가 좋지 않았다.

콜퍼스에 기반한 한국어 문장/음성변환 시스템 (Corpus-based Korean Text-to-speech Conversion System)

  • 김상훈;박준;이영직
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.24-33
    • /
    • 2001
  • 이 논문에서는 대용량 음성 데이터베이스를 기반으로 하는 한국어 문장/음성변환시스템의 구현에 관해 기술한다. 기존 소량의 음성데이타를 이용하여 운율조절을 통해 합성하는 방식은 여전히 기계음에 가까운 합성음을 생성하고 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 대용량 음성 데이터베이스를 기반으로 하여 운율처리없이 합성단위 선정/연결에 의해 합성음질을 향상시키고자 한다. 대용량 음성 데이터베이스는 다양한 운율변화를 포함하도록 문장단위를 녹음하며 이로부터 복수개의 합성단위를 추출, 구축한다. 합성단위는 음성인식기를 훈련, 자동으로 음소분할하여 생성하며, 래링고그라프 신호를 이용하여 정교한 피치를 추출한다. 끊어 읽기는 휴지길이에 따라 4단계로 설정하고 끊어읽기 추정은 품사열의 통계정보를 이용한다. 합성단위 선정은 운율/스펙트럼 파라미터를 이용하여 비터비 탐색을 수행하게 되며 유클리디언 누적거리가 최소인 합성단위열을 선정/연결하여 합성한다. 또한 이 논문에서는 고품질 음성합성을 위해 특정 서비스 영역에 더욱 자연스러운 합성음을 생성할 수 있는 영역의존 음성합성용 데이터베이스를 제안한다. 구현된 합성시스템은 주관적 평가방법으로 명료도와 자연성을 평가하였고 그 결과 대용량 음성 데이터베이스를 기반으로한 합성방식의 성능이 기존 반음절단위를 사용한 합성방식보다 더 나은 성능을 보임을 알 수 있었다.

  • PDF

스팸메일 필터링을 위한 한글 변칙어 인식 방법 (Recognition Method of Korean Abnormal Language for Spam Mail Filtering)

  • 안희국;한욱표;신승호;양동일;노희영
    • 한국항행학회논문지
    • /
    • 제15권2호
    • /
    • pp.287-297
    • /
    • 2011
  • 전자메일은 사용의 편리성과 정보전달의 신속성 때문에 널리 사용되고 있지만, 광고목적이나 악의성을 갖는 스팸메일의 양도 증가하여 사회적 경제적으로 큰 문제를 야기한다. 스팸메일을 필터링하기 위한 방법은 수용 전 단계와 수용 후 단계로 나누어서 접근할 수 있는데, 수용 후 접근의 경우는 메시지로부터 단어나 문장 단위로 자질을 추출하고 그로부터 학습이나 매칭방법을 통하여 필터링을 하는 과정을 포함한다. 하지만, 필터링을 우회하기위해 스패머는 계속적으로 단어를 변형시켜 메일을 발송시키고 있다. 특히 한국어의 경우는 특성상 한 음절을 이루는 음소의 변화로부터 변형이 가능하기 때문에 그 변칙적 사용이 더 다양하다고 할 수 있다. 따라서, 기존의 정규식이나 학습알고리즘은 대처에 한계를 갖게 된다. 이에 본 논문에서는 한글의 변칙어를 인식할 수 있는 방법을 제안함으로서 스팸메일분류 시스템의 성능을 향상시키고자 한다. 이를 위해, 자소접근방법을 사용하고, Smith-Waterman알고리즘을 적용하였다. 메일서버로부터 추출한 필터키워드와 메일로부터 제안한 방법을 실험한 결과 유사도 수준에 따라 한글 변칙어들을 정확히 인지해 낼 수 있었다. 실험을 통해 소요 공간 및 시간은 허용될 수 있는 수준임을 확인하였다.

파형 특징 추출과 신경망 학습 기반 모음 'ㅣ' 음성 인식 (Speech Recognition for the Korean Vowel 'ㅣ' based on Waveform-feature Extraction and Neural-network Learning)

  • 노원빈;이종우;이재원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.69-76
    • /
    • 2016
  • 최근 모든 산업에서 사물인터넷에 대한 관심이 집중되면서 집, 회사, 차, 길거리 등 인간이 생활하는 모든 환경에 컴퓨팅 기술이 접목되고 있다. 이 같은 사물인터넷 환경에서 음성인식은 중요한 HCI 수단으로 자리 잡고 있다. 현존하는 서버 기반의 음성인식은 속도가 빠르고 꽤 높은 인식률을 보여주고는 있지만, 데이터베이스 내에 저장되어 있는 단어 단위로 인식하기 때문에 인터넷 연결과 복잡한 컴퓨팅이 필수적이다. 본 논문은 한국어 음소 모음 'ㅏ', 'ㅓ' 인식에 대한 휴리스틱 알고리즘에 이은 연구로 모음 'ㅣ'에 대한 음성 인식을 구현하고자 한다. 모음 'ㅣ' 음성의 여러 파형 패턴들을 관찰한 결과 모음 'ㅏ', 'ㅓ'와는 다른 특정한 파형의 패턴을 가지고 있음을 발견하였고, 그 패턴을 인식하는 알고리즘을 제시한다. 또한, 제시한 알고리즘에 신경망 학습을 적용하여 인식성공률을 높이는 실험 결과도 제시한다. 모음 'ㅣ'에 대한 본 알고리즘은 파형의 특징적인 부분 추출 기반으로 인식하며, 신경망 학습까지 적용한 후 실험한 결과 90% 이상의 정확도로 모음 'ㅣ'를 인식하는 것을 확인하였다.

음성특징의 거리에 기반한 한국어 발음의 시각화 (Visualization of Korean Speech Based on the Distance of Acoustic Features)

  • 복거철
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권3호
    • /
    • pp.197-205
    • /
    • 2020
  • 한국어는 자음과 모음과 같은 음소 단위의 발음은 고정되어 있고 표기에 대응하는 발음은 변하지 않기 때문에 외국인 학습자가 쉽게 접근할 수 있다. 그러나 단어와 어구, 문장을 말할 때는 음절과 음절의 경계에서 소리의 변동이 다양하고 복잡하며 표기와 발음이 일치하지 않기 때문에 외국어로서의 한국어 표준 발음 학습은 어려운 면이 있다. 그러나 영어 같은 다른 언어와 달리 한국어의 표기와 발음의 관계는 논리적인 원리에 따라 예외 없이 규칙화 할 수 있는 장점이 있으므로 발음오류에 대해 체계적인 분석이 가능한 것으로 여겨진다. 본 연구에서는 오류 발음과 표준 발음의 차이를 컴퓨터 화면상의 상대적 거리로 표현하여 시각화하는 모델을 제시한다. 기존 연구에서는 발음의 특징을 단지 컬러 또는 3차원 그래픽으로 표현하거나 입과 구강의 변화하는 형태를 애니메이션으로 보여 주는 방식에 머물러 있으며 추출하는 음성의 특징도 구간의 평균과 같은 점 데이터를 이용하는데 그치고 있다. 본 연구에서는 시계열로 표현되는 음성데이터의 특성 및 구조를 요약하거나 변형하지 않고 직접 이용하는 방법을 제시한다. 이를 위해서 딥러닝 기법을 토대로 자기조직화 알고리즘과 variational autoencoder(VAE) 모델 및 마코브 확률모델을 결합한 확률적 SOM-VAE 기법을 사용하여 클러스터링 성능을 향상시켰다.

콘포머 기반 FastSpeech2를 이용한 한국어 음식 주문 문장 음성합성기 (A Korean menu-ordering sentence text-to-speech system using conformer-based FastSpeech2)

  • 최예린;장재후;구명완
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.359-366
    • /
    • 2022
  • 본 논문에서는 콘포머 기반 FastSpeech2를 이용한 한국어 메뉴 음성합성기를 제안한다. 콘포머는 본래 음성 인식 분야에서 제안된 것으로, 합성곱 신경망과 트랜스포머를 결합하여 광역과 지역 정보를 모두 잘 추출할 수 있도록 한 구조다. 이를 위해 순방향 신경망을 반으로 나누어 제일 처음과 마지막에 위치시켜 멀티 헤드 셀프 어텐션 모듈과 합성곱 신경망을 감싸는 마카론 구조를 구성했다. 본 연구에서는 한국어 음성인식에서 좋은 성능이 확인된 콘포머 구조를 한국어 음성합성에 도입하였다. 기존 음성합성 모델과의 비교를 위하여 트랜스포머 기반의 FastSpeech2와 콘포머 기반의 FastSpeech2를 학습하였다. 이때 데이터셋은 음소 분포를 고려한 자체 제작 데이터셋을 이용하였다. 특히 일반대화 뿐만 아니라, 음식 주문 문장 특화 코퍼스를 제작하고 이를 음성합성 훈련에 사용하였다. 이를 통해 외래어 발음에 대한 기존 음성합성 시스템의 문제점을 보완하였다. ParallelWave GAN을 이용하여 합성음을 생성하고 평가한 결과, 콘포머 기반의 FastSpeech2가 월등한 성능인 MOS 4.04을 달성했다. 본 연구를 통해 한국어 음성합성 모델에서, 동일한 구조를 트랜스포머에서 콘포머로 변경하였을 때 성능이 개선됨을 확인하였다.