• 제목/요약/키워드: 음소 단위

검색결과 178건 처리시간 0.023초

Lip-synch application을 위한 한국어 단어의 음소분할 (The segmentation of Korean word for the lip-synch application)

  • 강용성;고한석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.509-512
    • /
    • 2001
  • 본 논문은 한국어 음성에 대한 한국어 단어의 음소단위 분할을 목적으로 하였다. 대상 단어는 원광대학교 phonetic balanced 452단어 데이터 베이스를 사용하였고 분할 단위는 음성 전문가에 의해 구성된 44개의 음소셋을 사용하였다. 음소를 분할하기 위해 음성을 각각 프레임으로 나눈 후 각 프레임간의 스펙트럼 성분의 유사도를 측정한 후 측정한 유사도를 기준으로 음소의 분할점을 찾았다. 두 프레임 간의 유사도를 결정하기 위해 두 벡터 상호간의 유사성을 결정하는 방법중의 하나인 Lukasiewicz implication을 사용하였다. 본 실험에서는 기존의 프레임간 스펙트럼 성분의 유사도 측정을 이용한 하나의 어절의 유/무성음 분할 방법을 본 실험의 목적인 한국어 단어의 음소 분할 실험에 맞도록 수정하였다. 성능평가를 위해 음성 전문가에 의해 손으로 분할된 데이터와 본 실험을 통해 얻은 데이터와의 비교를 하여 평가를 하였다. 실험결과 전문가가 직접 손으로 분할한 데이터와 비교하여 32ms이내로 분할된 비율이 최고 84.76%를 나타내었다.

  • PDF

LPC Smoothed Log Amplitude Spectra를 이용한 자동 음성 분할 (Automatic Segmentation Using LPC Smoothed Log Amplitude Spectra)

  • 김도한;이상운;이기정;홍재근
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.795-798
    • /
    • 2000
  • 연속음 인식과 음성 합성을 위해서는 정밀한 음성학적 모델과 연속 음성에 적용 가능한 언어 모델의 개발이 중요하다. 이를 위해서는 음성 데이터 베이스에 대한 인식 단위, 혹은 합성 단위의 분할이 필요한데, 수동음성 분할은 일관성의 유지가 어렵고 긴 시간이 소요되므로 최근에는 자동 분할 기술이 많이 연구되고 있다. 자동 음성 분할 기법으로는 시간 영역이나 주파수 영역특징 벡터의 천이를 분석하는 방법과 특징 벡터간의 상관도를 구하여 경계를 추출하는 방법이 있다. LPC smoothed log amplitude spectra는 음성의 주파수 영역의 특징을 잘 나타내며, 동일 음소 내의 상관도가 서로 다른 음소의 상관도보다 더 크고, 음소의 경계구간에서 급격한 상관도의 변화를 보인다. 이 특성을 이용하여 이웃 프레임에 대한 상관도의 방향성이 특정조건을 만족하는가를 검사하여 음소의 경계를 구하는 방법을 찾았다. 또한 LPC. 이득 인자만으로 묵음 구간을 검출하는 방법을 제시한다. 이렇게 하면 묵음 구간검출과 음소 경계 검출의 일관성을 향상시키고 수행 시간을 단축시킬 수 있다. 제안한 기법으로 허용 오차 20ms 이내에서 연속음성에 대한 음소 경계 검출 실험을 수행한 결과, 수작업으로 행한 경계 검출 지점의 약 88%를 정확히 검출하였다.

  • PDF

기능어용 음소 모델을 적용한 한국어 연속음성 인식 (Korean Continuous Speech Recognition using Phone Models for Function words)

  • 명주현;정민화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.354-356
    • /
    • 2000
  • 의사형태소를 디코딩 단위로 한국어 연속 음성 인식에서의 조사, 어미, 접사 및 짧은 용언의 어간등의 단어가 상당수의 인식 오류를 발생시킨다. 이러한 단어들은 발화 지속시간이 매우 짧고 생략이 빈번하며 결합되는 다른 형태소의 형태에 따라서 매우 심한 발음상의 변이를 보인다. 본 논문에서는 이러한 단어들은 한국어 기능어라 정의하고 실제 의사형태소 단위의 인식 실험을 통하여 기능어 집합 1, 2를 규정하였다. 그리고 한국어 기능어에 기능어용 음소를 독립적으로 적용하는 방법을 제안했다. 또한 기능어용 음소가 분리되어 생기는 음향학적 변이들을 처리하기 위해 Gaussian Mixture 수를 증가시켜 보다 견고한 학습을 수행했고, 기능어들의 음향 모델 스코어가 높아짐에 따른 인식에서의 삽입 오류 증가를 낮추기 위해 언어 모델에 fixed penalty를 부여하였다. 기능어 집합1에 대한 음소 모델을 적용한 경우 전체 문장 인식률은 0.8% 향상되었고 기능어 집합2에 대한 기능어 음소 모델을 적용하였을 때 전체 문장 인식률은 1.4% 증가하였다. 위의 실험 결과를 통하여 한국어 기능어에 대해 새로운 음소를 적용하여 독립적으로 학습하여 인식을 수행하는 것이 효과적임을 확인하였다.

  • PDF

한국어 문장 단위운율 발생에 관한 연구 (A Study on the Prosody Generation of Korean Sentences)

  • 민경중
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.419-423
    • /
    • 1998
  • 법칙합성 시스템은 합성단위 합성기, 합성방식 등에 따라 여러 가지 다양한 음성합성시스템이 있으나 순수한 법칙합성 시스템이 아니고 기본 합성단위를 연결하여 합성음을 발생시키는 연결합성 시스템은 연결단위사이 그리고 문장단위에서의 매끄러운 합성계수의 변화를 구현하지 못해 자연감이 떨어지는 실정이다. 자연감을 높이기 위해 보다 자연음에 가까운 운율을 발생시키기 위해 먼저 운율에 영향을 주는 요소들을 고려하여 신경망 입력 패턴을 구성한다. 분절요인에 의한 영향을 고려해주기 위해 전후 3음소를 동시에 입력시키고 문장내에서의 구문론적인 영향을 고려해주기 위해 해당 음소의 문장내에서의 위치, 운율구에 관한 정보등을 신경망의 입력 패턴으로 구성하였다. 신경망을 훈련시키기 위한 언어자료로는 고립단어군과 음소균형 문장군 그리고 삽입음절연결어 등으로 구성한다. 특정화자로 하여금 신경망을 훈련시켜 자연음의 운율과 유사한 합성운을 발생시켰다.

  • PDF

강건한 한국어 연속음성인식을 위한 유사음소단일에 대한 연구 (A Study on PLU (Phone-Likely Unit) for Korean Continuous Speech Recognition)

  • 서준배;김주곤;김민정;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.37-40
    • /
    • 2004
  • 본 논문은 한국어 연속음성인식에 효율적인 문맥의존 음향모델 수에 대한 연구로써 유사음소단위 수에 따른 인식 성능을 비교, 평가하였다. 기존에 본연구실에서는 48음소를 기본인식단위로 이용하고 있으나 연속음성인식의 경우 문맥종속모델이 사용되고 문맥종속모델은 변이 음을 고려한 음소가 이미 포함되어 있어 이를 고려하면 기본 음소를 줄이므로서 계산량의 감소와 인식 성능 향상을 기대할 수 있을 것으로 생각된다. 따라서 , 본 논문에서는 기존의 48음소와 이를 39음소로 줄여 인식실험에 사용하여 그 성능을 비교 평가하기로 하였다. 이를 위하여 다양한 태스크의 데이터베이스를 통합하여 부족한 문맥요소들을 확장한 후 인식실험을 수행하였다. 실험결과 변이음의 개수를 줄이면서도 인식 성능저하가 없음을 확인할 수 있었으며 연속 음성의 경우 39음소를 이용한 경우가 $10\%$정도의 향상된 인식성능을 얻을 수 있음을 확인할 수 있었다.

  • PDF

포만트합성법을 이용한 한국어 규칙합성시스템의 구현에 관한 연구 (A Study on the Implementation of Korean Synthesis-By-Rule System Using Formant Synthesis Method)

  • 조철우;이태원
    • 한국음향학회지
    • /
    • 제9권6호
    • /
    • pp.38-44
    • /
    • 1990
  • 포만트 합성법을 이용하여 규칙합성시스템을 구현한 일례를 제시한다. 먼저 음소의 입력을 위한 영문 알파벳과 음소의 대응관계를 설정한 뒤 수집된 자연음성으로부터 포만트 합성을 위한 특징 파라미 터를 추출하여 데이터베이스를 작성하다. 그 다음 이러한 데이터베이스를 이용하여 제시된 음소간을 연 결하는 규칙을 제안하고 음소단위의 합성을 행한다. 합성에는 신호처리 프로세서를 사용한 실시간 포만 트 음성합성기를 구현하여 사용하였다. 합성결과 단독음소와 연결음소에 대하여 합성음성을 얻고 이를 평가하였다.

  • PDF

스파이크그램 기반의 주파수 및 시간 특성을 이용한 음소 인식 (Phoneme Recognition using Temporal and Spectral Features based on Spikegram)

  • 한석현;김재원;안순호;신성현;박호종
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.156-157
    • /
    • 2019
  • 본 논문에서는 스파이크그램 기반의 주파수 및 시간 특성을 이용한 음속 인식 방법을 제안한다. 기존의 MFCC 특성은 프레임 단위의 평균 특성이기 때문에 시간 해상도가 낮고, 짧은 음소의 특성을 반영하기에는 어렴움이 있다. 반면, 스파이크그램은 청각 모델을 기반으로 샘플 단위로 계산하기 때문에높은 시간 해상도를 가진다. 고 해상도의 스파이크그램을 분석하면 음소 인식에 특화된 특성 벡터를 추출할 수 있다. 추출된 특성으로 심층 신경망을 학습시켜 음소 인식기를 구현하였고, TMIT 테이터 세트로 성능을 평가하였다. 성능 평가를 통하여 스파이크그램 기반의 새로운 시간-주파수 특성을 사용하여 MFCC 특성과 유사한 성능의 음소인식이 가능한 것을 확인하였다.

  • PDF

음소 질의어 집합 생성 알고리즘 (Phonetic Question Set Generation Algorithm)

  • 김성아;육동석;권오일
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.173-179
    • /
    • 2004
  • 음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.

LSP를 이용한 음소단위 PSOLA 음성합성에 관한 연구 (A Study on Phoneme-Based PSOLA Speech Synthesis Using LSP)

  • 권혁제;조순계;김종교
    • 한국음향학회지
    • /
    • 제17권2호
    • /
    • pp.3-10
    • /
    • 1998
  • 본 논문에서는 음소단위 PSOLA 한국어 합성을 LSP line의 조절과 자모음 분석을 통해서 실시하였다. 음성합성에서 많이 사용하는 triphone, diphone, demisyllable등과 같은 합성단위들은 자연스러운 합성음을 위해 다양한 음운환경에서 수집된다. 그러나, 이런 방법 은 많은 시간과 메모리가 요구된다. 본 논문에서는 합성단위로서 자음17개, 모음 16개로 총 33개의 음소를 이용하였다. 자음은 후위모음/이/인 CV에서 segment되고, 모음은 단음절의 단모음과 이중모음을 1인의 화자로부터 합성데이터를 수집하였다. 또한, 10명의 화자가 발성 한 CV에서 각 모음에 따라 변하는 자음의 주파수를 분석하였고, CV+VC 또는 CV+CV에서 각 자음에 따라 변하는 모음의 포먼트변화를 분석하였다. 분석결과를 토대로 모음은 LSP line을 조절해서 PSOLA합성을 하고, 자음은 합성하려는 모음과 결합하였다. 그 결과 6개의 합성단어에 대한 청취율은 65%를 보였다.

  • PDF

음소 단위 임베딩 모형을 이용한 감성 분석 (Sentimental Analysis using the Phoneme-level Embedding Model)

  • 현경석;최우성;정순영;정재화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1030-1032
    • /
    • 2019
  • 형태소 분석을 통하여 한국어 문장을 형태소 단위의 임베딩 및 학습 관련 연구가 되었으나 최근 비정형적인 텍스트 데이터의 증가에 따라 음소 단위의 임베딩을 통한 신경망 학습에 대한 요구가 높아지고 있다. 본 논문은 비정형적인 텍스트 감성 분석 성능 향상을 위해 음소 단위의 토큰을 생성하고 이를 CNN 모형을 기반으로 다차원 임베딩을 수행하고 감성분석을 위하여 양방향 순환신경망 모델을 사용하여 유튜브의 비정형 텍스트를 학습시켰다. 그 결과 텍스트의 긍정 부정 판별에 있어 90%의 정확도를 보였다.