• 제목/요약/키워드: 연속음성신호

검색결과 80건 처리시간 0.023초

주파수 영역의 선택정보를 이용한 멀티펄스 음성부호화 방식에 관한 연구 (A Study on Multi-Pulse Speech Coding Method by using Selected Information in a Frequency Domain)

  • 이시우
    • 인터넷정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.57-66
    • /
    • 2006
  • 본 연구에서는 연속음성에서 무성자음을 포함한 천이구간을 탐색, 추출하고 주파수대역에서 근사합성하는 새로운 멀티펄스 음성부호화 방식 (FBD-MPC)를 제안하였다. 실험결과, 여자 음성의 경우 TSIUVC 추출율은 84.8%(파열음), 94.9%(마찰음), 92.3%(파찰음), 남자 음성의 경우는 88%(파열음), 94.9%(마찰음), 92.3%(파찰음)의 결과를 얻었다. 아울러, 0.547kHz 이하 2.813kHz 이상의 주파수 정보를 사용하여 TSIUVC 음성파형을 양호하게 근사합성할 수 있었으며, 유성음/무성음 선택정보를 이용한 MPC와 유성음/무음/TSIUVC를 이용한 FBO-MPC를 평가한 결과, FBO-MPC의 음질이 MPC의 음질에 비하여 개선되었음을 알 수 있었다.

  • PDF

HMM을 이용한 음성에서의 감정인식 (Recognition of Emotional states in Speech using Hidden Markov Model)

  • Kim, Sung-Ill;Lee, Sang-Hoon;Shin, Wee-Jae;Park, Nam-Chun
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 추계학술대회 학술발표 논문집 제14권 제2호
    • /
    • pp.560-563
    • /
    • 2004
  • 본 논문은 분노, 행복, 평정, 슬픔, 놀람 둥과 같은 인간의 감정상태를 인식하는 새로운 접근에 대해 설명한다. 이러한 시도는 이산길이를 포함하는 연속 은닉 마르코프 모델(HMM)을 사용함으로써 이루어진다. 이를 위해, 우선 입력음성신호로부터 감정의 특징 파라메타를 정의 한다. 본 연구에서는 피치 신호, 에너지, 그리고 각각의 미분계수 등의 운율 파라메타를 사용하고, HMM으로 훈련과정을 거친다. 또한, 화자적응을 위해서 최대 사후확률(MAP) 추정에 기초한 감정 모델이 이용된다. 실험 결과, 음성에서의 감정 인식률은 적응 샘플수의 증가에 따라 점차적으로 증가함을 보여준다.

  • PDF

주파수 분할 및 최소 자승법을 이용한 TSIUVC 근사합성법에 관한 연구 (A Study on TSIUVC Approximate-Synthesis Method using Least Mean Square and Frequency Division)

  • 이시우
    • 한국멀티미디어학회논문지
    • /
    • 제6권3호
    • /
    • pp.462-468
    • /
    • 2003
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음질저하 현상이 나타난다. 본 연구에서는 같은 프레임안에 유성음과 무성자음이 존재하지 않도록 FIR-STREAK 필터 와 zerocrossing rate을 이용한 개별피치 펄스를 사용하여 연속음성에서 무성자음을 포함한 천이구간(TSIUVC)을 탐색, 추출하는 방법을 제안한다. 또한 본 논문에서는 최송 자승법과 주파수 대역 분할을 이용한 TSIUVC 근사합성법을 제안하였다. 실험 결과, 0.547KHz 이하 2.813KHz 이상의 주파수 정보를 사용하여 TSIUVC 음성파형을 양호하게 근사합성할 수 있었으며, 최대 오차신호가 일그러짐이 적은 TSIUVC 근사합성 파형에 중요한 역할을 한다는 것을 알 수 있었다. 이 방법은 음성합성, 음성분석, 새로운 Voiced/Silence/TSIUVC의 음성부호화 방식에 활용할 수 있을 것으로 기대된다.

  • PDF

피치 하모닉 움직임 예측과 적응적 신호 크기 예측을 이용한 패킷 손실 은닉 알고리즘 (Packet Loss Concealment Algorithm Using Pitch Harmonic Motion Estimation and Adaptive Signal Scale Estimation)

  • 김태하;이인성
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권4호
    • /
    • pp.247-256
    • /
    • 2021
  • 본 논문에서는 피치 하모닉 움직임 예측과 적응적 신호 크기 예측을 이용한 패킷 손실 알고리즘을 제안한다. 스펙트럼 움직임 예측 방법은 사용 가능한 이전 패킷의 스펙트럼 상의 움직임을 일정한 부대역으로 나누어 손실된 신호의 움직임을 예측하여 복원한다. 제안하는 알고리즘에서는 음성신호를 유성음과 무성음으로 구분하여 유성음의 경우 피치 주파수를 활용하여 피치 하모닉으로 나누어 손실된 신호의 피치 하모닉 움직임을 예측하여 복원하고 무성음의 경우 스펙트럼 움직임 예측 방법을 사용하여 신호를 복원한다. 음성 프레임의 연속 손실이 발생한 경우 LMS(Least Mean Square) 예측기를 사용하여 이전 프레임의 이득 정보를 활용하여 신호 크기를 예측하여 출력 신호의 이득을 조절하는 방법을 제안한다. 객관적 평가방법인 PESQ (Perceptual Evaluation of Speech Quality) 시험을 통해 제안된 알고리즘의 성능을 평가하였고 기존의 방법보다 MOS 0.1의 성능 개선을 보였다.

음성 및 제스처를 이용한 멀티 모달 명령어 인식 시스템 (Multi-Modal Instruction Recognition System using Speech and Gesture)

  • 김정현;노용완;권형준;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2006년도 하계 학술대회 논문집
    • /
    • pp.57-62
    • /
    • 2006
  • 휴대용 단말기의 소형화 및 지능화와 더불어 차세대 PC 기반의 유비쿼터스 컴퓨팅에 대한 관심이 높아짐에 따라 최근에는 펜이나 음성 입력 멀티미디어 등 여러 가지 대화 모드를 구비한 멀티 모달 상호작용 (Multi-Modal Interaction MMI)에 대한 연구가 활발히 진행되고 있다. 따라서, 본 논문에서는 잡음 환경에서의 명확한 의사 전달 및 휴대용 단말기에서의 음성-제스처 통합 인식을 위한 인터페이스의 연구를 목적으로 Voice-XML과 Wearable Personal Station(WPS) 기반의 음성 및 내장형 수화 인식기를 통합한 멀티 모달 명령어 인식 시스템 (Multi-Modal Instruction Recognition System : MMIRS)을 제안하고 구현한다. 제안되어진 MMIRS는 한국 표준 수화 (The Korean Standard Sign Language : KSSL)에 상응하는 문장 및 단어 단위의 명령어 인식 모델에 대하여 음성뿐만 아니라 화자의 수화제스처 명령어를 함께 인식하고 사용함에 따라 잡음 환경에서도 규정된 명령어 모델에 대한 인식 성능의 향상을 기대할 수 있다. MMIRS의 인식 성능을 평가하기 위하여, 15인의 피험자가 62개의 문장형 인식 모델과 104개의 단어인식 모델에 대하여 음성과 수화 제스처를 연속적으로 표현하고, 이를 인식함에 있어 개별 명령어 인식기 및 MMIRS의 평균 인식율을 비교하고 분석하였으며 MMIRS는 문장형 명령어 인식모델에 대하여 잡음환경에서는 93.45%, 비잡음환경에서는 95.26%의 평균 인식율을 나타내었다.

  • PDF

한국어 음성인식 성능향상을 위한 문맥의존 음향모델에 관한 연구 (A Study-on Context-Dependent Acoustic Models to Improve the Performance of the Korea Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.9-15
    • /
    • 2001
  • 본 연구에서는 한국어 음성인식 성능향상을 위한 문맥의존 음향 모델을 개선하기 위하여 한국어 음성학적 지식과 결정트리를 접목한 음소결정트리 기반 상태분할 알고리즘으로 한국어에 적합한 문맥의존 음향 모델에 관해 고찰한다. HMM (Hidden Markov Model)의 각 상태를 네트워크로 연결하여 문맥의존 음향모델로 표현하는 HM-Net(Hidden Markov Network)이 있는데 이는 SSS(Successive State Splitting) 알고리즘으로 작성한다. 이 방법은 음향 모델의 상태공유관계와 모델의구조를 결정하는데 효율적이지만 모델을 학습할때 문맥환경에 따라 출현하지 않는 문맥이 존재하는 문제점이 있다 본 연구에서는 이러한 문제점을 해결하기 위해 2진 결정트리와 SSS 알고리즘의 장점을 결합하여 문맥방향 상태분할을 수행할 때 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어에 따라 상태분할 하는 방법으로서 PDT-SSS(Phonetic Decision Tree-based SSS) 알고리즘을 적용한다. 적용한 방법으로 작성한 문맥의존 음향 모델의 유효성을 확인하기 위해 국어공학센터 (KLE)m이 452 단어와 항공편 예약관련 200문장(YNU 200)에 대해 화자독립 음소, 단어 및 연속음성인식 실험을 수행하였다. 인식실험결과, 문맥 의존 음향모델에 대한 화자독립 음소, 단어 및 연속음성 인식실험에서 기존의 단일 HMM 모델보다 향상된 인식률을 보여, 한국어에 적합한 문맥의존 음향 모델을 작성하는데 한국어 음성학적 지식과 음소결정트리 기반 상태분할 알고리즘이 유효함을 확인하였다.

  • PDF

음절핵의 위치정보를 이용한 우리말의 음소경계 추출 (Utilization of Syllabic Nuclei Location in Korean Speech Segmentation into Phonemic Units)

  • 신옥근
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.13-19
    • /
    • 2000
  • 음성신호의 음소경계 추출방법 중 음소에 대한 사전지식 없이 음성 데이타, 혹은 특징벡터의 변화를 감지하여 음소경계를 추출해 내는 맹목 세그먼테이션은 연속음형 인식시스템이나 코퍼스 제작에 중요한 역할을 하며 많은 연구가 진행되어 왔다. 이러한 맹목 세그먼테이션 방법은 사전지식을 필요로 하지 않아 비교적 쉽게 접근할 수 있으나 음운학적인 지식, 또는 음소나 음소경계에 대한 지식과 경험 데이타 등을 이용하는 지식 기반 세그먼테이션 방법에 비해 성능이 좋지 못한 단점이 있다. 본고에서는 우리말의 연속 음성을 맹목 세그먼테이션해서 후보 경계를 추출한 다음, 음절핵의 위치정보를 이용하여 후보 경계를 후처리함으로써 세그먼테이션 효율을 높이는 방법을 제안한다. 제안하는 방법의 전처리과정에서는 확률적인 거리 모델을 이용한 클러스터링 방법을 이용하였으며, 후처리과정에서는 음절의 핵 사이에 위치할 수 있는 음소의 수는 제한된다는 선험적인 지식을 이용하였다. 실험결과, 제안하는 방법을 이용했을 때의 삽입오류는 맹목 세그먼테이션에 비해 약 25% 감소하였다.

  • PDF

잡음환경에 강인한 음성분류기반의 패킷손실 은닉 알고리즘 (Packet Loss Concealment Algorithm Based on Robust Voice Classification in Noise Environment)

  • 김형국;류상현
    • 한국음향학회지
    • /
    • 제33권1호
    • /
    • pp.75-80
    • /
    • 2014
  • 실시간 VoIP 네트워크는 지연, 지터 그리고 패킷손실과 같은 네트워크 장애요소로 인해 품질저하가 발생한다. 본 논문은 VoIP 음질 향상을 위해 잡음환경에 강인한 음성분류기반의 패킷손실 은닉 알고리즘을 제안한다. 제안된 방식에서는 음성신호로부터 추출된 다양한 특징들을 분석하고 이를 기반으로 획득된 적응적인 문턱값을 사용하여 수신단에 도착한 패킷을 분류한다. 정확한 신호분류 결과는 패킷손실 은닉에 사용된다. 그리고 선형 예측 기반의 손실패킷 은닉은 연속적으로 패킷을 은닉하거나 손실된 패킷복원 시 발생하는 메탈릭 아티펙트를 제거함으로써 고품질의 음성을 제공한다.

CASA 시스템의 비모수적 상관 특징 추출을 이용한 목적 음성 분리 (Target Speech Segregation Using Non-parametric Correlation Feature Extraction in CASA System)

  • 최태웅;김순협
    • 한국음향학회지
    • /
    • 제32권1호
    • /
    • pp.79-85
    • /
    • 2013
  • CASA 시스템의 특징 추출은 시간의 연속성과 채널 간 유사성을 이용하여 청각 요소의 상관지도를 구성하여 사용한다. 채널 간 유사성을 교차 상관 계수를 이용하여 특징 추출 할 경우 상관성을 정량적으로 나타내기 위해 계산량이 많은 단점이 있다. 따라서 본 논문에서는 특징 추출 시 계산 량을 줄이기 위한 방법으로 비모수적 상관 계수를 이용한 특징 추출 방법을 제안하고 이를 CASA 시스템을 통하여 목적 음성을 분리하는 실험을 수행하였다. 목적 음성의 분리 성능을 평가하기 위하여 신호 대 잡음비를 측정한 결과, 제안 방식이 기존 방식에 비해 평균 0.14 dB의 미세한 성능 개선을 보였다.

망각소자를 갖는 t-분포 강인 연속 추정을 이용한 음성 신호 추정에 관한 연구 (Robust Sequential Estimation based on t-distribution with forgetting factor for time-varying speech)

  • 이주헌
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.470-474
    • /
    • 1998
  • In this paper, to estimate the time-varying parameters of speech signal, we use the robust sequential estimator based on t-distribution and, for time-varying signal, introduce the forgetting factor. By using the RSE based on t-distribution with small degree of freedom, we can alleviate efficiently the effects of outliers to obtain the better performance of parameter estimation. Moreover, by the forgetting factor, the proposed algorithm can estimate the accurate parameters under the rapid variation of speech signal.

  • PDF