• 제목/요약/키워드: 음성기반

검색결과 2,243건 처리시간 0.027초

통계적 비선형 차원축소기법에 기반한 잡음 환경에서의 음성구간검출 (Voice Activity Detection in Noisy Environment based on Statistical Nonlinear Dimension Reduction Techniques)

  • 한학용;이광석;고시영;허강인
    • 한국정보통신학회논문지
    • /
    • 제9권5호
    • /
    • pp.986-994
    • /
    • 2005
  • 본 논문은 잡음 환경하에서 적응 가능한 음성구간검출를 구축하기 위하여 우도기반의 음성 특징 파라미터의 비선형 차원축소 방법을 제안한다. 제안하는 차원축소 방법은 음성/비음성 클래스에 대한 가우시아 확률 밀도 함수의 비선형적 우도값을 새로운 특징으로 취하는 방법이다. 음성구간검출기의 음성/비음성 결정은 우도비 검증(LRT)의 통계적 방법을 이용하며, 선형판별분석(LDA)에 의한 차원축소 결과와 성능을 비교한다. 실험 결과 제안된 차원 축소 방법으로 음성 특징 파라미터를 2차원으로 축소한 결과가 원래 특징백터의 차원에서의 결과와 대등한 성능을 확인하였다.

음성 기반 무인 항공기 제어를 위한 음성인식 시스템 운용 체계 연구 (Study of Speech Recognition System Operation for Voice-driven UAV Control)

  • 박정식
    • 한국항공우주학회지
    • /
    • 제47권3호
    • /
    • pp.212-219
    • /
    • 2019
  • 군사 작전 환경에서 무인 항공기의 활용도가 확대됨에 따라 효율적인 무인기 제어 방식에 대한 연구가 활발하다. 특히 신속한 임무 처리가 요구되는 군 환경에서 기존의 버튼 방식이 지닌 조작의 불편함을 해소하려는 목적으로 음성인식을 통한 무인기 제어 방식이 시도되고 있으며, 아직 초기연구 수준에 머물러 있다. 본 연구에서는 음성 기반의 무인기 제어를 위해 효율적인 음성인식 시스템 운용 체계를 제안한다. 특히 지상관제 센터에 의한 무인기 제어보다는 유/무인기 협업 환경에서 유인기 조종사가 무인기를 직접 통제하는데 효율적인 음성인식 시스템 운용 방식을 제안하며, 음성인식 실험을 통해 운용 체계의 효율성을 검증한다.

콜퍼스에 기반한 한국어 문장/음성변환 시스템 (Corpus-based Korean Text-to-speech Conversion System)

  • 김상훈;박준;이영직
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.24-33
    • /
    • 2001
  • 이 논문에서는 대용량 음성 데이터베이스를 기반으로 하는 한국어 문장/음성변환시스템의 구현에 관해 기술한다. 기존 소량의 음성데이타를 이용하여 운율조절을 통해 합성하는 방식은 여전히 기계음에 가까운 합성음을 생성하고 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 대용량 음성 데이터베이스를 기반으로 하여 운율처리없이 합성단위 선정/연결에 의해 합성음질을 향상시키고자 한다. 대용량 음성 데이터베이스는 다양한 운율변화를 포함하도록 문장단위를 녹음하며 이로부터 복수개의 합성단위를 추출, 구축한다. 합성단위는 음성인식기를 훈련, 자동으로 음소분할하여 생성하며, 래링고그라프 신호를 이용하여 정교한 피치를 추출한다. 끊어 읽기는 휴지길이에 따라 4단계로 설정하고 끊어읽기 추정은 품사열의 통계정보를 이용한다. 합성단위 선정은 운율/스펙트럼 파라미터를 이용하여 비터비 탐색을 수행하게 되며 유클리디언 누적거리가 최소인 합성단위열을 선정/연결하여 합성한다. 또한 이 논문에서는 고품질 음성합성을 위해 특정 서비스 영역에 더욱 자연스러운 합성음을 생성할 수 있는 영역의존 음성합성용 데이터베이스를 제안한다. 구현된 합성시스템은 주관적 평가방법으로 명료도와 자연성을 평가하였고 그 결과 대용량 음성 데이터베이스를 기반으로한 합성방식의 성능이 기존 반음절단위를 사용한 합성방식보다 더 나은 성능을 보임을 알 수 있었다.

  • PDF

연속 음성으로부터 추출한 CVC 음성세그먼트 기반의 음성합성 (Speech Synthesis Based on CVC Speech Segments Extracted from Continuous Speech)

  • 김재홍;조관선;이철희
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.10-16
    • /
    • 1999
  • 본 논문에서는 설계하지 않은 연속 음성 코퍼스로부터 추출된 CVC 음성 세그먼트를 사용하는 연결 기반 음성 합성기를 제안한다. 연속 음성은 각 음운간의 상호조음효과가 비교적 잘 반영되고, 자연스러운 억양 변화를 포함하고 있으므로 이를 적절하게 활용할 수 있는 합성 단위를 선택하면 자연스런 음성합성이 가능하다. 여러 가지 합성단위 가운데 CVC 합성 단위는 자음의 안정 부분에서 접속이 일어나므로 연결부에서의 음질 저하가 적고, 전후 자음과 모음간의 조음 현상을 잘 반영하는 장점이 있다. 본 논문에서는 CVC 합성 단위를 사용하는 경우 나타나는 문장 세그먼트들의 조합을 4가지로 분류하여 각각의 통계적 특성과 합성음성의 품질을 분석하고, CVC에 근거한 새로운 복합 합성 단위를 사용하는 방식을 제안한다. 제안된 방식을 사용하여 설계하지 않은 연속 음성 코퍼스로부터 CVC 음성 세그먼트를 추출하여 다양한 예제 문장을 합성하였다. 만일 필요한 CVC 음성 세그먼트가 음성 코퍼스에 존재하지 않는 경우 반음절 음성 세그먼트로 대치하여 합성하였다. 실험 결과 약 100 Mbytes의 연속 음성 코퍼스로 비교적 자연스러운 음성합성이 가능함을 알 수 있었다.

  • PDF

멀티밴드 스펙트럼 차감법과 엔트로피 하모닉을 이용한 잡음환경에 강인한 분산음성인식 (Robust Distributed Speech Recognition under noise environment using MESS and EH-VAD)

  • 최갑근;김순협
    • 전자공학회논문지CI
    • /
    • 제48권1호
    • /
    • pp.101-107
    • /
    • 2011
  • 음성인식의 실용화에 가장 저해되는 요소는 배경잡음과 채널에 의한 왜곡이다. 일반적으로 잡음은 음성인식 시스템의 성능을 저하시키고 이로 인해 사용 장소의 제약을 많이 받고 있다. DSR(Distributed Speech Recognition) 기반의 음성인식 역시 이 같은 문제로 성능 향상에 어려움을 겪고 있다. 이 논문은 잡음환경에서 DSR기반의 음성인식률 향상을 위해 정확한 음성구간을 검출하고, 잡음을 제거하여 잡음에 강인한 특징추출을 하도록 설계하였다. 제안된 방법은 엔트로피와 음성의 하모닉을 이용해 음성구간을 검출하며 멀티밴드 스펙트럼 차감법을 이용하여 잡음을 제거한다. 음성의 스펙트럼 에너지에 대한 엔트로피를 사용하여 음성검출을 하게 되면 비교적 높은 SNR 환경 (SNR 15dB) 에서는 성능이 우수하나 잡음환경의 변화에 따라 음성과 비음성의 문턱 값이 변화하여 낮은 SNR환경(SNR 0dB)에시는 정확한 음성 검출이 어렵다. 이 논문은 낮은 SNR 환경(0dB)에서도 정확한 음성을 검출할 수 있도록 음성의 스펙트럴 엔트로피와 하모닉 성분을 이용하였으며 정확한 음성 구간 검출에 따라 잡음을 제거하여 잡음에 강인한 특정을 추출하도록 하였다. 실험결과 잡음환경에 따른 인식조건에서 개선된 인식성능을 보였다.

Multi-band Power Subtraction과 Wavelet Packets Decomposition을 이용한 개선된 음성 향상 방법 (Unproved Speech Enhancement Algorithm employing Multi-band Power Subtraction and Wavelet Packets Decomposition)

  • 이윤창;곽정훈;안상식
    • 한국통신학회논문지
    • /
    • 제31권6C호
    • /
    • pp.589-602
    • /
    • 2006
  • 잡음은 음성과 관련된 시스템의 성능을 제한하는 주된 원인이기 때문에 음성향상과 관련된 연구는 꾸준히 계속되어왔다. 전통적인 음성향상 방법은 무성음과 잡음을 구분하지 알기 때문에 잡음제거 과정에서 무성음이 함께 제거되는 단점이 있으며, 웨이블릿 기반의 전통적인 잡음제거 방법은 각 대역마다 동일한 문턱값을 사용하기 때문에 시변 환경에서 성능이 떨어지는 단점이 있다. 이 단점들을 개선하기위해 다중대역 파워 차감법과 Perceptual 웨이블릿 패킷 분해를 이용한 웨이블릿 기반의 개선된 음성향상 방법을 제안한다. 전처리 과정으로 다중대역 파워 차감법을 사용하여 광대역 잡음을 제거하고 뮤지컬 잡음의 발생을 줄이며, psycho-acoustic 모델 기반 Perceptual 웨이블릿 패킷으로 신호를 분해한 후 각 웨이블릿 노드의 엔트로피 비율과 음성검출을 이용하여 무성음/유성음/잡음을 구분한다. 구분된 신호에 따라 각 웨이블릿 노드마다의 문턱값을 기준으로 웨이블릿 Shrinkage를 적용하여 잡음을 제거하고 무성음이나 파워가 작은 유성음이 제거되는 오류를 최소화한다. 또한 잡음 파워 추정 과정에 적응적으로 망각 계수를 선택하여 잡음 파워 추정 오류를 최소화한다.

Push-to-talk 통신을 위한 진폭 및 위상 복원 기반의 단일 채널 음성 향상 방식 (A single-channel speech enhancement method based on restoration of both spectral amplitudes and phases for push-to-talk communication)

  • 조혜승;김형국
    • 한국음향학회지
    • /
    • 제36권1호
    • /
    • pp.64-69
    • /
    • 2017
  • 본 논문에서는 PTT(Push-To-Talk) 기반의 무선 통신을 위한 진폭 및 위상 복원 기반의 단일 채널 음성 향상 방식을 제안한다. 제안한 방식은 신호의 진폭만을 대상으로 음성 향상을 진행했던 기존의 방식들과 달리, 음성 신호의 진폭과 위상을 분리하여 각각 향상시켜 다시 결합함으로써 더욱 양질의 음성을 제공한다. 본 논문에서 제안하는 방식의 성능을 평가하기 위해 동적 잡음 환경에서의 단계별 비교 실험을 실시하였으며, 실험 결과를 통해 제안한 방식이 다양한 잡음 환경에서 양질의 음성을 제공하는 것을 확인할 수 있다.

잡음 환경에 효과적인 마스크 기반 음성 향상을 위한 손실함수 조합에 관한 연구 (A study on combination of loss functions for effective mask-based speech enhancement in noisy environments)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제40권3호
    • /
    • pp.234-240
    • /
    • 2021
  • 본 논문에서는 잡음 환경에서 효과적인 음성 인식을 위해 마스크 기반의 음성 향상 기법을 개선한다. 마스크 기반의 음성 향상 기법에서는 심층 신경망을 기반으로 추정한 마스크를 잡음 오염 음성에 곱하여 향상된 음성을 얻는다. 마스크 추정 모델로 VoiceFilter(VF) 모델을 사용하고 추정된 마스크로 얻은 음성으로부터 잔여 잡음을 보다 확실히 제거하기 위해 Spectrogram Inpainting(SI)기법을 적용한다. 본 논문에서는 음성 향상 결과를 보다 개선하기 위해 마스크 추정을 위한 모델 학습 과정에 사용되는 조합된 손실함수를 제안한다. 음성 구간에 남아 있는 잡음을 보다 효과적으로 제거하기 위해 잡음 오염 음성에 마스크를 적용한 Triplet 손실함수의 Positive 부분을 컴포넌트 손실함수와 조합하여 사용한다. 실험 평가를 위한 잡음 음성 데이터는 TIMIT 데이터베이스와 NOISEX92, 배경음악 잡음을 다양한 Signal to Noise Ratio(SNR) 조건으로 합성하여 만들어 사용한다. 음성 향상의 성능 평가는 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를 이용한다. 실험을 통해 평균 제곱 오차로만 훈련된 기존 시스템과 비교하여, VF 모델은 평균 제곱 오차로 훈련하고 SI 모델은 조합된 손실함수를 사용하였을 때 SDR은 평균 0.5dB, PESQ는 평균 0.06, STOI는 평균 0.002만큼 성능이 향상된 것을 확인했다.

WIPI기반 음성 웹브라우저 구현 방안 (Strategy for Implementing A Voice Web Browser Based WIPI)

  • 유세영;김병기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2006년도 춘계종합학술대회
    • /
    • pp.501-504
    • /
    • 2006
  • 인터넷 및 휴대폰들이 일반화되고 음성처리 기술이 실용화 단계로 발전함에 따라 음성 응용분야가 새로운 이슈로 떠오르고 있다. 음성처리 기술은 사람의 말을 알아들을 수 있는 귀와 사람에게 말을 할 수 있는 입을 마련해주는 새로운 분야다. 그리고, 음성으로 웹의 컨텐츠를 개발하기 위한 표준 언어인 VoiceXML, SALT가 빠르게 보급되고 있다. 음성인식과 음성합성 기술이 꾸준히 발전하여 음성 포털 서비스나 자동 음성 안내 시스템 등에 음성인식과 음성합성 기술이 채택되는 등 상용화 수준에 이르렀다. 사람에게 가장 편리한 정보 습득 방법은 음성이고 이러한 음성을 적용한 음성 웹 브라우저를 현재 유선 상에서 사용하고 있다. 하지만 아직까지 무선 플랫폼에 적용하여 사용하는 브라우저는 개발되지 않고 있다. 사용자에게 친숙한 무선인터넷 환경을 제공하고자 무선 음성 웹 브라우저를 구현방안을 제시하고자 한다.

  • PDF

음성기반 멀티모달 인터페이스 및 표준 (Speech Based Multimodal Interface Technologies and Standards)

  • 홍기형
    • 대한음성학회지:말소리
    • /
    • 제51호
    • /
    • pp.117-135
    • /
    • 2004
  • In this paper, we introduce the multimodal user interface technology, especially based on speech. We classify multimodal interface technologies into four classes: sequential, alternate, supplementary, and semantic multimodal interfaces. After introducing four types of multimodal interfaces, we explain standard activities currently being activated.

  • PDF