• 제목/요약/키워드: 음성기반

검색결과 2,233건 처리시간 0.032초

프롬프트 레이블링을 이용한 적응형 음성기반 감정인식 프레임워크 (Adaptive Speech Emotion Recognition Framework Using Prompted Labeling Technique)

  • 방재훈;이승룡
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권2호
    • /
    • pp.160-165
    • /
    • 2015
  • 기존의 음성기반 감정인식 기술은 다양한 사용자로부터 수집된 데이터를 기반으로 범용적인 훈련 모델을 생성하고 이를 기반으로 감정을 인식한다. 이러한 음성기반 감정인식 모델링 기술은 개인 사용자의 음성특징을 정확히 고려하기 힘든 방법으로 개인마다 인식 정확도의 편차가 크다. 본 논문에서는 스마트폰 환경에서 프로프트 레이블링 기법을 활용하여 사용자에게 즉각적으로 감정을 피드백 받아 새로운 모델을 생성하여 적용하는 적응형 음성기반 감정인식 프레임워크를 제안한다. 실험을 통하여 제안하는 적응형 음성기반 감정인식 기법이 기존의 범용적인 모델을 사용하였을 때 보다 정확도가 크게 증가됨을 증명하였다.

스마트폰환경에서 음성기반 감정인식 프레임워크 (Speech Emotion Recognition Framework on Smartphone Environment)

  • 방재훈;이승룡;정태충
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.254-256
    • /
    • 2013
  • 기존의 음성기반 감정인식 기술은 충분한 컴퓨팅 파워를 가진 PC에서 수백개의 특징을 사용하여 감정을 인식하고 있다. 이러한 음성기반 감정인식 기술은 컴퓨팅 파워에 제약이 많은 스마트폰 환경을 고려하지 않은 방법이다. 본 논문에서는 제한된 스마트폰 컴퓨팅 파워를 고려한 음성의 특징 추출 기법과 서버 클라이언트 개념을 도입한 효율적인 음성기반 감정인식 프레임워크를 제안한다.

강화학습 기반의 음성향상기법 (Speech enhancement based on reinforcement learning)

  • 박태준;장준혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.335-337
    • /
    • 2018
  • 음성향상기법은 음성에 포함된 잡음이나 잔향을 제거하는 기술로써 마이크로폰으로 입력된 음성신호는 잡음이나 잔향에 의해 왜곡되어지므로 음성인식, 음성통신 등의 음성신호처리 기술의 핵심 기술이다. 이전에는 음성신호와 잡음신호 사이의 통계적 정보를 이용하는 통계모델 기반의 음성향상기법이 주로 사용되었으나 통계 모델 기반의 음성향상기술은 정상 잡음 환경과는 달리 비정상 잡음 환경에서 성능이 크게 저하되는 문제점을 가지고 있었다. 최근 머신러닝 기법인 심화신경망 (DNN, deep neural network)이 도입되어 음성 향상 기법에서 우수한 성능을 내고 있다. 심화신경망을 이용한 음성 향상 기법은 다수의 은닉 층과 은닉 노드들을 통하여 잡음이 존재하는 음성 신호와 잡음이 존재하지 않는 깨끗한 음성 신호 사이의 비선형적인 관계를 잘 모델링하였다. 이러한 심화신경망 기반의 음성향상기법을 향상 시킬 수 있는 방법 중 하나인 강화학습을 적용하여 기존 심화신경망 대비 성능을 향상시켰다. 강화학습이란 대표적으로 구글의 알파고에 적용된 기술로써 특정 state에서 최고의 reward를 받기 위해 어떠한 policy를 통한 action을 취해서 다음 state로 나아갈지를 매우 많은 경우에 대해 학습을 통해 최적의 action을 선택할 수 있도록 학습하는 방법을 말한다. 본 논문에서는 composite measure를 기반으로 reward를 설계하여 기존 PESQ (Perceptual Evaluation of Speech Quality) 기반의 reward를 설계한 기술 대비 음성인식 성능을 높였다.

이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출 (Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition)

  • 신민화;박지훈;김홍국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2010년도 하계학술대회
    • /
    • pp.150-151
    • /
    • 2010
  • 본 논문에서는 잡음환경에서의 이중채널 음성인식을 위한 통계모델 기반 음성구간 검출 방법을 제안한다. 제안된 방법에서는 다채널 입력 신호로부터 얻어진 공간정보를 이용하여 음성 존재 및 부재 확률모델을 구하고 이를 통해 음성구간 검출을 행한다. 이때, 공간정보는 두 채널간의 상호 시간 차이와 상호 크기 차이로, 음성 존재 및 부재 확률은 가우시안 커널 밀도 기반의 확률모델로 표현된다. 그리고 음성구간은 각 시간 프레임 별 음성 존재 확률 대비 음성 부재 확률의 비를 추정하여 검출된다. 제안된 음성구간 검출 방법의 평가를 위해 검출된 구간만을 입력으로 하는 음성인식 성능을 측정한다. 실험결과, 제안된 공간정보를 이용하는 통계모델 기반의 음성구간 검출 방법이 주파수 에너지를 이용하는 통계모델 기반의 음성구간 검출 방법과 주파수 스펙트럼 밀도 기반 음성구간 검출 방법에 비해 각각 15.6%, 15.4%의 상대적 오인식률 개선을 보였다.

  • PDF

스마트폰 음성 통신용 음성 검출 기술

  • 김상균;장준혁
    • 정보와 통신
    • /
    • 제29권4호
    • /
    • pp.10-14
    • /
    • 2012
  • 본고에서는 스마트폰 환경에서 음성 통신에 필요한 가변 전송률 음성 부호화기를 위한 음성 검출 기술을 알아본다. 소개할 음성 검출 기술은 통계적 모델(statistical model)을 기반으로 한 우도비 테스트(likelihood ratio test, LRT)를 이용하여 음성 존재 여부를 판단하는 결정법을 유도한다. 이후 통계적 모델을 기반으로 한 음성 검출 방법의 신뢰도를 높이기 위해 새로운 방법들이 연구되었으며 최근까지 연구가 진행 중인 통계적 모델 기반의 음성 검출 방법을 소개한다.

키워드 음성인식을 위한 음성합성 기반 자동 학습 기법 (A Automated Method for Training Keyword Spotter based on Speech Synthesis)

  • 임재봉;이종수;조용훈;백윤주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.494-496
    • /
    • 2021
  • 최근 경량 딥러닝 기반 키워드 음성인식은 가전, 완구, 키오스크 등 다양한 응용에 음성 인터페이스를 쉽게 적용할 수 있는 기술로서 주목받고 있다. 키워드 음성인식은 일부 키워드만 인식 가능한 음성인식 기술로서 저성능 디바이스에서 활용 가능한 장점이 있다. 그러나 응용에 따라 필요한 키워드에 대하여 다시 음성데이터를 수집해야하고 이를 학습하여 모델을 새로 준비해야하는 단점이 있다. 따라서 본 연구에서는 음성데이터 수집 없이 음성합성을 통해 생성한 음성으로만 키워드 음성인식 모델을 학습하는 음성합성 기반 자동 학습 기법을 제안하였다. 생성한 음성데이터를 활용하고자하는 시도가 활발히 이루어지고 있으나, 기존 연구에서는 정확도를 유지하기 위하여 수집한 실제 음성데이터가 필요한 한계가 있다. 제안한 자동 학습 기법은 생성한 음성데이터에 대해 복합 데이터 증대 기법을 적용하여 실제 음성데이터 없이 키워드 음성인식의 정확도를 높였다. 제안한 기법에 대하여 상용 음성합성 서비스를 기반으로 수집한 한국어 키워드 데이터세트를 활용하여 성능평가를 진행하였다. 20개 한국어 키워드에 대해 실험한 결과, 제안한 기법을 적용하여 학습시킨 키워드 음성인식 모델의 정확도는 86.44%임을 확인하였다.

적응형 문턱값을 가지는 2차 조건 사후 최대 확률을 이용한 통계적 모델 기반의 음성 검출기 (Statistical Model-Based Voice Activity Detection Using the Second-Order Conditional Maximum a Posteriori Criterion with Adapted Threshold)

  • 김상균;장준혁
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.76-81
    • /
    • 2010
  • 본 논문에서는 음성의 통계적 모델에 기반한 음성 검출기 (voice activity detection, VAD)의 성능 향상을 위해 2차 조건 사후 최대 확률 (second-order conditional maximum a posteriori, second-order CMAP)기법을 적용한 우도비 테스트 (likelihood ratio test, LRT)를 제안한다. 제안된 알고리즘은, 기존의 통계적 모델에 기반한 음성 검출기와 CMAP 기반의 음성 검출기를 분석한 다음, 직전 2 프레임에서 음성의 존재와 부재에 대한 조건부 확률에 따라 실시간으로 적응형 문턱값을 구하여 기하 평균한 우도비와 비교하는 음성검출 결정법 (decision rule)을 제시한다. 제안된 알고리즘을 비정상 (non-stationary) 잡음환경에서 기존의 통계적 모델에 기반한 음성 검출기, CMAP 기반의 음성 검출기와 비교하였으며, 향상된 성능을 보였다.

ETRI의 음성데이타베이스 구축현황 (Current Status of Speech Database at ETRI)

  • 이영직
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.265-271
    • /
    • 1995
  • 한국전자통신연구소의 음성 데이터베이스 구축 현황을 기술한다. 현재 한국전자통신연구소에서는 음성인식 연구를 위해 단어음성, 정형 문장 음성 등의 데이터베이스를 구축, 보유하고 있다. 음성인식용 데이터베이스는 정해진 단어, 분장을 20명 내지 100명이 발성한 것으로, 일부는 음소 단위까지 레이블링이 되어 있다. 또 음성합성 연구를 위해 합성단위 및 운율데이타베이스를 가지고 있는데 이는 한 명 혹은 남녀 각각 3명이 발성한 것으로, 일부는 피치 등이 수록되어 있다. 문장 데이터베이스는 언어 정보처리를 위해 교재, 문학, 경제, 과학 분야의 문장을 총 480만 어절 가지고 있으며, 이 중 일부에 품사 정보를 추가하였다. 한국전자통신연구소는 국내 음성 연구의 발전에 기여하고자 음성 연구의 기반 자료가 되는 음성 데이터베이스를 국내 대학 및 산업체에 배포하고 있다 음성 데이터베이스는 음성 연구의 기반이 되는 자료임에도 불구하고 많은 비용과 노력이 들어 일반 대학에서는 쉽게 만들 수 없었다. 이에 ETRI는 한국통신이 출연한 "자동통역 요소기술개발" 과제으 LQNTKSANF인 여러 종류의 음성 데이터베이스와 관련 프로그램을 공급하여 국내 음성 연구의 기반 확립에 기여하고자 한다. 기여하고자 한다.

  • PDF

실시간 처리 리눅스 기반 VoIP 시스템 설계 및 구현 (A Design and Implementation of a Real-Time Linux Based VoIP System)

  • 이명근;이상정;조성범;임재용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.289-291
    • /
    • 2001
  • 본 논문에서는 실시간처리 리눅스에 기반한 VoIP 단말기를 설계 구현한다. 설계 구현된 하드웨어 시스템은 i386 프로세서를 기반으로 설계되며, 실시간음성처리 지원을 위해 음성코덱 칩과 실시간처리 리눅스인 RTLinux를 사용하여 실시간 음성처리 모듈을 구현한다. 설계 구현된 시스템의 테스트 및 타당성 검증을 위해 LAN환경에서의 음성채팅 프로그램에 적용하여 통화품질을 시험하였다. 음성처리에 사용한 음성처리 모듈은 ITU-T 음성 코덱인 G.723.1 사용하여 30ms 내에 24 바이트로 인코딩/디코딩된 음성 데이타를 전송하도록 구현하였다.

코드북 기반 음성향상 기법을 위한 게인 보상 방법 (Gain Compensation Method for Codebook-Based Speech Enhancement)

  • 정승모;김무영
    • 전자공학회논문지
    • /
    • 제51권9호
    • /
    • pp.165-170
    • /
    • 2014
  • 음성 인식을 위한 전처리기로 주변 잡음을 제거해 주는 음성향상 기법이 강조되고 있다. 다양한 음성향상 기법들 중 코드북 기반 음성향상 기법은 nonstationary 잡음 환경에서도 효율적으로 동작한다. 하지만, 기존 코드북 기반 음성향상 기법에서는 입력 신호와 음성 및 잡음 코드벡터 간에 미스매치가 발생하여 부정확한 게인이 추정되는 문제가 있다. 본 논문에서는 부정확한 게인을 보상하기 위해 long-term 잡음 추정 알고리즘을 사용하여 매 프레임 별로 신호 대 잡음비기반의 Normalized Weighting Factor (NWF)를 구하고, 이것을 기존 게인에 보상하는 방식을 제안한다. 제안된 코드북 기반 음성향상 기법은 기존 코드북 기반 음성향상 기법에 비해 향상된 성능을 보였다.