• 제목/요약/키워드: 음성기반

검색결과 2,233건 처리시간 0.028초

ETRI신기술-확장 합성단위 기반 한국어 음성합성기 기술

  • 한국전자통신연구원
    • 전자통신동향분석
    • /
    • 제14권3호통권57호
    • /
    • pp.127-128
    • /
    • 1999
  • 확장 합성단위 기반 한국어 음성합성장치는 통상의 문자로 쓰여진 텍스트를 인간이 소리내어 읽듯이 기계에 의해 자동적으로 음성을 합성하는 시스템이다. 이 시스템은 1995년부터 수행하고 있는 "다중 매체 환경 하에서의 대화체 음성번역 통신 기술개발" 사업의 연구 결과물 중 하나로 1997년도에 개발되어 학습형 자동합성단위 생성기 및 영역의존 음성합성기 기술을 전수할 예정이다.

  • PDF

강화학습을 적용한 EVRC 기반의 음성향상기법에 대한 연구 (A Study on EVRC-based Speech Enhancement by Reinforcement Learning)

  • 김소현;장준혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.340-341
    • /
    • 2018
  • 본 논문에서는 음성인식의 성능을 높이기 위해 잡음을 제거하여 음성을 향상시킬 목적으로 심화신경망 기반의 강화학습을 적용한 음성향상 기법을 제안한다. EVRC를 통해 잡음을 제거한 후 강화학습을 적용하여 성능을 비교하며 기존의 음성향상 기법보다 향상된 성능을 가지는 모델을 구현하고자 한다.

내용기반 비디오 색인 및 검색을 위한 음성인식기술 이용에 관한 연구 (A Study on the Use of Speech Recognition Technology for Content-based Video Indexing and Retrieval)

  • 손종목;배건성;강경옥;김재곤
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.16-20
    • /
    • 2001
  • 비디오 프로그램 색인 및 검색에 있어서 비디오 프로그램을 의미 있는 부분으로 분할하는 것, 즉 내용기반 비디오 프로그램 분할은 중요하다. 본 논문에서는 내용기반 비디오 프로그램 분할을 위해 음성인식기술을 이용하는 새로운 방법을 제안한다. 제안한 방법은 음성신호와 캡션 (Closed Caption)의 정확한 동기를 위해 음성인식 기법을 사용한다. 실험을 통하여 내용기반 비디오 프로그램 분할을 위해 제안한 방법의 가능성을 확인하였다.

  • PDF

문자소 기반의 한국어 음성인식 (Korean speech recognition based on grapheme)

  • 이문학;장준혁
    • 한국음향학회지
    • /
    • 제38권5호
    • /
    • pp.601-606
    • /
    • 2019
  • 본 논문에서는 한국어 음성인식기 음향모델의 출력단위로 문자소를 제안한다. 제안하는 음성인식 모델은 한글을 G2P(Grapheme to Phoneme)과정 없이 초성, 중성, 종성 단위의 문자소로 분해하여 음향모델의 출력단위로 사용하며, 특별한 발음 정보를 주지 않고도 딥러닝 기반의 음향모델이 한국어 발음규정을 충분히 학습해 낼 수 있음을 보인다. 또한 기존의 음소기반 음성인식 모델과의 성능을 비교 평가하여 DB가 충분한 상황에서 문자소 기반 모델이 상대적으로 뛰어난 성능을 가진다는 것을 보인다.

대화 맥락에 기반한 한국어 휴지 예측 모델 (Korean Pause Prediction Model based on Dialogue Context)

  • 이정;나정호;정정범;최맹식;이충희;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.404-408
    • /
    • 2023
  • 음성 사용자 인터페이스(Voice User Interface)에 대한 수요가 증가함에 따라 음성 합성(Speech Synthesis) 시스템에서 자연스러운 음성 발화를 모방하기 위해 적절한 위치에 휴지를 삽입하는 것이 주된 과업으로 자리잡았다. 대화의 연속성을 고려했을 때, 자연스러운 음성 기반 인터페이스를 구성하기 위해서는 대화의 맥락을 이해하고 적절한 위치에 휴지를 삽입하는 것이 필수적이다. 이에 따라 본 연구는 대화 맥락에 기반하여 적절한 위치에 휴지를 삽입하는 Long-Input Transformer 기반 휴지 예측 모델을 제안하고 한국어 대화 데이터셋에서 검증한 결과를 보인다.

  • PDF

음성 데이터 전처리 기법에 따른 뉴로모픽 아키텍처 기반 음성 인식 모델의 성능 분석 (Performance Analysis of Speech Recognition Model based on Neuromorphic Architecture of Speech Data Preprocessing Technique)

  • 조진성;김봉재
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권3호
    • /
    • pp.69-74
    • /
    • 2022
  • 뉴로모픽 아키텍처에서 동작하는 SNN (Spiking Neural Network) 은 인간의 신경망을 모방하여 만들어졌다. 뉴로모픽 아키텍처 기반의 뉴로모픽 컴퓨팅은 GPU를 이용한 딥러닝 기법보다 상대적으로 낮은 전력을 요구한다. 이와 같은 이유로 뉴로모픽 아키텍처를 이용하여 다양한 인공지능 모델을 지원하고자 하는 연구가 활발히 일어나고 있다. 본 논문에서는 음성 데이터 전처리 기법에 따른 뉴로모픽 아키텍처 기반의 음성 인식 모델의 성능 분석을 진행하였다. 실험 결과 푸리에 변환 기반 음성 데이터 전처리시 최대 84% 정도의 인식 정확도 성능을 보임을 확인하였다. 따라서 뉴로모픽 아키텍처 기반의 음성 인식 서비스가 효과적으로 활용될 수 있음을 확인하였다.

조건 사후 최대 확률과 음성 스펙트럼 변이 조건을 이용한 통계적 모델 기반의 음성 검출기 (A Statistical Model-Based Voice Activity Detection Employing the Conditional MAP Criterion with Spectral Deviation)

  • 김상균;장준혁
    • 한국음향학회지
    • /
    • 제30권6호
    • /
    • pp.324-329
    • /
    • 2011
  • 본 논문에서는 조건 사후 최대 확률 (conditional maximum a posteriori, CMAP)과 음성 스펙트럼 변이 조건을 기반으로 한 새로운 음성 검출기 (voice activity detection, VAD)를 제안한다. 제안된 음성 검출기는 통계적 모델을 기반으로 한 우도비 테스트 (likelihood ratio test, LRT)의 문턱값을 결정하는데 조건 사후 최대 확률과 스펙트럼 변이의 상태 값을 조건부 확률로 부과한다. 제안된 알고리즘을 다양한 잡음 환경에서 기존의 CMAP 기반의 음성 검출기와 비교한 결과 전체적으로 향상된 성능을 보였으며 특히 SNR이 낮은 조건에서 향상 폭이 컸다.

디지털 소외계층을 위한 지능형 IoT 애플리케이션의 공개 API 기반 대화형 음성 상호작용 기법 (Open API-based Conversational Voice Interaction Scheme for Intelligent IoT Applications for the Digital Underprivileged)

  • 장준혁
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.22-29
    • /
    • 2022
  • 음성 상호작용은 스마트 기기의 활용에 능숙하지 못한 디지털 소외계층을 대상으로 하는 애플리케이션에서 특히 효과적이다. 그러나 공개 API를 기반으로 한 애플리케이션들은 기존의 터치스크린 중심의 UI와 제공되는 API의 한계로 인해 음성 신호를 짧고 단편적인 입출력에만 활용하고 있다. 본 논문에서는 사용자와 지능형 모바일/IoT 애플리케이션의 대화형 음성 상호작용 모델을 설계하고, 편집 거리(Levenshtein distance) 기반 키워드 탐지 기법을 제안한다. 제안 모델 및 기법은 안드로이드 환경에서 구현되었으며, 편집 거리 기반 키워드 탐지 기법은 음성인식을 통해 부정확하게 인식된 키워드에 대해 기존 기법보다 높은 인식률을 보였다.

잡음에 강인한 음성인식을 위한 Generalized Gamma 분포기반과 Spectral Gain Floor를 결합한 음성향상기법 (Speech Estimators Based on Generalized Gamma Distribution and Spectral Gain Floor Applied to an Automatic Speech Recognition)

  • 김형국;신동;이진호
    • 한국ITS학회 논문지
    • /
    • 제8권3호
    • /
    • pp.64-70
    • /
    • 2009
  • 본 논문은 잡음에 강인한 음성인식 성능을 획득하기 위해 generalized Gamma 분포기반의 음성향상 기법을 제안한다. 우수한 음성향상을 위해서 제안된 방식에서는 generalized Gamma분포와 spectral gain floor를 이용한 음성추적 기법에 스펙트럼 최소잡음성분에 의한 희귀적인 평균 스펙트럼 값으로부터 유도되는 잡음추정을 결합하여 음질을 향상시켜 음성인식에 적용하였다. Spectral component, spectral amplitude 그리고 log spectral amplitude에 기반하여 제안된 음성향상 기법을 잡음환경에서의 음성인식에 적용하여 그 성능을 측정하였다.

  • PDF

표준 사물인터넷 플랫폼을 활용한 음성 제어 시스템 (Voice-based Control System Using Standard-based IoT Platforms)

  • 정이수;백승우;이성찬;윤재석
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.454-455
    • /
    • 2019
  • 본 논문에서는 표준 기반 사물인터넷 (IoT: Internet of Things) 플랫폼을 활용한 음성 제어 시스템을 구현하고 그 성능을 검증한다. 사물인터넷 산업 표준인 원엠투엠 (oneM2M) 오픈 소스 플랫폼을 활용하여 음성으로 댁내 기기를 제어할 수 있는 프로토타입 시스템을 구현하였다. 음성 기반 제어를 위해 구글의 Speech-to-Text API를 활용하고 오픈 소스 하드웨어에 원엠투엠 플랫폼을 탑재하여 어디서든지 서버 플랫폼에 연결된 댁내 가전기기들을 제어할 수 있음을 보였다. 본 논문에서 구현한 시스템을 통해 표준화된 오픈 소스 플랫폼과 클라우드 음성 인식 API를 활용하여 확장성과 연결성을 갖춘 커넥티드 홈을 구현할 수 있음을 알 수 있다.

  • PDF