• Title/Summary/Keyword: 음성다중

검색결과 351건 처리시간 0.023초

실시간 윈도우 환경에서 DMS모델을 이용한 자동 음성 제어 시스템에 관한 연구 (A Study on the Automatic Speech Control System Using DMS model on Real-Time Windows Environment)

  • 이정기;남동선;양진우;김순협
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.51-56
    • /
    • 2000
  • 본 논문은 음성인식을 이용한 실시간 윈도우 자동 제어 시스템에 관한 연구이다. 사용된 음성 모델은 수행 속도를 높이기 위해 제안된 가변 DMS 모델을 이용하였으며, 인식 알고리즘으로 이를 이용한 One-Stage DP 알고리즘을 사용한다. 인식 대상단어는 윈도우에서 자주 사용되는 66개의 윈도우 제어 명령어들로 구성한다. 본 연구에서 온라인으로 음성을 처리하기 위해 음성 검출 알고리즘을 구현하였으며, 기존 DMS(Dynamic Multi Section)모델 생성시 고정적으로 적용하던 섹션의 수를 입력 신호의 지속 시간을 고려하여 가변적으로 적용한 가변 DMS 모델을 제안하였다. 또한 윈도우에서 사용자 작업에 의해 현재 상태에 인식 대상으로 불필요한 인식 대상단어가 발생하게 되는데 이를 효율적으로 처리하기 위해 사용 모델을 재구성하여 사용하도록 제안하였으며, 인간의 청각적 특성을 고려하여 음성신호에서 개인의 특성은 제외하고 음성 자체의 특징만을 추출하여 특징 벡터를 생성하는 인지 선형 예측(Perceptual Linear Predictive)분석 방법을 이용하였다. 시스템 성능 평가 결과 가변 동적 다중 섹션 모델(Variable DMS model)과 기존의 DMS 모델은 인식률 면에서는 거의 동일하지만 인식 수행 속도는 제안된 모델의 계산량이 기존 모델보다 작기 때문에 향상되었고, 다중 화자 독립 인식률은 99.08%, 다중 화자 종속 인식률은 99.39%의 인식률을 나타내었으며, 실제 노이즈가 있는 환경에서 화자독립실험의 경우 96.25%의 인식률을 보여 주었다.

  • PDF

한국어 음성합성에서 음운지속시간 모델화 (Segmental duration modelling for Korean text-to-speech synthesis)

  • 이양희
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 2월 학술대회지
    • /
    • pp.125-135
    • /
    • 1996
  • 본 논문에서는 자연스러운 음성을 합성하기 위하여, 한국어 음운지속시간의 변화에 있어서 문절과 구내의 음절수와 음절의 위치에 의한 영향과 인접하는 음운의 영향에 대하여 통계적으로 분석하였고, 분석된 시간 특징을 제어 요소로 하는 회귀트리를 생성하여 음운 지속시간을 모델 화하였다. 또한, 제안된 음운 지속시간 모델에 의해 예측실험을 행하여, 측정치와 예측치간의 다중 상관계수가 0.74정도이고, 각 음운의 예측오차의 75%이상이 25ms이내로 제안된 모델의 타당성이 입증되었다.

  • PDF

텍스트와 음성의 앙상블을 통한 다중 감정인식 모델 (Multi-Emotion Recognition Model with Text and Speech Ensemble)

  • 이명호;임명진;신주현
    • 스마트미디어저널
    • /
    • 제11권8호
    • /
    • pp.65-72
    • /
    • 2022
  • COVID-19로 인해 대면으로 이루어지던 상담 방식이 비대면으로 진행되면서 비대면 상담의 중요성이 높아지고 있다. 비대면 상담은 온라인으로 언제 어디서든 상담할 수 있고, COVID-19에 안전하다는 장점이 있다. 그러나 비언어적 표현의 소통이 어려워 내담자의 마음을 이해하기 어렵다. 이에 비대면 상담 시 내담자의 마음을 잘 알기 위해서는 텍스트와 음성을 정확하게 분석하여 감정을 인식하는 것이 중요하다. 따라서 본 논문에서는 텍스트 데이터는 자음을 분리한 후 FastText를 사용하여 벡터화하고, 음성 데이터는 Log Mel Spectrogram과 MFCC를 사용하여 각각 특징을 추출하여 벡터화한다. 벡터화된 데이터를 LSTM 모델을 활용하여 5가지 감정을 인식하는 다중 감정인식 모델을 제안한다. 다중 감정인식은 RMSE을 활용하여 계산한다. 실험 결과 텍스트와 음성 데이터를 각각 사용한 모델보다 제안한 모델의 RMSE가 0.2174로 가장 낮은 오차를 확인하였다.

$OakDSPCore^{\circledR}$를 이용한 적응형 다중 비트 (AMR) 음성 부호화기의 실시간 구현 (Real-time Implementation of the AMR Speech Coder Using $OakDSPCore^{\circledR}$)

  • 이남일;손창용;이동원;강상원
    • 한국음향학회지
    • /
    • 제20권6호
    • /
    • pp.34-39
    • /
    • 2001
  • 적응형 다중 비트 (AMR: adaptive multi-rate)은 ETSI (European Telecommunications Standards Institute)에서 채택한 광대역 코드분할 다중화(W-CDMA: wideband cadedivision multiple access)용 음성 부호화표준방식으로서 채널 상태의 변화에 따라 가변적인 전송률을 가진다. 본 논문에서는 적응형 다중 비트 음성 부호화 알고리즘을 분석하고 C프로그램 최적화 과정을 거친 후OakDSPCore/sup R/를 기반으로 설계된 C&S Technology사의 CSD17C00A칩을 이용하여 전과정을 어셈블리어로 실시간 구현하였다. 구현된 코덱은 최대의 계산량을 요구하는6.7 kbps 모드일때 인코더부분이 최대 20.6MIPS이며 디코더부분은 약2.7MIPS의 복잡도를 나타낸다. 사용된 메모리는 약 21.33 kwords, 데이터 RAM메모리는 약 4.25 kwords를 가지며 데이터 ROM메모리는 약 15.1kwords 이다. 구현된 코덱은 최대 약 23.29MIPS의 복잡도를 가지고 있으므로 40MIPS의 성능을 가지는 CSD17C00A를 이용한 보드상에서 실시간 동작이 가능함을 확인하였다. 구현된 프로그램은 ETSI에서 제공하는 21개의 테스트 (test) 벡터를 통하여 bit-exact함을 확인하였다. 그리고 마이크와 스피커를 이용한 실시간 음성 입출력이 음질의 왜곡이나 지연없이 실시간으로 동작함을 확인하였다.

  • PDF

1차 차분신호의 영비트 제거에 의한 음성신호의 패킷부호화에 관한 연구 (A Study on the Speech Packetized Coding by Zero Bit Reduction of 1'st Order Differences)

  • 신동진;임운천;배명진;안수길
    • 한국음향학회지
    • /
    • 제8권4호
    • /
    • pp.74-82
    • /
    • 1989
  • 본 논문에서는 음성신호의 다중채널 실시간 부호화를 위하여 1차 차분신호의 불필요한 영비트를 제거하고 5개 단위로 음성 패킷을 구성해 주는 패킷 부호화에 관하여 그 실현방법 및 성능을 연구하였다. 제안된 패킷부호화 방법은 알고리즘이 매우 간단하며 수치연산보다는 주로 데이터의 조작에 의해 이루어지므로 많은 정보량의 압축은 기대하기 어려우나, 10가지의 음성 안내문에 적용한 결과 약 $40\%$정도의 정보 압축이 가능하였다. 따라서 제안된 방법을 사용하면 매우 간단하게 음성신호 저장시 메모리를 절약해줄 수 있으며 또한 전송시 전송 효율을 높여줄 수 있고, 특히 알고리즘이 간단하므로 부호화시 채널을 다중좌하기에 유리한 장점이 있다.

  • PDF

웨이블렛 변환을 이용한 음성에서의 감정 추출 및 인식 기법 (Emotion Recognition Method from Speech Signal Using the Wavelet Transform)

  • 고현주;이대종;박장환;전명근
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.150-155
    • /
    • 2004
  • 본 논문에서는 사람의 음성속에 내포된 6가지 기본 감정(기쁨, 슬픔, 화남, 놀람, 공포, 혐오)의 특징을 추출하고 인식하고자 한다. 제안한 감정인식 알고리즘은 웨이블렛 필터뱅크를 이용하여 각각의 감정별 코드북을 만들고, 인식단계에서 필터뱅크별 감정을 확인한 후 최종적으로 다중의사결정기법에 의해 감정을 인식하는 구조로 이루어져 있다. 이와 같은 웨이블렛 필터뱅크와 다중의사 결정기법에 기반을 둔 알고리즘의 유용성을 보이기 위해 실험에 사용된 음성은 20명의 화자로부터 6가지의 감정을 대상으로 각각 3번씩 발음한 감정음성을 녹음하여 총 360개의 데이터베이스로 구성하고 실험하였다. 이와 같이 제안한 알고리즘은 기존의 연구에 비해 5% 이상 향상된 인식률을 보였다.

운율어를 이용한 한국어 위치 정보 데이터의 다중 발음 사전 생성 (Multiple Pronunciation Dictionary Generation For Korean Point-of-Interest Data Using Prosodic Words)

  • 김선희;전재훈;나민수;정민화
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.183-188
    • /
    • 2006
  • 본 논문에서 위치 정보 데이터란 텔레메틱스 분야의 응용을 위하여 웹상에서 수집한 Point-of-Interest (POI) 데이터로서 행정구역 및 지명 인명, 상호명과 같은 위치 검색에 사용되는 어휘로 구성된다. 본 논문은 음성 인식 시스템을 구성하는 발음 사전의 개발에 관한 것으로 250k 위치 정보데이터로부터 운율어를 이용하여 불규칙 발음과 발음 변이를 포함하는 가능한 모든 발음을 생성하는 방법을 제안하는 것을 목적으로 한다. 원래 모든 POI 는 한 번씩만 데이터에 포함되어 있으므로, 그 가운데 불규칙 발음을 포함하는 POI를 검출하거나 발음을 생성하기 위해서는 각각의 POI 하나하나를 일일이 검토하는 방법밖에 없는데, 대부분의 POI 가 복합명사구로 이루어졌다는 점에 착안하여 운율어를 이용한 결과, 불규칙 발음 검출과 다중 발음 생성을 효율적으로 수행할 수 있었다. 이러한 연구는 음성처리 영역에서는 위치정보데이터의 음성인식 성능을 향상하는 데 직접적인 기여를 할 수 있고, 무엇보다도 음성학과 음운론 이론을 음성 인식 분야에 접목한 학제적 연구로서 그 의미가 있다고 할 수 있다.

  • PDF