통합 검색 | Korea Science

선형 변환망을 이용한 화자적응 음성인식 (Speaker Adaptation Using Linear Transformation Network in Speech Recognition)

이기희
- 한국컴퓨터정보학회논문지
- /
- 제5권2호
- /
- pp.90-97
- /
- 2000
본 논문에서는 불특정 화자의 음성에 대해서도 신뢰성 있는 인식이 이루어지도록 하는 음성인식 시스템을 구현하기 위한 화자적응 음성인식 기법을 제안한다. 제안한 화자적응 기법에 의한 음성인식 시스템은 표준화자의 음성특징을 1차선형 변환 망에 의해 새로운 화자의 음성특징에 선형적으로 적응하여 인식하며. 그 구성은 다층퍼셉트론을 퍼지 벡터양자화기로 사용하는 반연속 HMM을 기반으로 한다 구현한 인식시스템은 그 성능을 확인하기 위해 고립단어 인식실험을 수행하였다. 그 결과, 화자적응 인식인 경우가 화자적응 수행하지 않은 시스템에 비해 인식률이 개선됨을 보였다.
PDF

PR Focus-지능망, 모바일 기반의 핵심기술

벤처기업협회
- 벤처다이제스트
- /
- 통권60호
- /
- pp.20-20
- /
- 2004
유∙무선 통신서비스 이용자들에게 다양하고 편리한 음성기반의 서비스들을 제공할 수 있도록 해주는 지능망은 한마디로 이동통신망의‘두뇌’이다. 지능망을 사용할 경우 스위칭장비를 다시 디자인하거나 도입하지 않아도 새로운 서비스를 추가하거나 변경할 수 있다는 장점이 있다. 우리에게 잘 알려진 080서비스, 평생번호서비스 등이 바로 이 지능망이며 이동통신망의 핵심 인프라로 주목받고 있다.
PDF

Joint CDMA/PRMA의 성능향상 기법에 관한 연구

국광호;이강원;박정우;강석열
- 한국시뮬레이션학회:학술대회논문집
- /
- 한국시뮬레이션학회 2001년도 춘계 학술대회 논문집
- /
- pp.134-134
- /
- 2001
이동통신 망을 통한 멀티미디어 통신의 수요 급증으로, 차세대 이동통신 시스템에서는 패킷 교환에 기초한 망 구조가 사용될 것으로 예측된다. VOD(Voice Activity Detector)를 갖는 음성 단말은 데이터를 발생시키는 talk spurt(평균이 t$_1$인 지수분포를 따름)와 데이터를 발생시키지 않는 silence period(평균이 t$_2$인 지수분포를 따름)의 두가지 상태를 갖는 마코프 체인으로 모델링된다. Goodman at. al.은 음성 단말들이 talk spurt동안만 데이터를 전송하게 함으로써 더 많은 가입자들을 수용할 수 있는 PRMA(Packet Reservation Multiple Access) 기법을 제안되었다. PRMA 방식에서는 시간 축이 슬롯들로 구성되며 여러개의 슬롯들로 프레임이 형성된다. Silence period 상태에 있던 음성 단말은 talk spurt 상태가 되면 talk spurt의 첫 번째 데이터를 하나의 슬롯을 통해 전송하게 된다. 이때 단말들은 각 슬롯에서 데이터를 전송할 수 있는 확률을 나타내는 채널 접근 확률(channel access probability)에 의해 데이터를 전송하게 되며 전송에 성공하면 슬롯을 예약함으로서 다음 프레임부터는 동일한 위치의 슬롯을 통해 데이터들을 전송하게 된다. DS/CDMA(Direct Sequence/code Division Multiple Access)는 이동통신 단말의 수용 용량상의 이점, 소프트 핸드오버 능력, 보다 용이하게 셀 계획을 세울 수 있는 점 등에 의해 차세대 이동통신 망에서 채택될 예정이다. CDMA 시스템은 간섭(interference)에 의해 용량이 제한을 받게 되며, MAI(Multiple Access Interference)가 시스템의 성능에 많은 영향을 미치게 된다. Brand, et. al.은 간섭의 분산을 줄이기 위해 PRMA 개념을 DS/CDMA 환경으로 확장한 Joint CDMA/PRMA 프로토콜을 제안하였다. 이때 각 슬롯에서의 데이터 전송확률을 그 슬롯에서 예약상태에 있는 음성 단말의 수에 의존하게 하는 방식을 사용하였으며 데이터 전송확률을 나타내는 채널 접근 확률들을 시뮬레이션을 통해 유도하였다. 한편 음성 단말에게는 실시간 서비스를 제공해 주어야 하는 대신 데이터 단말에게는 실시간 서비스를 제공해 주지 않아도 되므로, 트래픽이 많을 때에는 음성 단말의 데이터 전송에 우선권을 주는 것이 바람직하다. 이를 위해서 Brand, et. al.은 채널 접근 확률을 각 슬롯의 트래픽 상태에 따라 적응적으로 산출하는 기법을 제안하였다. 본 연구에서는 Joint CDMA/PRMA의 성능이 채널 접근 함수의 효율성에 많이 의존하게 되므로 보다 효율적인 채널 접근 확률을 구하는 방법을 제안한다. 즉 채널 액세스 확률을 각 슬롯에서 예약상태에 있는 음성 단말의 수뿐만 아니라 각 슬롯에서 예약을 하려고 하는 단말의 수에 기초하여 산출하는 방법을 제안하고 이의 성능을 분석하였다. 시뮬레이션에 의해 새로 제안된 채널 허용 확률을 산출하는 방식의 성능을 비교한 결과 기존에 제안된 방법들보다 상당한 성능의 향상을 볼 수 있었다.
PDF

주목 메커니즘 기반의 심층신경망을 이용한 음성 감정인식 (Speech emotion recognition using attention mechanism-based deep neural networks)

고상선;조혜승;김형국
- 한국음향학회지
- /
- 제36권6호
- /
- pp.407-412
- /
- 2017
본 논문에서는 주목 메커니즘 기반의 심층 신경망을 사용한 음성 감정인식 방법을 제안한다. 제안하는 방식은 CNN(Convolution Neural Networks), GRU(Gated Recurrent Unit), DNN(Deep Neural Networks)의 결합으로 이루어진 심층 신경망 구조와 주목 메커니즘으로 구성된다. 음성의 스펙트로그램에는 감정에 따른 특징적인 패턴이 포함되어 있으므로 제안하는 방식에서는 일반적인 CNN에서 컨벌루션 필터를 tuned Gabor 필터로 사용하는 GCNN(Gabor CNN)을 사용하여 패턴을 효과적으로 모델링한다. 또한 CNN과 FC(Fully-Connected)레이어 기반의 주목 메커니즘을 적용하여 추출된 특징의 맥락 정보를 고려한 주목 가중치를 구해 감정인식에 사용한다. 본 논문에서 제안하는 방식의 검증을 위해 6가지 감정에 대해 인식 실험을 진행하였다. 실험 결과, 제안한 방식이 음성 감정인식에서 기존의 방식보다 더 높은 성능을 보였다.
https://doi.org/10.7776/ASK.2017.36.6.407 인용 PDF KSCI

심층신경망을 이용한 짧은 발화 음성인식에서 극점 필터링 기반의 특징 정규화 적용 (Applying feature normalization based on pole filtering to short-utterance speech recognition using deep neural network)

한재민;김민식;김형순
- 한국음향학회지
- /
- 제39권1호
- /
- pp.64-68
- /
- 2020
가우스 혼합 모델-은닉 마코프 모델(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)을 이용하는 전통적인 음성인식 시스템에서는, 극점 필터링 기반의 켑스트럼 특징 정규화 방식이 잡음 환경에서 짧은 발화의 인식 성능을 향상시키는데 효과적이었다. 본 논문에서는 심층신경망(Deep Neural Network, DNN)을 이용하는 최신의 음성인식 시스템에서도 이 방식의 유용성이 있는지 검토한다. AURORA 2 DB에 대한 실험 결과, 특히 훈련 및 테스트 환경 사이의 불일치가 클 때에, 극점 필터링 기반의 켑스트럼 평균 분산 정규화 방식이 극점 필터링을 사용하지 않는 방식에 비해 매우 짧은 발화의 인식 성능을 개선시킴을 보여 준다.
https://doi.org/10.7776/ASK.2020.39.1.064 인용 PDF KSCI

확률신경망에 의한 숫자음성열로부터의 화자확인 (Speaker Verification for Spoken Digit Sequence by Probabilistic Neural Network)

엄익태;강권일;김문현
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
- /
- pp.178-183
- /
- 1999
화자확인은 기본적으로 각 입력 음성에 대해 하나의 임계치를 기준으로 수락과 거부의 두 가지 결정을 내리나, 본 논문은 네 자리의 비밀번호를 음성으로 입력하였을 때 각 숫자음성에 대한 지역적인 결정을 두 개의 임계치를 이용하여 수락, 거부, 결정유보의 세 가지로 구분하고, 비밀번호 전체에 대한 판단 규칙을 제안하였다. 지역적 결정에 필요한 화자에 대한 신뢰척도의 측정치는 확률신경망을 통해 구하였다. 다섯 명의 화자를 대상으로 수행한 실험에서 하나의 임계치를 이용한 기존의 방식은 5.3%의 오류를 나타냈고, 본 논문에서 제안한 방식은 2.1%의 오류를 보였다.
PDF

MPLS 망에서 UDP 음성트래픽을 제공하기 위한 라우터의 큐잉 방식에 관한 비교분석 (A Comparison & Analysis About Router's Queueing Mechanism for UDP Voice Traffic in MPLS network)

권기범;정일영
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2000년도 추계학술발표논문집 (하)
- /
- pp.1629-1632
- /
- 2000
인터넷 트래픽의 폭발적인 증가로 인해 라우터에서 목적지로 포워딩 해야 할 트래픽의 양도 함께 증가하게 되었다. 그와 같은 트래픽들 중에 최근에 급격히 증가하고 있는 음성트래픽의 주를 이루는 것이 바로 인터넷 전화로 발생되는 트래픽들이다. 본 논문에서는 인터넷 전화시 발생하는 음성트래픽의 특성에 대해 살펴보고, 라우터에서 트래픽 폭주시 이를 제어하는 큐잉 방식을 비교분석하고, MNS(MPLS Network Simulation)툴을 이용하여 코어망을 MPLS 네트워크로 구성한 후 UDP 음성트래픽을 생성하여 각 라우터(LSR: Label Switch Router)의 버퍼에서 요구되어지는 폭주제어기법들에 대해 시뮬레이션을 하여 그것을 통해 얻은 결과를 바탕으로 실제 인터넷 전화 시스템의 통화품질에 적절하게 대처할 수 있는 큐잉 기법을 고찰한다.
PDF

응급구조 음향데이터 분석을 위한 Gabor 필터뱅크 기반의 특징추출 알고리즘에 대한 연구 (A study on Gabor Filter Bank-based Feature Extraction Algorithm for Analysis of Acoustic data of Emergency Rescue)

황인영;장준혁
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2015년도 추계학술발표대회
- /
- pp.1345-1347
- /
- 2015
본 논문에서는 응급상황이 신고되는 상황에서 수보자에게 전달되는 신고자의 주변음향신호로부터 신고자의 주변상황을 추정하기 위하여 음향의 주파수적 특성 및 변화특성의 모델링 성능이 뛰어난 Gabor 필터뱅크 기반의 특징벡터 추출 기술 및 분류 성능이 뛰어난 심화신경망을 도입한다. 제안하는 Gabor 필터뱅크 기반의 특징벡터 추출 기법은 비음성 구간 검출기를 통하여 음성/비음성을 구분한 후에 비음성 구간에서 23차의 Mel-filter bank 계수를 추출한 후에 이로부터 Gabor 필터를 이용하여 주변상황 추정을 위한 특징벡터를 추출하고, 이로부터 학습된 심화신경망을 통하여 신고자의 장소적 정보를 추정한다. 제안된 기법은 여러 가지 시나리오 환경에서 평가되었으며, 우수한 분류성능을 보였다.
https://doi.org/10.3745/PKIPS.y2015m10a.1345 인용 PDF

감정 제어 가능한 종단 간 음성합성 시스템 (Emotion Transfer with Strength Control for End-to-End TTS)

전예진;이근배
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
- /
- pp.423-426
- /
- 2021
본 논문은 전역 스타일 토큰(Global Style Token)을 기준으로 하여 감정의 세기를 조절할 수 있는 방법을 소개한다. 기존의 전역 스타일 토큰 연구에서는 원하는 스타일이 포함된 참조 오디오(reference audio)을 사용하여 음성을 합성하였다. 그러나, 참조 오디오의 스타일대로만 음성합성이 가능하기 때문에 세밀한 감정 조절에 어려움이 있었다. 이 문제를 해결하기 위해 본 논문에서는 전역 스타일 토큰의 레퍼런스 인코더 부분을 잔여 블록(residual block)과 컴퓨터 비전 분야에서 사용되는 AlexNet으로 대체하였다. AlexNet은 5개의 함성곱 신경망(convolutional neural networks) 으로 구성되어 있지만, 본 논문에서는 1개의 신경망을 제외한 4개의 레이어만 사용했다. 청취 평가(Mean Opinion Score)를 통해 제시된 방법으로 감정 세기의 조절 가능성을 보여준다.
PDF

NGN에서 음성서비스의 호 처리 성능해석 (Performance Analysis for Call Processing in NGN Voice Services)

정문조;황찬식
- 대한전자공학회논문지TC
- /
- 제40권11호
- /
- pp.42-50
- /
- 2003
최근 차세대네트워크(Next Generation Network 이하 NGN)란 이름으로 음성서비스 및 다양한 멀티서비스(multi-service)를 품질이 보장되는 IP 네트워크 상에서 제공하려는 움직임이 활발하다. 그리고 NGN에서 원활한 서비스 제공을 위하여 해결되어야 할 문제들은 전달망 구조 정립, IP 망의 QoS 보장, 서비스 생성 및 관리, 그리고 제어채널의 분리에 따른 제어망 설계분야로 나누어져 연구가 진행되고 있다. 특히, NGN에서는 호 및 연결 제어정보와 사용자 데이터를 전달하는 루트가 서로 분리된 형태로 구현될 예정이며, 호 처리 성능평가에 대한 방안은 조속히 정리되어야 할 주요한 문제 중의 하나이다. 그러나 아직 호 처리 성능에 대한 어떠한 정량적 평가방법도 제안되어 있지 않다. 본 연구에서는 NGN에서 음성서비스를 제공하기 위한 제어망 설계에 있어서 QoS 지표의 하나인 호 설정 지연 목표치를 만족시키기 위하여 소프트스위치가 갖추어야 할 서버의 성능을 정량적으로 분석하고 예측하는 방법을 제안한다.
PDF KSCI

검색결과 874건 처리시간 0.026초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)