• 제목/요약/키워드: 음성효율

검색결과 870건 처리시간 0.027초

Transformer 네트워크를 이용한 음성신호 변환 (Voice-to-voice conversion using transformer network)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.55-63
    • /
    • 2020
  • 음성 변환은 다양한 음성 처리 응용에 적용될 수 있으며, 음성 인식을 위한 학습 데이터 증강에도 중요한 역할을 할 수 있다. 기존의 방법은 음성 합성을 이용하여 음성 변환을 수행하는 구조를 사용하여 멜 필터뱅크가 중요한 파라미터로 활용된다. 멜 필터뱅크는 뉴럴 네트워크 학습의 편리성 및 빠른 연산 속도를 제공하지만, 자연스러운 음성파형을 생성하기 위해서는 보코더를 필요로 한다. 또한, 이 방법은 음성 인식을 위한 다양한 데이터를 얻는데 효과적이지 않다. 이 문제를 해결하기 위해 본 논문은 원형 스펙트럼을 사용하여 음성 신호 자체의 변환을 시도하였고, 어텐션 메커니즘으로 스펙트럼 성분 사이의 관계를 효율적으로 찾아내어 변환을 위한 자질을 학습할 수 있는 transformer 네트워크 기반 딥러닝 구조를 제안하였다. 영어 숫자로 구성된 TIDIGITS 데이터를 사용하여 개별 숫자 변환 모델을 학습하였고, 연속 숫자 음성 변환 디코더를 통한 결과를 평가하였다. 30명의 청취 평가자를 모집하여 변환된 음성의 자연성과 유사성에 대해 평가를 진행하였고, 자연성 3.52±0.22 및 유사성 3.89±0.19 품질의 성능을 얻었다.

분산형 시스템을 적용한 음성합성에 관한 연구 (A Study on Speech Synthesizer Using Distributed System)

  • 김진우;민소연;나덕수;배명진
    • 한국음향학회지
    • /
    • 제29권3호
    • /
    • pp.209-215
    • /
    • 2010
  • 최근 광대역 무선 통신망의 보급과 소형 저장매체의 대용량화로 인하여 이동형 단말기가 주목 받고 있다. 이로 인해 이동형 단말기에 문자정보를 청취할 수 있도록 문자를 음성으로 변환해 주는 TTS(Text-to-Speech) 기능이 추가되고 있다. 사용자의 요구사항은 고음질의 음성합성이지만 고음질의 음성합성은 많은 계산량이 필요하기 때문에 낮은 성능의 이동형 단말기에 는 적합하지 않다. 본 논문에서 제안하는 분산형 음성합성기 (DTTS)는 고음질 음성합성이 가능한 코퍼스 기반 음성합성 시스템을 서버와 단말기로 나누어 구성한다. 서버 음성합성 시스템은 단말기에서 전송된 텍스트를 데이터베이스 검색 후 음성파형 연결정보를 생성하여 단말기로 전송하고, 단말기 음성합성 시스템은 서버 음성합성 시스템에서 생성된 음성파형 연결정보와 단말기에 존재하는 데이터베이스를 이용하여 간단한 연산으로 고음질 합성음을 생성할 수 있는 시스템이다. 제안하는 분산형 합성기는 단말기에서의 계산량을 줄여 저가의 CPU 사용, 전력소모의 감소, 효율적인 유지보수를 할 수 있도록 하는 장점이 있다.

견실한 배음 축척과 결합된 4.8KBPS 트리 음성부호기 (Robust Tree Coding Combined with Harmonic Scaling of Speech at 4.8 Kbps)

  • 강상원;이인성;한경호
    • 한국통신학회논문지
    • /
    • 제18권12호
    • /
    • pp.1806-1814
    • /
    • 1993
  • 본 논문에서는 음성 신호기의 4.8 Kbps에서 효율적인 배음 축척과 결합된 트리 부호기를 실현한다. 음성신호를 2대 1 압축하기 위해 TDHS 알고리즘을 사용한다. 이 과정은 4.8 Kbps에서 6.4 KHz 샘플링율을 적용하면 트리 부호기에 1.5 비트/샘플을 할당할 수 있다. 트리 부호기의 견실성은 short-term 예측기의 적응시 사용되는 입력 신호를 효율적 선택함으로써 개선되어진다. 또한 채널에서 전송에러기 트리 부호기의 성능은 피치 예측기에 스무더를 부가함으로써 개선된다. 배음 축척과 결합된 트리 부호기는 4.8 Kbps 전송률에서 좋은 질의 음성을 출력한다.

  • PDF

최소 예약슬롯 보증 음성/데이타 집적 PRMA 프로토콜에 관한 연구 (A Study on the Voice/Data Integrated PRMA Protocol With the Minimum Reservation Slot Assured)

  • 김태규;조동호;윤용중
    • 한국통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.250-260
    • /
    • 1993
  • PRMA(Packet Reservation Multiple Access) 프로토콜은 연집 트래픽 특성을 갖는 불특정다수의 단말기들이 공유채널을 엑세스하기 위해 서로 경쟁하는 환경하에서 음성 트래픽과 데이터 트래픽을 집적하여 서비스하는데 매우 효율적인 것으로 잘 알려져 있다. 그러나 PRMA 프로토콜에서는 부하가 커지면 예약채널의 용량이 영(Zero)으로 축소될 수도 있으므로 시스템이 불안정해지고 고부하 상태에서는 제대로 동작할 수 없다. 본 논문에서는 이러한 PRMA의 단점을 보완할 수 있으며 보다 안정되게 동작하는 음성/데이타 직접 PRMA 프로토콜을 제안하고, 프레임 및 슬롯구조를 제시하여, 제안된 프로토콜의 성능을 컴퓨터 시뮬레이션을 통하여 분석해 보았다. 시뮬레이션 결과, 기존의 방식에 비해 제안된 프로토콜이 보다 효율적으로 음성과 데이타를 집적할 수 있으며, 고부하 상태에서도 보다 안정되게 동작함을 알 수 있었다.

  • PDF

효율적인 차량 환경을 위한 딥 러닝 기반의 음성인식 상품 구매 시스템 (Deep learning-based voice recognition product purchase system for efficient vehicle environment)

  • 권병욱;강원민;박종혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.330-332
    • /
    • 2017
  • 최근 차량사고는 운전자의 운전 행동이 많은 비중을 차지하며 행동이 올바르지 못했을 경우 주의가 분산되어 사고가 발생하고 있다. 자동차 업계에서는 자율주행 기술의 출현으로 운전자의 운전환경이 변화되고 있다. 차량 서비스들은 차량에 부착된 센서들을 이용한 다양한 차량 서비스가 개발되고 있으며 차량 서비스는 도로주변 환경과 운전자의 안전에 집중된 서비스가 대부분이다. 하지만 차량에 부착된 센서들의 성능문제로 인한 기능적 문제점으로 상용화가 늦어지고 있다. 본 논문에서는 사용자에게 효율적인 차량 서비스를 제공하기 위해 사용자의 음성을 활용한 상품구매 시스템을 제안한다. 본 시스템은 딥 러닝 기술이 적용된 DB를 통해 사용자의 음성데이터 분류를 통해 상품을 검색 및 구매할 수 있는 시스템이다. 제안된 시스템은 음성인식을 활용하여 별도의 과정 없이 간편하게 상품을 구매할 수 있으며, 사고의 위험으로부터 벗어날 수 있다.

VoIP망에서 IP기반 녹취 시스템 설계 및 구현 (An IP Based Transcript System in VoIP Network)

  • 손민호;김수희;김영웅;정인환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.898-900
    • /
    • 2005
  • 초고속 통신망의 확대 적용으로 인터넷의 빠른 성장과 함께 음성과 비디오 그리고 데이터를 통합하고자 하는 노력이 시도 되고 있다. VoIP(Voice over IP)는 IP를 이용하여 음성과 데이터를 패킷 형태로 통합하여 실시간으로 전송하는 기술이다[1]. 패킷 네트워크에서 VoIP 시그널링 기술을 이용하면 망 자원의 효율적 이용 및 PSTN에 가까운 음질 그리고 인터넷과 연계한 다양한 음성서비스 지원(H.323, SIP, MGCP 등 다양한 신호처리 지원)이 가능하다. 본 논문에서는 VoIP망에서 IP기반 녹취 시스템을 설계 및 구현한다. 녹취 시스템은 고객과 상담원의 통화 내용을 자동으로 녹음하여 보관함으로써 고객의 요구사항을 명확히 파악할 수 있으며 녹취 데이터의 통계 자료 제공으로 효율적인 관리가 지원되고 선택 녹취, 스케줄링 녹취, 상담원의 평가 자료를 제공하여 고객 관리의 질적인 향상을 지원한다. 본 논문의 녹취 시스템은 고객과의 통화 내용을 녹취하여 서버의 녹취 DB에 저장하여 관리하는 녹취 시스템으로 모든 네트워크 환경에서 사용할 수 있으며 CTI와 연동하여 효율적이고 체계적인 녹취 시스템 구국이 가능하다.

  • PDF

한국어 운율 발생용 인공신경망의 구조 및 학습에 관한 연구 (A Study on the Architecture and Learning of the Artificial Neural Networks for Prosody Generation of Korean Sentence)

  • 민경중;임운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.135-138
    • /
    • 2004
  • 음성처리기술은 정보화 시대를 위한 주요 기술의 하나이다. 이 중에서도 음성합성의 연구는 디지털 신호처리 기술과 컴퓨터의 발달로 활발히 진행되고 있다. 그러나 음성 합성기에 의해 발생된 합성음의 음질은 이해도 면에서는 상당한 진전이 있었지만, 자연감 면에서는 만족한 수준에 도달할 수 없었는데, 이러한 합성시스템의 문제점을 해결하는 방법은 다양하게 적용되는 언어정보와 합성음의 자연감을 결정하는 정확한 운율정보가 필요하다. 그러나 구한 운율 정보가 자연음에 존재하는 모든 운율 법칙을 포함할 수 없고, 또한 추출한 운율 법칙이 틀린 것이면 자연감이나 이해도가 떨어지는 합성음이 만들어지고 이것은 음성 합성 시스템의 실용화에 장애로 작용할 것이다. 본 논문은 한국어 음성 합성 시 문제가 되는 자연감을 높이기 위한 한 방법으로 자연음에 내재하는 운율 변화를 효율적으로 학습할 수 있는 인공 신경망을 제안하였다.

  • PDF

무선망에서의 음성 트래픽 측정 (Performance of Voice Traffic over Wireless Network)

  • 김지수;최대인;정진우;강현국
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.664-666
    • /
    • 2004
  • 최근 멀티미디어 인터넷의 확산으로 인해 SIP를 비롯한 음성 및 화상 패킷 전송에 대한 관심이 증대되고 있으며, 이에 대해 인터넷을 통한 음성통신서비스가 전개되고 있다. 또한, 노트북, 핸드폰과 같은 무선 기기에 이러한 음성통신서비스를 제공함으로써 이를 효율적으로 연동하고 제어하기 위한 다양한 표준들이 나타나고 있다. 본 논문에서는 급속하게 발전되고 있는 VoIP 기술 중 세션 제어를 위한 기본 프로토콜 표준인 SIP를 살펴보고, 무선 환경에 이를 적용함으로써 SIP단말이 홈 망을 나간 후 다시 홈 망으로 들어왔을 때의 패킷 손실 및 중단 시간을 이동 단말의 속도에 따라 측정함으로써 무선 환경에서의 음성 트래픽 성능이 어느 정도의 결과를 산출할 수 있는지를 측정한다. 실험 결과 이동 단말이 좀 더 빠르게 움직일 때 더 적은 패킷 손실률이 나왔음을 볼 수 있다.

  • PDF

유선 LAN상의 음성/데이타 혼합전송 알고리즘 특성에 관한 연구 (A Study on the Intergrated Voice/Data transmission Algorithm characteristics on Local Area Network)

  • 김동일
    • 한국정보통신학회논문지
    • /
    • 제1권2호
    • /
    • pp.137-143
    • /
    • 1997
  • 지금까지의 통신망은 음성을 위한 공중통신망과 데이터 전송을 위한 공중데이터망으로 각각의 데이터 형태에 따른 전용망으로 발전해 왔으나 이것은 경제적으로나 효율면에서 큰 손실을 가져온다. 그러므로 음성과 데이터를 디지탈로 통합 처리하는 ISDN은 서비스 사용자에게 큰 이익을 준다 그러나 ISDN을 좁은 지역까지 확대하기 위해서는 LAN 환경에서의 음성과 데이터의 혼합 전송에 관한 연구가 필요하므로 본 논문에서는 현재 많이 사용하고 있는 이더넷과 토큰링에서의 음성과 데이터의 혼합 전송에 관한 알고리즘을 제안한다.

  • PDF

무제한 단어 음성인식을 위한 모음열 사전의 구축 (A construction of vowel string dictionary for unlimited word speech recognition)

  • 김동환;윤재선;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 하계종합학술대회논문집
    • /
    • pp.177-180
    • /
    • 2000
  • 기존의 제한적 단어 인식과는 달리 무제한 단어 음성인식에 있어서는 방대한 용량의 단어 모델을 참조로 인식이 이루어지게 되어, 참조모델과 입력패턴과의 비교를 위한 탐색시간이 너무 길어지게 된다. 본 논문에서 제한하는 방법은 무제한 단어 음성인식 시스템을 구축하기 위해 선행되어야 하는 모음열 사전을 구축하는 것이다. 음성인식시 입력패턴과 참조모델에 속한 모든 단어와의 비교를 수행하지 않고, 입력패턴의 모음열을 인식한 후, 인식된 모음열 단어들만을 참조모델에서 인식 후보로 두어 인식을 수행하게 하여 시간적인 측면에서의 효율성을 기하는 것이다. 결과적으로 본 연구 방법은 무제한 단어 음성인식에서의 실시간 처리라는 점에 주 목적을 두었다.

  • PDF