• 제목/요약/키워드: 음성 품질

검색결과 507건 처리시간 0.029초

G.729 음성 복호화기와 듀얼 SOLA 알고리즘을 통합한 최적의 음성 속도 변환 시스템 (Optimized Time Scale Modification (TSM) System Integrating G,729 Speech Decoder and Dual SOLA Algorithm)

  • 박규식;오승록;김선영
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.293-303
    • /
    • 2002
  • 본 논문에서는 ITU G.729 음성 복호화기와 듀얼 SOLA (Synchronized Overlap-Add)알고리듬을 통합한 최적의 음성 속도 변환시스템 (TSM)을 구현한다. 제안된 시스템은 ITU G.729 음성 복호화기를 통한 8 Khz 80 샘플/프레임 단위의 음성 신호를 입력으로 가정하여 듀얼 SOLA를 통해 사용자가 원하는 음성 속도에 맞추어 출력, 음성을 천천히 혹은 빠르게 최적화된 음성 품질로의 재생을 가능하게 한다. 특히 본 논문에서 제안된 듀얼 SOLA는 다양한 SOLA 파라미터에 대한 모의실험과 이론적 분석에 의거하여 ITU G.729 복호화기 음성 신호에 대한 최적화된 음성 재생 변환 기능을 제공하며, 입력 음성신호의 부가적인 인터폴레이션 (interpolation) 과정을 첨가하여 최대 2배 빠르기 혹은 2배 느리기의 극한 속도율에서도 우수한 성능의 통합 음성 속도 변환 시스템을 구현할 수 있다. 제안된 시스템은 다양한 입력 음성신호와 재생 속도에 대한 모의실험을 걸쳐 그 성능을 검증한다.

Transformer 네트워크를 이용한 음성신호 변환 (Voice-to-voice conversion using transformer network)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.55-63
    • /
    • 2020
  • 음성 변환은 다양한 음성 처리 응용에 적용될 수 있으며, 음성 인식을 위한 학습 데이터 증강에도 중요한 역할을 할 수 있다. 기존의 방법은 음성 합성을 이용하여 음성 변환을 수행하는 구조를 사용하여 멜 필터뱅크가 중요한 파라미터로 활용된다. 멜 필터뱅크는 뉴럴 네트워크 학습의 편리성 및 빠른 연산 속도를 제공하지만, 자연스러운 음성파형을 생성하기 위해서는 보코더를 필요로 한다. 또한, 이 방법은 음성 인식을 위한 다양한 데이터를 얻는데 효과적이지 않다. 이 문제를 해결하기 위해 본 논문은 원형 스펙트럼을 사용하여 음성 신호 자체의 변환을 시도하였고, 어텐션 메커니즘으로 스펙트럼 성분 사이의 관계를 효율적으로 찾아내어 변환을 위한 자질을 학습할 수 있는 transformer 네트워크 기반 딥러닝 구조를 제안하였다. 영어 숫자로 구성된 TIDIGITS 데이터를 사용하여 개별 숫자 변환 모델을 학습하였고, 연속 숫자 음성 변환 디코더를 통한 결과를 평가하였다. 30명의 청취 평가자를 모집하여 변환된 음성의 자연성과 유사성에 대해 평가를 진행하였고, 자연성 3.52±0.22 및 유사성 3.89±0.19 품질의 성능을 얻었다.

한국어 음성인식 후처리를 위한 주의집중 기반의 멀티모달 모델 (Attention based multimodal model for Korean speech recognition post-editing)

  • 정영석;오병두;허탁성;최정명;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-150
    • /
    • 2020
  • 최근 음성인식 분야에서 신경망 기반의 종단간 모델이 제안되고 있다. 해당 모델들은 음성을 직접 입력받아 전사된 문장을 생성한다. 음성을 직접 입력받는 모델의 특성상 데이터의 품질이 모델의 성능에 많은 영향을 준다. 본 논문에서는 이러한 종단간 모델의 문제점을 해결하고자 음성인식 결과를 후처리하기 위한 멀티모달 기반 모델을 제안한다. 제안 모델은 음성과 전사된 문장을 입력 받는다. 입력된 각각의 데이터는 Encoder를 통해 자질을 추출하고 주의집중 메커니즘을 통해 Decoder로 추출된 정보를 전달한다. Decoder에서는 전달받은 주의집중 메커니즘의 결과를 바탕으로 후처리된 토큰을 생성한다. 본 논문에서는 후처리 모델의 성능을 평가하기 위해 word error rate를 사용했으며, 실험결과 Google cloud speech to text모델에 비해 word error rate가 8% 감소한 것을 확인했다.

  • PDF

전화 통화의 최적 주파수 특성 검토

  • 장대영;강성훈
    • 전자통신동향분석
    • /
    • 제7권1호
    • /
    • pp.38-46
    • /
    • 1992
  • 음성통신에 있어 전화기의 주파수 특성은 음량과 함께 통화품질에 많은 영향을 미친다. 각 국에서는 자국의 통신실정에 맞는 주파수 특성을 규정하고 있지만, 다른 나라의 규정을 그대로 도입하는 것은 도리어 전화기의 품질 열화를 초래할 수 있다. 본 고에서는 전화통화에 있어 만족한 통화품질을 얻을 수 있는 바람직한 주파수 특성을 구하고자, 주파수 특성에 대하여 오피니언 평가 및 선호도 평가를 실시하고, 그 결과를 기본으로 최적 주파수 특성에 대해 검토하였다.

x-vector를 이용한 다화자 음성합성 시스템 (A Multi-speaker Speech Synthesis System Using X-vector)

  • 조민수;권철홍
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.675-681
    • /
    • 2021
  • 최근 인공지능 스피커 시장이 성장하면서 사용자와 자연스러운 대화가 가능한 음성합성 기술에 대한 수요가 증가하고 있다. 따라서 다양한 음색의 목소리를 생성할 수 있는 다화자 음성합성 시스템이 필요하다. 자연스러운 음성을 합성하기 위해서는 대용량의 고품질 음성 DB로 학습하는 것이 요구된다. 그러나 많은 화자가 발화한 고품질의 대용량 음성 DB를 수집하는 것은 녹음 시간과 비용 측면에서 매우 어려운 일이다. 따라서 각 화자별로는 소량의 학습 데이터이지만 매우 많은 화자의 음성 DB를 사용하여 음성합성 시스템을 학습하고, 이로부터 다화자의 음색과 운율 등을 자연스럽게 표현하는 기술이 필요하다. 본 논문에서는 화자인식 기술에서 사용하는 딥러닝 기반 x-vector 기법을 적용하여 화자 인코더를 구성하고, 화자 인코더를 통해 소량의 데이터로 새로운 화자의 음색을 합성하는 기술을 제안한다. 다화자 음성합성 시스템에서 텍스트 입력에서 멜-스펙트로그램을 합성하는 모듈은 Tacotron2로, 합성음을 생성하는 보코더는 로지스틱 혼합 분포가 적용된 WaveNet으로 구성되어 있다. 학습된 화자 임베딩 신경망에서 추출한 x-vector를 Tacotron2에 입력으로 추가하여 원하는 화자의 음색을 표현한다.

B-ISDN의 서비스품질과 표준화 동향 (Quality of Service and Related Standards of B-ISBN)

  • 김정환
    • 전자통신동향분석
    • /
    • 제13권5호통권53호
    • /
    • pp.65-78
    • /
    • 1998
  • B-ISDN은 다양한 속도의 영상, 음성, 데이터 등에 의한 멀티미디어 통신서비스를 실현하기 위해, Asynchronous Transfer Mode (ATM)를 전송방식으로 채용하고 있으며, ITU--T 등 국제표준화 기구에서 표준화가 진행되고 있다. 본 고에서는 B-ISDN의 서비스품질에 대해 ATM 셀 전송품질(ATM Layer Cell Transfer Performance), 접속품질(Call Processing Performance), 안정품질(Availability Performance)로 나누어 고찰하고, 이들을 반영한 ITU--T의 서비스품질 표준화 동향에 대해 ATM Forum의 동향과 연관지어 기술하였다. 특히, ATM 셀 전송품질을 사용자가 지정한 Quality of Service (QoS) 클래스 방식과 QoS 파라미터 방식의 제공에 대해 고찰하였으며, B-ISDN을 기반으로 한 Internet Protocol (IP) 망과 세계정보통신기반 Global information Infrastructure (GII)의 품질표준화 동향에 대해서도 소개하였다.

반자율주행 맥락에서 AI 에이전트의 멀티모달 인터랙션이 운전자 경험에 미치는 효과 : 시각적 캐릭터 유무를 중심으로 (The Effect of AI Agent's Multi Modal Interaction on the Driver Experience in the Semi-autonomous Driving Context : With a Focus on the Existence of Visual Character)

  • 서민수;홍승혜;이정명
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.92-101
    • /
    • 2018
  • 대화형 AI 스피커가 보편화되면서 음성인식은 자율주행 상황에서의 중요한 차량-운전자 인터랙션 방식으로 인식되고 있다. 이 연구의 목적은 반자율주행 상황에서 음성뿐만 아니라 AI 캐릭터의 시각적 피드백을 함께 전달하는 멀티모달 인터랙션이 음성 단일 모드 인터랙션보다 사용자 경험 최적화에 효과적인지를 확인하는 것이다. 실험 참가자에게 주행 중 AI 스피커와 캐릭터를 통해 음악 선곡과 조정을 위한 인터랙션 태스크를 수행하게 하고, 정보 및 시스템 품질, 실재감, 지각된 유용성과 용이성, 그리고 지속 사용 의도를 측정하였다. 평균차이 분석 결과, 대부분의 사용자 경험 요인에서 시각적 캐릭터의 멀티모달 효과는 나타나지 않았으며, 지속사용 의도에서도 효과는 나타나지 않았다. 오히려, 정보품질 요인에서 음성 단일 모드가 멀티모달보다 효과적인 것으로 나타났다. 운전자의 인지적 노력이 필요한 반자율주행 단계에서는 멀티모달 인터랙션이 단일 모드 인터랙션에 비해 사용자 경험 최적화에 효과적이지 않았다.

연초의 적심방법이 품질구성형질에 미치는 영향 (Effect of Topping Method on the Quality Components of Flue-cured Tobacco)

  • 이종두;한종구;반유선;이정덕
    • 한국작물학회지
    • /
    • 제33권1호
    • /
    • pp.23-30
    • /
    • 1988
  • 본 시험은 연초의 생육작황에 따라서 적심시기와 정도를 두어 처리하였을 때 잎담배의 품질형질에 미치는 영향을 구명코자 수행하였던 바 다음과 같은 결과를 얻었다. 1. 책상조직 및 발달은 적심시기에 따라 발뢰기>개화시>개화만기> 만기 순으로 적심정도에 따라서는 치엽 4매> 치엽 2매> 화뢰 적심 순으로 발달되었다. 2. A급작황에서는 개화만기 B급작황에서는 개화시 치엽 2매를 적심할 때 끽미에 관련있는 전당/니코틴의 비는 9.0, 9.7로 가강 양호하였으며, 방향성 물질인 석유에텐추출물을 9.9%, 8.4%로 가장 높게 나타났다. 3. 품질에 크게 영향하는 요인은 생태조직과 건조엽중 내용성분으로 생태조직의 구성형질들이 품질에 직접 영향하는 효과를 보면 책상조직 43.2%, 해면조직 26.5%, 조직비 17.7%, 엽후 6.7%, 세포간극율 3.1 %, 엽형지수 2.8% 순이며, 내용성분 형질은 니코틴 40.6%, 전당/니코틴 35.7%, 전당 10.0%, 전질소/니코틴 7.0% 전질소 4.6%, 석유 에텔추출물 2.1% 순으로 품질에 영향을 미쳤다. 4. 양질엽 생산을 위해서는 수량이 10a당 250∼280kg 생산되는 A급작황에서는 개화만기에 치엽 2매 적심을, 200kg 내외 생산되는 B급작황에서는 개화시 치엽 2매를 붙여 적심하는 것이 가장 바람직 할 것으로 생각된다.

  • PDF

리눅스 기반 실시간 처리 VoIP 단말기 시스템의 설계 및 구현 (A Design and Implementation of the Real-Time VoIP Terminal System Based on Linux)

  • 이명근;이상정;서정민;임재용
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.345-352
    • /
    • 2001
  • 본 논문에서는 리눅스를 기반으로 실시간 음성 처리 VoIP 단말기를 설계 구현한다. 설계 구현하는 하드웨어 시스템은 i486 프로세서를 기반으로 설계되며, 음성 코덱칩을 사용하여 실시간으로 음성 데이터를 처리한다. 또한 실시간 음성 데이터를 관리하고 처리하기 위해 리눅스 기반 실시간 처리 운영 체제인 RTLinux를 포팅하여 실시간 음성처리 모듈을 구현한다. 음성처리에 사용한 음성처리 모듈은 ITU-T 표준 음성 코덱인 G.723.1 사용하여 30ms 내에 24바이트로 인코딩/디코딩된 음성 데이터를 전송하도록 하고, 음성 전달의 QoS를 보장해 주기 위해서 리눅스에 실시간 음성처리 디바이스 드라이버를 설계 구현한다. 설계 구현하는 시스템의 테스트 및 타당성 검증을 위해 음성채팅 응용 프로그램을 단말기에 구현하여 통화품질을 시험한다.

  • PDF

MIL-STD-220C를 이용한 무전기에서 효율적인 VoIP 통신을 위한 패킷 크기 산출 및 전달 방법 (A method to compute the packet size and the way to transmit for the efficient VoIP using the MIL-STD-188-220C Radio)

  • 한주희
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권4호
    • /
    • pp.161-167
    • /
    • 2008
  • 본 논문에서는 여러 대의 무전기간에 음성 및 데이터 정보를 원활하게 송수신 해 주는 전술 무선 이동 Ad-hoc 프로토콜인 MIL-STD-188-220C를 이용하여 VoIP통신을 하기 위한 패킷 크기 산출 및 전달 방법에 대해 연구하였다. 먼저 예상 데이터 전송시간을 산출한 후 사용자 입장에서의 VoIP 음성 품질과 무전기에서의 데이터 전송품질 요구수준을 동시에 고려하여 음성 패킷 길이 결정 및 패킷 전달 방법을 제시하였다. 전송 속도가 36Kbps인 무전기에서의 VoIP통신의 경우에는 90ms 재전송 패킷과 90ms 샘플링 패킷을 모아 짧은 프레임으로 전송하는 방법이 효율적이고, 36Kbps 이상의 경우에는 샘플링 패킷들을 1초 이상 모아서 전송 후 필요에 따라 재전송을 요청하는 방법을 고려할 수 있었다.

  • PDF