• 제목/요약/키워드: Speech transmission

검색결과 153건 처리시간 0.026초

Speech enabled ATSC 3.0 ESG 에 관한 연구 (A Study on the Speech Enabled ATSC 3.0 ESG)

  • 이봉호;양규태;박성익;김흥묵
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.73-76
    • /
    • 2018
  • 본 논문에서는 ATSC 3.0 기술을 적용하여 모바일 방송에 대한 서비스 가이드를 제공함에 있어서 이동 환경의 시청자에게 음성 입력을 적용하여 편리하게 안내하는 방법을 제안하고자 한다. 구체적으로는, ATSC 3.0 Service Announcement 규격에 음성 입력 및 주어진 입력에 반응하여 해당 서비스 정보로 천이하여 음성 또는 화면으로 안내하기 위한 엘리먼트를 추가로 정의하였다. 본 엘리먼트는 기존 엘리먼트에 호환성을 유지하도록 추가되어 기존 전송 방식과 동일하게 전달되어 단말에서 처리된다.

  • PDF

E-모델 기반 통화 품질 분석을 통한 VoIP Planning 및 평가 (VoIP Planning and Evaluation through the Analysis of Speech Transmission Quality Based on the E-Model)

  • 배성용;김광훈
    • 인터넷정보학회논문지
    • /
    • 제5권6호
    • /
    • pp.31-43
    • /
    • 2004
  • 인터넷의 발달은 통신 기술에 커다란 변화를 요구하고 있다. 특히 공중전화망(PSTN: Public Switched Telephone Network)은 장기적으로 인터넷으로 흡수 통합되고, 현재는 이들간의 연동이 요구되고 있는 실정이다. 이처럼 인터넷에서의 전화 서비스는 인터넷 응용 서비스 중 가장 활용 가치가 높고, 기대를 모으고 있는 서비스이다. 그러나 높은 기대와 적은 서비스 이용료에도 불구하고 인터넷 전화 서비스의 보급이 부진한 이유는 낮은 서비스 품질에 있다. 지금까지 VoIP(Voice over IP) 서비스 품질 평가를 위해 송수신되는 음성에 기반 한 다수의 통화 품질 측정 알고리즘들이 사용되어 왔지만, 이러한 알고리즘들은 음성 샘플에 따라 그 결과가 다르고, 일부 알고리즘은 음성 전송 경로의 네트워크 환경 요소를 반영하지 못하는 단점이 있다. E-모델은 이러한 알고리즘들의 문제점을 해결하기 위해 사용될 수 있다. 본 논문에서는 VoIP 단말의 통화 품질은 물론, 음성 전송 경로의 네트워크 품질 손실 요소들을 체계적으로 분석할 수 있는 E-모델의 다양한 분석을 통해 인터넷 전화 사업자나 망 운용자의 VoIP 계획(planing)에 대한 가이드라인과 통화 품질 평가 방법 및 결과를 제시하고자 한다.

  • PDF

13kbps QCELP에서 8kbps QCELP로의 음성 패킷 변환 기술 (Voice Packet Conversion from 13kbps QCELP to 8kbps QCELP Speech Codecs)

  • 박호종;권상철
    • 한국음향학회지
    • /
    • 제18권6호
    • /
    • pp.71-76
    • /
    • 1999
  • 디지털 이동 통신 시스템에서 서로 다른 음성 압축기를 사용하는 단말기 사이의 통신은 음성 신호를 두 번의 압축/복원 과정을 거쳐 전달하므로 음질 저하, 계산량 증가, 전달 지연 증가 등의 문제를 발생시킨다. 본 논문에서는 이와 같은 단말기 사이의 통신에서의 문제점을 해결하기 위하여 음성 패킷 변환 방법을 제안하고, 13kbps QCELP 패킷을 8kbps QCELP 패킷으로 변환하는 방법을 개발한다. 여러 음성 신호를 이용한 모의 실험 결과, 본 논문에서 개발된 패킷 변환기가 짧은 음성전달 지연과 약 33%의 계산량으로 일반적인 이중 압축 방법과 동등한 음질의 음성 신호를 합성하는 것을 확인하였다.

  • PDF

Complexity Reduction Algorithm of Speech Coder(EVRC) for CDMA Digital Cellular System

  • Min, So-Yeon
    • 한국멀티미디어학회논문지
    • /
    • 제10권12호
    • /
    • pp.1551-1558
    • /
    • 2007
  • The standard of evaluating function of speech coder for mobile telecommunication can be shown in channel capacity, noise immunity, encryption, complexity and encoding delay largely. This study is an algorithm to reduce complexity applying to CDMA(Code Division Multiple Access) mobile telecommunication system, which has a benefit of keeping the existing advantage of telecommunication quality and low transmission rate. This paper has an objective to reduce the computing complexity by controlling the frequency band nonuniform during the changing process of LSP(Line Spectrum Pairs) parameters from LPC(Line Predictive Coding) coefficients used for EVRC(Enhanced Variable-Rate Coder, IS-127) speech coders. Its experimental result showed that when comparing the speech coder applied by the proposed algorithm with the existing EVRC speech coder, it's decreased by 45% at average. Also, the values of LSP parameters, Synthetic speech signal and Spectrogram test result were obtained same as the existing method.

  • PDF

TMS320VC5510 DSK를 이용한 음성인식 로봇 (The Robot Speech Recognition using TMS320VC5510 DSK)

  • 최지현;정익주
    • 산업기술연구
    • /
    • 제27권A호
    • /
    • pp.211-218
    • /
    • 2007
  • As demands for interaction of humans and robots are increasing, robots are expected to be equipped with intelligibility which humans have. Especially, for natural communication, hearing capabilities are so essential that speech recognition technology for robot is getting more important. In this paper, we implement a speech recognizer suitable for robot applications. One of the major problem in robot speech recognition is poor speech quality captured when a speaker talks distant from the microphone a robot is mounted with. To cope with this problem, we used wireless transmission of commands recognized by the speech recognizer implemented using TMS320VC5510 DSK. In addition, as for implementation, since TMS320VC5510 DSP is a fixed-point device, we represent efficient realization of HMM algorithm using fixed-point arithmetic.

  • PDF

오피니언 테스트에 의한 전화 음성품질 평가 (Assessment of Telephone Speech Transmission Quality by Opinion Test)

  • 권윤주;장대영;강경옥;강성훈
    • 한국음향학회지
    • /
    • 제11권1호
    • /
    • pp.14-21
    • /
    • 1992
  • 본 연구에서는 통신망의 음성품질 기준을 설정하기 위하여, 음성품질 열화요인 중 음량정격 및 측음 마스킹 정격에 대한 일련의 주관평가를 실시하여, 음량정격과 평균 오피니언 점수 및 측음 마스킹 정격과 평균 오피니언 점수와의 상관을 구하였다. 또한 음성품질에 대한 사용자 백분율을 도출하여 사용자의 오피니언을 기본으로 하는 음성품질 기준을 제안하였다.

  • PDF

LSP 파라미터의 분포특성을 이용한 EVRC의 음질개선에 관한 연구 (A Study on the Improvements of the Speech Quality by using Distribution Characteristics of LSP parameters in the EVRC(Enhanced Variable Rate Codec))

  • 민소연;나덕수
    • 한국산학기술학회논문지
    • /
    • 제12권12호
    • /
    • pp.5843-5848
    • /
    • 2011
  • EVRC에서는 채널 스펙트럼의 효율을 높이고 시스템의 소비 전력을 줄이기 위하여, 통화시간 중에서 사용자가 말을 할 때만 음성신호를 압축하여 전달하고, 말을 하지 않을 때는 음성신호를 전달하지 않는다. 또한, EVRC에서는 음성 프레임을 1, 1/2, 1/8의 세 가지 전송률로 구분하여 다르게 처리 하고 있으며, 예를 들어, 1/8 전송률은 입력 신호가 묵음구간인 것을 의미한다. 본 연구에서는 LSP 파라미터의 분포특성을 이용한 유성음 구간, 무성음 구간, 묵음 구간을 구분하는 방법을 사용하여, 유성음인 경우에 대해 1 rate으로 부호화하고, 무성음 구간의 경우는 1/2 rate, 묵음의 경우에는 1/8 rate으로 전송하는 방법에 대하여 제안하였다. 즉, EVRC에서 full rate으로 보내는 부분에 대해서는 기존의 방식을 그대로 적용하며, half rate은 유성음, 무성음을 구분하여 유성음일 경우 full rate으로 바꾸어 전송하였고, 묵음에 대해서는 EVRC 기본 rate을 적용하였다. 실험과정에서는, SNR, ASDM, 전송률을 측정하였으며, 제안한 알고리즘을 사용하는 경우 EVRC에 비해 음성품질이 향상됨을 증명하였다.

효율적인 음성신호의 전송을 위한 4배속 가변 변환율 ADPCM기법 및 DSP를 이용한 실시간 구현 (Variable Quad Rate ADPCM for Efficient Speech Transmission and Real Time Implementation on DSP)

  • 한경호
    • 조명전기설비학회논문지
    • /
    • 제18권1호
    • /
    • pp.129-136
    • /
    • 2004
  • 본 논문에서는 ADPCM을 이용하여 보다 효율적인 음성전송을 위한 4배속 가변임계값을 갖는 음성 부호화법을 제안하였으며 TMS320C6711-DSP를 사용하여 제안된 알고리즘의 실시간 음성 처리 구현을 다루었다. 본 논문에서는 ADPCM 알고리즘을 개선하여 입력 신호 및 주변 환경에 따라 변환율을 16[kbps], 24[kbps], 32[kbps], 40[kbps]로 가변하는 음성부호화 방법을 제시하고 이를 DSP를 이용하여 Encoding과 Decoding을 실시간으로 구현하여 좋은 음질의 음성 신호를 보다 적은 비트 수로 전송하고자 하였다. 이를 위하여 영교차율(Zero Crossing Rate)을 이용하여 소음의 우세한 정도를 구분하여, 임계값을 가변 시키도록 하였으며 소음이 우세한 환경에서는 4가지 변환율 가운데 낮은 변환율을 사용하도록 하여 전송 비트 수를 줄이도록 하였으며, 소음이 열세한 환경에서는 높은 변환율을 사용하도록 하여 좋은 음질을 갖도록 하였다. 음성 대화의 많은 구간이 거의 묵음인 구간이 많으므로, 음질은 40[kbps] 수준의 음질을 유지하면서 이 보다 낮은 데이터 비트수를 유지할 수 있음을 시뮬레이션과 실험으로 보였다. 구현에 사용된 TMS320C6711-DSK board는 128[K]의 플래쉬 메모리를 가지고 있고 1333MIPS의 처리속도를 가지므로 제안된 알고리즘을 실시간 구현하기에 충분한 조건을 가지고 있다.

주거 공간에서 고령자 청력손실을 고려한 소음 및 잔향에 따른 음성 전송 성능의 주관적 평가 (Effect of noise and reverberation on subjective measure of speech transmission performance for elderly person with hearing loss in residential space)

  • 오양기;류종관;송한솔
    • 한국음향학회지
    • /
    • 제37권5호
    • /
    • pp.369-377
    • /
    • 2018
  • 본 논문은 주거공간에서 고령자 청력손실을 고려한 소음 및 잔향에 따른 음성 전송 성능을 청취실험을 통해 평가하였다. 주거환경 소음으로 바닥충격음, 교통소음, 공기전달음과 배수소음을 대상으로 하였으며, 공동주택의 잔향환경을 모사하기 위해 실내음향 컴퓨터시뮬레이션을 실시하여 충격응답를 추출하였다. 청취실험 음원은 고령자 청력손실(65세 남성)을 반영하기 위해 소음 및 단어 음원의 고주파대역의 음압레벨을 저감시킨 음원(고령자 음원)과 정상청력을 반영한 원음(청년 음원)을 대상으로 하였다. 청취실험은 각각 3개의 소음레벨($L_{Aeq}$ 30, 40, 50 dB)과 잔향시간(0.5, 1.0, 1.5 s)을 갖는 음환경 조건에서 제시된 단어($L_{Aeq}$ 55 dB)의 음성요해도(speech intelligibility)와 듣기 어려운 정도(listening difficulty)를 평가하는 것으로 하였다. 청취실험 결과, 음성레벨이 55 dB($L_{Aeq}$)일 때 잔향시간 1.0 s 이하 조건에서 충격소음(점핑음) 50 dB($L_{i,Fmax,AW}$)와 정상소음(도로, 음악, 배수 소음) 40 dB($L_{Aeq}$) 이하의 소음레벨에서는 고령자 및 청년 음원 모두 90 % 이상의 음성요해도와 30 % 이하의 듣기 어려운 정도를 확보할 수 있을 것으로 판단된다. 고령자 청력손실을 반영한 고령자 음원의 경우 청년 음원 보다 음성요해도는 0 % ~ 5 % 낮았고 듣기 어려운 정도는 2 % ~ 10 % 높은 것으로 나타났다.

장방향 복도 공간의 비상방송설비에 대한 음압 레벨과 음성 명료도 비교 (Comparison of Sound Pressure Level and Speech Intelligibility of Emergency Broadcasting System at Longitudinal Corridor)

  • 정정호;이성찬
    • 한국화재소방학회논문지
    • /
    • 제32권4호
    • /
    • pp.42-49
    • /
    • 2018
  • 본 연구에서는 건축음향시뮬레이션을 통하여 재실자에게 비상방송 설비에서 발생되는 비상 방송음이 명확하게 전달되는지를 알아보기 위하여 장방형 복도를 대상으로 NFSC 202의 기준에 따라 25 m 간격으로 비상 방송용 확성기가 설치되었을 때 건축마감재료 변경에 따라 음압레벨, 음성명료도 지표를 비교분석하였다. 마감재료로 흡음특성이 낮은 재료를 적용한 경우 충분한 음압 레벨은 확보할 수 있었지만, 재실자가 비상 방송음을 알아듣기 매우 어려운 수준의 음성명료도를 보였다. 마감재료로 흡음재료를 적용함에 따라 음성 명료도, 음성 전달 지수는 재실자가 잘 알아들을 수 있는 수준으로 개선이 가능한 것으로 나타났지만 재실자에게 전달되는 음압 레벨이 감소되며 같은 공간 내 레벨 차이가 크게 발생되는 것으로 나타났다. 따라서 흡음재료를 사용하여 음성명료도를 확보하고자 할 경우 고른 음압 레벨 분포를 확보하기 위하여 비상 방송용 확성기를 설치간격 조정 등이 필요한 것으로 나타났다.