• 제목/요약/키워드: 음성 코딩

검색결과 126건 처리시간 0.024초

디지틀 이동통신용 RPE-LTP 음성부호화기

  • 김선영;김진업;정종태;김영식
    • 전자통신동향분석
    • /
    • 제5권4호
    • /
    • pp.42-59
    • /
    • 1990
  • 세계적인 추세에 근거하여, 디지틀 이동 통신용 음성 부호화 방식 표준안 선정을 위해 평가 대상 방식으로 DSBC(Dynamic bit allocation SubBand Coding), RPE-LTP(Regular Pulse Excited Long Term Prediction),CELP(Code Excited Linear Prediction) 등을 선정한 바 있다.본 논문에서는 이들 방식중 13 kbps RPE-LTP의 실현 및 성능평가에 관하여 다루었다. 먼저 음질에 중요한 영향을 미치는 분석/합성부호화에 근거한 파라미터 양자화 방법 그리고 채널 코딩과의 연계를 위한 비트 중요도 해석 등을 언급하였다. 끝으로 시뮬레이션 결과를 나타내었다.

ATM 멀티플렉서에서 우선순위 제어에 의한 음성전송효율 및 버퍼관리에 관한 연구 (A Study on the Voice Traffic Efficiency and Buffer Management by Priority Control in ATM Multiplexer)

  • 이동수;최창수;강준길
    • 한국통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.354-363
    • /
    • 1994
  • 본 논문은 광대역 ISDN에서 음성 서비스를 효율적으로 제공하는 방법에 관한 연구이다. 음성은 그 특성상 유음구간과 북음구간으로 나누어지며, 음성활성검출에 의하여 실제로 말을 하는 동안만 전송이 이루어질 수 있도록 음성 트래픽을 발생한다. 본 논문에서는 ATM통신망에서 음성을 음성활성검출과 삽입(Embedded) ADPCM으로 코딩하고, 멀티플렉서에서 셀 폐기를 통하여 트래픽을 제어하는 알고리즘에 관하여 연구하였다. 트래픽 제어는 버퍼에 임계값을 주어, 버퍼의 상태가 임계값을 초과하는 경우에 낮은 우선순위를 갖는 음성 셀을 폐기하는 셀 폐기 알고리즘을 사용하였다. 셀 손실 확률, 큐 크기, 평균지연등을 성능분석 파라메터로 설정하고, 트래픽 제어 알고리즘의 성능을 평가하기 위하여 컴퓨터 시뮬레이션하였다. 이를 통하여 센 폐기방식에 의한 트래픽 제어가 음성의 질을 많이 저하시키지 않으면서도 트래픽 제어를 하지 않을 때에 비하여 전송 대역 이득을 향상시킨다는 것을 확인하였다.

  • PDF

멀티미디어 트랜스코딩 기술 동향 (Trends of Multimedia Transcoding Technol o gies)

  • 정유현;정해원
    • 전자통신동향분석
    • /
    • 제19권6호통권90호
    • /
    • pp.83-92
    • /
    • 2004
  • 정보통신 기술은 음성, 데이터, 영상, 멀티미디어 등 모든 형태의 정보를 디지털화가 가능하도록 발전하였고, 이를 기반으로 다양한 멀티미디어 서비스가 각종의 네트워크 및 단말기를 통하여 사용자에게 제공되고 있다. 그러나 현재에는 네트워크 및 단말기 특성에 맞추어 개별적인 콘텐츠를 각각 구축하여 제공하고 있기 때문에 시스템 구축 및 관리상에 부하가 많은 실정이다. 특히 컴퓨터, 통신, 방송 등 모든 정보통신 분야가 하나의 네트워크에 연결되는 광대역통합망 기반의 네트워크 사회로 빠르게 진화되는 상황에서 단일 콘텐츠로 네트워크 및 단말기 특성에 제역을 받지 않고 다양한 멀티미디어 서비스(multi-use)를 제공할 수 있는 멀티미디어 트랜스코딩 기술은 매우 중요하다. 본 고에서는 누구나 언제 어디서나 원하는 멀티미디어 서비스를 네트워크 및 단말기에 제약을 받지 않고 끊김없이 편리하게 이용할 수 있도록하기 위한 멀티미디어 트랜스코딩 기술 동향에 관하여 기술하고자 한다.

음성통신을 위한 잡음처리 기술

  • 신종원;장준혁;김남수
    • 정보와 통신
    • /
    • 제24권4호
    • /
    • pp.27-35
    • /
    • 2007
  • 음성 통신을 할 때 배경 잡음이 존재하게 되면 일반적으로 음질이 저하된다. 이것은 잡음 자체가 듣기 싫다거나 음성을 더 작게 들리게 만들기 때문이기도 하고 음성 코덱이 잡음이 섞이지 않은 깨끗한 음성에 최적화되어 있어서 잡음이 섞인 음성에 대한 코딩 효율이 떨어지기 때문이기도 하다. 이 논문에서는 잡음에 의한 음성 통신의 품질 저하를 막기 위한 방법으로서 음성 향상(speech enhancement) 기술과 음성 강화(speech reinforcement) 기술에 대해 소개한다. 음성 향상 기술이란 전송부의 마이크에서 녹음된 잡음과 음성이 섞인 입력 음성으로부터 깨끗한 음성을 추정하는 기술을 말한다. 음성 향상 기술은 상당히 오랜 기간 동안 연구되어 온 기술이며, 최근에는 각 파라미터의 분포에 의존하는 방법보다 확률 모델에 기반한 방법이 각광을 받고 있으며 인간의 청각 특성을 고려한 음성 향상 방법도 제안되고 있다. 음성 강화 기술이란 수신단에서 주변 잡음에 따라 전송되어 온 음성을 주파수별로 증폭하여 더 잘 들리도록 만드는 기술이다. 음성 향상이 내 주위의 잡음이 상대방에게 들리는 음성에 미치는 영향 혹은 상대방 주변의 잡음이 나에게 들리는 소리에 미치는 영향을 줄여주는 기술이라면 음성 강화는 내 주위의 잡음이 나에게 들리는 음성에 미치는 영향을 상쇄해 주는 기술이다. 이 경우 주변 잡음은 어떤 전자 시스템도 거치지 않고 귀로 직접 들어오기 때문에 잡음 자체를 줄여 주는 것은 힘들고 전송되어 온 음성을 적절히 증폭 혹은 변형함으로써 귀에 들리는 음질 또는 명료성을 개선하게 된다. 이 논문에서는 통계 모델을 기반으로 한 음성 향상 기법과 인간의 청각 특성을 고려한 음성 향상 기법, 그리고 음성 강화 기법에 대해 설명한다.을 시도한 결과 안정적이고 반복 가능한 급성 심부전 모델을 얻을 수 있었다. bench scale실험결과와 같이 AOC는 배수관망에서의 박테리아 증식과 크게 상관관계를 갖고 있는 것으로 밝혀졌다.)', 'have a headache (2.10±0.79)', 'poor memory (2.09±0.83)', 'no appetite (1.99±0.85)', As for the correlation between iron parameter and clinical symptoms related to anemia, the hematocrit rate was negatively correlated with 'get a cold easily', 'pale face', 'feeling blue', 'difficult digestion' (p<0.05). The level of iron was negatively correlated with 'tired out easily', 'get a cold easily' (p<0.05) and TS (%) were negatively correlated with 'tired out easily (p<0.05)', 'get a cold easily (p<0.01). Our study resulted that the prevalence of a iron deficiency of a middle school girl is very high, therefore the guidelines for iron supplementation and nutritional education to improve their iron status should be provided.한 질소제거를 N-balance로부터

음성감정인식 성능 향상을 위한 트랜스포머 기반 전이학습 및 다중작업학습 (Transformer-based transfer learning and multi-task learning for improving the performance of speech emotion recognition)

  • 박순찬;김형순
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.515-522
    • /
    • 2021
  • 음성감정인식을 위한 훈련 데이터는 감정 레이블링의 어려움으로 인해 충분히 확보하기 어렵다. 본 논문에서는 음성감정인식의 성능 개선을 위해 트랜스포머 기반 모델에 대규모 음성인식용 훈련 데이터를 통한 전이학습을 적용한다. 또한 음성인식과의 다중작업학습을 통해 별도의 디코딩 없이 문맥 정보를 활용하는 방법을 제안한다. IEMOCAP 데이터 셋을 이용한 음성감정인식 실험을 통해, 가중정확도 70.6 % 및 비가중정확도 71.6 %를 달성하여, 제안된 방법이 음성감정인식 성능 향상에 효과가 있음을 보여준다.

오류가 발생한 멀티바이트 인코딩 데이터의 인코딩 기법 판별 알고리즘 개선 (Improvement of Encoding Detection Algorithm for Multi-byte Encoded Data with Errors)

  • 배준우;김선범;박희진
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.18-25
    • /
    • 2017
  • 인코딩(encoding)은 컴퓨터에서 사용되는 음성, 영상 및 텍스트 문자를 부호화하는 방법을 가리킨다. 그러므로 특정 데이터를 열람하기 위해서는 해당 인코딩 정보를 알아야하며, 데이터마다 인코딩을 판별해주는 알고리즘들이 존재한다. 하지만 실제 음원이나 문서를 송수신하는 과정에서 패킷 손실이 발생할 수 있으며, 특히 무선 통신망에서 패킷 스니핑으로 정보를 가로챌 경우 손실률은 더욱 증가되어 인코딩 기법 판별에 어려움이 발생한다. 본 논문에서는 이러한 오류가 발생한 데이터의 인코딩 기법 판별율을 향상시키기 위해 기존의 문자 인코딩 기법 판별 프로그램인 'uchardet'에 Bit-shift 알고리즘을 적용하여 성능 향상을 이루었다. 알고리즘의 성능 평가를 위해 임의의 한글 및 일본어 텍스트 파일에 손실률(loss rate)을 적용하여 부분적으로 데이터가 소실된 인코딩 파일을 생성하여 결과를 비교하였다. 그 결과, 패킷이 손실된 데이터에서 Bit-shift 알고리즘을 적용한 'uchardet-bitshift' 경우 기존의 알고리즘보다 더 나은 성능을 보였다. 한국어 인코딩의 경우 기존의 uchardet는 0.005% 손실률까지 100%의 정확도를 보이고 1%보다 높은 손실률에서는 인코딩을 전혀 판별해 내지 못한데 비해, Bit-shift 알고리즘을 적용할 경우 0.05%의 손실률에도 100%의 정확도를 보였으며 그보다 큰 손실률에서도 해당 인코딩을 판별해냈다. 또한 한자어를 많이 포함하는 일본어의 경우 손실률이 높아질수록 중국어 인코딩으로 잘못 판별하는 경향을 보였다. 시뮬레이션 분석 결과, Bit shift 알고리즘을 추가하여 기존 인코딩 기법 판별 알고리즘의 개선이 가능하였다.

견실 순차 특이치분해를 이용한 음원추정 (Voice Source Estimation Using Robust Sequential SVD)

  • 홍성훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.75-79
    • /
    • 1993
  • 본 논문에서는 변화가 심한 음원파형을 추정하는 새로운 순차처리 알고리듬을 제안한다. 먼저, 1) 기존의 순차처리 분석법중 대표적인 분석법인 RLS(recursive least square)의 문제점들을 검토하고, 2) 이를 개선하기 위해서 관측행렬(observation matrix)을 최적차수의 SVD(reduced-rank singular value decomposition)로 재구성하고, 3) 이에 견실개념(robustness concept)을 적용해서 최적의 성도변수(vocal tract parameter)를 찾아내고 역필터를 적용해서 음원(voice source)을 효과적으로 구분해낸다. 본 논문에서 제안된 방법으로 음원을 추정할 경우, 변화가 심한 음원파형을 잘 추정할 수 있으며, 음원의 특성을 구분해낸 성도 파라미터도 효과적으로 추정할 수 있다. 본 연구내용은 음성합성에서 자연성 개선 및 개인성 구현을 위해서 필수적이며, 다양한 형태의 음성을 표현하기 위해 사용되어질 수 있다. 또한, 음성코딩, 화자인식, 음성인식에서도 사용되어질 수 있다.

  • PDF

입술형태 특성을 이용한 음성코딩 (Voice Coding Using Mouth Shape Features)

  • 장종환
    • 공학논문집
    • /
    • 제1권1호
    • /
    • pp.65-70
    • /
    • 1997
  • 음성을 전송하는데에 있어서 여러 가지 제약이 있는 경우에 더 좋은 방법으로 말하는 사람의 입을 관찰하여 입모양이 나타내는 특징 값들을 이용해 음성을 알아내고 이미 저장된 Database에서 특징 값에 해당하는 코드를 상대방에 전송하는 것이다. 실제 음성을 전송하지 않기 때문에 신호에 대한 잡음이나 보안문제를 해결할 수 있다.

  • PDF

멀티미디어 트랙픽의 QoS 지원을 위한 CDMA 무선데이터링크 프로토콜 설계 및 성능분석 (Design and Performance Analysis of CDMA Radio Link Protocols for QoS Control of Multimedia Traffic)

  • 조정호;이형옥;한승완
    • 한국통신학회논문지
    • /
    • 제25권4A호
    • /
    • pp.451-463
    • /
    • 2000
  • 본 논문에서는 CDMA ATM 이동망에서 음성, 비디오 고속 데이터 등의 멀티미디어 서비스를 제공하기 위한 QoS 보장형의 데이터링크 프로토콜을 설계하고 그 성능을 분석하였다. 이동 멀티미디어 트래픽을 지원하기 위해 요구되는 QoS 파라메터 및 특성을 분석하고, CDMA 무선망과 ATM망간의 접속을 위한 무선접속 프로토콜의 스택구조 및 계층별 기능을 제시한 후, QoS를 지원하기 위한 무선 데이터링크 프로토콜을 설계한다. 음성과 데이터 트래픽을 동시에 지원하는 시스템을 가정하여 데이터링크 프로토콜을 분석한다. 데이터 트랙픽의 경우 SREJ ARQ방식과 Type-1 Hybrid ARQ방식을 지연 및 처라량 관점에서 비교 분석하고, 음성 트래픽의 경우 BCH 코딩을 사용하여 데이터 트래픽 부하변화에 따른 음성 패킷으 에러율을 분석하다. 분석 결과로서 구현상의 복잡도는 높아질 수 있으나 QoS를 만족시키는 적응적 ARQ와 에러율 요구를 만족시키는 적응적 FEC 코딩을 이용하는 방식이 효율적임을 알 수 있다.

  • PDF

PTM 모델을 사용한 HMM 음성인식기에서 효율적인 디코딩을 위한 가우시안 선택기법 (Gaussian Selection in HMM Speech Recognizer with PTM Model for Efficient Decoding)

  • 손종목;정성윤;배건성
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.75-81
    • /
    • 2004
  • 가우시안 선택기법은 연속 확률분포를 갖는 HMM음성인식기에서 인식성능을 저하시키지 않으면서 관측확률을 구할 때 계산되는 가우시안의 수를 줄여 효율적인 디코딩을 하기 위해 많이 이용되는 방법이다. 본 논문에서는 PTM 구조를 갖는 HMM에서 관측확률을 계산하는데 필요한 가우시안 함수의 부분집합을 구하는 새로운 가우시안 선택기법을 제안한다. PTM 모델에서는 음성신호의 음향특성에 따라 구분되는 클래스별 가중치와 공통적인 가우시안 집합을 이용하여 각 상태를 나타내는데, 제안한 방법에서는 PTM 구조가 갖는 이러한 특성을 이용하여 인식성능의 저하없이 관측확률 계산에 소요되는 적은 수의 가우시안 부분집합을 구한다. 실험결과 기존의 가우시안 선택기법이 가우시안 선택기법을 적용하지 않았을 경우에 비해 20∼30% 계산량을 필요로 하는데, 제안한 기법은 16.41%의 가우시안 함수 계산만으로도 별다른 인식성능 저하없이 인식 과정을 수행할 수 있었다.