• 제목/요약/키워드: 음성코덱

검색결과 119건 처리시간 0.031초

TMS320C32 DSP를 이용한 실시간 화자종속 음성인식 하드웨어 모듈(VR32) 구현 (Real-Time Implementation of Speaker Dependent Speech Recognition Hardware Module Using the TMS320C32 DSP : VR32)

  • 정익주;정훈
    • 한국음향학회지
    • /
    • 제17권4호
    • /
    • pp.14-22
    • /
    • 1998
  • 본 연구에서는 Texas Instruments 사의 저가형 부동소수점 디지털 신호 처리기 (Digital Singnal Processor, DSP)인 TMS320C32를 이용하여 실시간 화자종속 음성인식 하 드웨어 모듈(VR32)을 개발하였다. 하드웨어 모듈의 구성은 40MHz의 TMS320C32 DSP, 14bit 코덱인 TLC32044(또는 8bit μ-law PCM 코덱), EPROM과 SRAM 등의 메모리와 호 스트 인터페이스를 위한 로직 회로로 이루어졌다. 뿐만 아니라 이 하드웨어 모듈을 PC사에 서 평가해보기 위한 PC 인터페이스용 보드 및 소프트웨어도 개발하였다. 음성인식 알고리 즘의 구성은 에너지와 ZCR을 기반으로 한 끝점검출(Endpoint Detection) 침 10차 가중 LPC 켑스터럼(Weighted LPC Cepstrum) 분석이 실시간으로 이루어지며 이후 Dynamic Time Warping(DTW)를 통하여 최고 유사 단어를 결정하고 다시 검증과정을 거쳐 최종 인식을 수행한다. 끝점검출의 경우 적응 문턱값(Adaptive threshold)을 이용하여 잡음에 강인한 끝 점검출이 가능하며 DTW 알고리즘의 경우 C 및 어셈블리를 이용한 최적화를 통하여 계산 속도를 대폭 개선하였다. 현재 인식률은 일반 사무실 환경에서 통상 단축다이얼 용도로 사 용할 수 있는 30 단어에 대하여 95% 이상으로 매우 높은 편이며, 특히 배경음악이나 자동 차 소음과 같은 잡음환경에서도 잘 동작한다.

  • PDF

SMV코덱의 음성/음악 분류 성능 향상을 위한 Support Vector Machine의 적용 (Analysis and Implementation of Speech/Music Classification for 3GPP2 SMV Codec Based on Support Vector Machine)

  • 김상균;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제45권6호
    • /
    • pp.142-147
    • /
    • 2008
  • 본 논문에서는 support vector machine (SVM)을 이용하여 기존의 3GPP2 selectable mode vocoder (SMV)코덱의 음성/음악 분류 성능을 향상시키는 방법을 제시한다. SVM은 통계적 학습 이론으로 훈련 데이터 사이의 최적 분류 초평면을 찾아내 최적화된 이진 분류를 보여준다. SMV의 음성/음악 실시간 분류 알고리즘에서 사용된 특징벡터와 분류방법을 분석하고, 이를 기반으로 분류성능향상을 위해 통계적 학습 이론인 SVM을 도입한다. 구체적으로, SMV의 음성/음악 분류알고리즘에서 사용되어진 특징벡터만을 선택적으로 사용하여 효과적으로 SVM을 구성한 분류기법을 제시한다. SMV의 음성/음악 분류에 적용한 SVM의 성능 평가를 위해 SMV 원래의 분류알고리즘과 비교하였으며, 다양한 음악장르에 대해 시스템의 성능을 평가한 결과 SVM을 이용하였을 때 기존의 SMV의 방법보다 우수한 음성/음악 분류 성능을 보였다.

가스안전 상담용 H.263 코덱을 이용한 영상채팅시스템 구현 (Implementation of Video chatting System for the Consultation of Gas Safety using H.263 CODEC)

  • 정애정;박규태;한상인;권정락
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.503-504
    • /
    • 2008
  • 최근 정보통신 기술들이 빠르게 발전하고 있다. 다양한 통신 기술들 중에서도 업무의 효율을 높이고자 회사 및 가정, 학교 등에서 자주 사용되고 있는 영상채팅시스템을 구현해보고자 한다. 쿼타임 코덱 중 가장 보편적인 코덱으로 인코딩이 쉽고 저사양의 CPU만으로도 실시간 스트리밍이 가능한 H.263 코덱을 사용하여 영상채팅시스템을 Visual C++로 구현을 하였다. 전송로의 지연을 줄이기 위하여 영상, 음성, 텍스트 등을 압축하고 복원하는 데 걸리는 시간을 최소화기 위하여 데이터의 전송대역폭을 적절히 조절하는 알고리듬을 제안하여 전송지연을 최소화하였다. 또한 P2P 방식을 사용하여 다양한 영상 환경에 대하여 영상 및 텍스트 데이터의 안정성과 화질이 우수함을 보였으며, 실시간 가스안전관리 상담에 이용하여 업무의 효율을 높이고자 한다.

  • PDF

음성/음악 분류 향상을 위한 2차 조건 사후 최대 확률기법 기반 SVM (Improving SVM with Second-Order Conditional MAP for Speech/Music Classification)

  • 임정수;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제48권5호
    • /
    • pp.102-108
    • /
    • 2011
  • Support vector machine (SVM)은 패턴인식 분야에 많이 사용되어지고 있고 그 한 예로서 3GPP2 selectable mode vocoder(SMV)와 같은 규격화된 코덱에 쓰여 코덱의 음성/음악 분류 성능을 향상시킬 수 있다. 본 논문에서는 SVM을 개선시켜 음성/음악의 분류성능을 더욱 향상시키는 새로운 방법을 제안한다. 음성/음악신호의 각 프레임들은 서로 강한 상관관계를 가지고 있는데, 이를 바탕으로 2차 조건 사후 최대 확률기법을 SVM에 적용하여 음성/음악 분류성능을 향상시킨다. 또한 SVM을 학습시킬 때 적용되는 기존의 기법들과는 달리 제안되는 기법은 SVM이 패턴분류를 행할 때 사용된다. 그렇기 때문에 기존의 기법들과 독립적으로 개발되고 사용될 수 있고, 따라서 패턴분류의 성능을 한층 더 향상시킬 수 있다. 실험을 통해 제안된 기법의 독립성과 성능향상을 기존의 기법들과 비교하여 증명하였다.

블루투스 네트워크 환경에서의 효율적인 음성전송 시스템 구현 (Implementation of an Efficient Voice Transmission System in Bluetooth Network Rnvironments)

  • 김명종;박지훈;김홍국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2008년도 동계학술대회
    • /
    • pp.125-128
    • /
    • 2008
  • IPTV의 상용화에 맞추어 사용자와 TV간의 정보 교환에 의한 대화형 서비스들이 제공되고 있으며, 특히 음성인식 기술은 이러한 서비스를 실현하기 위한 중요한 기술 중의 하나로 대두되고 있다. TV에서의 음성인식 수행을 위해서는 가정환경과 같은 제한된 공간에서 효율적으로 사용자의 음성을 TV에 전송할 수 있는 근거리 무선통신 수단이 필요하게 된다. 특히, 리모트 컨트롤러와 같은 저전력 시스템 환경에서 구현이 가능해야 한다. 따라서 이러한 제한된 조건에서 최적의 성능을 갖는 음성 전송 시스템 개발이 요구되고 있다. 본 논문에서는 블루투스 환경 하에서 음성인식을 위해 필요한 음성전송 시스템을 실시간 구현한다. 효율적인 음성전송을 위해 G.711을 기본 코덱으로 사용하며, 음성전송 시 발생하는 패킷손실에 따른 음성 품질 저하를 줄이기 위해 G.711 패킷손실 은닉 알고리즘을 음성전송 시스템에 적용한다. 특히 G.711 패킷 손실 은닉 알고리즘 수행을 위해 블루투스 프로토콜 스택application layer에 RTP 프로토콜을 적용하여 패킷 손실 여부를 확인하고, 패킷 손실 발생 시 패킷손실 은닉 알고리즘을 통해 음성의 품질 저하를 줄인다. 구현된 시스템의 성능을 평가한 결과, G.711 패킷 손실 알고리즘을 적용하여 2~10%의 패킷손실 환경에서 14.7%의 음질개선을 얻을 수 있었다.

  • PDF

$OakDSPCore^{\circledR}$를 이용한 EVRC 음성코덱의 실시간 구현 (Real-time implementation of the EVRC Codec using $OakDSPCore^{\circledR}$)

  • 김승훈;이동원;김상윤;강상원
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.169-172
    • /
    • 1999
  • 본 논문에서는 EVRC 음성 부호화 시스템을 $OakDSPCore^{\circledR}$를 기반으로 설계된 C&S Technology사의 CSD17C00 칩을 이용하여 전 과정을 어셈블리어로 실시간 구현하였다. 구현된 EVRC 음성 부호화기는 최대의 계산량을 요구하는 8kbps일때 잡음제거 알고리즘을 제외한 인코더부분이 평균 22.5MIPS 이며, 디코더부분은 약 3.35MIPS의 복잡도를 나타낸다. 사용된 메모리양은 프로그램 ROM 10.8K words 데이터 ROM(table) 6.72K words 및 RAM 2.94K words이다. 구현된 EVRC 음성 부호화기는 북미 표준화 기구인 TIA(Telecommunications Industry Association)에서 제공하는 19 개의 test 백터들을 모두 통과하였다.

  • PDF

Frequency Scaling을 통한 LSP 파라미터 Fitting에 관한 연구 (A Study on the Fitting of LSP(Line Spectrum Pairs) Parameter using Frequency Scaling)

  • 민소연;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.801-804
    • /
    • 2001
  • LSP 파라미터는 음성코덱(codec)이나 인식기에서 음성 신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다[1]. 기존의 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 비교 평가한 알고리즘은 첫 번째, 기존의 real root 알고리즘, 두 번째는, LSP 파라미터의 분포 특성을 조사하여 이를 토대로 검객구간의 순서와 검색간격을 달리한 경우, 세 번째는 검색 시 mel scale을 사용한 알고리즘이다. 실험결과, 기존의 real root 방식에 비하여 두 가지 방식 모두가 변환시간의 40% 이상이 감소되는데 반하여 통일한 관을 찾음을 알 수가 있었고, 특히 분포특성을 이용하여 검색순서와 간격조절을 한 경우에 있어서, 기존의 방식보다 40%이상이 감소되었다.

  • PDF

$OakDSPCore{\textregistered}$를 이용한 EVRC 음성코덱의 실시간 구현 (Real-time implementation of the EVRC Codec using $OakDSPCore{\textregistered}$)

  • 이동원;김승훈;김상윤;강상원
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.751-754
    • /
    • 2000
  • 본 논문에서는 EVRC 음성 부호화 시스템을 OakDSPCore(R) 를 기반으로 설계된 C&S Technology사의 CSD17C00칩을 이용하여 전 과정을 어셈블리어로 실시간 구현하였다. 구현된 EVRC음성 부호화기는 최대의 계산량이 요구되는8kbps 전송 모드일 때, 인코더부분이 최대24.45MIPS 이며 디코더부분은 3.35MIPS의 복잡도를 나타낸다. 사용된 메모리양은 프로그램 ROM 12.2Kworsd, 데이터 ROM(table) 6.72Kwords 및 RAM2.94Kwords 이다. 구현된 EVRC음성 부호화기는 북미 표준화 기구인Telecommunications Industry Association(TIA)에서 제공하는 19개의 test 벡터들을 모두 통과하였다.

  • PDF

TMS320C54x를 이용한 EVRC 음성코덱의 실시간 구현 (Real-time implementation of the EVRC coder using TMS320C54x)

  • 조장형;김지생;김양수;서유덕;강상원
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.129-132
    • /
    • 2001
  • 본 논문에서는 EVRC 음성 부호화 시스템을 7MS320C54x를 이용하여 전 과정을 어셈블리어로 실시간 구현하였다. 구현된 EVRC 음성 부호화기는 최대의 계산량을 요구하는 8kbps 일때 잡음제거 알고리즘을 제치한 인코더부분이 평균 26.3MIPS 이며 디코더부분은 3.6MIPS의 복잡도를 나타낸다. 사용된 메모리양은 프로그램 ROM 16.9K words, 데이터 ROM(table) 7.9K words 및 RAM 5.8K words 이다. 구현된 EVRC 음성 부호화기는 북미 표준화 기구인 TIA(Telecommunications Industry Association)에서 제공하는 19 개의 테스트 백터들을 모두 통과하였다.

  • PDF

검색구간 조절에 의한 LSP 변환시간 감소에 관한 연구 (A Study on the Reduction of LSP Transformation Time by Adjustment of Search Band)

  • 민소연;배명진
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2006년도 추계학술발표논문집
    • /
    • pp.208-211
    • /
    • 2006
  • 일정한 스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형 보간이 용이하다는 장점을 갖는 LSP 파라미터는 음성코덱(codec)이나 인식기에서 음성신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 기존의 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 제안하는 알고리즘은 LSP 분포 특성에 따라 검색구간의 순서와 검색간격을 달리하며, 제1 포만트와 제2 포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 real root 방법과 제안한 방법을 비교한 결과 검색시간이 평균 48.13% 단축되었다.

  • PDF