• 제목/요약/키워드: 음성압축

검색결과 218건 처리시간 0.033초

음성 압축용 웨이브렛 변환 ISA 카드 구현 (An Implementation of Wavelet-based ISA Card for Audio Compression)

  • 윤상인;백승현;황희융
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2000년도 추계학술대회
    • /
    • pp.203-207
    • /
    • 2000
  • 최근 신호 처리 분야에서 많은 연구가 되고 있는 웨이브렛 변환을 적용하고, DSP(Digital Signal Processor)인 TMS320C31을 사용하여 고속 처리 가능한 하드웨어를 구현하였다. 그리고, 컴퓨터하고 일정한 통신 대역을 유지하고 다른 장치에 영향을 주지 안기 위해서 ISA 버스를 사용하였다. 여기서는 웨이브렛 변환과 푸리에 변환의 차이 및 필터뱅크에 대해서 알아보고, DSP를 이용하여 웨이브렛 변환을 시키는 하드웨어를 구현했다.

패턴의 복잡도에 따른 데이터 분석 (Data Analysis of Pattern Complexity)

  • 조재현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.403-404
    • /
    • 2023
  • 패턴의 복잡도와 정보량을 계산하는 것은 음성 및 영상 인식을 위하여 향후 더 중요한 정보를 제공하는 단계로 발전할 것으로 기대된다. 패턴의 복잡도를 표현하는 정보 엔트로피의 개념은 정보량 측정외에 데이터의 압축 복원 과정, 데이터의 복잡도 등 다양한 목적으로 활용되고 있다. 본 논문에서는 영상 패턴의 복잡도를 영상 화질의 차이를 분석함으로써 영상 인식 시 지표 가능성을 파악하고자 한다.

  • PDF

보이스 전보 시스템 구현을 위한 저가형 음성파형 부호화 알고리즘 (On a Speech Coding Algorithm for Low Cost Implementation of Voice Telegram System)

  • 나덕수;민소연;배명진
    • 한국음향학회지
    • /
    • 제19권2호
    • /
    • pp.101-105
    • /
    • 2000
  • 전보는 우리에게 아주 필요한 생활수단으로 긴급한 내용을 전달하거나, 바쁜 생활을 대신하여 애경사를 맞은 상대방에게 뜻을 전달하는 중요한 수단으로 활용되고 있다. 전보를 처리하는 과정이 첨단 정보통신의 발달로 인해 점점 편리해 지고 있는 반면 전보의 내용은 여전히 문자위주의 정보전달에서 벗어나지 못하고 있다. 보이스 전보는 사용자의 목소리를 문자와 함께 전달하는 것이다. 목소리가 함께 전달됨으로써 발신자의 정감과 분위기를 수신자에게 전달하여 보다 다양한 의미의 메시지를 알릴 수 있다. 그러나 목소리 정보는 데이터량이 많아 그대로 사용하게 되면 큰 메모리와 고가의 프로세서가 필요하게 된다. 본 논문에서는 보이스 전보 시스템에 필요한 간단하고 저가인 음성파형 부호화 알고리즘을 새로이 제안한다. 먼저 유성음 부분에서, 파형의 피치 주기별로 유사도를 측정하여 유사도가 높은 파형은 피치와 진폭 값만 저장하여 압축하고 유사도가 낮은 파형은 형태를 저장한다. 실험결과 45%로 압축할 때 MOS 4의 음질을 얻을 수 있었다.

  • PDF

IP 네트워크 기반 고품질 오디오 협업 시스템 (Implementation of a High-Quality Audio Collaboration System Over IP Networks)

  • 강진아;김홍국
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.218-223
    • /
    • 2008
  • 본 논문에서는 IP 네트워크에서 동작하는 오디오 협업 시스템의 성능을 향상시키는 방법들을 구현하고 구현된 방법들의 성능을 검증한다. IP 네트워크가 갖는 지연(jitter) 및 패킷 손실 등의 특성은 음성 및 오디오의 품질을 저하시킨다. 이러한 품질 저하를 줄이기 위해, 패킷 손실률은 패킷 크기를 줄임으로써 감소시킬 수 있다는 점에 착안하여 MPEG-2 AAC 오디오 코덱을 이용한 저전송률 오디오 전송 방법을 제안한다. 또한, 음성 전송 시 패킷손실에 따른 음성 품질을 향상시키기 위해 패킷 손실에 견고한 iLBC(Internet Low-Bitrate Codec) 음성 코덱 및 ITU-T G.711 패킷 손실 은닉 알고리즘을 오디오 협업 시스템에 적용한다. 제안한 방법들을 RAT (Robust-Audio Tool)[7]를 기반으로 구성된 오디오 협업 시스템에 구현하였다. 구현한 결과, 256 kbit/s에서 동작하는 MPEG-2 AAC 오디오 코덱은 압축하지 않고 전송된 오디오와 유사한 품질을 제공하는 것을, iLBC와 G.711 패킷 손실 은닉 알고리즘은 2~10% 패킷 손실 환경에서 음질을 개선하는 것을 확인할 수 있었다.

  • PDF

화자 의존 환경의 AMR 7.4Kbit/s모드에 기반한 보코더 (A New Vocoder based on AMR 7.4Kbit/s Mode for Speaker Dependent System)

  • 민병제;박동철
    • 한국통신학회논문지
    • /
    • 제33권9C호
    • /
    • pp.691-696
    • /
    • 2008
  • 본 논문은 AMR(Adaptive Multi Rate)코더의 7.4kit/s 모드를 기반으로 화자 의존적인 환경에서 더욱 압축률을 높인 새로운 켈프(CELP)계열의 코더를 제안한다. 제안된 코더는 OGM(OutGoing Message)이나 TTS(Text-To-Speech) 등 한 사람의 음성만을 필요로 하는 시스템에서 유용하게 사용할 수 있다. 새로운 코더의 압축률을 높이기 위해서 무감독 학습 신경망인 Centroid Neural Networks(CNN)를 이용한 새로운 LSP 코드북을 생성하여 사용한다. 또한 고정 코드북 탐색 단계에서 AMR 7.4 kbit/s 모드에서는 4개의 펄스를 서브프레임 마다 사용하는 대신에 새로운 코더에서는 오직 2개의 펄스만을 사용하기 때문에 압축률을 더 높일 수 있다. 이로 인해서 스피치의 질이 감소하게 되는데, 각 서브프레임 마다 예상하는 펄스를 적용함으로써 보상받을 수 있다. 제안된 보코더는 기존 AMR 7.4Kbps모드와 비교해 27% 높은 압축률을 가지는 동시에, MOS( Mean Opinion Score)의 면에서 볼 때, 대등한 음질을 보였다.

K-L 전개를 이용한 연속 숫자음 인식에 관한 연구 (A Study on Connected Digits Recognition Using the K-L Expansion)

  • 김주곤;오세진;황철준;김범국;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권3호
    • /
    • pp.24-31
    • /
    • 2001
  • K-L 전개 방법은 특징의 차원을 효과적으로 압축하므로 인식 처리에서 계산량을 줄일 수 있는 방법으로 잘 알려져 있다. 본 논문에서는 한국어 인식 시스템의 인식 정도를 개선하기 위해, 음성의 특징 파라미터에 대하여 효과적으로 K-L전개를 적용하는 방법(K-L 계수)을 제안한다. 그리고 제안한 방법으로 얻어진 새로운 음성 특징 파라미터를 이용하여 화자 독립 연속 숫자음 인식실험을 수행하고, 기존의 Mel-cepstrum과 회귀계수의 인식 결과와 비 교, 분석하였다. 인식 실험 결과, 제안한 K-L 계수를 이용한 방법이 기존의 방법보다 높은 인식률을 얻어 제안한 방법의 유효성을 확인할 수 있었다.

  • PDF

휴대 전화에서 소프트웨어 기반의 비디오/오디오 플레이어 (Software Based Video/Audio Player on Mobile Handset)

  • 정진환;한상범;류은석;유혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.75-78
    • /
    • 2003
  • 최근의 휴대 전화는 단순한 음성 통신 기기 역할뿐만 아니라 데이터 통신 기기로도 쓰이고 있으며, CDMA-2000 망 보급으로 인하여 데이터 통신 대역폭이 멀티미디어 데이터를 처리 할 수 있을 만큼 증대되었다. 하지만 휴대 전화는 하드웨어 성능이 음성 통신 기기로 최적화되어 있고 매우 단순화된 실시간성 운영체제로 인해 이러한 대역폭을 활용할 수 있는 소프트웨어 방식의 비디오/오디오 플레이어 개발이 매우 힘들다. 특히, CDMA 방식의 휴대 전화에 사용되는 비선점형 운영체제인 REX 에서는 선점형 운영 체제에 적합한 다중 쓰레드 구조의 멀티미디어 응용 프로그램 제작이 어렵다. 또한, 널리 사용되는 비디오/오디오 표준(MPEG-x, H.26x, 등등)은 압축 최우선의 방식으로써 계산량이 매우 크기 때문에 휴대 전화에서 하드웨어 도움 없이 소프트웨어로만 재생하기에는 적합하지 않다. 본 논문에서는 이러한 문제를 해결하기 위해 먼저 휴대 전화의 하드웨어 자원과 시스템에 적합한 비디오/오디오 코덱에 대해 간략히 알아보고 비디오/오디오 동기화를 위해 이에 적합한 시스템 디코더와 소프트웨어 플레이어 구조를 제안한다. 또한 실제 휴대 전화에 적용하여 그 성능을 측정 한다.

  • PDF

휴대 전화를 위한 웨이블릿 기반의 비디오/오디오 플레이어 (Wavelet Based Video/Audio Player for Cellular Phone)

  • 정진환;한상범;류은석;유혁;김일진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.493-495
    • /
    • 2003
  • 최근의 휴대 전화는 단순한 음성 통신 기기 역할 뿐만 아니라 데이터 통신 기기로도 쓰이고 있으며, CDMA-2000 망 보급으로 인하여 데이터 통신 대역폭이 멀티미디어 데이터를 처리 할 수 있을 만큼 증대 되었다. 하지만 휴대 전화는 하드웨어 성능이 음성 통신 기기로 최적화 되어 있고 휴대성을 높이기 위해 저전력의 저 성능 프로세서를 탑재 하였기 때문에 소프트웨어 방식의 비디오/오디오 재생이 매우 힘들다. 특히. 널리 사용되는 비디오/오디오 표준(MPEG-x, H.26x, 등등)은 압축 최우선의 방식으로써 계산량이 매우 크기 때문에 휴대 전화에서 하드웨어 도움 없이 소프트웨어로만 재생하기에는 적합하지 않다. 본 논문에서는 이러한 문제를 해결하기 위해 먼저 일반 목적의 널리 사용되는 코덱의 문제점과 휴대전화의 하드웨어 자원에 관해 알아 보고, 연산량을 효과적으로 조절할 수 있는 웨이블릿 함수를 이용하여 휴대 전화 시스템에 적합한 비디오/오디오 코덱을 제안한다. 또한 비디오 디코딩에 필요한 연산을 측정하고 실제 휴대 전화에 적용하여 그 성능을 확인 한다.

  • PDF

Finger Gesture와 Voice Recognition을 활용한 IoT 통합 제어 웹 플랫폼 (IoT Multi Control Platform by Finger Gesture and Voice Recognition)

  • 강진형;김한주;김동호
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.236-239
    • /
    • 2022
  • 증강현실로 날씨, 뉴스 요약 등이 제공되거나 AI 비서 기능을 제공하는 스마트 미러(smart mirror)가 개발되고 있다. 본 작품에서는 IoT 통합제어, 뉴스 요약 및 날씨 정보 제공 등의 서비스를 하나의 웹 플랫폼으로 구축하고 이를 손가락 제스쳐 및 음성 명령으로 제어하는 것을 제안하고 구현하였다. 본 작품에서는 음성 인식을 통해 IoT 서비스를 직관적으로 이용할 수 있게끔 설계하여 사용자의 편의성을 높였으며, 디바이스를 직접 터치하는 방식이 아닌 finger gesture로 제어하는 방식을 채택해, 디바이스 유지 보수 및 위생 문제를 해결하였다. 단순 IoT 통합 제어 기능뿐만 아니라 다양한 컨텐츠 및 기능을 제공함으로써 통합 플랫폼의 기능을 수행할 수 있도록 하였다. 뉴스 홈페이지에서 Crawling한 뉴스를 text rank 알고리즘을 이용. 자동으로 요약하는 기능과, 사용자의 IP를 기반으로 위도와 경도를 추론, 해당 지역의 일기 예보 정보를 표현해 주는 등 단순 IoT 제어 플랫폼이 아닌, 통합 플랫폼의 기능을 다하도록 설계하였다. 이처럼 다양한 정보를 압축해서 사용자가 편하게 볼 수 있도록 제공하며, 직관적인 two track 제어 방식을 채택. 사용 대상의 편의성을 증대시켜 본 프로젝트는 기존 프로젝트보다 사용자에게 더 나은 사용 경험을 제공할 것이다.

  • PDF

광대역 음성부호화기를 위한 매칭퍼슈잇 알고리즘과 CELP 방법을 이용한 고대역 부호화 방법 (Highband Coding Method Using Matching Pusuit Estimation and CELP Coding for Wideband Speech Coder)

  • 정규혁;안영욱;김종학;신재현;서상원;황인관;이인성
    • 한국음향학회지
    • /
    • 제25권1호
    • /
    • pp.21-29
    • /
    • 2006
  • 본 논문에서는 대역분활 광대역 음성부호화기와 이를 위한 고대역 부호화 방법과 구조를 제안한다. 제안하는 광대역 음성부호화기는 광대역 입력 음성신호를 저대역 신호 (OHz-4kHz)와 고대역 신호 (4kHz-8kHz)로 나눈다. 저대역 신호는 G.729 Annex E로 부호화하고, 고대역 신호는 4kbps의 전송률로 제안하는 방법으로 압축된다. 고대역 신호는 LPC 분석 후 신호특성에 따라 모드를 분류된다. stationary 모드에서는 매칭퍼슈잇 알고리즘과 CELP 방법으로 부호화하는 다단계 구조의 혼합 여기신호모델이 적용되며, nonstationary 모드에서는 CELP 방법으로 부호화된다. 제안한 광대역 음성부호화기의 성능을 주관적 방법으로 G.722 48kbps SB-ADPCM, G.722.2 12.85kbps ACELP와 비교를 하였다. 제안한 부호화기는 G.722보다 나은 성능을 보이고, G.722.2보다 나쁘지 않은 성능을 가지는 것을 확인하였다.