• Title/Summary/Keyword: 음성압축

Search Result 218, Processing Time 0.038 seconds

Perceptual Quality Improvement of KLT based Entropy-Constrained Quantizer using a SAW Filter (SAW 필터를 이용한 KLT 기반 Entropy-Constrained Quantizer 성능 향상)

  • Lim, Dong-Seok;Kim, Moo Young
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.06a
    • /
    • pp.1-2
    • /
    • 2013
  • KLT-AECQ 는 지각적인 성능 향상을 위하여 formant weighting 필터를 사용한다.Code Excited Linear Prediction(CELP) 코더는 사람의 음성신호를 압축하는 대표적인 방식이다. CELP 의 Rate-Distortion 성능을 향상 시키기 위해서 Karhunen-Loeve-Transform (KLT) 기반의 Classified Vector Quantization (KLT-CVQ) 방식이 제안되었으며, 이는 KLT 기반의 Adaptive Entropy-Constrained Quantization (KLT-AECQ) 방식으로 확장되었다. 기존의 KLT-AECQ 에서는 지각적인 성능 향상을 위하여 formant weighting 필터를 사용한다. 본 논문에서는 이 필터 대신에 Spectral Amplitude Warping (SAW) 필터를 적용함으로써, KLT-AECQ 코더의 지각적인 성능을 향상하였다.

  • PDF

Contents based digital audio retrieval using the Dynamic Time Warping Technique (Dynamic Time Warping 기법을 이용한 내용기반 디지털 오디오 검색)

  • Sung, Bo-Kyung;Ko, Il-Ju
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.287-292
    • /
    • 2007
  • 최근 다양한 분야에서(웹 포털, 유료 음원서비스 등) 디지털 오디오의 검색이 사용되고 있다. 이러한 분야에서 디지털 오디오의 검색은 디지털 오디오 데이터가 가지고 있는 자체 메타 정보를 이용하여 이루어진다. 하지만 메타 정보가 다르게 작성 되었거나 작성되지 않은 경우 정확한 검색은 어렵다. 요즘 이러한 문제의 보완 방안으로 내용기반 정보 검색 기법을 이용한 검색이 이루어지고 있다. 본 논문에서는 내용 기반 디지털 오디오 검색 방법에 대해 논하고자 한다. 내용기반으로 디지털 오디오를 검색하기 위해 음성 인식 문야에서 유사도 측정에 사용하는 Dynamic Time Warping 기법을 활용하여 디지털 오디오 간의 유사도 측정을 하였다. 제안된 유사도 측정을 통한 내용기반 디지털 오디오검색 방법의 검증을 위해 같은 장르에서 무작위 추출된 100곡에서 시행한 90번의 검색은 모두 성공했다. 검색에 사용된 90개의 디지털 오디오는 10개의 디지털 오디오를 압축방식과 비트율을 다르게 조합하여 만들었다.

  • PDF

특수환형렌즈를 사용한 DVD/CDR기록용 호환 광기술

  • 유장훈;이철우;조건호
    • Proceedings of the Optical Society of Korea Conference
    • /
    • 2000.02a
    • /
    • pp.300-301
    • /
    • 2000
  • DVD는 CD사이즈의 광디스크에 고화질기 MPEG2 디지털 압축동화를 두 시간이상 수록할 수 있는 기록 및 재생기기로써 최초의 규격서가 1996년 8월에 발행되었다. 650nm의 적색반도체레이저와 개구수 0.6의 대물렌즈를 채용한 광픽업으로 직경 12cm의 단면디스크에 CD-ROM의 약 7배인 4.7GB에서 17GB까지의 용량저장이 가능하다. 변조방식은, DC성분을 억제할 수 있고, 또한 DR(Density Ratio)이 큰 EFM-Plus 변조를 채용하고, 에러정정방식은 32kB를 하나의 블록으로 하는 Reed Solomon Product code이다. File system은, 음성, 화상데이터와 컴퓨터 데이터를 통합할 수 있도록 계층구조로 하고, ISO9669 파일시스템과 UDF파일시스템을 함께 사용하고 있다. (중략)

  • PDF

The Design and Implementation of Digital Secure Telephone with SEED Algorithm (SEED 알고리즘을 이용한 디지털 보안 전화기의 설계 및 구현)

  • 김정태;류대현;정창훈;이상진
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2003.10a
    • /
    • pp.845-848
    • /
    • 2003
  • 정보화 사회가 됨에 따라 정보의 중요성과 함께 역기능으로 인한 부작용 또한 갈수록 심각해질 수 있으며 이에 따라 정보보호 요구가 크게 늘어나고 있고 관련 정보보호제품의 수요증가가 예상되고 있다. 한편 선진각국은 OECD, APEC 등 다자간 협의를 통하여 정보 시스템의 안전과 암호정책에 관한 논의를 활발히 진행 중에 있어, 조만간 정보보호제품도 통상문제로 제기될 가능성이 다분하다. 그러나 국내 정보보호산업이 취약한 상태에 있고 정보보호의 특성상 정보보호 제품의 해외시장 의존은 바람직하지 않을 것이며 독자적인 기술력의 제품개발이 필수 불가결할 것으로 생각된다. 본 논문에서는 공중전화망(PSTN)의 전화 정보보호를 위한 디지털 보안전화기(이하 텔레가드폰)를 제안하고 이를 설계 및 구현하였다. 본 연구에서 제안한 디지털 보안전화기는 음성을 저속 압축 디지털 코드로 변환하고, 이에 국내 128 비트 블록 정보보호 알고리즘의 표준으로 정해진 SEED를 적용하여 안전한 통신이 가능하도록 하였다. 뿐만 아니라 키 복구 기능이 구현하여 개발된 시스템이 합법적 암호 접근을 허용하도록 하였다.

  • PDF

Reduction in Computational Complexity of KLT-CVQ using UTV Decomposition (UTV 분해를 이용한 KLT-CVQ 코더의 계산량 개선)

  • Ju, Hyunho;Kim, Moo Young
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.176-177
    • /
    • 2012
  • 사람의 음성을 압축하는 방법으로 Code Excited Linear Prediction (CELP) 코더가 주로 사용되어 왔다. CELP 코더의 수신단에서는 양자화 된 여기신호를 LPC 필터로 합성하여 신호를 복원한다. LPC 합성필터의 영향으로 양자화 된 여기신호의 보로노이 셀 모양이 변형되는 문제점이 있기 때문에 이런 문제점을 해결하기 위해서 Karhunen-Loeve-Transform based Classify vector Quantization (KLT-CVQ) 코더가 제안되었다. 기존 KLT-CVQ 코더는 KLT 변환과 class 선택을 위해서 Eigen Value Decomposition (EVD)을 이용해서 eigen vector와 eigen value를 계산한다. 본 논문에서는 EVD 대신에 UTV Decomposition (UTVD)을 이용하여 KLT-CVQ의 계산량 문제점을 개선하는 방법을 제안한다.

  • PDF

방송통신융합과 멀티미디어방송서비스 기술

  • 김진웅
    • Information and Communications Magazine
    • /
    • v.19 no.4
    • /
    • pp.53-61
    • /
    • 2002
  • 세계는 현재 디지털 혁명에 의한 새로운 정보통신(IT) 서비스의 홍수에 직면해있다. '언제, 어디서나, 사용자의 요구에 맞추어'라는 말은 이미 모든 서비스 기술개발 분야에서 캐치프레이즈로 자리잡은지 오래 되었다. 통신은 기존 전화를 통한 음성 서비스 위주에서 점차 데이터 통신으로 무게 중심이 이동되고 있고, 방송도 단순한 영상물 중심의 프로그램 전달이 아닌 개인별 정보 전달 및 양방향 통신에 의한 부가서비스로 그 영역을 확장해가지고 있다. 이런 변화의 중심에는 역시 '디지털' 기술에 의해 가능한 '융합(Convergence)' 화를 위한 기술개발이 그 동력을 제공하고 있으며, 프로세서 , 메모리, 디스플레이, 모뎀 등 하드웨어의 발전과 함께 오디오비쥬얼 신호 압축 및 전송, 웹 문서처리 등 소프트웨어적인 기술 개발 및 표준화 결과를 상호 유기적이고 통합적으로 각 응용 서비스 시스템에 적용함으로써 가능해지고 있다. 본 고에서 데이터 방송, 지능형 방송 및 MPEG-21 멀티미디어 프레임워크 표준을 중심으로 방송의 입장에서 본 방송통신융합의 기술개발 현황과 전망에 대해 개괄해보기로 한다.

System Architecture For Real-Time Video Service (실시간 비디오 서비스 제공을 위한 시스템 구조)

  • 석용호;이융;최양희;박현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.454-456
    • /
    • 2001
  • 차세대 인터넷에 있어 새로운 응용 서비스의 제공은 반드시 필요한 문제이다. 기존에 일반 데이터 서비스를 포함하여, 음성, 비디오 서비스를 실시간으로 제공할 필요성이 증가되고 있다. 이를 해결하기 위해서는 계층 별로, 비디오 데이터의 압축 방식, 네트워크 자원의 예약, 세션 관리, 호 혀용 제어, 패킷 스케쥴링, 버퍼 관리 등 여러 가지 기술들이 필요하다. 본 논문에서는 실시간 비디오 서비스를 효과적으로 사용자에게 제공하기 위한 시스템 구조와 요구사항, 구현 방법을 다루었다. 특히 용용 계층을 고려한 스케쥴링과 버퍼 관리 기법의 필요성을 MPEG 비디오 데이터를 사용한 실험을 통해 제시하였다. 결과적으로 응용 계층을 고려한 스케쥴링과 버퍼 관리 기법이 서비스 품질(PSNR)을 향상시킬 수 있었으며, 실시간 비디오 서비스를 지원하는데 효과적으로 이용될 수 있다는 것을 보였다.

A Multi-band Loss Function for Improving Time-Domain Autoencoder (시간 영역 오토인코더의 성능 개선을 위한 다중 대역 손실 함수)

  • Lim, Yujin;Yu, Jeongchan;Seo, Eunmi;Park, Hochong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.78-79
    • /
    • 2021
  • 본 논문에서는 시간 영역 오토인코더의 성능 개선을 위한 다중 대역 손실 함수를 제안한다. 기존의 시간 영역 오토인코더를 사용하는 압축 및 복원 모델은 저 대역 손실에 치중되어 고 대역 신호를 생성하지 못하고 다운 샘플링된 신호를 결과로 출력하는 문제점을 가진다. 이를 해결하기 위해 대역별로 손실을 분리하여 가중치를 조절할 수 있는 다중 대역 손실 함수를 제안한다. 제안하는 손실 함수가 적용된 오토인코더에 음성 신호를 입력하여 학습을 진행한 결과, 다운 샘플링이 발생하지 않으며 고 대역 신호가 복원되는 것을 스펙트로그램을 통해 확인하였다.

  • PDF

An Algorithm for Stable Video Conference System (안정적인 화상회의 시스템을 위한 알고리즘)

  • Lee Moon-Ku
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.42 no.2 s.302
    • /
    • pp.11-20
    • /
    • 2005
  • In previous video conference system, when the number of participants in video conference increases by n, the bandwidth and memory of n2 is required. And also, it brings about increase in traffic and problem of a say during a conference in aspect of transmission of voice data. In this paper, we propose an algorithm of remote video conference using silence detection algerian to resolve the questions such as buffering method of video data in server and heavy traffic detection algorithm to the increase in participants. Video data buffering algorithm is not a method of broadcasting to other client in the server, but this algorithm uses two other methods; the buffering method of receiving compressed video data from clients and the indexing method for acquiring the video data of other participants in clients according to clients' bandwidth and network transmission speed. We apply a voice transmission algerian and a channel management algorithm to the remote video conference system. The method used in the voice transmission algorithm is a silence detection algorithm which does not send silent participants' voice data to the server. The channel management algorithm is a method allocating a say to the participants who have priority. In consideration of average 20 frames and 30ms regardless of a number of participants, we can safely conclude that the transmission of video and voice data is stable.

A Study on the Improvements of the Speech Quality by using Distribution Characteristics of LSP parameters in the EVRC(Enhanced Variable Rate Codec) (LSP 파라미터의 분포특성을 이용한 EVRC의 음질개선에 관한 연구)

  • Min, So-Yeon;Na, Deok-Su
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.12 no.12
    • /
    • pp.5843-5848
    • /
    • 2011
  • To improve the efficiency of the channel spectrum and to reduce the power consumption of the system in EVRC, the voice signal is compressed and transmitted only when the user speaks to. In addition to this, voice frames are divided into three rates 1, 1/2 and 1/8 and each frame is handled differently. For example, we assumed that the input is silence region if the 1/8 rate is used. In this paper, the sections are firstly separated into the voiced speech signal region, unvoiced speech signal region, and silence region by using distribution characteristics of LSP parameters. Then the paper suggested to encode 1 rate for the voiced speech signal, 1/2 rate for the unvoiced speech signal region, 1/8 rate for the silence region. In other words, traditional way of transmission is used when sending full rate in the EVRC. However, when sending half rate, the voice is firstly distinguished between voiced and unvoiced. If the voice is distinguished as voiced, voice is converted into full rate before the transmission. If it is distinguished as silence, EVRC's basic rate is applied. In the experimental results with SNR, ASDM, transmission bit rate measurement, we have demonstrated that voice quality was improved by using the proposed algorithm.