• 제목/요약/키워드: 심리음향모델

검색결과 71건 처리시간 0.022초

가변 전송율 MPEG 오디오 (Variable Bitrate MPEG Audio)

  • 남승현
    • 공학논문집
    • /
    • 제2권1호
    • /
    • pp.57-62
    • /
    • 1997
  • MPEG-1에서 사용하고 있는 두가지 심리음향모델은 서로 다른 매스킹 패턴과 매스킹 인덱스 그리고 매스킹 레벨의 산출 과정을 거친다. 결과적으로 모델 1은 우수한 순음/잡음 판별로 인하여 정확한 매스킹 레벨을 산출하지만 SMR 산출에 worst case를 가정하고 오디오 신호의 동적인 상태를 무시하기 때문에 모델 2보다 저하된 성능을 보여주는 것으로 밝혀졌다. 본 연구에서는 고정 전송율로 설계된 MPEG-1 오디오를 가변 전송율로 변환하였을 때 심리음향모델 1과 2의 성능이 어떻게 나타나는지에 대해 알아보았다. 모의 실험 결과 모델 2는 1에 비해 dual channel 모드에서 평균 30kbps, joint stereo 모드에서 평균 20 kbps 정도 이득을 제공하는 것으로 나타났다. 일반적으로 joint stereo 모드는 dual channel 모드에 비해 많은 이득을 제공하는 것으로 알려져 있는데, 이러한 현상은 attack이 많은 오디오 신호의 경우 모델 1에서 더 심하게 나타남을 알 수 있다. 이는 모델 1이 pre-echo를 줄이기위해 각 채널에서 과도하게 SMR을 산출하기 때문이다.

  • PDF

MPEG 심리음향 모델-ll 알고리듬의 ASIC 구현을 위한 고정 소수점 연산 최적화 (Fixed-point Processing Optimization of MPEG Psychoacoustic Model-II Algorithm for ASIC Implementation)

  • 이근섭;박영철;윤대희
    • 한국통신학회논문지
    • /
    • 제29권11C호
    • /
    • pp.1491-1497
    • /
    • 2004
  • 구현하기 위하여 고정 소수점 연산기에 적합하도록 최적화를 수행하였다. 최적화 과정은 크게 부호화기의 음질을 고려하여 프로세서의 데이터 워드 길이를 결정하는 과정과 자주 사용되는 초월 함수를 고정 소수점 연산을 통해 구현하는 것으로 구성된다. 데이터 워드 길이를 결정하기 위하여 심리음향 모델 과정의 고정 소수점 연산 오차와 이 오차가 비트 할당 과정에 영향을 미칠 확률 사이의 관계를 통계적 모델로 정의하였다. 여기서 정의된 모델을 사용하여 고정 소수점 연산 오차에 의한 영향이 1% 이내가 되도록 24비트의 데이터 워드를 선택하였다. 최적화된 고정 소수점 심리음향 모델을 사용한 MP3 부호화기의 음질은 부동 소수점 부호화기에 비해 W-R의 음질평가 점수를 기준으로 평균 -0.2 이내의 구분하기 힘든 수준의 음질 저하를 보였다

청취실험에 의한 에코확산 오디오 워터마킹방법의 최적화에 관한 검토 (A Study of Optimum Time-Spread Echo Audio Watermarking via Listening Test)

  • 고병섭
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.545-546
    • /
    • 2004
  • 서브밴드 분리에 의한 에코확산 오디오 워터마킹법은 호스트 신호를 특정 주파수 대역으로 분리하고, MPEG 심리음향 모델을 이용하여 각 대역별로 삽입되는 워터마크의 파워를 파라미터 설정 함수에 의하여 설정한다. 여기서, 본 방법의 강인성과 비지각성을 좌우하는 것은 파라미터 설정 함수가 된다. 따라서, 본 연구에서는 최대의 강인성과 최소의 음질 열화를 구현하기 위하여 청취실험을 실시하여 최적의 파라미터 설정 함수 설정방법에 대한 검토를 수행하였다.

  • PDF

머리전달함수를 이용한 영상 음원법에서 음장 제어 요소 결정 (Selecting Sound-Field Control Factors in the Image Model Method Using Head-Related Transfer Function)

  • 임정빈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제5권
    • /
    • pp.56-59
    • /
    • 1998
  • 머리전달함수(Head-Related Transfer Function, HRTF)를 이용한 영상 음원법(Image Model Method, IMM)을 적용하여 3차원 음장을 제어하기 위한 요소결정 방법을 제안한다. 제어 요소들은 직방체 내부에서의 음 에너지에 관한 이론을 토대로 결정하였다. 각 제어요소를 3차원 음장 모델에 적용하고, 헤드폰을 사용하여 청취자에 의한 심리음향 실험한 결과, 제어된 음장에서는 음상의 두외 정위, 거리감, 공간감이 실내에서와 같이 자연스럽게 형성됨을 나타냈다.

  • PDF

잡음에 열화된 오디오 신호의 분석을 통한 효율적인 적응지각필터 반복 수행 계수의 예측 (Prediction of Efficient Adaptive Perceptual Filter Iterate Coefficient through Analysis of Noisy Signal)

  • 류일현;차형태;구교식;서보국
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.238-241
    • /
    • 2005
  • 디지털 미디어 기술의 발전은 코딩 분야를 비롯하여 다양하게 발전하고 있다. 특히 오디오 신호 처리 분야에서는 디지털 오디오 신호의 생성, 압축, 복원의 단계가 다양한 형태로 개발되고 있다. 오디오 신호 처리에서 인간의 청각 기관을 모델링한 심리음향 기법은 이용하여 압축뿐만 아니라 잡음 신호의 개선에서도 효과적으로 이용되고 있다. 이러한 심리음향모델을 기반으로 하여 구성된 적응지각필터는 지각필터를 이용하여 적응적으로 잡음에 열화된 신호를 개선한다. 이때, 적응지각필터 반복 수행 계수의 효과적인 결절은 오디오 신호의 청각적 손실을 줄이는 동시에 정확한 잡음 제거를 수행한다. 성능을 확인하기 위해서 SNR 및 NMR 비교를 수행하였다.

  • PDF

심리음향모델에 근거한 음성개선 (Speech Enhancement Based on Psychoacoustic Model)

  • 이진걸
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.337-338
    • /
    • 2000
  • The perceptual filter for speech enhancement was analytically derived where the frequency content of the input noisy signal was made the same as that of the estimated clean signal in auditory domain. However, the analytical derivation should rely on the deconvolution associated with the spreading function in the psychoacoustic model, which results in an ill-conditioned problem. In order to cope with the problem associated with the deconvolution, we propose a novel psychoacoustic model based speech enhancement filter whose principle is the same as the perceptual filter, however the filter is derived by a constrained optimization which provides solutions to the ill-conditioned problem.

  • PDF

지상파 DTV와 지상파 DMB 방송을 위한 오디오 트랜스코딩 알고리듬 (Audio Transcoding Algorithm for Terrestrial DTV and Terrestrial DMB Systems)

  • 방경호;이재성;이창준;박영철;서정일
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.161-164
    • /
    • 2004
  • 본 논문에서는 지상파 DTV 의 저작물을 지상파 DMB 방송에 활용할 수 있는 오디오 트랜스코딩 기법에 대해 제안한다. 지상파 DTV 에서는 오디오 신호를 AC-3 방식으로 압축하는 반면, 지상파 DMB 에서는 MPEG-4 BSAC 방식을 사용한다. 각 알고리듬이 사용하는 주파수 변환 방식과 심리음향모델에 의한 비트할당 기법이라는 유사성을 이용하면, 두 방식간의 트랜스코딩 효율을 향상시킬 수 있다 실시간 변환을 요구하는 경우나 휴대기기를 위한 응용분야에서는 지연시간과 전력소모를 줄일 수 있는 잇점을 갖는다.

  • PDF

효율적인 PN 시퀀스 삽입을 통한 오디오 워터마킹 (Audio Watermarking Using An Effective PN Sequence Embedding Method)

  • 변영배;박창목;김종원;최종욱
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.331-334
    • /
    • 2002
  • 의사잡음 시퀀스를 이용한 대역확산 기반의 오디오 워터마킹은 들리지 않으면서도 강인한 워터마크를 만들기 위해 심리음향모델이나 고정필터를 사용하여 의사잡음 시퀀스를 변형시킨다. 그런데, 이러한 방법을 이용하여 스펙트럼 변형된 의사잡음은 고주파 영역에 대부분의 에너지를 갖게 되므로 인위적으로 오디오 신호의 고주파 영역을 잘라내는 공격에 취약하다는 단점이 있다. 본 논문에서는 이러한 단점을 보안하고 강인성 및 잡음의 최소화를 위하여 중간값의 성질을 이용하여 의사잡음을 변형 후 삽입하는 워터마킹 시스템을 제안한다. 중간값 성질을 이용하여 변형한 의사잡음은 원 오디오 신호와의 상관성이 높으며 전주파수 대역에 고르게 분포하는 성질이 있으므로 고주파 영역의 공격에 강인하다. 제안 방법은 의사잡음의 고유성질을 최대로 살린 방법으로 각종 오디오 부호화, 부가잡음, 다운/업 샘플링, 채널변경, 진폭 공격과 같은 다양한 공격에도 워터마크 신호의 검출이 가능하다.

  • PDF

잡음 환경에서 심리음향모델 기반 음성 에너지 최대화를 이용한 음성 검출 방법 (Voice Activity Detection Method Using Psycho-Acoustic Model Based on Speech Energy Maximization in Noisy Environments)

  • 최갑근;김순협
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.447-453
    • /
    • 2009
  • 이 논문은 음성 에너지를 최대화 하여 낮은 SNR환경에서 음성 존재 여부를 판단하고 정확한 끝점을 검출하는 방법에 대한 것이다. 전통적인 VAD (Voice Activity Detection) 알고리듬은 잡음의 추정치를 이용해 음성과 비음성 구간을 선택하여 낮은 SNR환경이나 비안정 잡음환경에서는 정확하지 못한 문턱값으로 인해 부정확한 끝점검출을 하였다. 또한 잡음의 시간적 변화를 반영하기 위해 비교적 큰 분석 구간을 두어 계산량이 증가함에 따라 실제 응용에 적합하지 않은 단점이 있다. 이 논문은 잡음환경에서 정확한 음성 구간의 검출을 위해 심리음향 모델에 기반 한 바크 스케일 필터 뱅크를 이용하여 주어진 프레임에서 음성 에너지를 최대화 시키고 잡음을 억제하는 SEM-VAD (Speech Energy Maximization-Voice Activity Detection) 방법을 제안하였다. 다양한 잡음환경, SNR 15 dB, 10 dB 5 dB 0 dB 상황에서 실험한 결과 SNR의 변화에 안정적인 문턱값을 얻었고, 음성 검출을 위한 실험에서 자동차 잡음 환경에 대한 PHR (Pause Hit Rate)은 모든 잡음 환경에서 100%의 정확도를 보였고, FAR (False Alarm Rate)는 SNR 15 dB와 10 dB에서는 0%, SNR 5 dB에서 5.6% SNR 0 dB에서 9.5%의 성능을 보였다.

대역확산과 심리음향 모델을 이용한 고음질 오디오 워터마킹 (High Quality Audio Watermarking using Spread Spectrum and Psychoacoustic Model)

  • 노진수;이강현
    • 전자공학회논문지CI
    • /
    • 제43권5호
    • /
    • pp.48-56
    • /
    • 2006
  • 본 논문에서는 심리음향 모델과 MDCT/IMDCT(Modified DCT/Inverse Modified DCT)를 이용하여 고음질 오디오 워터마킹 알고리즘을 제안하였다. 일반적으로 디지털 오디오 워터마크는 디지털 오디오 신호를 주파수 영역으로 변환 한 다음 주파수 영역에 워터마크를 삽입하지만 삽입된 워터마크에 의해 디지털 오디오 음질이 영향을 받게 된다. 제안된 알고리즘에서는 디지털 오디오 데이터를 PN(Pseudo Noise) 코드를 사용하여 확산시킨 다음 심리음향 모델을 참조하여 MDCT 과정을 통하여 오디오 워터마크를 삽입시킨다. MDCT 과정에서 고음질의 오디오를 얻기 위해 필터뱅크 출력의 첨예도에 따라 256, 1,024 또는 2,048 포인트의 윈도우가 선택되어진다. 본 논문에서 워터마크 계수 ${\alpha}$가 2.5 이하일 때, 워터마크의 검출률이 SDMI(Secure Digital Music Initiative)의 제안 조건을 50% 이상 상회 하며, SNR은 4종류의 공격(압축, 절단, FFT, 에코)에 대해 $50{\sim}68dB$ 값을 가짐을 확인하였다.