• 제목/요약/키워드: Masking 모델

검색결과 66건 처리시간 0.024초

MPEG 오디오 부호화기를 위한 향상된 프리 에코 컨트롤 알고리듬 (Enhanced Pre echo Control Algorithm for MPEG Audio Coders)

  • 이창준;이재성;박영철
    • 방송공학회논문지
    • /
    • 제11권2호
    • /
    • pp.191-199
    • /
    • 2006
  • 본 논문은 심리음향 모델 II(PAM II)를 기반으로 한 MPEG 오디오 코더에 대해서 효율적으로 프리 에코(pre echo)를 제어하는 알고리듬을 제안한다. 프리 에코 제어는 PAM II에서 마스킹 임계값 계산의 마지막 단계로써, 현재 프레임에 대해서 발생하는 양자화 오차를 최소화시키는 역할을 한다. 기존에 부호화기에서 프리 에코는 추정되는 마스킹 임계치가 이전 프레임에서 얻어진 값을 넘지 않도록 제한함으로써 결정된다. 기존의 방법에서 사용되는 프리 에코 제어는 단구간 블록(short block)은 물론 장구간 블록(long block)에 대해서도 사용되는데, 이는 마스킹 임계값을 불필요하게 떨어뜨려 전체적인 양자화 잡음 레벨을 높이는 문제를 발생시킨다. 본 논문에서는 이러한 문제를 해결할 수 있는 효율적인 프리 에코 제어 과정을 제안하였다. 음질 테스트 결과에서 변화가 심한 오디오 신호에 대해서 ITU R 테스트를 시행한 결과 제안된 방법이 평균적으로 0.4점 이상 개선된 결과를 보였다.

공간 음상정위를 위한 Transaural 필터 구현기법 (Implementation of Transaural filter method for sound localization)

  • 정완섭;이정훈;방승범;김순협
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.207-212
    • /
    • 1999
  • 본 논문에서는 공간에 위치한 음원으로부터 양 귀에 들리는 음향을 좌우 대칭형 스피커를 이용하여 재현하는 기술에 대한 문제점, 즉 좌우 스피커와 양 귀의 음압전달 특성에 수반되는 Cross-talk 제거와 음향학적 모델 선정에 대한 문제점들을 우선 소개한다. 이러한 문제점을 해결할 수 있는 Transaural 필터의 모델 제시와 본 모델의 음향학적 특성을 고찰한다. 본 연구에서는 인간 청각 기관의 공간 인지량적 인자인 ILB(interaural Level Difference)와 ITD(Tnteraural Time Difference)의 개념을 이용한 새로운 Cross-talk 제거 방법과 그리고 청각기관의 "Masking" 특성을 이용한 Transaural 필터의 진폭 보상 방법을 새로이 제안한다. 끝으로 제안된 기법은 음색 왜곡과 음질 저하를 최소화할 수 있는 장점 뿐 아니라 현장 음향 기사들이 직접 음향제작에 적용할 수 있는 장점 또한 제공한다.

  • PDF

인간시각특성을 이용한 블록기반 DCT 영상 부호화기의 정량적 화질 평가 (Quantitative Image Qualify Assessment for Block-based DCT Image Coder using Human Visual Characteristics)

  • 정태윤
    • 한국지능시스템학회논문지
    • /
    • 제12권5호
    • /
    • pp.424-431
    • /
    • 2002
  • 본 논문은 블록기반 DCT 부호화기의 성능 검증에 필수적인 부호화된 영상의 열화 정도를 측정하는 새로운 정량적 화질평가 모델은 제안한다. 제안된 모델은 HVS 기반의 다채널 시각 모델을 이용하여 영상신호에 있어서의 주파수 민감도와 채널의 마스킹 효과를 고려한 공간 영역상의 전반적인 왜곡의 가시도 뿐만 아니라 블록기반 DCT 부호화에서 발생할 수 있는 구획화 현상, 번짐, ringing 등의 국부적인 왜곡 특성을 측정하여 이를 화질 열화 특성에 반영하였다.

블록기반 DCT 영상 부호화기의 블록화 왜곡 블라인드 측정 (Blind Measurement of Blocking Artifacts in Block-based DCT Image Coder)

  • 정태윤;박성욱
    • 한국지능시스템학회논문지
    • /
    • 제14권1호
    • /
    • pp.39-45
    • /
    • 2004
  • 본 논문은 블록기반 DCT 부호화 영상의 화전 평가 몇 개선에 필수적인 블록화 외곡 정도를 측정하는 새로운 블라인드 측정 모델을 제안한다. 제안된 모델은 원영상을 필요로 하지 않으며 또한 인간시각 특성의 다채널 구조에 따른 주파수 민감도와 마스킹 현상을 반영하여 영상 부호화시 발생하는 블록화 외곡량을 정량적으로 검출, 측정하였으며 실험을 통해 제안된 모델의 타당성을 검증하였다.

Foveated Contrast Sensitivity를 이용한 인지품질 기반 비디오 코딩 (Perceptual Quality-based Video Coding with Foveated Contrast Sensitivity)

  • 유지우;심동규
    • 방송공학회논문지
    • /
    • 제19권4호
    • /
    • pp.468-477
    • /
    • 2014
  • 본 논문은 FCS(foveated contrast sensitivity)를 이용한 인지품질 기반 비디오 코딩 방법을 제안한다. CS(contrast sensitivity)를 이용한 기존의 인지품질 기반 비디오 코딩 방법은 공간주파수에 따라 시각적 인지능력이 달라지는 인간시각체계(HVS, human visual system)의 특징을 이용하여 비디오 압축 시 인지품질의 손상을 최소화하며, FM(foveated masking)을 이용한 방법에서는 HVS의 중심시(central vision) 와 주변시(peripheral vision)의 차를 이용한다. 본 연구에서는, 정신물리학 실험을 통하여 기존의 DCT(discrete cosine transform)기반 JND(Just-noticeable difference) 모델과 FM이 서로 의존성을 갖고 동시에 고려된 새로운 FCS 모델을 제안하였고, 이를 HM10.0 부호화기에 적용하여 인지품질기반 부호화를 수행하였다. 제안된 방법으로 부호화된 영상은 인지품질 관점에서 동일한 화질을 유지하면서 평균 10%의 비트율 감소를 보였다.

GPU 가속기를 통한 비트 연산 최적화 및 DNN 응용 (Bit Operation Optimization and DNN Application using GPU Acceleration)

  • 김상혁;이재흥
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1314-1320
    • /
    • 2019
  • 본 논문에서는 소프트웨어 환경에서 비트연산을 최적화 하고 DNN으로 응용하는 방법을 제안한다. 이를 위해 비트연산 최적화를 위한 패킹 함수와 DNN으로 응용을 위한 마스킹 행렬 곱 연산을 제안한다. 패킹 함수의 경우는 32bit의 실제 가중치값을 2bit로 변환하는 연산을 수행한다. 연산을 수행할 땐, 임계값 비교 연산을 통해 2bit 값으로 변환한다. 이 연산을 수행하면 4개의 32bit값이 1개의 8bit 메모리에 들어가게 된다. 마스킹 행렬 곱 연산의 경우 패킹된 가중치 값과 일반 입력 값을 곱하기 위한 특수한 연산으로 이루어져 있다. 그리고 각각의 연산은 GPU 가속기를 이용해 병렬로 처리되게 하였다. 그 결과 HandWritten 데이터 셋에 환경에서 32bit DNN 모델에 비해 약 16배의 메모리 절약을 볼 수 있었다. 그럼에도 정확도는 32bit 모델과 비슷한 1% 이내의 차이를 보였다.

ISDN 전화기의 음량 정격 및 송화자 에코설계 (Design of The Loudness Ratings And Talker Echo For ISDN Telephone)

  • 홍진우;강경옥;강성훈
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권2E호
    • /
    • pp.32-40
    • /
    • 1994
  • 본 논문은 디지털 망에 접속된 ISDN 전화기의 전송품질인 음량정격과 송화자 에코를 설정하는 방법을 기술한다. ISDN 전화기의 바람직한 음량정격 및 송화자 에코를 설계하기 위하여 주관평가를 위한 디지털 음성통신 모델 시스템을 개발하였고, 이 모델 시스템을 이용하여 최적의 코덱 입력레벨, 전체 음량정격의 범위, 그리고 송화자 에코 등을 결정하기 위하여 오피니언 테스트를 수행하였다. 실험결과 송화 음량정격은 6~8dB, 수화음량정격은 0~2dB, 측음마스킹정격은 8~12dB로 설정되었다. 또한, 에코프리의 전화통화를 위한 단말결합손실은 전체음량정격이 10dB 일때 적어도 40dB 이상이어야 한다는 결론을 얻었다.

  • PDF

주파수 영역 심층 신경망 기반 음성 향상을 위한 실수 네트워크와 복소 네트워크 성능 비교 평가 (Performance comparison evaluation of real and complex networks for deep neural network-based speech enhancement in the frequency domain)

  • 황서림;박성욱;박영철
    • 한국음향학회지
    • /
    • 제41권1호
    • /
    • pp.30-37
    • /
    • 2022
  • 본 논문은 주파수 영역에서 심층 신경망 기반 음성 향상 모델 학습을 위하여 학습 대상과 네트워크 구조에 따라 두 가지 관점에서 성능을 비교 평가한다. 이때, 학습 대상으로는 스펙트럼 매핑과 Time-Frequency(T-F) 마스킹 기법을 사용하였고 네트워크 구조는 실수 네트워크와 복소 네트워크를 사용하였다. 음성 향상 모델의 성능은 데이터 셋 규모에 따라 Perceptual Evaluation of Speech Quality(PESQ)와 Short-Time Objective Intelligibility(STOI) 두 가지 객관적 평가지표를 통해 평가하였다. 실험 결과, 네트워크의 종류와 데이터 셋 종류에 따라 적정한 훈련 데이터의 크기가 다르다는 것을 확인하였다. 또한, 데이터의 크기와 학습 대상에 따라 복소 네트워크보다 실수 네트워크가 비교적 높은 성능을 보이기 때문에 총 파라미터의 수를 고려한다면 경우에 따라 실수 네트워크를 사용하는 것이 보다 현실적인 해결책일 수 있다는 것을 확인하였다.

정현파 모델과 사이코어쿠스틱스 모델을 이용한 음성 분리에 관한 연구 (A Study on Speech Separation using Sinusoidal Model and Psycoacoustics Model)

  • 황선일;한두진;귄철현;신대규;박상희
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2001년도 하계학술대회 논문집 D
    • /
    • pp.2622-2624
    • /
    • 2001
  • In this thesis, speaker separation is employed when speech from two talkers has been summed into one signal and it is desirable to recover one or both of the speech signals from the composite signal. This paper proposed the method that separated the summed speeches and proved the similarity between the signals by the cross correlation between the signals for exact between original signal and separated signal. This paper uses frequency sampling method based on sinusoidal model to separate the composite signal with vocalic speech and vocalic speech and noise masking method based on psycoacoustics model to separate the composite signal with vocalic speech and nonvocalic speech.

  • PDF

YOLOv5를 이용한 개인정보 탐지 및 마스킹 알고리즘 구현 (Implementation of personal information detection and masking algorithm using YOLOv5)

  • 유수연;박유나;서지혜;오지연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.920-921
    • /
    • 2023
  • 미디어 공유 활성화에 따라 개인정보 노출의 위험성이 증가하고 있다. 본 논문에서는 YOLOv5를 통해 학습한 모델을 바탕으로 이미지에서 개인정보가 담긴 물체를 탐지하는 연구를 진행하였다. 모델로 탐지된 객체에는 광학 인식 기술(OCR)을 적용하여 객체 내의 텍스트 속 개인정보 영역을 마스킹한다. 설계된 알고리즘은 여러 분야에 활용되어 개인정보에 대한 서비스 강화를 제공해 줄 수 있을 것으로 기대된다.