• 제목/요약/키워드: 마스킹 임계값

검색결과 10건 처리시간 0.023초

저전송률 오디오 부호화에서 음성 신호의 성능 개선을 위한 마스킹 임계값 적응기법 향상 (Enhanced Adjustment Strategy of Masking Threshold for Speech Signals in Low Bit-Rate Audio Coding)

  • 이창헌;강홍구
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.62-68
    • /
    • 2010
  • 본 논문에서는 기존 마스킹 임계값 적응 방식을 개선하여 저전송률 오디오 부호화에서 음성 신호에 대한 성능을 향상시킨다. 포먼트 영역 검색 이후, 각 포먼트 영역의 평균 에너지와 해당 서브밴드의 에너지 비율을 이용하여 마스킹 임계값을 변화시킨다. 상대적으로 에너지가 큰 밴드에 대해서는 더 많은 양자화 노이즈가 허용되는 반면, 청각적으로 민감한 스펙트럴 밸리에서는 비트 할당을 높여 양자화 에러를 좀 더 줄인다. 이는 음성 부호화에서 널리 사용되는 지각 가중(perceptual weighting) 개념을 반영한 것이다. 객관적 음질 평가 결과, 제안한 알고리즘이 기존 방식에 비해 음성 신호에 대한 성능을 향상시킨다는 것을 확인하였다.

국부특성을 반영한 하드웨어 기반의 마스킹 방식 (Local-property aware masking method on hardware implementation)

  • 정영훈
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(상)
    • /
    • pp.220-223
    • /
    • 2003
  • 이진 출력 기기에서 연속 계조의 영상을 받아들여 이진값으로 출력하는 이진화 알고리즘 중한 예로 마스킹(masking) 방법이 있으며, 마스크 방식의 단점을 보완하였다. 동일한 마스크의 반복적인 사용으로 인하여 영상의 부분적인 특성을 잘 표현해 주지 못하는 마스크들의 단정을 보완하기 위해서 국부 적응 임계값과 테이블 방식의 적응 파라메타를 제안하였으며, 결과적으로 시각적으로 중요한 경계성분을 강조와 국부 처리시 계조 표현력이 부족한 배경영역도 충분히 표현할 수 있었다.

  • PDF

가변 임계값을 이용한 지각 필터의 적응적인 음질 개선 알고리즘 (Adaptive Enhancement Algorithm of Perceptual Filter Using Variable Threshold)

  • 차형태
    • 한국음향학회지
    • /
    • 제23권6호
    • /
    • pp.446-453
    • /
    • 2004
  • 본 논문에서는 잡음에 의해 열화된 오디오 신호를 가변 임계값을 이용한 적응 지각 필터를 사용하여 음질을 개선하는 알고리즘을 제안한다. 제안된 적응 지각 필터는 신호 구간마다 달라지는 신호의 세기와 잡음의 영향 정도를 고려하여 임계값을 가변적으로 조정함으로써 잔여 잡음을 효과적으로 제어하는 방식으로 지각적으로 개선된 음질의 신호를 얻을 수 있다 제안한 방식은 잡음에 의해 열화된 오디오 신호를 주파수 영역으로 변환한 후 임계 대역 기반의 임계 대역 에너지 (Critical intensity energy)와 마스킹 영향이 고려된 청각 자극 에너지 (Excitation energy)를 계산한 다음, 지각 필터를 기반으로 한 적응 지각 필터 알고리즘으로 각 단계별 지각 필터 응답을 임계값으로 이용하여 가변 임계값이 재조정되는 단계를 결정하게 된다. 신호의 구간별 에너지 크기에 의한 잡음에 의해 열화된 정도의 차이를 가변 임계값을 이용하여 고려함으로써 잔여 잡음의 효과적인 제어가 가능하게 된다. 제안한 방법은 다양한 신호대 잡음비에서 열화된 오디오 신호를 입력으로 사용하였다. 입력 신호대 잡음비가 15dB, 20dB, 25dB와 30dB의 각각의 경우에 대하여 잡음대 마스킹비 (Noise-to-mask ratio, NMR)와 청감 테스트 (Mean opinion score, MOS Test)를 시행하였다. 그 결과, 잡음대 마스킹비의 개선 측면에서 각각의 경우에 대해 17.4dB, 15.3dB, 12.8dB, 9.8dB의 개선을 확인할 수 있었고, 청감 테스트의 개선 측면에서는 각각 2.9, 2.5, 2.3, 1.7의 개선된 음질을 확인할 수 있었다.

MPEG 오디오 부호화기를 위한 향상된 프리 에코 컨트롤 알고리듬 (Enhanced Pre echo Control Algorithm for MPEG Audio Coders)

  • 이창준;이재성;박영철
    • 방송공학회논문지
    • /
    • 제11권2호
    • /
    • pp.191-199
    • /
    • 2006
  • 본 논문은 심리음향 모델 II(PAM II)를 기반으로 한 MPEG 오디오 코더에 대해서 효율적으로 프리 에코(pre echo)를 제어하는 알고리듬을 제안한다. 프리 에코 제어는 PAM II에서 마스킹 임계값 계산의 마지막 단계로써, 현재 프레임에 대해서 발생하는 양자화 오차를 최소화시키는 역할을 한다. 기존에 부호화기에서 프리 에코는 추정되는 마스킹 임계치가 이전 프레임에서 얻어진 값을 넘지 않도록 제한함으로써 결정된다. 기존의 방법에서 사용되는 프리 에코 제어는 단구간 블록(short block)은 물론 장구간 블록(long block)에 대해서도 사용되는데, 이는 마스킹 임계값을 불필요하게 떨어뜨려 전체적인 양자화 잡음 레벨을 높이는 문제를 발생시킨다. 본 논문에서는 이러한 문제를 해결할 수 있는 효율적인 프리 에코 제어 과정을 제안하였다. 음질 테스트 결과에서 변화가 심한 오디오 신호에 대해서 ITU R 테스트를 시행한 결과 제안된 방법이 평균적으로 0.4점 이상 개선된 결과를 보였다.

잡음환경에 강인한 음성인식을 위해 SNR과 마스킹 효과를 이용한 적응 스펙트럼 차감법 (Adaptive Spectral Subtraction Method Using SNR and Masking Effect for Robust Speech Recognition in Noisy Environments)

  • 김태준;김종훈;이경모;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.580-582
    • /
    • 2004
  • 스펙트럼 차감과정에서 발생하는 잔류 잡음을 제거하는 방법으로 파라메터를 이용하는 적응 스펙트럼 차감법이 있다. 이는 파라메터를 증가시켜 잔류 잡음을 감소시키는 방법이지만 파라메터를 과도하게 증가시킬 경우 음성 왜곡이 발생한다. 따라서, 적절한 파라메터를 추출하기 위하여 SNR이나, 마스킹 효과 등을 이용한 방법들이 제안되었으나 과도한 잡음의 제거로 인한 음성 왜곡 문제와 낮은 SNR에서 부정확한 파라메터의 추출 문제는 여전히 해결해야 할 과제로 남아있다. 본 논문은 기존의 SNR을 이용한 방법에 마스킹 효과를 적용한 수정된 적응 스펙트럼 차감법을 제안한다. 제안된 방법에서는 마스킹 임계치를 이용하여 잡음 추정값을 재 계산 항으로써 SNR을 향상시켰고, 이를 이용하여 파라메터를 추출함으로써 성능을 개선했다 성능평가 결과, 제안한 차감법을 적용한 음성신호를 고립단어 음성인식 시스템에 적용했을 때 기존의 방법 보다 인식률이 향상된 것을 확인할 수 있었다.

  • PDF

GPU 가속기를 통한 비트 연산 최적화 및 DNN 응용 (Bit Operation Optimization and DNN Application using GPU Acceleration)

  • 김상혁;이재흥
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1314-1320
    • /
    • 2019
  • 본 논문에서는 소프트웨어 환경에서 비트연산을 최적화 하고 DNN으로 응용하는 방법을 제안한다. 이를 위해 비트연산 최적화를 위한 패킹 함수와 DNN으로 응용을 위한 마스킹 행렬 곱 연산을 제안한다. 패킹 함수의 경우는 32bit의 실제 가중치값을 2bit로 변환하는 연산을 수행한다. 연산을 수행할 땐, 임계값 비교 연산을 통해 2bit 값으로 변환한다. 이 연산을 수행하면 4개의 32bit값이 1개의 8bit 메모리에 들어가게 된다. 마스킹 행렬 곱 연산의 경우 패킹된 가중치 값과 일반 입력 값을 곱하기 위한 특수한 연산으로 이루어져 있다. 그리고 각각의 연산은 GPU 가속기를 이용해 병렬로 처리되게 하였다. 그 결과 HandWritten 데이터 셋에 환경에서 32bit DNN 모델에 비해 약 16배의 메모리 절약을 볼 수 있었다. 그럼에도 정확도는 32bit 모델과 비슷한 1% 이내의 차이를 보였다.

인지 모델과 웨이블릿 패킷 변환을 이용한 잡음 제거기 설계 (Design of the Noise Suppressor Using the Perceptual Model and Wavelet Packet Transform)

  • 김미선;박서영;김영주;이인성
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.325-332
    • /
    • 2006
  • 본 논문은 인지 모델과 웨이블릿 패킷 변환을 이용하여 단일 채널에서 유색잡음 또는 비정지적 성격의 잡음을 제거하는데 목적을 두고 있다. 이러한 잡음은 부대역을 나누어 접근해야하며, 잔여잡음과 음성의 왜곡으로 인한 문제를 해결하기 위해 웨이블릿 패킷 변환 후 웨이블릿 계수 문턱값을 적절히 개선해야 한다. 본 논문에서 부대역은 웨이블릿 패킷변환 후에 스케일과 임계대역을 매칭하여 설계하였으며, 웨이블릿 계수 문턱값은 세그멘탈 신호대잡음비 (seg_SNR)와 노이즈마스킹 임계값 (Noise Masking Threshold W)을 이용하여 적응적으로 계산했다. 결과적으로 TTA 표준인 EVRC 잡음 제거기와 유사한 성능을 가졌으며, 웨이블릿 변환 후 웨이블릿 계수에 Universal 문턱값을 적용하는 것보다 PESQ-MOS 값이 0.29 높았다. 인코딩과 디코딩 후 PESQ-MOS 값은 EVRC 잡음 제거기보다 0.23 정도 우수한 성능을 가졌다.

심리 음향 기준을 이용한 새로운 음질 개선 방법 (New Speech Enhancement Method using Psychoacoustic Criteria)

  • 김대경;박장식;손경식
    • 한국멀티미디어학회논문지
    • /
    • 제4권1호
    • /
    • pp.56-66
    • /
    • 2001
  • 최근에 심리 음향 기준을 이용한 스펙트럼 차감법이 제안되었다. Virag의 알고리즘에서는 기존의 방법보다 청취자가 더 편안한 음성을 들을 수 있지만 잡음에 강인한 음성활동 검출기가 필요하다. 음성활동 검출기를 필요로 하지 않는 확장 스펙트럼 차감법에서는 신호 대 잡음비가 감소함에 따라 잔여 잡음이 더욱 잘 들리게 된다. 본 논문에서는 심리 음향 기준을 이용한 스펙트럼 차감법에 Wiener 필터를 결합한 새로운 음질 개선 방법을 제안한다. 제안한 방법에서는 Wiener 필터를 사용하여 음성 구간에 서도 잡음의 추정치가 계속 갱신되므로 음성 검출기가 필요 없고 마스킹 임계값에 따라 차감 파라미터를 조정하기 때문에 잔여 잡음이 거의 들리지 않게 된다. 제안된 방법에 대하여 시뮬레이션을 통하여 기존의 스펙트럼 차감법과 성능을 비교한 결과, 제안한 방법을 사용하여 개선된 음성이 기존의 방법에 비하여 청취하기에 더 편한 음질을 제공하였다.

  • PDF

농업용 저수지 모니터링을 위한 다해상도 SAR 영상의 활용 (Multi-resolution SAR Image-based Agricultural Reservoir Monitoring)

  • 이슬찬;정재환;오승철;정하규;최민하
    • 대한원격탐사학회지
    • /
    • 제38권5_1호
    • /
    • pp.497-510
    • /
    • 2022
  • 농업용 저수지는 수자원이 계절적으로 편중된 한반도에서 갈수기 용수 공급을 위한 필수적인 구조물이다. 효율적인 물 관리를 위해서는 중소규모 저수지에 대한 체계적이고 효과적인 모니터링이 필요하며, 합성개구 레이더(Synthetic Aperture Radar, SAR) 영상은 전천후 관측이 가능하다는 특징과 함께 연속적인 저수지 모니터링을 위한 도구가 된다. 본 연구에서는 10 m급 해상도를 갖는 Sentinel-1 SAR 영상과 1 m급 해상도의 Capella X-SAR 영상을 활용하여 울산광역시 차리, 갈전, 뒷골 저수지의 수체를 탐지하였으며, 이를 통해 국내 중소규모 저수지 모니터링에의 활용성을 평가하고자 하였다. Z fuzzy function 기반 임계값 산정을 통한 영상분할기법과 객체 탐지 기반 분할기법인 Chan-vese (CV) 기법을 통해 수체 영역을 산정하였으며, UAV 영상과의 비교를 통해 성능을 정량적으로 평가하였다. 임계값 기반 탐지 정확도는 Sentinel-1의 경우 약 0.87, 0.89, 0.77 (차리, 갈전, 뒷골), Capella의 경우 약 0.78, 0.72, 0.81로 나타났으며, CV 기법 적용 시 모든 저수지에서 정확도가 향상되는 것을 확인하였다(Sentinel-1: 0.94, 0.89, 0.84, Capella: 0.92, 0.89, 0.93). Capella는 모든 저수지/분할기법에 대해 수체와 비수체의 경계를 비교적 뚜렷하게 모의하였으나, 고해상도로 인한 speckle noise가 충분히 평활화되지 않아 오탐지 및 미탐지가 다소 발생하였다. 오탐지의 제거를 위해 광학 센서 기반 보조자료를 활용하여 마스킹한 결과, 정확도가 최대 13% 향상되는 것을 확인할 수 있었다. 본 연구 결과를 바탕으로 SAR 위성 기반 더욱 정확한 저수지 탐지가 이루어진다면 소규모 저수지를 포함, 종합적인 가용수량에 대한 연속적인 모니터링이 가능할 것이며, 효과적인 수자원 관리에 기여할 수 있을 것으로 기대된다.

HDR 영상 복원을 위해 대비와 텍스쳐 영역 정보를 고려한 혼합 톤 매핑 기법 (Hybrid Tone Mapping Technique Considering Contrast and Texture Area Information for HDR Image Restoration)

  • 강주미;박대준;정제창
    • 방송공학회논문지
    • /
    • 제22권4호
    • /
    • pp.496-508
    • /
    • 2017
  • 본 논문은 전역적 대비를 보존하는 동시에 경계 정보를 정확히 보존할 수 있는 혼합 톤 매핑 기법 (Tone Mapping Operator: TMO)을 제안한다. 우선, 넓은 동적 영역 (High Dynamic Rangae: HDR) 영상을 낮은 동적 영역 (Low Dynamic Range: LDR) 디스플레이에 적합하게 압축하기 위해 인간의 시각 시스템 (Human Visual System: HVS)에 기반한 임계 값 대 밝기 값 (Threshold vs. Intensity: TVI) 함수와 영상의 대비를 사용하였으며 이에 따라 영상의 전역적인 대비를 보존할 수 있었다. 또한, 가이디드 영상 필터링 (Guided Image Filtering: GIF)을 이용하여 검출된 경계 정보와 변화감지역 (Just Noticeable Difference: JND) 모델의 공간적 마스킹을 이용하여 검출된 경계 정보를 결합함으로써 영상의 경계를 보존하고 출력 영상의 인지적 화질을 향상시켰다. 기존에 TMO들은 크게 전역적 톤 매핑 (Global Tone Mapping: GTM)과 지역적 톤 매핑 (Local Tone Mapping: LTM)으로 분류되었다. GTM은 전역적인 대비를 보존하며 구현이 단순해 실행시간이 빠르다는 장점이 있지만 영상의 경계 정보가 손실되며 지역적 대비를 보존하지 못하는 단점이 있었다. 반면 LTM은 영상의 지역적 대비와 경계 정보를 잘 보존하였지만 경계 영역에서의 헤일로 열화 현상의 발생과 같이 일부 영역이 부자연스럽게 표현되는 경우가 발생하였으며 GTM과 비교하여 높은 계산 복잡도를 가졌다. 따라서 본 논문에서는 GTM과 LTM의 장점을 결합하여 전역적인 대비를 보존하는 동시에 영상의 경계 정보를 보존하는 TMO를 제안하였으며 실험결과를 통해 제안하는 톤 매핑 기법이 인지적 화질 측면에서 성능이 우수한 것으로 확인되었다.