• 제목/요약/키워드: Broadcast domain

검색결과 212건 처리시간 0.022초

공간 필터와 결합된 음성 왜곡 가중 다채널 위너 필터에서의 신호 대 잡음 비에 의한 가중치 결정 방법 (SNR-based Weight Control for the Spatially Preprocessed Speech Distortion Weighted Multi-channel Wiener Filtering)

  • 김기백
    • 방송공학회논문지
    • /
    • 제18권3호
    • /
    • pp.455-462
    • /
    • 2013
  • 본 논문에서는 여러 개의 마이크를 이용하여 잡음을 제거하는 방법인 공간 필터로 전처리된 신호를 입력으로 하는 음성 왜곡 가중 다채널 위너 필터 (Spatially Preprocessed Speech Distortion Weighted Multi-channel Wiener Filter: SP-SDW-MWF)에 대해 소개하고, 가중치를 결정하는 방법을 제안한다. SP-SDW-MWF는 마이크로폰 어레이를 이용한 잡음 제거 알고리즘으로서 마이크로폰 불일치와 같은 오차에 강인한 것으로 알려져 있다. SP-SDW-MWF는 필터 계수를 최적화할 때 음성 왜곡과 잡음 제거에 대한 기준으로 나누어 가중치를 두고 있다. 이러한 가중치를 결정하기 위해, 본 논문에서는 전력 스펙트럼 밀도 오차를 평가 척도로 사용하여 마이크로폰으로부터 입력된 음성 신호와 잡음의 전력 스펙트럼 밀도의 비 (a priori SNR)를 이용하는 방법을 제안한다. 실험결과에서 나타난 바와 같이 a priori SNR에 따라 가변적인 가중치를 사용하는 것이 고정된 값을 가중치로 사용하는 것보다 향상된 성능을 보임을 알 수 있다.

스파이크그램과 심층 신경망을 이용한 음악 장르 분류 (Music Genre Classification using Spikegram and Deep Neural Network)

  • 장우진;윤호원;신성현;조효진;장원;박호종
    • 방송공학회논문지
    • /
    • 제22권6호
    • /
    • pp.693-701
    • /
    • 2017
  • 본 논문은 스파이크그램과 심층 신경망을 이용한 새로운 음악 장르 분류 방법을 제안한다. 인간의 청각 시스템은 최소 에너지와 신경 자원을 사용하여 최대 청각 정보를 뇌로 전달하기 위하여 입력 소리를 시간과 주파수 영역에서 부호화한다. 스파이크그램은 이러한 청각 시스템의 부호화 동작을 기반으로 파형을 분석하는 기법이다. 제안하는 방법은 스파이크그램을 이용하여 신호를 분석하고 그 결과로부터 장르 분류를 위한 핵심 정보로 구성된 특성 벡터를 추출하고, 이를 심층 신경망의 입력 벡터로 사용한다. 성능 측정에는 10개의 음악 장르로 구성된 GTZAN 데이터 세트를 사용하였고, 제안 방법이 기존 방법에 비해 낮은 차원의 특성 벡터를 사용하여 우수한 성능을 제공하는 것을 확인하였다.

새로운 에지 방향 보간법을 이용한 효율적인 디인터레이싱 알고리듬 (An Efficient Deinterlacing Algorithm Using New Edge-Directed Interpolation)

  • 김민기;정제창
    • 방송공학회논문지
    • /
    • 제12권2호
    • /
    • pp.185-192
    • /
    • 2007
  • 보간법은 영상을 개선하거나 스캔율 변환 및 디인터레이싱(Deinterlacing), 리프팅 기반 웨이블릿 변환과 같은 많은 영상처리 분야에서 응용되는 기술이다. 이들 응용 사례 가운데 스캔율 변환 및 디인터레이싱은 디지털 TV 응용 분야에서 제안되었다. 본 논문에서는 새로운 에지 방향 보간법을 이용하여 효율적인 디인터레이싱 알고리듬을 제안한다. 제안된 디인터레이싱 알고리듬은 하나의 필드를 사용하는 화면내(Intra-Field) 디인터레이싱 방법이다. 가장 대표적인 ELA를 비롯하여 기존의 화면내 디인터레이싱 방법으로는 에지 성분을 비롯한 영상의 중요 정보가 상당 부분 소실되기 때문에 본 논문에서는 영상의 방향성을 고려한 보간 방법을 제안함으로써, 특히 방향성 에지와 같이 인간 시각에 민감한 성분이 많은 영상에 화질 열화를 방지하고자 한다. 다수의 동영상들에 대한 실험 결과 제안된 방법은 기존의 화면내 디인터레이싱 방법들에 비하여 주관적 화질뿐만 아니라 객관적인 성능도 우수함을 알 수 있다.

패킷 비디오 네트워크상의 실시간 무기준법 동영상 화질 평가방법 (Realtime No-Reference Quality-Assessment Over Packet Video Networks)

  • 성덕구;김요한;한정현;신지태
    • 방송공학회논문지
    • /
    • 제14권4호
    • /
    • pp.387-396
    • /
    • 2009
  • 기존의 무기준 동영상 화질 평가는 디코딩 픽셀 단에서 평가와 전송 에러를 고려한 비트스트림단에서 화질 평가 방법으로 나눌 수 있다. 기존의 방법은 추가 데이터 필요하고 복잡도와 평가 정확도등의 문제가 있어 실제적인 실시간 화질평가에 적용하기에 문제가 많다. 본 연구에서는 실시간 비디오 전송 환경에서 이용될 수 있는 간단하면서도 정확도가 높은 무기준법 화질 평가 방법을 제안한다. 본 논문에서 제안된 무기준법 화질평가 방법은 양자화 파라미터, 전송에러정보, 움직임 벡터정보를 이용한다. 제안된 방법을 검증하기 위해서, ITU-T P.910 ACR(Absolute Category Rating)을 사용하여, 기존의 전체 기준법과 주관적 화질 평가 대비의 상관도를 비교하였는데 제안방법이 85%이상의 상관도를 보여 주었다.

음성통신망에서 디지털 오디오 신호 음질개선을 위한 전처리방법 (Preprocessing method for enhancing digital audio quality in speech communication system)

  • 송근배;안철용;김재범;박호종;김석호
    • 방송공학회논문지
    • /
    • 제11권2호
    • /
    • pp.200-206
    • /
    • 2006
  • 본 논문은 음성 부호화기에서 입력 오디오 신호가 보다 효과적으로 처리되도록 하기 위해 입력오디오신호를 전 처리하는 방법을 소개한다. 이를 위해 본 논문은 잡음억제 및 적응이득제어 방법을 도입한다. 여기서 입력 오디오 신호는 잡음 부가된 신호로 간주되며 그 오디오 신호의 부호화오차신호는 부가된 잡음신호로 간주된다. 입력 오디오 신호는 기존의 잡음억제방식에 따라 잡음신호 즉, 부호화 오차신호가 억제된 뒤 적응이득제어기를 거쳐 최종적으로 음성 부호화기에 인가된다. 결과적으로 이러한 동작을 통하여 입력 오디오 신호의 주파수 스펙트럼 분포가 음성 부호화기 특성에 맞게 재배치된다 이 방법의 하나의 단점은 부호화 오차를 계산하기 위해 사전에 추가적인 부호화 동작이 필요하다는 것이다. 반면, 이 방법은 일반적인 구조를 가지고 있으며 따라서 기존의 여러 음성부호화기에 쉽게 적용될 수 있다는 장점을 가진다. 주관적인 선호도 조사결과 제안된 방법이 복잡한 음악신호로 기인한 성가신 잡음을 사전에 억제해 주며 결과적으로 음질개선을 가져다준다는 것을 확인할 수 있었다.

영상 화질 측정을 위한 픽셀 강도 영역의 새로운 광적응 효과 모델: 이론 및 적용 (A Novel Luminance Adaptation Effect Model in Pixel Intensity Domain for Image Quality Assessment: Theory and Application)

  • 배성호;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.78-80
    • /
    • 2015
  • 광적응(Luminance Adaptation; LA) 효과는 영상의 배경 밝기에 따른 왜곡에 대한 시각 인지 민감도가 달라지는 특성을 의미한다. 기존 영상 화질 측정(Image Quality Assessment; IQA) 방법들은 베버의 법칙(Weber' s law) 모델을 이용하여 LA 효과를 IQA 방법에 반영해왔다. 그러나, 이러한 IQA 방법들에 있어서 베버의 법칙 기반 LA 효과 모델은 다음 두 가지 이유로 부정확하게 동작한다: (i) 전통적인 베버의 법칙 모델은 실제 광도(luminance)에 대한 인지 민감도 응답값을 정확히 반영할 수 없다는 것이 밝혀졌다, (ii) 대부분 IQA 방법들은 픽셀 강도 영역에서 계산되지만, 베버의 법칙과 같은 LA 효과 모델들은 광도 영역에서 개발되었다. 따라서 광도와 픽셀 강도간 비선형 관계로 인해 IQA 방법에 반영된 베버의 법칙 기반 LA 효과 모델들은 부정확하게 동작한다. 이 문제를 해결하기 위해, 본 논문에서 처음으로 픽셀 강도 영역에서의 LA 모델을 이론적으로 유도한다. 본 논문에서 제안하는 픽셀 강도 영역에서의 LA 효과 모델은 감마 교정 함수(Gamma correction function)와 광도 영역에서의 LA 효과 모델인 제곱-법칙(power-law) 모델을 기반으로 하는 테일러 급수 확장 근사화를 통해 유도된다. 제안하는 픽셀 강도 영역 LA 효과 모델의 효과를 검증하기 위해, 제안하는 LA 효과 모델을 PSNR 에 도입하여 광범위한 실험을 수행한다. 실험 결과, 제안하는 LA 효과 모델 기반 PSNR 은 PSNR 및 베버의 법칙 기반 PSNR 대비 괄목할 만한 주관적 화질 예측 성능 향상을 보였다.

  • PDF

HEVC 스트림 상에서의 객체 추적 방법 (Object Tracking in HEVC Bitstreams)

  • 박동민;이동규;오승준
    • 방송공학회논문지
    • /
    • 제20권3호
    • /
    • pp.449-463
    • /
    • 2015
  • 동영상에서의 객체 추적은 보안, 색인 및 검색, 감시, 통신, 압축 등 다양한 분야에서 중요하다. 본 논문은 HEVC 비트스트림 상에서의 객체 추적 방법을 제안한다. 복호화를 수행하지 않고, 비트스트림 상에 존재하는 움직임 벡터(MV : Motion Vector)와 부호화 크기 정보를 Spatio-Temporal Markov Random Fields (ST-MRF) 모델에 적용해 객체 움직임의 공간적 및 시간적 특성을 반영한다. 변환계수를 특징점으로 활용하는 객체형태 조정 알고리즘을 적용해 ST-MRF 모델 기반 객체 추적방법에서 나타나는 과분할에 의한 오차전파 문제를 해결한다. 제안하는 방법의 추적성능은 정확도 86.4%, 재현율 79.8%, F-measure 81.1%로 기존방법 대비 평균 F-measure는 약 0.2% 향상하지만 기존방법에서 과분할 및 오차전파가 두드러지는 영상에 대해서는 최대 9% 정도의 성능향상을 보인다. 전체 수행시간은 프레임 당 평균 5.4ms이며 실시간 추적이 가능하다.

움직이는 창을 이용한 고성능 무손실 데이터 삽입 방법 (High Performance Lossless Data Embedding Using a Moving Window)

  • 강지홍;;최윤식
    • 방송공학회논문지
    • /
    • 제16권5호
    • /
    • pp.801-810
    • /
    • 2011
  • 본 논문에서는 디지털 영상을 위한 공간 영역에서의 무손실 데이터 삽입 방법을 제안한다. 제안하는 방법은 데이터 삽입 및 추출을 위해 위치 지도 등의 부가 정보를 삽입하는 대신에 단 한 개의 파라미터 만을 필요로 한다. 삽입 과정에서는 $3{\times}3$ 크기의 창이 대상 영상 위를 한 화소 단위로 움직이며 각 위치에서 한 비트의 데이터를 삽입 할 수 있다. 따라서, 이상적인 삽입 용량은 영상의 화소수와 동일하다. 또한, 추가적인 실제 삽입 용량의 증가를 위해, 삽입 대상 화소의 예측을 위한 새로운 계수를 적용하였다. 그 결과 기존의 방법에 비해 삽입 용량이 매우 큰 폭으로 증가하고, 고용량 데이터 삽입 시의 영상 화질 또한 향상되었다. 제안 방법은 컴퓨터 시뮬레이션을 통해 검증하였다.

음성 명료도 향상을 위한 학습 기반의 신호 대 잡음 비 추정을 이용한 이산 마스크 추정 방법 (Binary Mask Estimation using Training-based SNR Estimation for Improving Speech Intelligibility)

  • 김기백
    • 방송공학회논문지
    • /
    • 제17권6호
    • /
    • pp.1061-1068
    • /
    • 2012
  • 본 논문에서는 시간-주파수 영역에서의 이산 마스킹을 이용하여 잡음환경 음성의 음성 명료도를 높이는 방법에 대해 다루고자 한다. 잡음이 섞여 있는 음성신호를 시간-주파수 영역으로 분해하여, 상대적으로 잡음이 많이 섞여 있는 시간-주파수 영역의 신호를 마스크 "0"을 할당하여 제거함으로써 음성명료도를 향상시킬 수 있다. 이러한 이산 마스크를 추정하기 위해서는 각 시간-주파수 영역에서 신호 대 잡음 비를 추정하여 문턱값과 비교해야 하는데, 본 논문에서는 학습 기반의 신호 대 잡음 비 추정방법을 사용하여 문턱값과 비교하여 이산 마스크를 추정한다. 신호 대 잡음 비와 비교하기 위한 문턱값은 모든 주파수 대역에 대해 동일한 값을 이용하는 고정 문턱값 외에도 주파수 대역에 따라 학습 데이터의 분포로부터 최적의 값을 사용하는 최적 문턱값을 제안한다. 제안된 이산 마스크 추정 방법은 잡음 환경 데이터에 적용한 후, 피험자에게 들려주어 음성 명료도를 측정한다.

광혈류량 신호의 움직임 훼손 보상 기법 (A Method for Motion Artifact Compensation of PPG Signal)

  • 김한솔;이의철
    • 방송공학회논문지
    • /
    • 제18권4호
    • /
    • pp.543-549
    • /
    • 2013
  • 자율신경계 및 중추신경계 반응 신호는 취득 시 피험자의 움직임이 있는 경우 노이즈가 첨가되어 의도한 분석이 불가능하게 될 수 있다. 본 논문에서는 생리신호 취득시 피험자의 영상을 동시에 촬영 및 분석하고 움직임을 감지하여, 생리신호의 노이즈 구간을 정의하는 방법을 제안한다. 움직임 감지를 위해 시계열에서 영상 프레임간 1차 미분하고 임계치 이상 움직임이 발생했을 때를 해당 신호의 노이즈 발생 구간으로 정의하였다. 또한, 영상을 사용하지 않는 방법으로써, 수집된 신호를 주기 단위로 분석하여 길이와 높이를 특징으로 한 정상 신호를 2차원 가우시안 확률밀도함수로 모델화하여, 신호의 훼손 구간을 정의하는 방법을 제안한다. 두 방법으로 정의된 훼손 구간은 가우시안 함수를 기반으로 보간하였다. 광혈류량 신호에 적용한 결과, 심전도 신호에서 추출된 평균 심박간격에 가까운 수치로 복원됨을 확인하였다. 또한, 영상기반 방법은 정상구간을 훼손구간으로, 신호기반 방법은 훼손구간을 정상구간으로 잘못 인식하는 경우가 나타남을 확인하였다.