• 제목/요약/키워드: 오디오 추출

검색결과 170건 처리시간 0.026초

폭발장면 자동 검출을 위한 저급 수준 비디오 특징의 추상화 (Abstraction Mechanism of Low-Level Video Features for Automatic Retrieval of Explosion Scenes)

  • 이상혁;낭종호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권5호
    • /
    • pp.389-401
    • /
    • 2001
  • 본 논문에서는 MPEG형식의 영화 데이터를 대상으로 폭발 장면 자동 추출을 위한 저급 수준 비디오 내용정보의 추상화 방법을 제안하고, 실제 구현을 통하여 그 유용성을 보인다. 제안한 추상화 방법은 폭발시 발생하는 불꽃의 색이 노란색 톤을 가진다는 사실과, 불꽃이 나타나는 프레임은 같은 tit에 속하는 이웃한 프레임과는 화면 구성이 달라지게 되므로 움직임 에너지 값이 커지게 된다는 사실을 바탕으로 한다. 이를 위해서 샷 단위의 인덱싱을 자동적으로 수행하고 각 샷의 첫 번째 프래임을 키 프레임으로 하다. 이를 위해서 샷 단위의 인덱싱을 자동적으로 수행하고 각 샷의 첫 번째 프레임을 키 프레임으로 선택한 후 영역별 주 색깔(Dominant Color)를 추출한다. 이때 색 공간은 양자화를 통한 512색 중 노란색 톤을 가지는 48 색 범위로 정의한다. 이후 매 샷마다 첫 번째 프레임과 이웃한 프레임의 에지 이미지(Edge Image)를 추출하여 이들의 차이로써 움직임 에너지(Motion Energy)를 얻는다. 이 두 가지 정보, 즉 노란색 톤을 가지는 색 정보와, 같은 장면 내의 다른 샷의 움직임 에너지에 비해 큰 값의 움직임 에너지를 갖는 샷을 폭발장면이 포함된 장면으로 검출한다. 실험 결과에 의하면 검색 결과는 주어진 임계값에 의존적이나, Recall과 Precision에서 80% 이상의 검출률을 보이고 있다. 그러나 일반적인 폭발 장면은 찾기에는 노란색 불꽃을 보이지 않는 예외적인 경우가 발생하여 이를 추출하는데 어려움이 있었다. 앞으로 이러한 문제점등은 기존의 오디오 정보를 이용한 폭발 장면 검출 방법과 함께 이용함으로써 해결되어질 수 있을 것이다.

  • PDF

정현파 모델링을 이용한 폴리포닉 오디오 신호의 시간축 변화 (Time-Scale Modification of Polyphonic Audio Signals Using Sinusoidal Modeling)

  • 장호근;박주성
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.77-85
    • /
    • 2001
  • 본 논문에서는 폴리포닉 음과 같은 복잡한 스펙트럼을 갖는 오디오 신호를 정현파 성분으로 모델링하고, 이를 바탕으로 고음질의 시간축 변화된 음을 얻는 방법을 제안한다. 입력 신호는 옥타브 밴드 구조의 다중 해상도 필터 뱅크를 통과하고 여기에서 나온 각 서브밴드 신호로부터 정현파 성분이 축출된다. 서브밴드 신호의 정현파 분석시 정현파 성분을 추출하는 구간의 크기를 국지적인 신호의 특성에 따라 다르게 해 주는 동적 세그멘테이션 방법을 적용한다. 이렇게 함으로써 기존 정현파 모델링에서 신호의 천이 구간에서 발생하는 퍼짐 현상을 개선하고, 시간축 변화 시에도 원래 음에 가까운 음질을 얻을 수 있다. 정현파 분석을 위한 스펙트럼 분석 도구로는 심리 음향 모델을 적용한 matching pursuit을 사용함으로써 정현파 성분의 갯수를 줄이고, matching pursuit의 반복 과정에 대한 합리적인 정지 조건을 제공할 수 있다. 정현파 성분으로 표현하기 어려운 신호의 잡음 성분은 원래 신호에서 정현파 성분으로 합성된 신호를 뺀 것으로 얻을 수 있으며, 스펙트럼 포락선 근사화 방법으로써 모델링된다. 본 논문의 알고리즘을 적용해 다양한 폴리포닉 음에 대해 실험한 결과 제안한 정현파 모델링 방법이 원래 신호의 음질을 잘 복원할 수 있고, 시간축 변화율이 큰 경우에도 신호의 천이 구간을 잘 표현할 수 있음을 확인하였다.

  • PDF

음성로고 삽입을 위한 디지털 영상 워터마킹에 관한 연구 (A Study on Digital Image Watermarking for Embedding Audio Logo)

  • 조강석;고성식
    • 대한전자공학회논문지TE
    • /
    • 제39권3호
    • /
    • pp.21-27
    • /
    • 2002
  • 디지털 워터마킹 기술은 멀티미디어 데이터에 적용하여 소유물에 대한 불법 복제나 소유자의 저작권 보호 문제를 해결할 수 있는 방법 중의 하나이다. 그렇지만 디지털 영상, 비디오, 그리고 오디오와 같은 멀티미디어 보호 문제를 해결하기 위해서는 여전히 소유권 주장 방법에 대해서 극복해야할 문제점을 가지고 있다. 본 논문에서는 저작물 소유자의 음성신호(Audio signal)를 음성로고(Audio Logo)의 워터마크로 변환하고, 원 영상 내 픽셀 농도 값의 비선형적 특성를 이용하여 음성로고를 공간 영역에서 삽입한다. 그리고 추출된 음성로고를 음성신호로 변환하여 청각적으로 소유자의 음성신호를 스피커로 출력하여 소유권을 주장하는 방법을 제안한다. 실험 결과를 통해, 본 논문에서 제시하는 알고리즘이 일반적인 영상 처리나, 특히 손실 JPEG 등과 같은 다양한 공격에 대해서 강인성을 유지시킬 수 있어 음성로고를 이용해 저작물 보호를 확인할 수 있음을 검증하였다.

분산커널 기반의 퍼지 c-평균을 이용한 음악 데이터의 장르 분류 (Classification of Music Data using Fuzzy c-Means with Divergence Kernel)

  • 박동철
    • 전자공학회논문지CI
    • /
    • 제46권3호
    • /
    • pp.1-7
    • /
    • 2009
  • 본 논문은 효율적인 음악 데이터의 분류를 위한 방법으로 분산커널 기반의 퍼지 c-평균을 이용한 분류기 모델을 제안한다. 분산 커널 기반의 퍼지 c-평균은 주어진 오디오 데이터에서 추출된 특징벡터의 평균과 공분산 정보를 동시에 이용하여 기존의 평균값만을 사용하는 방식에 비해 성능을 월등히 향상시킬 수 있는 장점이 있다. 사용된 방식은 확률적 분포로 주어지는 데이터 사이의 거리를 분산거리척도로 측정하고, 복잡한 분류 경계를 단순화 시키는데 효율적인 커널 개념을 사용함으로서 분류의 정확도를 극대화 시킬 수 있는 장점이 있다. 제안하는 분류기의 성능을 평가하기 위하여 고전음악, 컨트리음악, 힙합, 재즈의 4개의 장르 음악데이터를 총 1200개 수집하여 실험을 진행하였다. 실험의 결과 제안된 분산커널 기반의 퍼지 c-평균을 이용하는 분류기는 기존의 방식과 비교하여 분류정확도에서 평균적으로 17.73%-21.84%의 성능향상을 보여준다.

청각 장애인용 홈 모니터링 시스템을 위한 다채널 다중 스케일 신경망 기반의 사운드 이벤트 검출 (Sound event detection based on multi-channel multi-scale neural networks for home monitoring system used by the hard-of-hearing)

  • 이기용;김형국
    • 한국음향학회지
    • /
    • 제39권6호
    • /
    • pp.600-605
    • /
    • 2020
  • 본 논문에서는 청각 장애인을 위한 소리 감지 홈 모니터링을 위해 다채널 다중 스케일 신경망을 사용한 사운드 이벤트 검출 방식을 제안한다. 제안하는 시스템에서는 홈 내의 여러 무선 마이크 센서들로부터 높은 신호 품질을 갖는 두 개의 채널을 선택하고, 그 신호들로부터 도착신호 지연시간, 피치 범위, 그리고 다중 스케일 합성 곱 신경망을 로그멜 스펙트로그램에 적용하여 추출한 특징들을 양방향 게이트 순환 신경망 기반의 분류기에 적용함으로써 사운드 이벤트 검출의 성능을 더욱 향상시킨다. 검출된 사운드 이벤트 결과는 선택된 채널의 센서 위치와 함께 텍스트로 변환되어 청각 장애인에게 제공된다. 실험결과는 제안한 시스템의 사운드 이벤트 검출 방식이 기존 방식보다 우수하며 청각 장애인에게 효과적으로 사운드 정보를 전달할 수 있음을 보인다.

디지털 음원의 촉각 자극 전이를 위한 미디어 플레이어에 대한 연구 (A research on the media player transferring vibrotactile stimulation from digital sound)

  • 임영훈;이수진;정종환;하지민;황민철;박준석
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.881-886
    • /
    • 2007
  • 오감 융합 정보 시대가 도래한다. 오감 융합은 감각 정보의 전이 기술 개발로 가능하다. 본 연구는 청각 정보의 촉각 정보 전이에 대한 연구이다. WMPlayer10SDK는 마이크로소프트사의 윈도우즈 미디어 플레이어(Windows Media Player, WMP)를 전용 소프트웨어 기반으로 하는 Plug-in 개발툴이다. WMPlayer10SDK 시스템은 WMP 내에서의 비디오와 오디오의 신호 정보를 추출하는 부분을 제공한다. 이를 이용하여 촉각 디스플레이(Tactile Display)장치인 Pos Tactor를 연동하여 음성 신호에서 진동 촉각을 제시하는 시스템을 개발하였다. 음성신호는 8bit, 16bit, 24bit, 32bit로 구분되며 각각의 주파수와 음폭의 Scale을 계산하여 그 수치를 시리얼 통신을 사용하여 통신포트(COM1)에 38400bps로 전달하여 구동하게 하였다. 이를 이용하여 음악을 촉감으로 느끼는 뮤직슈트(music suit)를 개발 하였다. 그러므로 뮤직슈트의 적용된 기술은 청각적 체험을 촉각적 체험을 할 수 있는 오감 융합 기술의 기초 기술로 제공 될 수 있다.

  • PDF

웨이블릿 변환를 이용한 MPEG 디지털동영상 워터마킹에 관한 연구 (A Study on Digital Watermarking of MPEG Coded Video Using Wavelet Transform)

  • 이학찬;조철훈;송중원;남궁재찬
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.579-586
    • /
    • 2001
  • 디지털 워터마킹이란 영상이나 비디오, 오디오, 텍스트 등의 저작물에 잘 식별되지 않은 표시를 삽입하여 저작권을 보호하는 방법으로 소유권자의 동의 없이 저작물을 배포, 복사되는 것을 방지하는 방법이다. 본 논문에서는 MPEG 기반의 압축된 영상에 저작권 보호를 위한 시스템의 구현을 위하여 휘도신호에 웨이블릿을 이용한 워터마크 키의 삽입과 추출에 대하여 연구한다. 우선, 원 이미지를 이산 웨이블릿 변환을 이용하여 주파수 영역으로 분해한다. 이 때, RSA(Rivest, Shamir, Aldemen) 공개키(public key)의 암호화 대상을 VLC(variable length coding) 파라메터의 RUN으로 하였다. 이웃하는 RUN파라메터 사이의 높은 연관성은 이미지 전체에 영향을 미치기 때문에 비밀키(private key)를 소유하지 않은 비인가자의 불법적인 행위를 막을 수 있다. 실험 결과, DCT기반의 저주파 대역에 대한 직접적인 암호화 방식〔13〕보다 더 적은 키를 삽입시키면서 오히려 더 높은 왜곡과 위치가 이동된 이미지를 얻을 수 있었다.

  • PDF

CogTV를 위한 생체신호기반 시청자 선호도 모델 (A Viewer Preference Model Based on Physiological Feedback)

  • 박태서;김병희;장병탁
    • 한국지능시스템학회논문지
    • /
    • 제24권3호
    • /
    • pp.316-322
    • /
    • 2014
  • 본 논문은 TV를 이용한 영화시청 환경에서 해당 컨텐트에 대한 시청자의 암묵적 반응과 컨텐트의 멀티모달 피쳐를 실시간으로 측정 및 동기화하여 이를 기반으로 동영상 선호모델을 지속적으로 개선하고 필요시 영화추천을 수행하는 시스템을 제안한다. 제안한 시스템에선 이미지, 소리, 자막 스트림으로부터 실시간 추출되는 저수준 피쳐들과 동기화되어 측정된 얼굴표정, 자세 및 생체신호로부터 해당 동영상이 유발한 시청자의 감정상태를 추정하여 선호모델 학습에 사용한다. 제안한 컨텐트-시청자 연계 추천모델의 일례로서 컨텐트의 오디오 및 자막 정보를 이용하여 시청자의 피부전기활성도로 측정된 arousal반응을 예측할 수 있음을 보인다.

이차 보간에 따른 ENF 기반의 위변조 디지털 파일 탐지 기법 (ENF based Detection of Forgery and Falsification of Digital Files due to Quadratic Interpolation)

  • 박세진;윤지원
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.311-320
    • /
    • 2018
  • 최근 형사 및 모든 분야의 소송에서 디지털 오디오 및 비디오를 증거로써 사용하는 경우가 증가하고 있으며, 이에 디지털 포렌식 기법을 이용한 과학 수사가 발전하고 있다. 컴퓨팅 기능과 파일 편집 기술의 발달로 누구나 간단하게 비디오 파일을 조작할 수 있게 되면서 디지털 데이터를 조작하는 사례는 증가하고 있으며, 이로 인해 디지털 데이터에 대한 감정을 통해 증거의 무결성과 신뢰성을 확보하는 일이 요구되고 있다. 본 연구에서는 디지털 포렌식 기법 중 하나로 전력 공급에 대한 지리적 환경에 따른 전력망 그리드를 통해 전력망 주파수 신호(Electrical Network Frequency: ENF)를 추출하고 QIFFT를 이용해 peak 검출을 위한 신호처리 과정을 거치는 기법에 대해 제안한다. 그리고 표준편차를 이용한 탐지 알고리즘을 통해 73%의 정확도로 비디오 파일의 위변조 여부 확인 및 위변조 지점을 찾는 실험을 진행하고 이를 검증하였다.

걸음걸이 인식을 통한 연령 및 성별 분류 방법 (Method for Classification of Age and Gender Using Gait Recognition)

  • 유현우;권기연
    • 대한기계학회논문집A
    • /
    • 제41권11호
    • /
    • pp.1035-1045
    • /
    • 2017
  • 얼굴 모양 및 목소리를 이용하는 방법을 포함하여 연령 및 성별을 분류하는 다양한 방법이 연구되고 있다. 그러나 얼굴 기반 방법은 원거리에서 인식률이 급격히 감소하고, 오디오 기반 방법은 잡음이 많은 환경에서는 적용하기 어렵다. 대조적으로 보행 기반 방법은 대상자가 카메라에 촬영만 되면 인식이 가능하다. 기존 연구에서 카메라의 시점은 측면에서만 볼 수 있어서 실제 환경에서 일반 보행과는 현실적으로 차이가 발생했다. 본 연구에서는 일반 보행 데이터를 이용하여 연령과 성별을 분류할 수 있도록 RGB-D 센서로부터 획득된 골격 모델을 이용한 특징 추출 방법을 제안한다. 실험 결과는 제안된 방법이 실제 환경에서 효율적임을 보여준다.