• 제목/요약/키워드: audio spectrum

검색결과 83건 처리시간 0.026초

스테레오 시청각 기반의 화자 검출 시스템 (A Speaker Detection System based on Stereo Vision and Audio)

  • 안준호;홍광석
    • 인터넷정보학회논문지
    • /
    • 제11권6호
    • /
    • pp.21-29
    • /
    • 2010
  • 본 논문에서 다수의 사용자 중에서 현재 발성하고 있는 화자를 검출하는 스테레오 시청각 기반의 화자 검출 시스템을 제안한다. 제안한 시스템은 두 개의 마이크를 이용한 음원 위치추정, 스테레오 카메라를 이용한 영상정합 및 발화자 후보 위치 추정, 그리고 모바일 기반의 화자 검출 정보 획득으로 구성되어 있다. 스테레오 카메라로부터 획득한 화자의 영상정보를 바탕으로 Adaboost 알고리즘과 Haar-like 특징을 이용하여 발화자 후보들의 얼굴을 검출하고 이를 기반으로 삼각측량법을 이용하여 발화자 후보들의 위치를 추정한다. 그리고 2개의 마이크로부터 획득한 화자의 음성정보를 바탕으로 CPSP(Cross Power Spectrum Phase)기반의 TDOA(Time Differnce of Arrival)추정을 통해 음원의 방향을 추정한다. 최종적으로 스테레오 카메라를 통해 측정된 정보와 마이크를 통해 얻은 정보를 비교 분석하여 현재 발화자를 검출한다. 검출된 화자 정보에 대한 보다 차별화 된 서비스 제공을 위해 TCP 서버/클라이언트 구조 기반의 모바일 화자 검출 정보 획득 시스템을 구현하고 평가하였다.

1차 Ambisonics에 의해 생성되는 가상현실 오디오용 양이 사운드의 한계에 대한 분석 (Analyses on limitations of binaural sound based on the first order Ambisonics for virtual reality audio)

  • 장지호;조완호
    • 한국음향학회지
    • /
    • 제38권6호
    • /
    • pp.637-650
    • /
    • 2019
  • 이 논문은 가상현실 오디오에서 널리 사용되는 Ambisonics에 기반하여 헤드폰을 통해 재생하는 binaural sound의 한계를 분석한 것이다. 가상현실 오디오는 청자의 머리 움직임을 보상하는 binaural sound를 통해 제공된다. Ambisonics는 가상현실 오디오에서 청자를 둘러싼 배경음장을 레코딩하고 재생하는데에 널리 사용되는데, 1차 Ambisonics가 간단하다는 장점 때문에 여전히 가상현실 오디오에서 사용되고 있다. 그러나, 물리적인 관점에서 1차의 상한 주파수는 너무 낮아서 귀 위치의 신호를 완벽히 재현하지 못한다. 따라서 이렇게 재생된 binaural sound는 스펙트럼과 음원 위치 형성에서 근본적인 한계를 갖는다. 이 논문은 이러한 한계를 기준 음장과 재생 음장에서의 귀 위치의 신호 비교를 통해 알아 본다. 하나의 입사파를 기준 음장으로 정의하고, 이 것을 가상 스피커를 이용해서 Ambisonics를 통해 재생한다. 주파수 응답, 양이 레벨차, 양이 위상차가 비교된다. 비교 결과, 상한 주파수 이상에서 재생음장의 음압 레벨은 감소하고 수평면 상에서의 음원 위치는 청자의 정면 방향 근처에서만 잘 형성됨을 알 수 있었다.

2차원 바코드를 이용한 오디오 워터마킹 알고리즘 (A digital Audio Watermarking Algorithm using 2D Barcode)

  • 배경율
    • 지능정보연구
    • /
    • 제17권2호
    • /
    • pp.97-107
    • /
    • 2011
  • 본 논문에서는 2차원 바코드를 이용한 오디오 워터마킹 알고리즘을 제안하였다. 삽입되는 워터마크 정보로는 2차원 바코드인 QR 코드를 변형하여 이용하였다. 2차원 바코드가 1차원 바코드에 비하여 많은 정보를 표현할 수 있고, 코드자체가 에러 보정능력을 내재하고 있는 장점을 이용하여 워터마킹 알고리즘의 견고성을 높였다. 또한 부분적인 워터마크 정보의 손실에 대응하기 위하여 직교코드를 이용하여 삽입대역을 확산했으며, 삽입강도 0.7에서 50dB 이상의 우수한 품질을 확보할 수 있었다.

A New Tempo Feature Extraction Based on Modulation Spectrum Analysis for Music Information Retrieval Tasks

  • 김형국
    • 한국ITS학회 논문지
    • /
    • 제6권2호
    • /
    • pp.95-106
    • /
    • 2007
  • 본 논문은 음악 정보검색에 사용되는 효과적인 템포 특징 추출방식을 제안한다. 제안된 템포 정보는 협소 밴드상의 일시적인 변조 성분에 의해 형성된다. 이러한 변조 성분은 시간 축 상의 음악 신호로부터 스펙트럼을 구한 후, 각 스펙트럼 성분에 대한 주파수 영역 분석을 통해 획득된 변조 스펙트럼으로 구성된다. 실제 구현에 있어서는 MP3 음악파일로부터 부분 디코딩에 의해 출력된 변형된 이산 코사인 변환 계수에 퓨리에 변환을 취하여 변조스펙트럼을 구하였다. 획득된 변조 스펙트럼의 진폭으로부터 고속으로 추출된 음악 템포 특징값은 다양한 음악 정보 검색에 적용되었다. 음악 무드 및 장르 분류에서는 로그 변조 주파수 계수를 적용하여 분류 성능을 개선시켰으며, 적응 변조 스펙트럼에서 유도된 비트 벡터는 오디오 핑거프린팅에 적용되어 잡음환경 하에서도 검색 성능을 크게 향상시켰다.

  • PDF

심리음향 분석을 이용한 MP3 저작권 보안을 위한 적응적 워터마킹 (Adaptive Watermarking for MP3 Copyright Protections Using Psychological Acoustics)

  • 이경환
    • 한국음향학회지
    • /
    • 제32권1호
    • /
    • pp.64-70
    • /
    • 2013
  • 본 논문에서는 오디오 컨텐츠 저작권 보안을 위하여 MP3 공격에 강인한 워터마킹 방법을 제안한다. 일반적인 주파수 도메인에서의 워터마킹 방법인 Cox의 스프레드 스펙트럼 방법에서는 DCT후 값이 큰 저주파수의 계수에 순차적으로 워터마크를 삽입하였다. 임의의 주파수 계수에 삽입하는 방법은 효과적이지 못하므로, 본 논문에서는 심리음향 모델을 분석하여 MP3 공격시 손실이 적은 주파수 계수에 적응적인 함수를 적용하여 가중치를 부여한 후 계수에 워터마크를 삽입하는 방법을 제안한다. 다양한 음원에 대하여 실험한 결과, 제안한 방법은 기존의 방법들에 비해 워터마크의 보존하고 원본 음원의 왜곡을 줄이는 두 가지 측면 모두 좋은 결과를 나타내었다.

A Hardware Implementation of Ogg Vorbis Audio Decoder with Embedded Processor

  • Kosaka, Atsushi;Yamaguchi, Satoshi;Okuhata, Hiroyuki;Onoye, Takao;Shirakawa, Isao
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.94-97
    • /
    • 2002
  • A VLSI architecture of an Ogg Vorbis decoder is proposed : which is dedicated to portable audio appliances. Referring to the computational cost analysis of the decoding processes, the LSP (Line Spectrum Pair) process, which takes more than 50% of the total processing time, can be regarded as a bottleneck to achieve realtime processing by embedded Processors. Thus in our decoder a specific hardware architecture is devised for the LSP process so as to be integrated into a single chip together with an ARM7TDMI processor. In addition, in order to reduce the total hardware cost, instead of the floating point arithmetic, the fixed point arithmetic is adopted. The LSP module has been implemented with 9,740 gates by using a Virtual Silicon 0.l5$\mu\textrm{m}$ CMOS technology, which operates at 58.8MHz with the total CPU load reduced by 57%. It is also verified that the use of the fixed point arithmetic does not incur any significant sound distortion.

  • PDF

저작권 보호를 위한 주파수 영역에서의 강인한 오디오 워터마킹 (Robust Audio Watermarking in Frequency Domain for Copyright Protection)

  • 프라납 쿠마르 다르;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권2호
    • /
    • pp.109-117
    • /
    • 2010
  • 디지털 워터마킹은 불법 복제로부터 디지털 콘텐츠를 보호하기 위해 광범위하게 주목을 받아왔다. 본 논문은 디지털 오디오의 저작권 보호를 위해 주파수 영역에서의 새로운 워터마킹 구조를 제안한다. 제안하는 워터마킹 시스템에서는 디지털 오디오가 중첩되지 않는 프레임들로 분리된다. 분리된 각 프레임의 크기 대역에서 선택된 최고치에 워터마크가 삽입된다. 모의실험 결과, 제안하는 방법은 노이즈 추가, 잘라내기, 재배열, 양자화, MP3 압축, 저역통과 필터 등과 같은 공격에서 강인성을 보인다. 제안한 방법의 이러한 결과는 잘 알려진 Cox방법과 비교하여 유사한 강인성을 보이지만, SNR 측면에서는 Cox방법보다 우수한 성능을 보였다. 제안한 방법은 20dB에서 28dB의 SNR을 보인반면, Cox방법은 단지 14dB에서 23dB의 성능을 보였다.

음질 열화를 줄이고 공격에 강인한 오디오 워터마킹 알고리듬 (Robust Audio Watermarking Algorithm with Less Deteriorated Sound)

  • 강명수;조상진;정의필
    • 한국음향학회지
    • /
    • 제28권7호
    • /
    • pp.653-660
    • /
    • 2009
  • 본 논문에서는 오디오 신호의 저작권 보호와 효과적인 음질 개선을 위한 새로운 워터마킹 알고리듬을 제안한다. 제안한 방법은 원 신호에 푸리에 변환을 하여 주파수 영역으로 변환하고 n개의 서브밴드로 균등 분할한다. 각 밴드별 에너지를 계산하여 에너지가 큰 것부터 k개를 선택하고 해당 밴드에서 p개의 주요 피크 성분을 검출하여 길이 m의 워터마크를 삽입한다. 워터마크된 오디오 신호를 청자에게 들려주었을 때 워터마크 삽입으로 인한 오디오 신호의 왜곡을 느끼지 못하였다. 또한, 제안한 방법은 Cox 방법만큼 MP3 압축, 잘라내기 (cropping),주파수 변환 (FFT), 반향 (echo)과 같은 워터마크 공격에 강인하였고 신호 대 잡음비 측면에서는 10 dB이상 우수함을 실험을 통해 확인할 수 있었다.

정현파 모델링을 이용한 폴리포닉 오디오 신호의 시간축 변화 (Time-Scale Modification of Polyphonic Audio Signals Using Sinusoidal Modeling)

  • 장호근;박주성
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.77-85
    • /
    • 2001
  • 본 논문에서는 폴리포닉 음과 같은 복잡한 스펙트럼을 갖는 오디오 신호를 정현파 성분으로 모델링하고, 이를 바탕으로 고음질의 시간축 변화된 음을 얻는 방법을 제안한다. 입력 신호는 옥타브 밴드 구조의 다중 해상도 필터 뱅크를 통과하고 여기에서 나온 각 서브밴드 신호로부터 정현파 성분이 축출된다. 서브밴드 신호의 정현파 분석시 정현파 성분을 추출하는 구간의 크기를 국지적인 신호의 특성에 따라 다르게 해 주는 동적 세그멘테이션 방법을 적용한다. 이렇게 함으로써 기존 정현파 모델링에서 신호의 천이 구간에서 발생하는 퍼짐 현상을 개선하고, 시간축 변화 시에도 원래 음에 가까운 음질을 얻을 수 있다. 정현파 분석을 위한 스펙트럼 분석 도구로는 심리 음향 모델을 적용한 matching pursuit을 사용함으로써 정현파 성분의 갯수를 줄이고, matching pursuit의 반복 과정에 대한 합리적인 정지 조건을 제공할 수 있다. 정현파 성분으로 표현하기 어려운 신호의 잡음 성분은 원래 신호에서 정현파 성분으로 합성된 신호를 뺀 것으로 얻을 수 있으며, 스펙트럼 포락선 근사화 방법으로써 모델링된다. 본 논문의 알고리즘을 적용해 다양한 폴리포닉 음에 대해 실험한 결과 제안한 정현파 모델링 방법이 원래 신호의 음질을 잘 복원할 수 있고, 시간축 변화율이 큰 경우에도 신호의 천이 구간을 잘 표현할 수 있음을 확인하였다.

  • PDF

확산스펙트럼 방식과 웨이브렛 변환을 이용한 적응적인 워터마킹 (Adaptive Watermarking Using Wavelet Transform & Spread Spectrum Method)

  • 김현환;김두영
    • 한국정보통신학회논문지
    • /
    • 제4권2호
    • /
    • pp.389-395
    • /
    • 2000
  • 디지털 워터마킹은 멀티미디어 컨텐츠(영상, 오디오, 비디오 등)에 비밀스러운 정보를 은닉시키는 기술이다. 본 논문에서는 웨이브렛 변환과 확산스펙트럼 방법 그리고 웨이브렛 계수를 고려한 다중 임계치를 이용하여 시각적으로 인식 가능한 심벌을 삽입할 수 있는 새로운 워터마킹 방법을 제안한다. 워터마크 검출은 원 영상과 워터마크된 영상 모두를 삽입 시와 동일한 레벨로 웨이브렛 변환을 수행하고 워터마크를 삽입한 각 부대역간의 차신호를 이용하여 워터마크를 검출한다. 제안한 방법으로 여러 영상에 적용해 본 결과 우수한 영상의 화질을 얻을 수가 있었으며 JPEG 손실압축 뿐만 아니라 Resizing, LSB(Least Significant Bit) Masking, Filtering 등의 다양한 공격에서도 삽입한 심벌 워터마크를 쉽게 검출할 수 있었다.

  • PDF