• 제목/요약/키워드: sound localization

검색결과 257건 처리시간 0.023초

확장된 음향적 시차 모델을 이용한 음상 거리정위의 모델화 (Modeling of Distance Localization by Using an Extended Auditory Parallax Model)

  • 김해영
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.30-39
    • /
    • 2004
  • 본 연구는 3차원 공간상에 있어서의 음상정위를 제어하기 위한 디지털 신호처리 기술, 특히, 음상의 거리정위에 있어서의 머리전달함수 (HRTF)의 역할에 착안한 신호처리 기술을 확립하기 위한 것을 목적으로 한다. 이러한 목적을 달성하기 위하여 본 논문에서는 청각에 있어서의 거리 지각을 제어하기 위한 중요한 요소를 밝혀내기 위해 기존의 Hirsch-Tahara 모델과 음향적 시차 모델에 대해서 청각 실험을 행했다. 그 결과 이 두 모델에 있어서는 음상의 거리지각을 설명하기에는 한계와 전 방향에 있어서는 적용할 수 없는 문제점이 있었다. 이러한 문제점들을 고려해 본 논문에서는 음향적 시차 모델을 전 방향에 있어서 적용 가능하도록 확장된 음향적 시차 모델을 제안해 그 유효성에 대해 청취 실험을 통해 고찰했다. 그 결과, 본 논문에서 제안한 확장된 음향적 시차 모델을 이용하면 수평면 상의 전 방향에 있어서 약 2m 까지의 범위 내에서는 실제 음원에서 지각할수 있는 거리와 거의 같은 수준으로 음상의 거리를 제어함으로써 본 모델의 유효성을 인간을 대상으로한 청취실험을 통해 증명했다.

PHAT 가중 방식 음성신호방향 추정시스템의 FFT 및 IFFT의 효율적인 구현 (Efficient Implementation of IFFT and FFT for PHAT Weighting Speech Source Localization System)

  • 김용은;홍선아;정진균
    • 대한전자공학회논문지SP
    • /
    • 제46권1호
    • /
    • pp.71-78
    • /
    • 2009
  • 서비스 로봇에서 사용되는 음원인식 시스템은 사람이 로봇을 향해 말할 때 화자의 위치를 추정한다. 로봇용 음원인식 알고리즘들 중에서 복수개의 마이크로폰에 소리가 도착하는 시간지연 정보를 이용하여 음원위치를 추정하는 방법이 널리 이용된다. 소리가 도착하는 지연시간을 계산하기 위해서는 상관관계를 구하고 위치추정의 정확도를 향상시키기 위해서 PHAT 가중치 함수를 널리 사용한다. PHAT 가중치 함수를 적용하기 위해서는 FFT와 IFFT회로가 사용되는데 이 회로들의 면적이 음원인식 시스템의 50% 이상을 차지한다. 따라서 FFT와 IFFT의 효율적인 구현이 음원인식 시스템의 경쟁력 있는 IP 구현에 필수적이다. 본 논문에서는 사람의 음성 특성을 고려하여 FFT와 IFFT를 효율적으로 구현하는 방법을 제시한다.

UHD TV를 위한 가상 음상의 인지 위치 (Perceptual Localization of a phantom sound image for Ultrahigh-Definition TV)

  • 이영우;김선민
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.9-17
    • /
    • 2010
  • 이 연구는 다양한 라우드 스피커 구성인 2-horizontal, 2-vertical, triplet 라우드 스피커 구성에서 UHD TV를 위한 가상 음상의 인지 위치 결과를 제시한다. 비등간격 라우드 스피커 구성에서 가상 음상을 생성하기 위해 잘 알려진 vector-based amplitude panning 알고리즘을 수정하여 적용하였다. 실제 상황에서의 위치 인지 성능을 평가하기 위해, 청취 평가는 일반적인 청취환경에서 TV의 on-axis와 off-axis에서 수행되었다. 인지 각도의 모호함에 의한 오차를 줄이기 위해 각도 조정 테스트 방법이 옥타브 밴드 신호의 각도 평가에 이용되었다. 피실험자는 실제 음원과 가상 조정된 음원의 각도가 일치할 때까지 조정각도를 변화하였다. 공간적 블러링은 각 밴드에서 인지된 조정 각도의 차이를 비교하여 측정되었다. 청취 평가 결과는 triplet panning 방법이 vertical panning 방법보다 on-axis와 off-axis 둘 다, 인지 위치와 공간적 블러링 관점에서 더 나은 성능을 보여주었다.

음성-영상 융합 음원 방향 추정 및 사람 찾기 기술 (Audio-Visual Fusion for Sound Source Localization and Improved Attention)

  • 이병기;최종석;윤상석;최문택;김문상;김대진
    • 대한기계학회논문집A
    • /
    • 제35권7호
    • /
    • pp.737-743
    • /
    • 2011
  • 서비스 로봇은 비전 카메라, 초음파 센서, 레이저 스캐너, 마이크로폰 등과 같은 다양한 센서를 장착하고 있다. 이들 센서들은 이들 각각의 고유한 기능을 가지고 있기도 하지만, 몇몇을 조합하여 사용함으로써 더욱 복잡한 기능을 수행할 수 있다. 음성영상 융합은 서로가 서로를 상호보완 해주는 대표적이면서도 강력한 조합이다. 사람의 경우에 있어서도, 일상생활에 있어 주로 시각과 청각 정보에 의존한다. 본 발표에서는, 음성영상 융합에 관한 두 가지 연구를 소개한다. 하나는 음원 방향 검지 성능의 향상에 관한 것이고, 나머지 하나는 음원 방향 검지와 얼굴 검출을 이용한 로봇 어텐션에 관한 것이다.

수중 음파 굴절효과를 고려한 전방주시소나 기뢰 위치 추정기법 연구 (A Study on Mine Localization of Forward Looking Sonar Considering the Effect of Underwater Sound Refraction)

  • 설호석;오래근;양원준;윤영글;최지웅;한상규;권범수
    • 한국군사과학기술학회지
    • /
    • 제25권3호
    • /
    • pp.231-238
    • /
    • 2022
  • Mine detection has been mainly studied with images of the forward-looking sonar. Forward-looking sonar assumes the propagation path of the sound wave as a straight path, creating the surrounding images. This might lead to errors in the detection by ignoring the refraction of the sound wave. In this study, we propose a mine localization method that can robustly identify the location of mines in an underwater environment by considering the refraction of sound waves. We propose a method of estimating the elevation angle of arrival of the target echo signal in a single receiver, and estimate the mine location by applying the estimated elevation angle of arrival to ray tracing. As a result of simulation, the method proposed in this paper was more effective in estimating the mine localization than the existing method that assumed the propagation path as a straight line.

도달시간차 기반의 음원 위치 추정법의 정확도 향상을 위한 딥러닝 적용 연구 (Deep learning-based approach to improve the accuracy of time difference of arrival - based sound source localization)

  • 정일주;허현석;정인지;이승철
    • 한국음향학회지
    • /
    • 제43권2호
    • /
    • pp.178-183
    • /
    • 2024
  • 본 연구는 데이터 기반의 딥러닝 접근 방식을 통해 도달 방향 추정의 정확성과 정밀성의 개선을 통해 보다 강건하고 정확한 음원 위치 추적 기술을 제안한다. 본 연구에서는 도달시간 차 기반의 음원 위치 추적법을 개선함을 목적으로 하며, 이를 위해 상호상관함수로부터 정확하고 정밀한 시간 지연을 추정한다. 실제 마이크로폰으로부터 계측된 값은 많은 잡음이 혼입된 형태이므로, 따라서 실제 도달시간 차이를 정확히 추정하는 것이 여전히 이 분야의 한계로 남아있다. 또한, 마이크로폰으로 부터 실제 신호를 계측하는 과정에서 신호는 디지털화가 되며, 계측 시스템의 샘플링 주파수에 의해 측정 정밀도가 한정되는 양자화 오류를 수반한다. 본 연구에서는 딥러닝 기반 접근법을 통해, 기존의 방법이 가지는 한계를 극복한다. 또한 본 연구에서는 획득된 상호상관함수로부터 시간 지연을 추정하는 원리를 분석하기 위해, 두 개 및 세 개의 마이크로폰으로 구성된 배열에 대한 검증을 수행한다. 마지막으로, 실험을 통해 본 방법의 실제 활용성을 검증한다.

3D영상에 정합되는 스테레오 오디오 (Stereo Audio Matched with 3D Video)

  • 박성욱;정태윤
    • 한국지능시스템학회논문지
    • /
    • 제21권2호
    • /
    • pp.153-158
    • /
    • 2011
  • 본 연구에서는 동일한 내용의 영상을 2D로 감상할 때와 3D로 감상할 때 함께 재생되는 음향이 어떻게 달라져야하는지를 확인하는 주관적 실험을 수행하고 그 결과를 고찰하였다. 먼저 음향 정보는 음원이 자체적으로 제공하는 정보인 음원의 거리와 방위각(즉 위치) 그리고 음원의 환경 혹은 장면(scene)이 제공하는 정보인 공간감으로 분리가 가능하므로 이에 맞게 동일 내용의 2D/3D 영상이 음원의 위치 선정에 미치는 영향 평가 실험과 동일한 내용의 2D/3D 장면이 음향 공간감에 주는 영향 평가 실험을 수행하였다. 첫 번째 실험 결과 3D 영상을 감상하는 경우 2D 영상을 감상할 때 보다 스크린을 기준으로 음원의 거리와 방위각을 확대하여 인지한다는 결과를 얻을 수 있었다. 이는 2D 영상용 소리보다 거리와 방위각이 큰 3D 영상용 소리를 만들어야 한다는 것을 의미한다. 또한 3D 영상용 소리는 3D 영상뿐만 아니라 2D 영상과도 잘 어울린다는 결과를 얻었다. 두 번째 실험 결과, 3D 영상을 감상하는 경우 2D 영상을 감상할 때 보다 잔향이 더 많은 소리를 선호함을 알 수 있었다. 이는 3D 영상을 감상할때 공간감이 강화되기 때문으로 해석된다. 본 연구의 결과는 기본적으로 2D 영상용 음향을 제작하던 음향엔지니어가 3D영상용 음향을 제작하는 데 활용할 수 있으며, 2D to 3D 음향을 자동으로 변형하는 연구의 기초가 될 것이다. 더 나아가서 본 연구의 결과를 기반으로 제한된 대역폭에서 2D 와 3D를 동시에 지원하는 방송 시스템을 설계하는데 적용해 본다면, 방송 데이터 규격은 스테레오 영상, 음원의 위치가 강조된 3D 음향과 공간감을 주는 잔향 정보로 구성하는 것이 적절하다고 할 수 있다.

개선된 머리전달함수를 이용한 3차원 입체음향 성능 개선 연구 (A Study on Enhancement of 3D Sound Using Improved HRTFS)

  • 구교식;차형태
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.557-565
    • /
    • 2009
  • 인간의 청각기관은 소리의 방향과 거리인지에 있어서 여러 가지의 정보들을 복합적으로 이용한다. 이러한 양 귀에 들어오는 소리세기의 차이, 위상의 차이, 그리고 주파수 스펙트럼의 차이 등의 정보들을 종합적으로 포함하고 있는 것이 머리전달함수 (HRIF: Head Related Transfer Function)이다. 2채널 음향재생 시스템에서 이 머리전달함수를 이용하여 다채널 입체음향을 재생하는 방법이 많이 쓰이고 있다. 그러나 머리전달함수의 비개인화적인 특성 때문에 양쪽 귀까지의 거리가 같아지는 혼돈원추 상에서는 앞/뒤 방향 지각에 대한 혼돈을 주게 됨으로써 입체감을 저하시키게 된다. 본 논문에서는 입체음향을 생성하기 위해 머리전달함수를 사용하는 과정예서 발생하는 혼돈원추 문제점을 해결하기 위한 알고리즘을 제안한다. 각 머리전달함수의 주파수 차 및 인간의 청각 특성을 이용하여 각 방향에 해당하는 머리전달함수의 주파수 스펙트럼 특성을 조절하였다. 본 알고리즘의 성능을 평가하기 위하여 음상정위 테스트 및 청감 테스트를 실시하였으며 실험 결과 헤드폰을 기반으로 한 2채널 입체음향 시스템에서 향상된 입체음향을 재생하였다. 더불어 구현된 입체음향의 음질의 열화도 적음을 확인할 수 있었다.

Human-Robot Interaction in Real Environments by Audio-Visual Integration

  • Kim, Hyun-Don;Choi, Jong-Suk;Kim, Mun-Sang
    • International Journal of Control, Automation, and Systems
    • /
    • 제5권1호
    • /
    • pp.61-69
    • /
    • 2007
  • In this paper, we developed not only a reliable sound localization system including a VAD(Voice Activity Detection) component using three microphones but also a face tracking system using a vision camera. Moreover, we proposed a way to integrate three systems in the human-robot interaction to compensate errors in the localization of a speaker and to reject unnecessary speech or noise signals entering from undesired directions effectively. For the purpose of verifying our system's performances, we installed the proposed audio-visual system in a prototype robot, called IROBAA(Intelligent ROBot for Active Audition), and demonstrated how to integrate the audio-visual system.

Heart Sound Localization in Respiratory Sounds Based on Singular Spectrum Analysis and Frequency Features

  • Molaie, Malihe;Moradi, Mohammad Hassan
    • ETRI Journal
    • /
    • 제37권4호
    • /
    • pp.824-832
    • /
    • 2015
  • Heart sounds are the main obstacle in lung sound analysis. To tackle this obstacle, we propose a diagnosis algorithm that uses singular spectrum analysis (SSA) and frequency features of heart and lung sounds. In particular, we introduce a frequency coefficient that shows the frequency difference between heart and lung sounds. The proposed algorithm is applied to a synthetic mixture of heart and lung sounds. The results show that heart sounds can be extracted successfully and localizations for the first and second heart sounds are remarkably performed. An error analysis of the localization results shows that the proposed algorithm has fewer errors compared to the SSA method, which is one of the most powerful methods in the localization of heart sounds. The presented algorithm is also applied in the cases of recorded respiratory sounds from the chest walls of five healthy subjects. The efficiency of the algorithm in extracting heart sounds from the recorded breathing sounds is verified with power spectral density evaluations and listening. Most studies have used only normal respiratory sounds, whereas we additionally use abnormal breathing sounds to validate the strength of our achievements.