• 제목/요약/키워드: audio frequency

검색결과 376건 처리시간 0.025초

심부 석탄층 탐사에 있어서 CSAMT 탐사법 적용 (The Application of CSAMT to Deep-seated Coal Seams Exploration)

  • 정승환;김정호;전정수
    • 자원환경지질
    • /
    • 제23권1호
    • /
    • pp.73-79
    • /
    • 1990
  • Controlled source audio-frequency magnetotelluric (CSAMT) has the great advantage of efficient mapping resistivity distribution and relatively deep depth of investigation. Moreover, CSAMT may be regarded more attractive than audio-frequency magnetotelluric in the sense of the strong and controllable signal. However, it has the problem such as undershoot and/or near-field effect that is hard to be interpreted if the interpretation method of MT is directly applied. The problem arises from the existance of controlled source which makes CSAMT attractive. So the characteristics of CSAMT response should be thoroughly understood prior to interpretation stage. In this study, numerical modeling program for horizontally layered earth was developped for the interpretation of CSAMT field data. CSAMT field survey was run as a follow-up to resistivity dipole-dipole study over the same survey line at Bongmyung coal mine. The survey used a grounded dipole source 2 Km in length and located 7.5Km south in this study. A good agreement between field CSAMT data and calculated data was demonstrated even in geologically complex earth situations.

  • PDF

채널 기반에서 객체 기반의 오디오 콘텐츠로의 변환을 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 방법 (Non-uniform Linear Microphone Array Based Source Separation for Conversion from Channel-based to Object-based Audio Content)

  • 전찬준;김홍국
    • 방송공학회논문지
    • /
    • 제21권2호
    • /
    • pp.169-179
    • /
    • 2016
  • 오늘날 UHDTV (Ultra-High-Definition TV) 시대에 사용될 멀티미디어 부호화기로 MPEG-H에 대한 표준화가 진행되고 있다. 향후 방송용 오디오 콘텐츠는 채널 기반 오디오 콘텐츠에서 진화하여 객체 기반 오디오 콘텐츠까지도 포함하게 될 예정이다. 이에 따라, 채널 기반 오디오 콘텐츠의 객체 기반 오디오 콘텐츠로의 유기적인 변환이 필요한 실정이다. 본 논문에서는 이러한 유기적인 변환을 실현 가능하게 할 수 있는 비균등 선형 마이크로폰 어레이 기반의 음원분리 기법을 제안한다. 제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 spectral magnitude를 예측한다. 이후, azimuth와 width 파라메타를 조정함으로써 객체 오디오 생성을 위한 음원을 분리한다. 제안된 음원분리 기법의 성능을 평가하기 위하여 객관적 음원분리 지표 및 분리정확도를 측정하였고, 최소 분산 무손실 응답 빔형성기와 독립 성분 분석 기법 등 기존 음원분리 기법과의 그 성능을 비교하였다. 비교 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 우수한 음원분리 성능을 보이는 것을 알 수 있었다.

Robust Music Identification Using Long-Term Dynamic Modulation Spectrum

  • Kim, Hyoung-Gook;Eom, Ki-Wan
    • The Journal of the Acoustical Society of Korea
    • /
    • 제25권2E호
    • /
    • pp.69-73
    • /
    • 2006
  • In this paper, we propose a robust music audio fingerprinting system for automatic music retrieval. The fingerprint feature is extracted from the long-term dynamic modulation spectrum (LDMS) estimation in the perceptual compressed domain. The major advantage of this feature is its significant robustness against severe background noise from the street and cars. Further the fast searching is performed by looking up hash table with 32-bit hash values. The hash value bits are quantized from the logarithmic scale modulation frequency coefficients. Experiments illustrate that the LDMS fingerprint has advantages of high scalability, robustness and small fingerprint size. Moreover, the performance is improved remarkably under the severe recording-noise conditions compared with other power spectrum-based robust fingerprints.

1.5V 2mW 96dB Peak SNDR, 오디오용 $\sum\Delta$ Modulator 설계 (Design of a 1.5V 2mW 96dB Peak SNDR $\sum\Delta$ Modulator for Audio Applications)

  • 이강명;이상훈;박종태;유종근
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(2)
    • /
    • pp.156-159
    • /
    • 2000
  • This paper presents a low-voltage, low-power $\Sigma$Δ modulator for audio applications. It use a simple second-order fully-differential switched-capacitor structure with a sampling frequency of 12.5 MHz and oversampling ratio of 256. It operates from a single 1.5V Bower supply and dissipates 2 ㎽. Extensive simulations using 0.25 ${\mu}{\textrm}{m}$ CMOS Process parameters show that it achieves 96㏈ peak SNDR in a 22 KHz bandwidth.

  • PDF

Single-Mode-Based Unified Speech and Audio Coding by Extending the Linear Prediction Domain Coding Mode

  • Beack, Seungkwon;Seong, Jongmo;Lee, Misuk;Lee, Taejin
    • ETRI Journal
    • /
    • 제39권3호
    • /
    • pp.310-318
    • /
    • 2017
  • Unified speech and audio coding (USAC) is one of the latest coding technologies. It is based on a switchable coding structure, and has demonstrated the highest levels of performance for both speech and music contents. In this paper, we propose an extended version of USAC with a single-mode of operation-which does not require a switching system-by extending the linear prediction-coding mode. The main concept of this extension is the adoption of the advantages of frequency-domain coding schemes, such as windowing and transition control. Subjective test results indicate that the proposed scheme covers speech, music, and mixed streams with adequate levels of performance. The obtained quality levels are comparable with those of USAC.

보안 시스템을 위한 비명 검출 엔진 설계 (A Design of a Scream Detecting Engine for Surveillance Systems)

  • 서지훈;이혜인;이석필
    • 전기학회논문지
    • /
    • 제63권11호
    • /
    • pp.1559-1563
    • /
    • 2014
  • Recently, the prevention of crime using CCTV draws special in accordance with the higher crime incidence rate. Therefore security systems like a CCTV with audio capability are developing for giving an instant alarm. This paper proposes a scream detecting engine from various ambient noises in real environment for surveillance systems. The proposed engine detects scream signals among the various ambient noises using the features extracted in time/frequency domain. The experimental result shows the performance of our engine is very promising in comparison with the traditional engines using the model based features like LPC, LPCC and MFCC. The proposed method has a low computational complexity by using FFT and cross correlation coefficients instead of extracting complex features like LPC, LPCC and MFCC. Therefore the proposed engine can be efficient for audio-based surveillance systems with low SNRs in real field.

Adaptive TCX Windowing Technology for Unified Structure MPEG-D USAC

  • Lee, Tae-Jin;Beack, Seung-Kwon;Kang, Kyeong-Ok;Kim, Whan-Woo
    • ETRI Journal
    • /
    • 제34권3호
    • /
    • pp.474-477
    • /
    • 2012
  • The MPEG-D unified speech and audio coding (USAC) standardization process was initiated by MPEG to develop an audio codec that is able to provide consistent quality for mixed speech and music contents. The current USAC reference model structure consists of frequency domain (FD) and linear prediction domain (LPD) core modules and is controlled using a signal classifier tool. In this letter, we propose an LPD single-mode USAC structure using an adaptive widowing-based transform-coded excitation module. We tested our system using official test items for all mono-evaluation modes. The results of the experiment show that the objective and subjective performances of the proposed single-mode USAC system are better than those of the FD/LPD dual-mode USAC system.

디지털 음원의 촉각 자극 전이를 위한 미디어 플레이어에 대한 연구 (A research on the media player transferring vibrotactile stimulation from digital sound)

  • 임영훈;이수진;정종환;하지민;황민철;박준석
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.881-886
    • /
    • 2007
  • 오감 융합 정보 시대가 도래한다. 오감 융합은 감각 정보의 전이 기술 개발로 가능하다. 본 연구는 청각 정보의 촉각 정보 전이에 대한 연구이다. WMPlayer10SDK는 마이크로소프트사의 윈도우즈 미디어 플레이어(Windows Media Player, WMP)를 전용 소프트웨어 기반으로 하는 Plug-in 개발툴이다. WMPlayer10SDK 시스템은 WMP 내에서의 비디오와 오디오의 신호 정보를 추출하는 부분을 제공한다. 이를 이용하여 촉각 디스플레이(Tactile Display)장치인 Pos Tactor를 연동하여 음성 신호에서 진동 촉각을 제시하는 시스템을 개발하였다. 음성신호는 8bit, 16bit, 24bit, 32bit로 구분되며 각각의 주파수와 음폭의 Scale을 계산하여 그 수치를 시리얼 통신을 사용하여 통신포트(COM1)에 38400bps로 전달하여 구동하게 하였다. 이를 이용하여 음악을 촉감으로 느끼는 뮤직슈트(music suit)를 개발 하였다. 그러므로 뮤직슈트의 적용된 기술은 청각적 체험을 촉각적 체험을 할 수 있는 오감 융합 기술의 기초 기술로 제공 될 수 있다.

  • PDF

동적 세그멘테이션을 이용한 폴리포닉 오디오 신호의 정현파 모델링 (Sinusoidal Modeling of Polyphonic Audio Signals Using Dynamic Segmentation Method)

  • 장호근;박주성
    • 한국음향학회지
    • /
    • 제19권4호
    • /
    • pp.58-68
    • /
    • 2000
  • 본 논문에서는 폴리포닉 오디오 신호에 대한 정현파 모델링 방법을 제안한다. 정현화 모델링을 폴리포닉 오디오 신호에 적용하는데 있어서 가장 큰 문제점은 스펙트럼 분석을 위한 분석 윈도우의 크기를 결정할 수 없다는 것이다. 또한 고음질의 합성음을 위해서는 악기음의 특성을 결정짓는 어택이 잘 보존되어야 한다. 본 논문에서는 입력 신호를 6개의 옥타브 벤드 구조의 다중 해상도 필터 뱅크를 통과시키고, 각 서브벤드 신호에 대해 서로 다른 크기의 분석 윈도우를 적용시킴으로써 폴리포닉 오디오 신호에 대한 분석 윈도우 크기 결정 문제를 해결한다. 정현파 모델링에서 발생하는 어택과 같은 천이 구간에서의 퍼짐 현상을 개선하기 위해 각 서브밴드 신호에 동적 세그맨테이션 방법을 적용하여 천이 구간 근처에서는 분석과 합성 프레임 크기를 작게 하는 방법을 사용한다. 이 방법을 통해 서브밴드 신호의 구간별 시간-주파수 특성에 따라 적절한 크기의 윈도우를 선택할 수 있다. 동적 세그멘테이션 방법으로는 기존의 방법보다 계산량과 성능 면에서 더 나은 특성을 보이는 방법을 제안한다. 여러가지 폴리포닉 오디오 신호에 대한 시뮬레이션 결과 제안한 정현파 모델링 방법이 음질의 손상 없이 원래 신호를 잘 복원할 수 있음을 확인하였다.

  • PDF

GAN으로 합성한 음성의 충실도 향상 (Improving Fidelity of Synthesized Voices Generated by Using GANs)

  • 백문기;윤승원;이상백;이규철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.9-18
    • /
    • 2021
  • 생성적 적대 신경망(Generative Adversarial Networks, GANs)은 컴퓨터 비전 분야와 관련 분야에서 큰 인기를 얻었으나, 아직까지는 오디오 신호를 직접적으로 생성하는 GAN이 제시되지 못했다. 오디오 신호는 이미지와 다르게 이산 값으로 구성된 생플링된 신호이므로, 이미지 생성에 널리 사용되는 CNN 구조로 학습하기 어렵다. 이러한 제약을 해결하고자, 최근 GAN 연구자들은 오디오 신호의 시간-주파수 표현을 기존 이미지 생성 GAN에 적용하는 전략을 제안했다. 본 논문은 이 전략을 따르면서 GAN을 사용해 생성된 오디오 신호의 충실도를 높이기 위한 개선된 방법을 제안한다. 본 방법은 공개된 스피치 데이터세트를 사용해 검증했으며, 프레쳇 인셉션 거리(Fréchet Inception Distance, FID)를 사용해 평가했다. 기존의 최신(state-of-the-art) 방법은 11.973의 FID를, 본 연구에서 제안하는 방법은 10.504의 FID를 보였다(FID가 낮을수록 충실도는 높다).