• Title/Summary/Keyword: HAS(Human Auditory System)

검색결과 45건 처리시간 1.814초

신경회로망을 사용한 잡음이 중첩된 음성 강조 (Speech Enhancement in Noisy Speech Using Neural Network)

  • 최재승
    • 대한전자공학회논문지SP
    • /
    • 제42권5호
    • /
    • pp.165-172
    • /
    • 2005
  • 잡음이 존재하는 환경 하에서 음성인식을 실시하는 경우, 잡음을 제거하고 음성을 강조하는 시스템이 필요하다. 따라서 우수한 스펙트럴 분석기강인 인간의 청각계를 모의하는 것은 음성강조에 있어서 효과적이다. 이러한 것을 구현하는 하나의 방법으로서 상호억제라고 하는 청각기강을 적응적으로 사용하는 방법을 제안한다. 이것은 신경회로망에 의해서 잡음의 크기를 추정하여 각 프레임에 대해서 그 크기에 따라서 적응적으로 상호억제 계수와 진폭성분조정 계수를 조정함으로써 음성을 강조하는 방법이다. 스펙트럴왜곡율 척도의 평가로부터 백색잡음뿐만 아니라 유색잡음 및 자동차의 주행잡음에 대해서도 본 방식이 효과적이라는 것을 확인한다.

지각 특성 및 라우드니스를 이용한 입체음향의 성능 개선 (Enhancement of the 3D Sound's Performance using Perceptual Characteristics and Loudness)

  • 구교식;차형태
    • 방송공학회논문지
    • /
    • 제16권5호
    • /
    • pp.846-860
    • /
    • 2011
  • 인간의 청각기관은 소리의 방향과 거리인지에 있어서 양 귀에 들어오는 소리세기의 차이, 위상의 차이, 그리고 주파수 스펙트럼의 차이 등의 정보들을 복합적으로 이용한다. 이런 정보를 종합적으로 포함하고 있는 것을 머리전달함수라 하며, 이를 이용하여 실질적으로 존재하지 않는 음원을 근사적으로 생성할 수 있는 입체음향 시스템을 구현할 수 있다. 그러나 비개인화 된 머리전달함수는 음상정위 성능을 떨어뜨리는 주된 원인이 된다. 이에 본 논문에서는 이 머리전달함수를 이용한 3차원 음상정위를 위해 사람의 청각 특성을 이용한 알고리즘을 제안한다. 청자가 정확한 방향을 인지하기 위해 1차로 측정된 머리전달함수의 청각 자극 에너지를, 2차로 전역 마스킹 임계치와 라우드니스를 이용하여 방향감을 강조하였다. 제안된 알고리즘의 성능 평가를 위해 청감 테스트를 수행하였으며 실험결과 기존의 알고리즘에 비해 입체음향의 전체적인 인지도가 50% 이상 증가하였음을 확인할 수 있었다.

신경망과 HAS을 이용한 강인한 오디오 워터마킹 알고리즘 (Robust Audio Watermarking Using HAS and Neural Network)

  • 정세원;박성일;한승수
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년도 제37회 하계학술대회 논문집 D
    • /
    • pp.2101-2102
    • /
    • 2006
  • In this paper, a new digital audio watermarking algorithm is presented. The proposed algorithm embeds watermark into audio signal based on human auditory system (HAS). This algorithm is a blind audio watermarking method, which does not require any prior information during watermark extraction process. This algorithm finds watermarking position using time-domain masking effect. First we insert the watermark into wavelet domain, and then we use a back-propagation neural network (BPN) to learn the characteristics of relationship between the watermark and the watermarked audio. Due to the teaming and adaptive capabilities of the BPN, the false recovery of the watermark can be greatly reduced by the trained BPN. Experimental results show that the proposed method has good inaudibility and high robustness to common audio processing attacks.

  • PDF

High Embedding Capacity and Robust Audio Watermarking for Secure Transmission Using Tamper Detection

  • Kaur, Arashdeep;Dutta, Malay Kishore
    • ETRI Journal
    • /
    • 제40권1호
    • /
    • pp.133-145
    • /
    • 2018
  • Robustness, payload, and imperceptibility of audio watermarking algorithms are contradictory design issues with high-level security of the watermark. In this study, the major issue in achieving high payload along with adequate robustness against challenging signal-processing attacks is addressed. Moreover, a security code has been strategically used for secure transmission of data, providing tamper detection at the receiver end. The high watermark payload in this work has been achieved by using the complementary features of third-level detailed coefficients of discrete wavelet transform where the human auditory system is not sensitive to alterations in the audio signal. To counter the watermark loss under challenging attacks at high payload, Daubechies wavelets that have an orthogonal property and provide smoother frequencies have been used, which can protect the data from loss under signal-processing attacks. Experimental results indicate that the proposed algorithm has demonstrated adequate robustness against signal processing attacks at 4,884.1 bps. Among the evaluators, 87% have rated the proposed algorithm to be remarkable in terms of transparency.

범용 DSP를 이용한 MPEG-2 오디오 부호화기의 성능 개선 (An Enhancement of the MPEG-2 Audio Encoder Using General DSPs)

  • 오현오;김성윤;윤대희;차일환;이준용
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1997년도 학술대회
    • /
    • pp.63-67
    • /
    • 1997
  • The ISO(International Standard Organization) has standardized MPEG-2 audio. The MPEG-2 audio compression algorithm is based upon subband analysis and exploits the human auditory characteristics to achieve a low bit rate with minimum perceptual loss of audio signal quality. This thesis presents an enhanced MPEG-2 audio encoder using multiple TMS320C30 general purpose DSP's. The developed system is made up of five slave boards and one master board. Each slave board performs susband analysis psychoacoustic parameter calculation for one channel, and the master board manages bit allocation, quantization, and bit-stream formatting for all channels. Parallel processing and pipelining techniques are used in hardware structure and fast algorithms are applied in each subroutine to implement a real-time process. The implemented system supports multichannel up to 5.1 and various bitrates.

  • PDF

A semispherical SQUID magnetometer system using high sensitivity double relaxation oscillation SQUIDs for magnetoencephalographic measurements

  • Lee, Yong-Ho;Hyukchan Kwon;Kim, Jin-Mok;Kim, Kwoong;Park, Yong-Ki
    • 한국초전도ㆍ저온공학회논문지
    • /
    • 제5권1호
    • /
    • pp.21-26
    • /
    • 2003
  • We designed and constructed a multichannel superconducting quantum interference device (SQUID) magnetometer system to measure magnetic fields from the human brain. We used a new type of SQUID, the double relaxation oscillation SQUID (DROS). With high flux-to-voltage transfers of the DROS, about 10 times larger than the dc SQUIDs, simple flux-locked loop circuits could be used for SQUID operation. Also the large modulation voltage of the DROS, typically being 100 $mutextrm{V}$, enabled stable flux-locked loop operation against the thermal offset voltage drift of the preamplifier. The magnetometers were fabricated using the Nb/AlOx/Nb junction technology. The SQUID system consists of 37 signal magnetometers, distributed on a semispherical surface, and 11 reference channels were installed to pickup background noises. External feedback was used to eliminate the magnetic coupling with the adjacent channels. The liquid helium dewar has a capacity of 29 L and boil-off rate of about 4 L/d with the total 48 channel insert. The magnetometer system has an average noise level of 3 fT/√Hz at 100 Hz, inside a shielded loon, and was applied to measure auditory-evoked fields.

심리 음향 기준을 이용한 새로운 음질 개선 방법 (New Speech Enhancement Method using Psychoacoustic Criteria)

  • 김대경;박장식;손경식
    • 한국멀티미디어학회논문지
    • /
    • 제4권1호
    • /
    • pp.56-66
    • /
    • 2001
  • 최근에 심리 음향 기준을 이용한 스펙트럼 차감법이 제안되었다. Virag의 알고리즘에서는 기존의 방법보다 청취자가 더 편안한 음성을 들을 수 있지만 잡음에 강인한 음성활동 검출기가 필요하다. 음성활동 검출기를 필요로 하지 않는 확장 스펙트럼 차감법에서는 신호 대 잡음비가 감소함에 따라 잔여 잡음이 더욱 잘 들리게 된다. 본 논문에서는 심리 음향 기준을 이용한 스펙트럼 차감법에 Wiener 필터를 결합한 새로운 음질 개선 방법을 제안한다. 제안한 방법에서는 Wiener 필터를 사용하여 음성 구간에 서도 잡음의 추정치가 계속 갱신되므로 음성 검출기가 필요 없고 마스킹 임계값에 따라 차감 파라미터를 조정하기 때문에 잔여 잡음이 거의 들리지 않게 된다. 제안된 방법에 대하여 시뮬레이션을 통하여 기존의 스펙트럼 차감법과 성능을 비교한 결과, 제안한 방법을 사용하여 개선된 음성이 기존의 방법에 비하여 청취하기에 더 편한 음질을 제공하였다.

  • PDF

Human-Computer Interaction Based Only on Auditory and Visual Information

  • Sha, Hui;Agah, Arvin
    • Transactions on Control, Automation and Systems Engineering
    • /
    • 제2권4호
    • /
    • pp.285-297
    • /
    • 2000
  • One of the research objectives in the area of multimedia human-computer interaction is the application of artificial intelligence and robotics technologies to the development of computer interfaces. This involves utilizing many forms of media, integrating speed input, natural language, graphics, hand pointing gestures, and other methods for interactive dialogues. Although current human-computer communication methods include computer keyboards, mice, and other traditional devices, the two basic ways by which people communicate with each other are voice and gesture. This paper reports on research focusing on the development of an intelligent multimedia interface system modeled based on the manner in which people communicate. This work explores the interaction between humans and computers based only on the processing of speech(Work uttered by the person) and processing of images(hand pointing gestures). The purpose of the interface is to control a pan/tilt camera to point it to a location specified by the user through utterance of words and pointing of the hand, The systems utilizes another stationary camera to capture images of the users hand and a microphone to capture the users words. Upon processing of the images and sounds, the systems responds by pointing the camera. Initially, the interface uses hand pointing to locate the general position which user is referring to and then the interface uses voice command provided by user to fine-the location, and change the zooming of the camera, if requested. The image of the location is captured by the pan/tilt camera and sent to a color TV monitor to be displayed. This type of system has applications in tele-conferencing and other rmote operations, where the system must respond to users command, in a manner similar to how the user would communicate with another person. The advantage of this approach is the elimination of the traditional input devices that the user must utilize in order to control a pan/tillt camera, replacing them with more "natural" means of interaction. A number of experiments were performed to evaluate the interface system with respect to its accuracy, efficiency, reliability, and limitation.

  • PDF

개선된 Lowbit Encoding 방법을 이용한 StegoWavek의 구현 (Implementation of StegoWaveK using an Improved Lowbit Encoding Method)

  • 김영실;김영미;백두권
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제9권4호
    • /
    • pp.470-485
    • /
    • 2003
  • 멀티미디어 데이타중에서 오디오데이타를 이용한 상용화된 오디오 스테가노그라피(audio steganography) 소프트웨어들은 시각적인 측면에서 비밀 메시지가 은닉되어 있다는 것을 쉽게 인지할 수 있다는 것과 숨길 정보의 크기에 제한이 있다는 문제점을 가지고 있다. 이러한 문제점을 해결하기 위해 동적으로 메시지를 은닉하는 방법을 제안하였다. 또한 비밀 메시지의 보안수준을 향상시키기 위해 파일 암호화 알고리즘도 적용하였다. 본 논문에서는 제안한 오디오 스테가노그라피를 수행해주는 StegoWaveK시스템을 상용화된 오디오 스테가노그라피 시스템의 5가지 측면으로 비교 분석하였으며, 성능면에서 우수함을 보였다. StegoWaveK는 상용화된 시스템에 비해 시각적 공격 측면이나 은닉할 메시지 크기 측면에서는 좋으나 인터페이스 측면에서는 사용자 위주의 편리성을 제공할 수 있도록 보완되어야 한다. 그리고 StegoWavek와 상용화된 시스템이 견고성이 약하다는 단점을 보완해야 하며, 다양한 멀티미디어 데이타를 이용한 스테가노그라피로의 추후연구가 필요하다.

디지털 필터를 이용한 오디오 워터마킹 기술 (Audio Watermarking Technique Based on Digital Filter)

  • 신승원;김종원;최종욱
    • 한국정보보호학회:학술대회논문집
    • /
    • 한국정보보호학회 2001년도 종합학술발표회논문집
    • /
    • pp.464-468
    • /
    • 2001
  • In this paper, we propose a robust watermarking technique that accepts time scaling, pitch shift, add noise and a lot of lossy compression such as MP3, AAC, WMA. The technique is developed based on digital filtering. Being designed according to critical band of HAS (human auditory system), the digital filters nearly affect audio quality. Furthermore, before implementing digital filtering, wavelet transform decomposes the audio signal into several signals that is composed of specific frequencies. Designed digital filters scan the decomposed signal. The designed digital filter, band-stop filter, distorts and eliminates specific frequencies of audio signals. Watermarking detection can be accomplished by FFT (Fast Fourier Transform). Firstly, segments of audio signal are transformed by FFT. Then, the obtained amplitude spectrum by FFT is summed repeatedly. Finally the watermark detector can find filters used to watermark encoding based on eliminating frequencies. The suggested technique can embed 4bits/s in a robust manner.

  • PDF