통합 검색 | Korea Science

스펙트로그램과 심층 신경망을 이용한 온라인 오디오 장르 분류 (On-Line Audio Genre Classification using Spectrogram and Deep Neural Network)

윤호원;신성현;장우진;박호종
- 방송공학회논문지
- /
- 제21권6호
- /
- pp.977-985
- /
- 2016
본 논문은 스펙트로그램과 심층 신경망을 이용한 온라인 오디오 장르 분류 방법을 제안한다. 제안한 방법은 온라인 동작을 위하여 1초 단위로 신호를 입력하여 speech, music, effect 중 하나의 장르로 분류하고, 동작의 범용성을 위하여 기존 오디오 분석에 널리 사용되는 MFCC 대신에 스펙트로그램 기반의 특성 벡터를 사용한다. 실제 TV 방송 신호를 사용하여 장르 분류 성능을 측정하였고, 제안 방법이 기존 방법보다 각 장르에 대하여 우수한 성능을 제공하는 것을 확인하였다. 특히 제안 방법은 기존 방법에서 나타나는 music과 effect 사이를 잘못 분류하는 문제점을 감소시킨다.
https://doi.org/10.5909/JBE.2016.21.6.977 인용 PDF KSCI KPUBS

An Efficient Selective Method for Audio Watermarking Against De-synchronization Attacks

Mushgil, Baydaa Mohammad;Adnan, Wan Azizun Wan;Al-hadad, Syed Abdul-Rahman;Ahmad, Sharifah Mumtazah Syed
- Journal of Electrical Engineering and Technology
- /
- 제13권1호
- /
- pp.476-484
- /
- 2018
The high capacity audio watermarking algorithms are facing a main challenge in satisfying the robustness against attacks especially on de-synchronization attacks. In this paper, a robust and a high capacity algorithm is proposed using segment selection, Stationary Wavelet Transform (SWT) and the Quantization Index Modulation (QIM) techniques along with new synchronization mechanism. The proposed algorithm provides enhanced trade-off between robustness, imperceptibility, and capacity. The achieved watermarking improves the reliability of the available watermarking methods and shows high robustness towards signal processing (manipulating) attacks especially the de-synchronization attacks such as cropping, jittering, and zero inserting attacks. For imperceptibility evaluation, high signal to noise ratio values of above 22 dB has been achieved. Also subjective test with volunteer listeners shows that the proposed method has high imperceptibility with Subjective Difference Grade (SDG) of 4.76. Meanwhile, high rational capacity up to 176.4 bps is also achieved.
https://doi.org/10.5370/JEET.2018.13.1.476 인용 PDF KSCI HTML

Microphone Array를 이용한 고압설비의 고장위치인식 알고리즘 (An Accidental Position Detection Algorithm for High-Pressure Equipment using Microphone Array)

김득권;한순신;하현욱;이장명
- 전기학회논문지
- /
- 제57권12호
- /
- pp.2300-2307
- /
- 2008
This study receives the noise transmitted in a constant audio frequency range through a microphone array in which the noise(like grease in a pan) occurs on the power supply line due to the troublesome partial discharge(arc). Then by going through a series of signal processing of removing noise, this study measures the distance and direction up to the noise caused by the troublesome partial discharge(arc) and monitors the result by displaying in the analog and digital method. After these, it determines the state of each size and judges the distance and direction of problematic part. When the signal sound transmitted by the signal source of bad insulator is received on each microphone, the signal comes only in the frequency range of 20 kHz by passing through the circuit of amplification and 6th low pass filter. Then, this signal is entered in a digital value of digital signal processing(TMS320F2812) through the 16-bit A/D conversion. By doing so, the sound distance, direction and coordinate of bad insulator can be detected by realizing the correlation method of detecting the arriving time difference occurring on each microphone and the algorithm of detecting maximum time difference.
PDF KSCI

오디오 신호 처리를 위한 초저전력 DSP 프로세서 (Ultra-low-power DSP for Audio Signal Processing)

권기석;안민욱;조석환;이연복;이승원;박영환;김석진;김도형;김재현
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송공학회 2014년도 하계학술대회
- /
- pp.157-159
- /
- 2014
In this paper, we introduce SlimSRP, an ultra-low-power digital signal processor (DSP) solution for mobile audio and voice applications. So far, application processors (APs) have taken charge of all the tasks in mobile devices. However, they have suffered from short battery life problems to deal with complex usage scenarios, such as always-on voice trigger with continuous audio playback. From extensive analysis of audio and voice application characteristics, SlimSRP is designed to relive the performance and power burden of APs. It employs three-issue VLIW architecture, and the major low-power and high-performance techniques include: (1) an optimized register-file architecture friendly for constants generation, (2) a powerful instruction set to reduce the number of register file accesses and (3) a unique instruction compression scheme that contributes to saved memory size and reduced cache miss. An implementation of SlimSRP runs at up to 200MHz and the logic occupies 95K NAND2 gates in Samsung 28LPP process. The experimental results demonstrate that a MP3 decoder application with a 128kbps 44.1kHz input can run at 5.1MHz and the logic consumes only 22uW/MHz.
PDF

GAN으로 합성한 음성의 충실도 향상 (Improving Fidelity of Synthesized Voices Generated by Using GANs)

백문기;윤승원;이상백;이규철
- 정보처리학회논문지:소프트웨어 및 데이터공학
- /
- 제10권1호
- /
- pp.9-18
- /
- 2021
생성적 적대 신경망(Generative Adversarial Networks, GANs)은 컴퓨터 비전 분야와 관련 분야에서 큰 인기를 얻었으나, 아직까지는 오디오 신호를 직접적으로 생성하는 GAN이 제시되지 못했다. 오디오 신호는 이미지와 다르게 이산 값으로 구성된 생플링된 신호이므로, 이미지 생성에 널리 사용되는 CNN 구조로 학습하기 어렵다. 이러한 제약을 해결하고자, 최근 GAN 연구자들은 오디오 신호의 시간-주파수 표현을 기존 이미지 생성 GAN에 적용하는 전략을 제안했다. 본 논문은 이 전략을 따르면서 GAN을 사용해 생성된 오디오 신호의 충실도를 높이기 위한 개선된 방법을 제안한다. 본 방법은 공개된 스피치 데이터세트를 사용해 검증했으며, 프레쳇 인셉션 거리(Fréchet Inception Distance, FID)를 사용해 평가했다. 기존의 최신(state-of-the-art) 방법은 11.973의 FID를, 본 연구에서 제안하는 방법은 10.504의 FID를 보였다(FID가 낮을수록 충실도는 높다).
https://doi.org/10.3745/KTSDE.2021.10.1.9 인용 PDF KSCI

방송용 Multi format HD LCD Monitor의 설계 (A Design of Multi format HD LCD Monitor for Broadcasting)

한성일;전응섭;노형일
- 한국컴퓨터정보학회논문지
- /
- 제15권3호
- /
- pp.37-43
- /
- 2010
본 논문에서는 비교적 간단한 설계기법과 효율적인 디자인 기술을 사용하여 방송용 8.4" LCD 모니터를 개발하였다. 소형화 기술, 혼성 비디오신호 처리기술, 하나의 포트에 다종의 HD 시그널을 구현하는 기술, 기판제작에 있어서의 디지털 신호와 아날로그 신호의 분리기법과 타겟 보드에 맞는 오디오 신호 처리기술 등이 본연구의 주 연구 대상이다. 제안된 다용도의 8.4" LCD 모니터는 방송용으로 고안하여 제작하였으므로 해당 분야에서의 활용에 있어서의 효율이 기대된다.
https://doi.org/10.9708/jksci.2010.15.3.037 인용 PDF KSCI

이종 기기 간 음성통신을 위한 자동전환장치의 구현 (Implementation of the automatic switching device for the voice communications between heterogeneous devices)

류창국;이배호
- 한국전자통신학회논문지
- /
- 제10권12호
- /
- pp.1321-1328
- /
- 2015
무전기의 음성통신은 PTT(: Push To Talk)를 이용한 반이중(half-duplex) 방식으로, 송신 시 단일 통화선로를 점유한다. 전화와 무전기간, UHF와 VHF 간의 인터페이스와 같이 서로 다른 이종 장치 간 음성통신을 위해서는 두 장치간의 자동전환장치가 요구되고, 이 장치는 입력 신호로부터 전송해야 할 음성을 검출하는 음성전환장치의 성능에 따라 전송되는 음성신호의 손실여부에 많은 영향을 받는다. 기존방식은 단순 입력신호의 크기 즉, 에너지 레벨을 통해 기준을 정함으로써 잡음에도 반응하는 문제점을 지니고 있다. 본 논문에서는 음성신호처리기법을 이용하여 입력된 신호가 음성임을 판별함으로써, 이종 기기 사이의 음성을 자동으로 전달하는 장치를 구현하였다. 이를 통해 음성 자동전환장치의 성능향상을 확인하였고, 이종 기기 간 음성 손실 없는 전송을 수행할 수 있었다.
https://doi.org/10.13067/JKIECS.2015.10.12.1321 인용 PDF KSCI

음향 보상 시스템에 관한 연구 (A Study on the Audio Compensation System)

정병철;원충상
- 한국음향학회지
- /
- 제32권6호
- /
- pp.509-517
- /
- 2013
본 연구에서는 음성전기변환기로서 다이나믹 마이크로폰과 디지털 신호처리기를 사용하고 성능분석을 통해 좋은 음성신호를 출력하는 방법을 다루었다. 음성음향시스템의 성능이라 함은 음성신호를 왜곡하지 않고 얼마나 원음 특성을 충실하게 증폭하여 확성하는가를 뜻한다. 마이크로폰의 주파수 응답특성을 측정한 후, 신호처리방법으로 표준마이크로폰 주파수 응답특성과 비교하여 주파수대역 별 보정치를 구하였다. 본 논문에 사용된 마이크로폰과 스피커는 일반적으로 사용되는 제품으로, 주파수응답특성을 구하고 기준치와 비교하여 필요한 보정치를 구하였다. 이와 같이 구한 마이크로폰과 스피커의 보정치는 디지털신호처리방법으로 처리하여 원신호음에 가깝게 보상하였다. 그리고 음성음원과 수음마이크 사이의 거리변화에 의한 음향특성변화보상에 관한 측정 결과도 비교적 좋은 결과를 얻었다.
https://doi.org/10.7776/ASK.2013.32.6.509 인용 PDF KSCI

심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 최적화 (Optimization of Multi-time Scale Loss Function Suitable for DNN-based Audio Coder)

신승민;변준;박영철;백승권;성종모
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2022년도 하계학술대회
- /
- pp.1315-1317
- /
- 2022
최근, 심층신경망 기반 오디오 부호화기가 활발히 연구되고 있다. 심층신경망 기반 오디오 부호화기는 기존의 전통적인 오디오 부호화기보다 구조적으로 간단하지만, 네트워크의 복잡도를 증가시키지 않고 인지적 성능향상을 기대하는 것은 어렵다. 이 문제를 해결하기 위하여 인간의 청각적 특성을 활용한 심리음향모델 기반 손실함수를 사용한 기법들이 소개되었다. 심리음향 모델 기반 손실함수를 사용한 오디오 부호화기는 양자화 잡음을 잘 제어하였지만, 여전히 지각적인 향상이 필요하다. 본 논문에서는 심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 지역 손실함수 윈도우 크기의 최적화 제안한다. Multi-time Scale 손실함수의 지역 손실함수 계산을 위한 윈도우 크기를 조절하며, 이를 통하여 오디오 부호화에 적합한 윈도우 사이즈를 결정한다. 실험을 통해 얻은 최적의 Multi-time Scale 손실함수를 사용하여 네트워크를 훈련하였고, 주관적 평가를 통해 기존의 심리음향모델 기반 손실함수보다 좋은 음성 품질을 보여주는 것을 확인하였다.
PDF

인터넷을 위한 음성 통신 플랫폼 라이브러리 개발 (Platform Library Development for Real-time Audio Communications in the Internet)

서동원;김동현;이명진
- 융합신호처리학회 학술대회논문집
- /
- 한국신호처리시스템학회 2005년도 추계학술대회 논문집
- /
- pp.260-263
- /
- 2005
본 논문에서는 차세대 유무선 광대역 통합망에서 실시간 멀티미디어의 응용 계층 품질을 평가하기 위한 실시간 음성 전송 플랫폼 라이브러리를 개발하였다. 개발된 라이브러리는 실시간 음성 통신시 사용자가 요구할 수 있는 다양한 품질을 제공하기 위해 전송률과 압축 방식에 따른 음성 코덱들을 포함하고 있다. 본 라이브러리는 다양한 환경에도 동일 입출력, 다중스레드, 인터넷 통신 등이 가능한 PWLIB를 기반으로 한다. 음성 데이터는 RTP/UDP/IP를 이용하여 패킷화되고 RTCP를 이용하여 전송 품질이 모니터링된다. 개발된 음성 통신 라이브러리를 이용하여 간단한 음성 통신 시스템을 구현하였으며, 음성 코덱별로 네트워크 상에서 송수신 테스트를 진행하였다. 본 라이브러리는 비디오 코덱 및 시그널링 및 네트웍 자원 예약 프로토콜과 결합되어 멀티미디어 통신 단말 개발에 사용 될 수 있다.
PDF

검색결과 156건 처리시간 0.029초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)