• 제목/요약/키워드: MPEG/Audio

검색결과 322건 처리시간 0.017초

A Novel Query-by-Singing/Humming Method by Estimating Matching Positions Based on Multi-layered Perceptron

  • Pham, Tuyen Danh;Nam, Gi Pyo;Shin, Kwang Yong;Park, Kang Ryoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권7호
    • /
    • pp.1657-1670
    • /
    • 2013
  • The increase in the number of music files in smart phone and MP3 player makes it difficult to find the music files which people want. So, Query-by-Singing/Humming (QbSH) systems have been developed to retrieve music from a user's humming or singing without having to know detailed information about the title or singer of song. Most previous researches on QbSH have been conducted using musical instrument digital interface (MIDI) files as reference songs. However, the production of MIDI files is a time-consuming process. In addition, more and more music files are newly published with the development of music market. Consequently, the method of using the more common MPEG-1 audio layer 3 (MP3) files for reference songs is considered as an alternative. However, there is little previous research on QbSH with MP3 files because an MP3 file has a different waveform due to background music and multiple (polyphonic) melodies compared to the humming/singing query. To overcome these problems, we propose a new QbSH method using MP3 files on mobile device. This research is novel in four ways. First, this is the first research on QbSH using MP3 files as reference songs. Second, the start and end positions on the MP3 file to be matched are estimated by using multi-layered perceptron (MLP) prior to performing the matching with humming/singing query file. Third, for more accurate results, four MLPs are used, which produce the start and end positions for dynamic time warping (DTW) matching algorithm, and those for chroma-based DTW algorithm, respectively. Fourth, two matching scores by the DTW and chroma-based DTW algorithms are combined by using PRODUCT rule, through which a higher matching accuracy is obtained. Experimental results with AFA MP3 database show that the accuracy (Top 1 accuracy of 98%, with an MRR of 0.989) of the proposed method is much higher than that of other methods. We also showed the effectiveness of the proposed system on consumer mobile device.

멀티미디어 네트워킹을 위한 압축 신호상에서 동영상 처리 : 압축 동영상 비트율 변환 (Manipulation of the Compressed Video for Multimedia Networking : A Bit rate Shaping of the Compressed Video)

  • 황대환;조규섭;황수용
    • 한국통신학회논문지
    • /
    • 제26권11A호
    • /
    • pp.1908-1924
    • /
    • 2001
  • 유무선 통신망, 지상파, 위성 등을 포함한 다양한 이종 네트워크 환경하에서의 멀티미디어 서비스는 급속한 인터넷 보급과 병행하여, 이전과는 전혀 다른 새로운 통합 멀티미디어 네트워킹 인프라를 요구하고 있다. 네트워크와 멀티미디어 유형에 관계 없이 사용자에게 이음새 없는 투명한 멀티미디어 통신서비스를 제공하자는 기술적 요구는 국내외에서 GII를 축으로 연구가 진행되고 있으나, 아직 뚜렷한 형상이 완성되지 않은 실정이다. 이 GII의 배경에는 이종 네트워크, 이종 미디어 그리고 다양한 이종 프로토콜이 포함되는 응용 서비스가 상호 투명하게 연결되어야 하는 복잡한 기술적 측면이 있으며, 멀티미디어의 네트워킹은 가장 핵심적인 연구항목이 되고 있다. 본 논문에서는 통신 대역폭의 QoS를 보장할 수 없는 인터넷 그리고 유무선을 통한 디지털 TV 방송에 직접 적용할 수 있는 압축 통영상 비트율 변환 알고리즘을 제안한다. 통영상 비트율 변환은 상기의 네트워크 환경하에서 동영상 스트리밍 서비스를 위해 필요한 기술이다. 기존의 비트율 변환은 해당되는 압축 통영상 디코더와 인코더를 쌍으로 연결하여, 선형 PCM 신호로 변환하고, 목적하는 비트율로 맞추어 주는 방법이 일반적이나, 그 구현의 복잡성, 수반되는 처리지연 등으로 실시간 멀티미디어 네트워킹에 단점을 갖고 있다. 본 논문에서 제안한 알고리즘은 화질과 구현의 복잡도를 고려하여 비트율 변환을 압축영역에서 행하며, 특히 실시간 처리에 주안점을 두었다. 제안한 알고리즘은 IS0/1EC의 MPEG-2 동영상을 대상으로 소프트웨어로 구현하였으며, 화소영역의 처리방법을 포함하는 기존의 비트율 변환방법에 비해 구현의 복잡도, 처리시간에 장점을 갖는다.

  • PDF