• Title/Summary/Keyword: 오디오 검색

Search Result 119, Processing Time 0.025 seconds

Development of Audio Feature Sequence Data Indexing Method for Query by Singing and Humming (허밍 기반 음원 검색을 위한 오디오 특징 시퀀스 데이터 색인 기법 개발)

  • Song, Chai-Jong;Lim, Tea-Buem
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.06a
    • /
    • pp.381-384
    • /
    • 2013
  • 본 논문에서는 허밍기반 음원 검색 시스템을 위한 오디오 특징 시퀀스 데이터 색인 기법을 제안한다. 우선 Query-by-Singing/Humming (QbSH) 시스템의 특징 데이터베이스를 생성하기 위하여 MP3 와 같은 다성음원에서 주요 멜로디를 추출하여 시퀀스데이터를 생성하고, 고속 검색을 지원하기 위한 시퀀스데이터를 색인화한다. 본 논문에서는 최소 Dynamic Time Warping (DTW) 거리 기법, 시퀀스 추상화 기법, 상한 값 기반 DTW 기법과 같이 세 가지의 시퀀스 데이터의 색인화 기술을 제시하고 각각에 대한 문제점을 파악하고, 성능을 평가한다. 이를 통하여 향상된 검색 시간과 검색 정확도를 얻을 수 있다.

  • PDF

A LECTURE SEARCH SYSTEM USING RELEVANT INFORMATION AND SPEECH TRANSCRIPTION (보조 자료와 음성 전사를 사용한 강의 검색 시스템)

  • Lee, Donghyeon;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.140-144
    • /
    • 2008
  • 음성 오디오 검색 시스템을 구축하기 위해서는 몇 가지 과정이 필요하다. 첫 번째 과정이 음성 인식기를 이용하여 음성 오디오를 텍스트 형태로 표현하는 것이다. 하지만, 음성 인식기에서 수반되는 음성 인식 오류를 피할 수는 없다. 음성 인식 오류를 최소화하기 위해서 음성 인식 출력의 lattice를 색인(index)해야 하는데, 보다 효과적인 처리를 위하여 압축된 형태를 사용한다. 본 연구에서는 특별히 한국어 강의를 대상으로 검색 시스템을 구축했다. 강의에서는 특별히 관련된 자료를 쉽게 구할 수 있는 데, 이런 자료를 언어 모델에 이용하여 음성 인식 성능을 향상 시킬 수 있다. 또한, 강의 자료를 이용한 추가 색인 테이블(index table)을 생성하여 검색 성능 향상에 도움을 준다. 실험에서 고등학교 과정 수학 강의 동영상을 이용하여 자동화된 강의 검색 시스템을 구축하고, 보조 자료를 이용해 성능을 향상 시키는 것을 보인다.

  • PDF

XCRAB : A Content and Annotation-based Multimedia Indexing and Retrieval System (XCRAB :내용 및 주석 기반의 멀티미디어 인덱싱과 검색 시스템)

  • Lee, Soo-Chelo;Rho, Seung-Min;Hwang, Een-Jun
    • The KIPS Transactions:PartB
    • /
    • v.11B no.5
    • /
    • pp.587-596
    • /
    • 2004
  • During recent years, a new framework, which aims to bring a unified and global approach in indexing, browsing and querying various digital multimedia data such as audio, video and image has been developed. This new system partitions each media stream into smaller units based on actual physical events. These physical events within oath media stream can then be effectively indexed for retrieval. In this paper, we present a new approach that exploits audio, image and video features to segment and analyze the audio-visual data. Integration of audio and visual analysis can overcome the weakness of previous approach that was based on the image or video analysis only. We Implement a web-based multi media data retrieval system called XCRAB and report on its experiment result.

Detection of Keysound for Indexing ana Retrieval of Multimedia information (멀티미디어 정보의 색인 및 검색을 위한 핵심 사운드 검출)

  • 이용주;배건성
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.759-762
    • /
    • 2000
  • 멀티미디어 정보의 보다 효율적인 검색을 위해서는 비디오 요약정보의 생성 및 색인 작업이 필요하며, 이러한 요약정보를 만들기 위해서는 많은 시간과 비용이 소요된다. 스포츠 비디오 프로그램의 요약정보를 만들 때 오디오 신호를 이용하여 주요 장면을 검출할 경우 이러한 시간과 비용을 줄일 수 있다. 본 연구에서는 축구경기 비디오에서 주요장면을 나타내는 핵심 사운드로 주심의 호르라기 소리 및 아나운서의 "슛" 음성을 정의하고 이를 오디오 신호에서 검출하는 방법에 대해 연구하였다.

  • PDF

Audio fingerprint matching based on a power weight (파워 가중치를 이용한 오디오 핑거프린트 정합)

  • Seo, Jin Soo;Kim, Junghyun;Kim, Hyemi
    • The Journal of the Acoustical Society of Korea
    • /
    • v.38 no.6
    • /
    • pp.716-723
    • /
    • 2019
  • Fingerprint matching accuracy is essential in deploying a music search service. This paper deals with a method to improve fingerprint matching accuracy by utilizing an auxiliary information which is called power weight. Power weight is an expected robustness of each hash bit. While the previous power mask binarizes the expected robustness into strong and weak bits, the proposed method utilizes a real-valued function of the expected robustness as weights for fingerprint matching. As a countermeasure to the increased storage cost, we propose a compression method for the power weight which has strong temporal correlation. Experiments on the publicly-available music datasets confirmed that the proposed power weight is effective in improving fingerprint matching performance.

Audio Fingerprinting Based Spatial Audio Reproduction System (오디오 핑거프린팅기반 입체음향 재현 시스템)

  • Ryu, Sang Hyeon;Kim, Hyoung-Gook
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.50 no.12
    • /
    • pp.217-223
    • /
    • 2013
  • This paper proposes a spatial audio reproduction system based on audio fingerprinting that combines the audio fingerprinting and the spatial audio processing. In the proposed system, a salient audio peak pair fingerprint based on modulation spectrum improves the accuracy of the audio fingerprinting system in real noisy environments and spatial audio information as metadata gives a listener a sensation of being listening to the sound in the space, where the sound is actually recorded.

Content-based music retrieval using temporal characteristics (Temporal 특성을 이용한 내용기반 음악 정보 검색)

  • Park Chuleui;Park Mansoo;Kim Sungtak;Kim Hoi-Rin;Kang Kyeongok
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.299-302
    • /
    • 2004
  • 본 논문에서는 내용 기반 음악 정보 검색에 음악의 temporal 특징을 이용한 검색 방법을 제안한다. 방송환경에 적용하기 위해 검색 범위를 드라마나 영화의 배경 음악으로 사용되는 OST 앨범으로 제한하였다. 오디오의 특징 벡터로써 UFCC(Mel Frequency Cepstral Coefficient)를 사용하였으며 이 특징 벡터를 이용하여 VQ(Vector Quantization)로 부호화한 codeword로 오디오 신호의 시변 특성을 표현한다. 본 논문에서는 제안한 음악의 temporal 특성을 반영한 codeword-sequence를 이용하는 방법을 pitch-histogram을 기반으로 하는 방법 및 MFCC codeword-histogram을 기반으로 하는 방법과 비교하고 성능 개선을 보여주었다.

  • PDF

Automatic Music Summarization Method by using the Bit Error Rate of the Audio Fingerprint and a System thereof (오디오 핑거프린트의 비트에러율을 이용한 자동 음악 요약 기법 및 시스템)

  • Kim, Minseong;Park, Mansoo;Kim, Hoirin
    • Journal of Korea Multimedia Society
    • /
    • v.16 no.4
    • /
    • pp.453-463
    • /
    • 2013
  • In this paper, we present an effective method and a system for the music summarization which automatically extract the chorus portion of a piece of music. A music summary technology is very useful for browsing a song or generating a sample music for an online music service. To develop the solution, conventional automatic music summarization methods use a 2-dimensional similarity matrix, statistical models, or clustering techniques. But our proposed method extracts the music summary by calculating BER(Bit Error Rate) between audio fingerprint blocks which are extracted from a song. But we could directly use an enormous audio fingerprint database which was already saved for a music retrieval solution. This shows the possibility of developing a various of new algorithms and solutions using the audio fingerprint database. In addition, experiments show that the proposed method captures the chorus of a song more effectively than a conventional method.

A Study on the Interactive Effect of Spoken Words and Imagery not Synchronized in Multimedia Surrogates for Video Gisting (비디오 의미 파악을 위한 멀티미디어 요약의 비동시적 오디오와 이미지 정보간의 상호 작용 효과 연구)

  • Kim, Hyun-Hee
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.45 no.2
    • /
    • pp.97-118
    • /
    • 2011
  • The study examines the interactive effect of spoken words and imagery not synchronized in audio/image surrogates for video gisting. To do that, we conducted an experiment with 64 participants, under the assumption that participants would better understand the content of videos when viewing audio/image surrogates rather than audio or image surrogates. The results of the experiment showed that overall audio/image surrogates were better than audio or image surrogates for video gisting, although the unsynchronized multimedia surrogates made it difficult for some participants to pay attention to both audio and image when the content they present is very different.

Performance Analysis of the Time-series Pattern Index File for Content-based Music Genre Retrieval (내용기반 음악장르 검색에서 시계열 패턴 인덱스 화일의 성능 분석)

  • Kim, Young-In;Kim, Seon-Jong
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.11 no.5
    • /
    • pp.18-27
    • /
    • 2006
  • Rapid increase of the amount of music data demands for a new method that allows efficient similarity retrieval of music genre using audio features in music databases. To build this similarity retrieval, an indexing techniques that support audio features as a time-series pattern and data mining technologies are needed. In this paper, we address the development of a system that retrieves similar genre music based on the indexing techniques. We first propose the structure of content-based music genre retrieval system based on the time-series pattern index file and data mining technologies. In addition, we implement the time-series pattern index file using audio features and present performance analysis of the time-series pattern index file for similar genre retrieval. The experiments are performed on real data to verify the performance of the proposed method.

  • PDF