• Title/Summary/Keyword: 오디오 정보 검색

Search Result 98, Processing Time 0.026 seconds

Music retrieval system implementation based on multi-level quantization scheme (다중 레벨 양자화 기법 기반의 음악 검색기 구현)

  • Song, Won-Sik;Park, Man-Soo;Kim, Hoi-Rin
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1182-1187
    • /
    • 2006
  • 본 논문은 필립스의 오디오 핑거프린트 추출 방식을 기반으로 기존의 방식이 주파수 영역을 너무 조밀하게 분석하는 특징을 지적하고 개선 방안으로 양자화를 통해 필터 뱅크의 에너지 변화율을 오디오 핑거프린트 추출시 반영하는 방법을 제안하였다. 또한 제안된 알고리즘을 사용하여 PDA 로 실제 어플리케이션을 구현하는 것을 목적으로 하고 있다. 제안된 방식은 필립스 방식과 동일한 메모리 크기를 유지하기 위하여 필터 뱅크의 개수를 33 개에서 17 개로 줄이고 필터 뱅크의 변화량을 2 비트로 할당하는 방식을 사용하였다. 변화량을 비트에 할당하기 위하여 음악 데이터 베이스로부터 추출된 각 밴드의 pmf를 통해 음악의 고유성을 최대로 증진 시킬 수 있는 임계치를 찾아내고 이것을 바탕으로 필터 뱅크의 변화량을 2 비트로 할당하였다. 이 같이 추출된 오디오 핑거프린트를 기반으로 PDA 와 음악 검색기 서버와의 통신을 이용하여 사용자가 요청한 쿼리 음악에 관련된 정보를 제공하는 시스템을 구현했다. 제안된 방식은 다양한 주변 잡음 환경에서 평가되어 기존의 필립스 방식 보다 성능 향상 물론 검색 속도 또한 개선되는 특징을 확인할 수 있었다.

  • PDF

High Precision Audio Contents Retrieval Method by Effective Melody Representation Method (효과적인 멜로디 표현법에 의한 고정도 오디오 콘텐츠 검색 기법)

  • Heo Sung-Phil;Suk Soo-Young;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.147-150
    • /
    • 2004
  • 허밍에 의한 고정도의 오디오 정보 검색 시스템을 구현하기 위해서는 시스템 측에서 발생 가능한 문제점과 유저 측에서 발생 가능한 문제점을 함께 고려한 해결 기법이 요구된다. 유저 측에서는 허밍시 자신의 애매한 기억에 기인한 음표의 삽입이나 탈락과 같은 가창실수, 허밍 도중에 음정 및 박자의 불안정한 변화, 같은 곡을 노래 부를지라도 개인차에 의해 상이한 음정과 템포 등이 발생한다. 또한 시스템 측에서 발생 가능한 사항으로써, 비록 허밍질의가 완벽하더라도 입력 허밍 신호를 멜로디 매칭에 이용되는 정확한 특징량의 추출 및 음악 표기로의 변환이 어렵다는 점이다. 종래의 오디오 정보 검색 시스템에서는 이러한 문제점을 해결하기 위해 다양한 멜로디 표현법과 매칭 방법이 제안되고 있으나, 성능 면에서는 아직 만족할 만한 결과를 얻지 못하고 있다. 따라서 이러한 문제점들을 해결하기 위해서 본 논문에서는 허밍 멜로디의 효과적인 표현방법과 시스템 및 유저 측에서 발생 가능한 오류에 강건한 멜로디 매칭 방법을 제안한다.

  • PDF

A LECTURE SEARCH SYSTEM USING RELEVANT INFORMATION AND SPEECH TRANSCRIPTION (보조 자료와 음성 전사를 사용한 강의 검색 시스템)

  • Lee, Donghyeon;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.140-144
    • /
    • 2008
  • 음성 오디오 검색 시스템을 구축하기 위해서는 몇 가지 과정이 필요하다. 첫 번째 과정이 음성 인식기를 이용하여 음성 오디오를 텍스트 형태로 표현하는 것이다. 하지만, 음성 인식기에서 수반되는 음성 인식 오류를 피할 수는 없다. 음성 인식 오류를 최소화하기 위해서 음성 인식 출력의 lattice를 색인(index)해야 하는데, 보다 효과적인 처리를 위하여 압축된 형태를 사용한다. 본 연구에서는 특별히 한국어 강의를 대상으로 검색 시스템을 구축했다. 강의에서는 특별히 관련된 자료를 쉽게 구할 수 있는 데, 이런 자료를 언어 모델에 이용하여 음성 인식 성능을 향상 시킬 수 있다. 또한, 강의 자료를 이용한 추가 색인 테이블(index table)을 생성하여 검색 성능 향상에 도움을 준다. 실험에서 고등학교 과정 수학 강의 동영상을 이용하여 자동화된 강의 검색 시스템을 구축하고, 보조 자료를 이용해 성능을 향상 시키는 것을 보인다.

  • PDF

An Exploratory Investigation on Multimedia Information Needs and Searching Behavior among College Students (멀티미디어 정보요구와 검색행태에 관한 탐색적 연구)

  • Chung, Eun-Kyung
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.46 no.3
    • /
    • pp.251-270
    • /
    • 2012
  • Multimedia needs and searching have become important in everyday life, especially in a younger generation. The characteristics of multimedia needs and searching behaviors are distinctive compared to textual information needs and searching behaviors in a wide variety of ways. By interviewing and observing multimedia needs and searching behaviors of college students from 20 areas in Seoul, this study aims to improve the understanding on users' multimedia needs and how users search multimedia. The findings are presented in terms of searching sources, multimedia needs, relevance criteria and searching barriers. For multimedia, the searching sources are found primarily as Naver and Google and the distinguished features are presented depending on the individual multimedia types. As multimedia needs are categorized into generic, specific and abstract, most of the needs are classified as specific needs rather than generic needs, but there exist differences depending on the types of multimedia. In addition, the aspects of relevance criteria and searching barriers are reflected with the characteristics of individual multimedia types. The findings of this study demonstrate that distinctive indexing and searching environments depending on the types of multimedia might be necessary to improve the quality of multimedia searching.

A Study on the Interactive Effect of Spoken Words and Imagery not Synchronized in Multimedia Surrogates for Video Gisting (비디오 의미 파악을 위한 멀티미디어 요약의 비동시적 오디오와 이미지 정보간의 상호 작용 효과 연구)

  • Kim, Hyun-Hee
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.45 no.2
    • /
    • pp.97-118
    • /
    • 2011
  • The study examines the interactive effect of spoken words and imagery not synchronized in audio/image surrogates for video gisting. To do that, we conducted an experiment with 64 participants, under the assumption that participants would better understand the content of videos when viewing audio/image surrogates rather than audio or image surrogates. The results of the experiment showed that overall audio/image surrogates were better than audio or image surrogates for video gisting, although the unsynchronized multimedia surrogates made it difficult for some participants to pay attention to both audio and image when the content they present is very different.

Similar Movie Retrieval using Low Peak Feature and Image Color (Low Peak Feature와 영상 Color를 이용한 유사 동영상 검색)

  • Chung, Myoung-Beom;Ko, Il-Ju
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.8
    • /
    • pp.51-58
    • /
    • 2009
  • In this paper. we propose search algorithm using Low Peak Feature of audio and image color value by which similar movies can be identified. Combing through entire video files for the purpose of recognizing and retrieving matching movies requires much time and memory space. Moreover, these methods still share a critical problem of erroneously recognizing as being different matching videos that have been altered only in resolution or converted merely with a different codec. Thus we present here a similar-video-retrieval method that relies on analysis of audio patterns, whose peak features are not greatly affected by changes in the resolution or codec used and image color values. which are used for similarity comparison. The method showed a 97.7% search success rate, given a set of 2,000 video files whose audio-bit-rate had been altered or were purposefully written in a different codec.

XCRAB : A Content and Annotation-based Multimedia Indexing and Retrieval System (XCRAB :내용 및 주석 기반의 멀티미디어 인덱싱과 검색 시스템)

  • Lee, Soo-Chelo;Rho, Seung-Min;Hwang, Een-Jun
    • The KIPS Transactions:PartB
    • /
    • v.11B no.5
    • /
    • pp.587-596
    • /
    • 2004
  • During recent years, a new framework, which aims to bring a unified and global approach in indexing, browsing and querying various digital multimedia data such as audio, video and image has been developed. This new system partitions each media stream into smaller units based on actual physical events. These physical events within oath media stream can then be effectively indexed for retrieval. In this paper, we present a new approach that exploits audio, image and video features to segment and analyze the audio-visual data. Integration of audio and visual analysis can overcome the weakness of previous approach that was based on the image or video analysis only. We Implement a web-based multi media data retrieval system called XCRAB and report on its experiment result.

Modification-robust contents based motion picture searching method (변형에 강인한 내용기반 동영상 검색방법)

  • Choi, Gab-Keun;Kim, Soon-Hyob
    • 한국HCI학회:학술대회논문집
    • /
    • 2008.02a
    • /
    • pp.215-217
    • /
    • 2008
  • The most widely used method for searching contents of mot ion picture compares contents by extracted cuts. The cut extract ion methods, such as CHD(Color Histogram Difference) or ECR(Edge Change Ratio), are very weak at modifications such as cropping, resizing and low bit rate. The suggested method uses audio contents for indexing and searching to make search be robust against these modification. Scenes of audio contents are extracted for modification-robust search. And based on these scenes, make spectral powers binary on each frequency bin. in the time-frequency domain. The suggested method shows failure rate less than 1% on the false positive error and the true negative error to the modified(using cropping, clipping, row bit rate, addtive frame) contents.

  • PDF

Content-based music retrieval using temporal characteristics (Temporal 특성을 이용한 내용기반 음악 정보 검색)

  • Park Chuleui;Park Mansoo;Kim Sungtak;Kim Hoi-Rin;Kang Kyeongok
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.299-302
    • /
    • 2004
  • 본 논문에서는 내용 기반 음악 정보 검색에 음악의 temporal 특징을 이용한 검색 방법을 제안한다. 방송환경에 적용하기 위해 검색 범위를 드라마나 영화의 배경 음악으로 사용되는 OST 앨범으로 제한하였다. 오디오의 특징 벡터로써 UFCC(Mel Frequency Cepstral Coefficient)를 사용하였으며 이 특징 벡터를 이용하여 VQ(Vector Quantization)로 부호화한 codeword로 오디오 신호의 시변 특성을 표현한다. 본 논문에서는 제안한 음악의 temporal 특성을 반영한 codeword-sequence를 이용하는 방법을 pitch-histogram을 기반으로 하는 방법 및 MFCC codeword-histogram을 기반으로 하는 방법과 비교하고 성능 개선을 보여주었다.

  • PDF

Integrated Multimedia Application Format for Active Video Browsing and Retrieval (효율적인 비디오 브라우징 및 검색을 위한 통합 멀티미디어 응용 형식)

  • Cho, Jun-Ho;Jin, Sung-Ho;Yang, Seung-Ji;Ro, Yong-Man
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.155-158
    • /
    • 2005
  • 본 논문에서는 MPEG 의 멀티미디어 응용 표준인 MAF(Multimedia Application Format)를 기반으로, 효율적인 비디오 콘텐츠의 검색 및 활용을 위한 통합 미디어 구조, 즉 비디오 MAF 를 제안한다. 제안하는 비디오 MAF 는 ISO 미디어 포맷을 기반으로 하고 단일의 비주얼 스트림과 다중 음성을 지원하기 위한 다수의 오디오 스트림, 내용기반의 정보를 포함하는 메타데이터, 그리고 비디오 콘텐츠의 대표 이미지를 동시에 포함하는 구조이다. 제안하는 파일포맷의 유용성을 검증하기 위해 비디오 MAF 로 생성 및 해석할 수 있는 부호기(encoder)와 복호기(decoder)를 설계하고 구현하여, 통합 미디어에 내재된 메타데이터를 이용한 효율적인 검색과 멀티트랙의 오디오 스트림을 활용한 다중 음성에 대한 지원이 가능함을 확인하였다. 또한 내재된 대표이미지는 비디오 콘텐츠에 대한 브라우징이 효과적으로 활용됨을 확인하였다.

  • PDF