• 제목/요약/키워드: Audio Indexing

검색결과 41건 처리시간 0.025초

변형에 강인한 내용기반 동영상 검색방법 (Modification-robust contents based motion picture searching method)

  • 최갑근;김순협
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.215-217
    • /
    • 2008
  • 동영상 내용검색을 위해서 가장 많이 사용되고 있는 기술은 컷 추출에 의한 내용비교 방법이다. 그러나 컷 추출을 위해 사용되는 CHD(Color Histogram Difference)나 ECR(Edge Change Ratio)등은 영상물의 Cropping, Resizing Low bit rate등의 변화에 대해 대단히 취약하다. 본 방법은 이러한 변형에 강인하도록 상대적으로 변형이 적은 오디오정보를 이용하여 Indexing과 Searching을 수행하였다. 특히 변형에 강인한 Searching을 위해 오디오의 장면(Scene)을 검출하였고 장면을 중심으로 Time-frequency domain에서 각각의 Frequency bin. 에 대한 스펙트럴 파워를 파워임계값을 중심으로 이진화(Binary)하였다. 제안된 방법으로 Cropping, clipping, Lowbit rate, Additive Frame 등의 변형본에 대한 검색을 시도한 결과 False posit ive Error 와 True Negative Error 에 대해 각각 1%미만의 오탐지 결과를 얻었다.

  • PDF

오디오 특징계수를 이용한 시계열 패턴 인덱스 화일의 뮤지션 검색 기법 (Musician Search in Time-Series Pattern Index Files using Features of Audio)

  • 김영인
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.69-74
    • /
    • 2006
  • 최근 멀티미디어 내용기반 검색 기술의 발달로 음악 정보 검색 기술 중 하나인 오디오 특징을 이용한 뮤지션 검색에 대한 관심이 증대되고 있다. 그러나 이와 관련한 음악 데이타베이스의 인덱싱 기법에 대한 연구는 부족한 실정이다. 본 논문에서는 시계열 패턴 인덱스 화일의 공간 분할 방법을 이용하여 오디오 특징 데이터를 사용한 뮤지션 검색 기법을 제시한다. 뮤지션 탐색을 위하여 오디오의 특징을 사용하며, 유사한 후보 뮤지션의 곡을 탐색하기 위한 인덱싱 기법으로 시계열 패턴 인덱스 화일을 사용한다. 실험 결과, 윤번 공간 분할 방법을 사용한 시계열 패턴 인덱스 화일이 뮤지션 검색에 있어서 효율적임을 보였다.

  • PDF

Speaker Tracking Using Eigendecomposition and an Index Tree of Reference Models

  • Moattar, Mohammad Hossein;Homayounpour, Mohammad Mehdi
    • ETRI Journal
    • /
    • 제33권5호
    • /
    • pp.741-751
    • /
    • 2011
  • This paper focuses on online speaker tracking for telephone conversations and broadcast news. Since the online applicability imposes some limitations on the tracking strategy, such as data insufficiency, a reliable approach should be applied to compensate for this shortage. In this framework, a set of reference speaker models are used as side information to facilitate online tracking. To improve the indexing accuracy, adaptation approaches in eigenvoice decomposition space are proposed in this paper. We believe that the eigenvoice adaptation techniques would help to embed the speaker space in the models and hence enrich the generality of the selected speaker models. Also, an index structure of the reference models is proposed to speed up the search in the model space. The proposed framework is evaluated on 2002 Rich Transcription Broadcast News and Conversational Telephone Speech corpus as well as a synthetic dataset. The indexing errors of the proposed framework on telephone conversations, broadcast news, and synthetic dataset are 8.77%, 9.36%, and 12.4%, respectively. Using the index tree structure approach, the run time of the proposed framework is improved by 22%.

연속적 I/O와 클러스터 인덱싱 구조를 이용한 이미지 데이타 검색 연구 (A study on searching image by cluster indexing and sequential I/O)

  • 김진옥;황대준
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.779-788
    • /
    • 2002
  • 이미지, 비디오, 오디오와 같은 멀티미디어 데이터들은 텍스트기반의 데이터에 비하여 대용량이고 비정형적인 특성때문에 검색이 어렵다. 또한 멀티미디어 데이터의 특징은 행렬이나 벡터의 형태로 표현되기 때문에 완전일치 검색이 아닌 유사 검색을 수행하여 원하는 이미지와 유사한 이미지를 검색해야 한다. 본 논문에서는 멀티미디어 데이터 검색에 클러스터링과 인덱싱 기법을 같이 적용하여 유사한 이미지는 인접 디스크에 클러스터하고 이 클러스터에 접근하는 인덱스를 구축함으로써 이미지 근처의 클러스터를 찾아 빠른 검색 결과를 제공하는 유사 검색방법을 제시한다. 본 논문에서는 트리 유사 구조의 인덱스 대신 해싱 방법을 이용하며 검색시 I/O 시간을 줄이기 위해 오브젝트를 가진 클러스터 위치를 찾는데 한번의 I/O를 사용하고 이 클러스터를 읽기 위해 연속적인 파일 I/O를 사용하여 클러스터를 찾는 비용을 최소화한다. 클러스터 인덱싱 접근은 클러스터링을 생성하는 알고리즘과 해싱 기법의 인덱싱을 이용함으로써 고차원 데이터가 갖는 차원의 문제를 해결하며 클러스터링 또는 인덱싱 만을 이용하는 내용기반의 이미지 검색보다 효율적인 검색 적합성을 보인다.

Application of Speech Recognition with Closed Caption for Content-Based Video Segmentations

  • Son, Jong-Mok;Bae, Keun-Sung
    • 음성과학
    • /
    • 제12권1호
    • /
    • pp.135-142
    • /
    • 2005
  • An important aspect of video indexing is the ability to segment video into meaningful segments, i.e., content-based video segmentation. Since the audio signal in the sound track is synchronized with image sequences in the video program, a speech signal in the sound track can be used to segment video into meaningful segments. In this paper, we propose a new approach to content-based video segmentation. This approach uses closed caption to construct a recognition network for speech recognition. Accurate time information for video segmentation is then obtained from the speech recognition process. For the video segmentation experiment for TV news programs, we made 56 video summaries successfully from 57 TV news stories. It demonstrates that the proposed scheme is very promising for content-based video segmentation.

  • PDF

멀티미디어 검색 시스템의 설계 및 구현 (Design and Implementation of Multimedia Retrieval a System)

  • 노승민;황인준
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권5호
    • /
    • pp.494-506
    • /
    • 2003
  • 최근 들어 멀티미디어 정보의 사용량이 증가하면서 멀티미디어 데이타베이스로부터 오디오나 비디오, 이미지 둥 다양한 형태의 멀티미디어 컨텐츠를 효과적으로 찾아내는 멀티미디어 검색 시스템의 필요성이 증가하였다. 본 논문에서는 기존의 주석 및 내용 기반 검색 기법을 상호 보완하고 효과적인 멀티미디어 데이타 검색을 지원하는 XML 기반의 새로운 검색 기법과 이를 위한 데이타 모델을 제시한다. 이미지 및 비디오에 대한 데이타 모델은 MPEG-7 표준에 정의되어 있는 멀티미디어 기술 구조(MDS)와 기술 정의 언어인 XML Schema를 사용하여 멀티미디어 데이타의 특성 및 계층구조를 표현하였고 오디오 데이타의 경우 음향 특징들로부터 추출된 음높이를 분석하여 UDR 스트링으로 변환하고 자주 검색된 멜로디의 관리를 통해 검색 성능을 향상하였다. 본 논문에서는 제안된 모델을 기반으로 검색 시스템을 구현하였으며 다양한 실험을 통하여 성능 평가를 하였다.

Multimodal Approach for Summarizing and Indexing News Video

  • Kim, Jae-Gon;Chang, Hyun-Sung;Kim, Young-Tae;Kang, Kyeong-Ok;Kim, Mun-Churl;Kim, Jin-Woong;Kim, Hyung-Myung
    • ETRI Journal
    • /
    • 제24권1호
    • /
    • pp.1-11
    • /
    • 2002
  • A video summary abstracts the gist from an entire video and also enables efficient access to the desired content. In this paper, we propose a novel method for summarizing news video based on multimodal analysis of the content. The proposed method exploits the closed caption data to locate semantically meaningful highlights in a news video and speech signals in an audio stream to align the closed caption data with the video in a time-line. Then, the detected highlights are described using MPEG-7 Summarization Description Scheme, which allows efficient browsing of the content through such functionalities as multi-level abstracts and navigation guidance. Multimodal search and retrieval are also within the proposed framework. By indexing synchronized closed caption data, the video clips are searchable by inputting a text query. Intensive experiments with prototypical systems are presented to demonstrate the validity and reliability of the proposed method in real applications.

  • PDF

한국어 폐쇄자막을 이용한 지식기반 비디오 검색 시스템 (Knowledge-based Video Retrieval System Using Korean Closed-caption)

  • 조정원;정승도;최병욱
    • 전자공학회논문지CI
    • /
    • 제41권3호
    • /
    • pp.115-124
    • /
    • 2004
  • 저 수준의 특징정보를 사용하는 내용기반 검색만으로 지능형 정보검색을 위한 사용자의 개념적인 요구에 부합하는 검색결과를 제공하기 어렵다. 일반적으로 비디오 데이터에는 동영상 정보와 함께 음성, 음향 등의 오디오 정보와 폐쇄자막 등의 정보가 포함되어 있다. 지식기반 비디오 검색은 그러한 다양한 정보를 사용하여 자동색인을 수행하고 색인 데이터베이스를 구축한다. 이로써 사용자는 보다 개념적인 검색 요구에 부합하는 검색 결과를 얻을 수 있다. 본 논문에서는 비디오 내의 한국어 폐쇄자막을 이용한 지식기반 비디오 검색 시스템을 제안한다. 한국어 폐쇄자막은 형태소 분석 수준에서 자동색인되며, 색인 데이터베이스를 이용하여 키워드 질의를 통해 비디오를 검색할 수 있다. 실험에서 한국어 속기시스템으로 제작된 폐쇄자막이 포함된 뉴스비디오에 적용하여, 제안하는 방법이 사용자의 보다 의미 있는 개념적인 요구에 부합하는 검색 결과를 얻을 수 있음을 확인하였다.

DWT를 이용한 오디오 데이터 인덱싱 및 검색 (Audio Data Indexing and Retrieval Using DWT)

  • 조용춘;이배호
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.761-764
    • /
    • 2001
  • 본 논문은 오디오 데이터의 인덱싱과 검색을 위해 DWT를 이용한 방법을 제안하였다. 오디오 데이터는 그 자신이 가지고 있는 다양한 특성 때문에 좋은 검색 효율을 위한 인덱스를 구성하기가 쉽지 않다. 신호 및 영상처리에서 각광받고 있는 DWT를 이용한 인덱스는 웨이블렛 변환이 가지고 있는 여러 특징들로 인해 데이터를 블록으로 나누지 않은 상태에서의 인덱싱과 검색을 가능케 한다. 즉 웨이블렛의 마지막 단계의 고주파 부분과 저주과 부문에서 고주파 부분은 String Watching 기법으로 블록을 결정하고, 저주파 부분은 결정된 블록에 대해서 세부적인 비교를 한다. 실험은 적절한 비교 계수를 결정하기 위한 실험과, 질의 길이의 변화에 따른 검색율의 변화를 보여준다. 마지막 결론에서는 본 논문에서 제안한 방법을 이용한 발전방향과 응용에 대해서 서술한다.

  • PDF

허밍 기반 음원 검색을 위한 오디오 특징 시퀀스 데이터 색인 기법 개발 (Development of Audio Feature Sequence Data Indexing Method for Query by Singing and Humming)

  • 송재종;임태범
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.381-384
    • /
    • 2013
  • 본 논문에서는 허밍기반 음원 검색 시스템을 위한 오디오 특징 시퀀스 데이터 색인 기법을 제안한다. 우선 Query-by-Singing/Humming (QbSH) 시스템의 특징 데이터베이스를 생성하기 위하여 MP3 와 같은 다성음원에서 주요 멜로디를 추출하여 시퀀스데이터를 생성하고, 고속 검색을 지원하기 위한 시퀀스데이터를 색인화한다. 본 논문에서는 최소 Dynamic Time Warping (DTW) 거리 기법, 시퀀스 추상화 기법, 상한 값 기반 DTW 기법과 같이 세 가지의 시퀀스 데이터의 색인화 기술을 제시하고 각각에 대한 문제점을 파악하고, 성능을 평가한다. 이를 통하여 향상된 검색 시간과 검색 정확도를 얻을 수 있다.

  • PDF