• 제목/요약/키워드: visual-audio

검색결과 424건 처리시간 0.021초

XCRAB :내용 및 주석 기반의 멀티미디어 인덱싱과 검색 시스템 (XCRAB : A Content and Annotation-based Multimedia Indexing and Retrieval System)

  • 이수철;노승민;황인준
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.587-596
    • /
    • 2004
  • 최근들어 오디오, 비디오와 이미지 같은 다양한 디지털 멀티미디어 데이터의 인덱싱, 브라우징과 질의를 위한 새로운 형태의 시스템이 개발되었다. 이러한 시스템은 각 미디어 스트림을 실제 물리적 이벤트에 따라서 작은 유닛단위로 나누고, 물리적 이벤트들을 검색을 위해서 효율적으로 인덱스화 시킨다. 본 논문에서는 오디오-비주얼 데이터의 분석과 세그멘테이션을 위해서 각 데이터가 가지고 있는 오디오, 이미지, 비디오 특징을 이용하는 새로운 방법을 사용한다. 이것은 이미지나 비디오만을 분석했던 이전의 방법들을 문제점을 해결 할 수 있다. 본 논문에서는 이와 같은 방법을 이용하여 XCRAB이라고 불리는 웹 기반 멀티미디어 검색 시스템을 구현하였고, 성능평가를 위해서 여러가지 질의의 조합을 이용하여 실험을 하였다.

An Optimized e-Lecture Video Search and Indexing framework

  • Medida, Lakshmi Haritha;Ramani, Kasarapu
    • International Journal of Computer Science & Network Security
    • /
    • 제21권8호
    • /
    • pp.87-96
    • /
    • 2021
  • The demand for e-learning through video lectures is rapidly increasing due to its diverse advantages over the traditional learning methods. This led to massive volumes of web-based lecture videos. Indexing and retrieval of a lecture video or a lecture video topic has thus proved to be an exceptionally challenging problem. Many techniques listed by literature were either visual or audio based, but not both. Since the effects of both the visual and audio components are equally important for the content-based indexing and retrieval, the current work is focused on both these components. A framework for automatic topic-based indexing and search depending on the innate content of the lecture videos is presented. The text from the slides is extracted using the proposed Merged Bounding Box (MBB) text detector. The audio component text extraction is done using Google Speech Recognition (GSR) technology. This hybrid approach generates the indexing keywords from the merged transcripts of both the video and audio component extractors. The search within the indexed documents is optimized based on the Naïve Bayes (NB) Classification and K-Means Clustering models. This optimized search retrieves results by searching only the relevant document cluster in the predefined categories and not the whole lecture video corpus. The work is carried out on the dataset generated by assigning categories to the lecture video transcripts gathered from e-learning portals. The performance of search is assessed based on the accuracy and time taken. Further the improved accuracy of the proposed indexing technique is compared with the accepted chain indexing technique.

차량 시스템 개발 및 운전자 인자 연구를 위한 실시간 차량 시뮬레이터의 개발 (Development of a Real-Time Driving Simulator for Vehicle System Development and Human Factor Study)

  • 이승준
    • 한국자동차공학회논문집
    • /
    • 제7권7호
    • /
    • pp.250-257
    • /
    • 1999
  • Driving simulators are used effectively for human factor study, vehicle system development and other purposes by enabling to reproduce actural driving conditions in a safe and tightly controlled enviornment. Interactive simulation requries appropriate sensory and stimulus cuing to the driver . Sensory and stimulus feedback can include visual , auditory, motion, and proprioceptive cues. A fixed-base driving simulator has been developed in this study for vehicle system developmnet and human factor study . The simulator consists of improved and synergistic subsystems (a real-time vehicle simulation system, a visual/audio system and a control force loading system) based on the motion -base simulator, KMU DS-Ⅰ developed for design and evaluation of a full-scale driving simulator and for driver-vehicle interaction.

  • PDF

의미적 속성을 가진 시.청각자극의 SOA가 시청각 통합 현상에 미치는 영향 -중복 표적 효과와 시각 우세성 효과를 중심으로- (The Influence of SOA between the Visual and Auditory Stimuli with Semantic Properties on Integration of Audio-Visual Senses -Focus on the Redundant Target Effect and Visual Dominance Effect-)

  • 김보성;이영창;임동훈;김현우;민윤기
    • 감성과학
    • /
    • 제13권3호
    • /
    • pp.475-484
    • /
    • 2010
  • 본 연구는 의미적 속성을 가진 시각과 청각자극 간의 SOA(stimulus onset asynchrony)가 시청각 통합 현상에 미치는 영향을 살펴보고자 하였다. 시청각 통합 현상 중 표적을 의미하는 자극의 양상이 두 개 이상인 경우 표적에 반응이 빠르고 정확한 중복 표적 효과(redundant target effect)와 청각 자극에 비해 시각 자극에 대한 반응이 빠르고 정확한 시각 우세성 효과(visual dominance effect)를 중심으로 살펴보기 위해서 시각과 청각 단일 양상 표적 조건과 다중 양상 표적 조건을 구성하여 조건들의 반응시간과 정확률을 살펴보았다. 그 결과, 시 청각자극의 SOA가 변하더라도 중복 표적 효과는 이에 영향을 받지 않는 것으로 나타났으며, 두 자극 간의 SOA가 100ms 이상인 조건에서는 청각자극의 우세현상이 나타났다. 이러한 결과는 중복 표적 효과의 경우 두 양상자극 간의 SOA가 변하더라도 안정적으로 지속된다는 점을 시사하며, 청각자극의 경우 시각자극에 비해 약 100ms 이상의 시간적 이득조건이 마련되었을 때에 비로소 우세한 정보처리의 행동결과가 도출될 수 있음을 시사한다.

  • PDF

시각 음성인식을 위한 영상 기반 접근방법에 기반한 강인한 시각 특징 파라미터의 추출 방법 (Robust Feature Extraction Based on Image-based Approach for Visual Speech Recognition)

  • 송민규;;민소희;김진영;나승유;황성택
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.348-355
    • /
    • 2010
  • 음성 인식 기술의 발전에도 불구하고 잡음 환경하의 음성 인식은 여전히 어려운 분야이다. 이를 해결하기 위한 방안으로 음성 정보 이외에 시각 정보를 이용한 시각 음성인식에 대한 연구가 진행되고 있다. 하지만 시각 정보 또한 음성과 마찬가지로 주위 조명 환경이나 기타, 다른 요인에 따른 영상잡음이 존재하며, 이런 영상잡음은 시각 음성 인식의 성능 저하를 야기한다. 따라서 인식 성능 향상을 위해 시각 특징 파라미터를 어떻게 추출하느냐는 하나의 관심분야이다. 본 논문에서는 HMM기반 시각 음성인식의 인식 성능 향상을 위한 영상 기반 접근방법에 따른 시각 특징 파라미터의 추출 방법에 대하여 논하고 그에 따른 인식성능을 비교하였다. 실험을 위해 105명에 화자에 대한 62단어의 데이터베이스를 구축하고, 이를 이용하여 히스토그램 매칭, 입술 접기, 프레임 간 필터링 기법, 선형마스크, DCT, PCA 등을 적용하여 시각 특징 파라미터를 추출하였다. 실험결과, 제안된 방법에 의해 추출된 특징 파라미터를 인식기에 적용하였을 때의 인식 성능은 기본 파라미터에 비해 약21%의 성능 향상이 됨을 알 수 있다.

시청각 유형 보존포맷 선정기준 및 권고포맷 연구 - 오디오 유형을 중심으로 - (Research on Audiovisual Type Preservation Format Selection Criteria and Recommended Formats: Focusing on Audio Types)

  • 전한역;양동민
    • 한국비블리아학회지
    • /
    • 제35권1호
    • /
    • pp.273-300
    • /
    • 2024
  • 전자기록 환경에서는 아날로그 기록물의 디지털화 방안에 대한 논의와 함께, 전자적으로 생산, 접수된 기록물에 대한 유형별 보존전략 마련이 중요하게 인식된다. 같은 맥락에서, 문서유형 외 데이터세트, 시청각 유형 전자기록물의 장기보존을 목표로 보존포맷 선정체계를 적용하기 위한 논의가 필요하다. 시청각 기록물은 이미지, 오디오, 비디오와 같이 매체별 특성에 적합한 보존전략을 적용해야 한다. 본 연구는 시청각 중 오디오 유형 전자기록물의 보존포맷 선정을 위한 고유기준을 문헌 조사에 바탕을 둔 필수보존속성 분석을 통해 수립하고, 오디오 유형 보존포맷 적합성 평가항목을 구성하고 이를 적용한 결과를 토대로 권고포맷을 제안했다.

Dimension-Reduced Audio Spectrum Projection Features for Classifying Video Sound Clips

  • Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • 제25권3E호
    • /
    • pp.89-94
    • /
    • 2006
  • For audio indexing and targeted search of specific audio or corresponding visual contents, the MPEG-7 standard has adopted a sound classification framework, in which dimension-reduced Audio Spectrum Projection (ASP) features are used to train continuous hidden Markov models (HMMs) for classification of various sounds. The MPEG-7 employs Principal Component Analysis (PCA) or Independent Component Analysis (ICA) for the dimensional reduction. Other well-established techniques include Non-negative Matrix Factorization (NMF), Linear Discriminant Analysis (LDA) and Discrete Cosine Transformation (DCT). In this paper we compare the performance of different dimensional reduction methods with Gaussian mixture models (GMMs) and HMMs in the classifying video sound clips.

한국어 화자의 영어 양순음 /b/와 순치음 /v/ 식별에서 시각 단서의 효과 (The Effect of Visual Cues in the Identification of the English Consonants /b/ and /v/ by Native Korean Speakers)

  • 김윤현;고성룡
    • 말소리와 음성과학
    • /
    • 제4권3호
    • /
    • pp.25-30
    • /
    • 2012
  • This study investigated whether native Korean listeners could use visual cues for the identification of the English consonants /b/ and /v/. Both auditory and audiovisual tokens of word minimal pairs in which the target phonemes were located in word-initial or word-medial position were used. Participants were instructed to decide which consonant they heard in $2{\times}2$ conditions: cue (audio-only, audiovisual) and location (word-initial, word-medial). Mean identification scores were significantly higher for audiovisual than audio-only condition and for word-initial than word-medial condition. Also, according to signal detection theory, sensitivity, d', and response bias, c were calculated based on both hit rates and false alarm rates. The measures showed that the higher identification rate in the audiovisual condition was related with an increase in sensitivity. There were no significant differences in response bias measures across conditions. This result suggests that native Korean speakers can use visual cues while identifying confusing non-native phonemic contrasts. Visual cues can enhance non-native speech perception.

가상환경의 인터랙티브 사운드를 위한 'EVE-SoundTM' 툴킷 ('EVE-SoundTM' Toolkit for Interactive Sound in Virtual Environment)

  • 남양희;성숙정
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.273-280
    • /
    • 2007
  • 본 논문은 2D/3D 가상환경에서 실감 사운드의 실시간 합성을 위한 $EVE-Sound^{TM}$ 툴킷의 설계와 개발결과를 제시한다. $EVE-Sound^{TM}$는 사운드 효과 계산에 필요한 장면요소를 간추리는 전처리 도구와 실시간 렌더링 API들로 구성되며, 다중 모달리티의 실감 재현을 필요로 하는 가상현실, 게임 등의 각종 인터랙티브 콘텐츠에서 사용자에게 고급 그래픽 환경을 허용하면서 동시에 사운드의 실시간 재현을 가능하게 함을 목표로 하였다. 3차원 사운드 계산이 매우 복잡하기 때문에 기존의 사운드 API들이 간단한 사운드 효과와 재생을 제공하는 것과 달리, 복잡한 가상환경에서 3차원 사운드의 원리를 반영하되 그 렌더링을 실시간화하는 데 초점을 두었고, 이를 위해 새로운 장면 간략화 및 공간사운드 계산 방법이 제시되었다. 응용 사례 및 실험, 알고리즘 분석을 통해 제시된 툴킷의 활용성 및 향상된 실시간성을 확인하였다.