• 제목/요약/키워드: Audio and Video

검색결과 803건 처리시간 0.025초

멀티미디어 통신을 위한 RTP 패킷 기반의 정밀한 오디오/비디오 동기화 기법 (A Precise Audio/Video Synchronization Scheme Based on RTP Packet for Multimedia Communication)

  • 서광덕;지원섭;정순흥
    • 한국멀티미디어학회논문지
    • /
    • 제12권5호
    • /
    • pp.653-663
    • /
    • 2009
  • 미디어 간의 동기화 기능 제공은 멀티미디어 통신 시스템 디자인을 위해 중요한 사항이다. 본 논문에서는 IP 네트워크를 통해 비디오와 오디오를 전송할 때 미디어 간의 정밀한 동기화를 제공할 수 있는 새로운 메카니즘을 제안한다. IP 네트워크를 통해 전송된 비디오와 오디오 신호 사이에 동기화를 제공하기 위해서 일반적으로 RTP와 RTCP 프로토콜을 활용한다. 정밀한 미디어 동기화 제공을 위해 본 논문에서는 비디오와 오디오를 RTP 패킷화하여 전송할 때 RTP 패킷의 헤더에 기록될 타임스탬프 정보로부터 유도해 낼 수 있는 NPT (Nonnal Play Time)를 이용한다. 제안된 방볍에서는 기폰의 일반적인 동기화 기법에서 요구하는 RTCP SR (sender report) 패킷과 같은 별도의 제어 정보의 전송 및 처리가 필요 없기 때문에 RTCP 패킷 전송을 위해 필요한 UDP 포트의 개수를 줄일 수 있고 네트워크에 유입되는 제어 트래픽의 량을 경감시킬 수 있는 중요한 장점이 있다.

  • PDF

DTV 화질향상을 위한 자막데이터 전송방법 (Caption Data Transmission Method for HDTV Picture Quality Improvement)

  • 한찬호
    • 한국멀티미디어학회논문지
    • /
    • 제20권10호
    • /
    • pp.1628-1636
    • /
    • 2017
  • Such as closed caption, ancillary data, electronic program guide(EPG), data broadcasting, and etc, increased data for service convenience cause to degrade video quality of high definition contents. This article propose a method to transfer the closed caption data of video contents without video quality degradation. Video quality degradation does not cause in video compression by the block image insertion of caption data in DTV essential hidden area. Additionally the proposed methods have advantage to synchronize video, audio, and caption from preinserted script without time delay.

Dimension-Reduced Audio Spectrum Projection Features for Classifying Video Sound Clips

  • Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • 제25권3E호
    • /
    • pp.89-94
    • /
    • 2006
  • For audio indexing and targeted search of specific audio or corresponding visual contents, the MPEG-7 standard has adopted a sound classification framework, in which dimension-reduced Audio Spectrum Projection (ASP) features are used to train continuous hidden Markov models (HMMs) for classification of various sounds. The MPEG-7 employs Principal Component Analysis (PCA) or Independent Component Analysis (ICA) for the dimensional reduction. Other well-established techniques include Non-negative Matrix Factorization (NMF), Linear Discriminant Analysis (LDA) and Discrete Cosine Transformation (DCT). In this paper we compare the performance of different dimensional reduction methods with Gaussian mixture models (GMMs) and HMMs in the classifying video sound clips.

오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘 (Automatic Indexing Algorithm of Golf Video Using Audio Information)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.441-446
    • /
    • 2009
  • 본 논문에서는 오디오 정보 분석을 이용하여 골프 통영상을 자동 색인하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 골프 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 Adaboost Cascade 분류방식을 통하여 스튜디오 환경에서의 아나운서의 음성구간, 선수이름이 TV 화면에 소개 될 때 수반되는 음악구간, 선수들의 플레이에 따라 반응하는 관중들의 박수 및 환호성 소리구간, 필드에서의 레포터의 음성구간, 바다나 바람 등의 필드환경 잡음 사운드구간 등의 5가지 구간으로 분류한다. 그리고 드라이브 샷, 아이런 샷과 퍼팅 샷 시에 발생하는 스윙 사운드는 onset 검출과 변조스펙트럼 검증 방법을 통해 검출되며, 관객의 박수 소리 구간과 결합하여 액션 및 하이라이트를 효율적으로 색인할 수 있게 한다. 제안된 알고리즘은 오디오 신호의 간단한 연산을 통해 의미를 지니고 있는 기본구조들을 검출하기 때문에 골프 동영상에서 사용자가 원하는 부분을 빠르게 브라우징하는 임베이디드 시스템에 적용가능하다.

비디오 문서의 구조 정보를 이용한 메타데이터 모델링에 관한 연구 (A study on Metadata Modeling using Structure Information of Video Document)

  • 권재길
    • 한국컴퓨터정보학회논문지
    • /
    • 제3권4호
    • /
    • pp.10-18
    • /
    • 1998
  • 비디오 정보는 전자도서관이나 WWW 및 주문형 비디오(VOD) 시스템과 같은 다양한 분야에서 중요한 요소로 부각되고 있으며, 시청각적(audio-visual), 시공간적(spatial-temporal), 의미적(semantics) 정보를 모두 포함하고 있어 사용자에게 다양한 형태의 정보를 제공할 수 있다. 또한 대부분의 경우 비디오 문서 전체를 검색하는 대신 비디오의 원하는 장면만을 검색할 수 있는 기능이 요구되고 있다. 따라서 본 논문에서는 이러한 검색의 다양성을 지원하기 위해 계층적으로 구성되어 있는 동영상 문서의 구조 정보를 이용하여 메타데이터를 모델링하고, 이를 통하여 동영상 문서를 통합적으로 다룰 수 있는 데이터베이스 스키마를 설계한다.

  • PDF

Implementation of Video Mirroring System based on IP

  • Lee, Seungwon;Kwon, Soonchul;Lee, Seunghyun
    • International journal of advanced smart convergence
    • /
    • 제11권2호
    • /
    • pp.108-117
    • /
    • 2022
  • The recent development of information and communication technology has a great impact on the audio/video industry. In particular, IP-based AoIP transmission technology and AVB technology are making changes in the audio/video market. Video signal transmission technology has been introduced to the market through a network, but it has not replaced the video switcher function. Video signals in the conference room or classroom are still controlled by the switching device. In order to switch input/output video devices, a cable that is not limited by distance must be connected to the switcher. In addition, the control of the switching device must be performed by a person who has received professional training. In this paper, it is a technology that can be operated even by non-experts by replacing complex video cables (RGB, DVI, HDMI, DP) with LAN cables and enabling IP-based video switching and transmission (Video Mirroring over IP: VMoIP) to replace video switcher equipment. We are going to do this study, I/O videos were controlled in the form of matrix and high-definition videos were transmitted without distortion, and VMoIP is expected to become the standard for video switching systems in the future.

다중모드 특징을 사용한 뉴스 동영상의 앵커 장면 검출 기법 (Multi-modal Detection of Anchor Shot in News Video)

  • 유성열;강동욱;김기두;정경훈
    • 방송공학회논문지
    • /
    • 제12권4호
    • /
    • pp.311-320
    • /
    • 2007
  • 본 논문에서는 뉴스 동영상 정보의 생성을 위해 뉴스 단위의 기준이 되는 앵커 장면을 효과적으로 검출하는 기법을 제안한다. 우선 뉴스 동영상의 오디오 및 비디오 구성 요소에 대한 관찰을 통하여 앵커 장면 검출에 적합한 기본적인 특징들을 선택하였다. 제안 알고리듬에서는 색인의 정확도를 높이기 위해 몇몇 오디오 특징과 함께 비디오 특징으로서 움직임 특징을 함께 이용하였으며, 전체적인 구조는 '오디오 정지 구간 검출', '오디오 클러스터 분류', 그리고 '움직임 활동도와의 매칭'의 3단계로 구성된다. MPEG-2 방식으로 부호화된 뉴스 동영상에 대한 실험을 통해 제안 알고리듬의 성능이 만족스러움을 확인하였다.

H.323 기반 VoIP 어플리케이션에서의 대역폭 향상을 위한 방법 (Bandwidth enhancement scheme for VoIP application based on H.323)

  • 김기훈;박동선;이승상;박종빈
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 통신소사이어티 추계학술대회논문집
    • /
    • pp.149-152
    • /
    • 2003
  • In this paper, we propose a scheme that applies to the VoIP application based on H.323 protocol to enhance the bandwidth efficiency. We multiplex the audio and video stream. In this scheme, audio frame is carried with video stream. And we applies not only multiplexing but also (in header compressing to the real audio/video stream to increase the bandwidth efficiency. With the multiplexing and RTP header compressing, we gain the bandwidth efficiency. In the finite network environment, We can assign bandwidth to other users who want to use other service. and other VoIP users. If we can apply the real time network situation to the our VoIP application, we can get more efficient performance.

  • PDF

오디오 신호에 기반한 음란 동영상 판별 (Classification of Phornographic Videos Based on the Audio Information)

  • 김봉완;최대림;이용주
    • 대한음성학회지:말소리
    • /
    • 제63호
    • /
    • pp.139-151
    • /
    • 2007
  • As the Internet becomes prevalent in our lives, harmful contents, such as phornographic videos, have been increasing on the Internet, which has become a very serious problem. To prevent such an event, there are many filtering systems mainly based on the keyword-or image-based methods. The main purpose of this paper is to devise a system that classifies pornographic videos based on the audio information. We use the mel-cepstrum modulation energy (MCME) which is a modulation energy calculated on the time trajectory of the mel-frequency cepstral coefficients (MFCC) as well as the MFCC as the feature vector. For the classifier, we use the well-known Gaussian mixture model (GMM). The experimental results showed that the proposed system effectively classified 98.3% of pornographic data and 99.8% of non-pornographic data. We expect the proposed method can be applied to the more accurate classification system which uses both video and audio information.

  • PDF

Red5와 Node.js를 활용한 실시간 음성 및 영상 시스템의 설계 및 구현 (Design and Implementation of Real-time Audio and Video System Using Red5 and Node.js)

  • 김혁진;곽우영
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.159-168
    • /
    • 2014
  • 웹은 문서를 공유하고 전달하는 방식이다. 그러나 현재는 음성/영상 데이터를 실시간으로 전달이 가능하며, 더욱 발전하여 사물과 연동되는 사물 인터넷으로 발전이 되고 있다. 기존의 음성/영상 데이터를 전달하는 프로그램의 경우 이기종 시스템과의 인터페이스, 확장성, 비용에서 많은 제약이 따른다. 본 논문에서는 음성/영상 전달 시스템이 이기종 운영체제의 제약을 개선하며, 기존 ERP 시스템과 호환성 및 확장성이 좋은 오픈소스 기반 시스템을 연구하여 개발한다. 프로그램은 이기종 시스템과의 인터페이스, 확장성을 고려한 방법론으로 프로그램을 설계 및 개발 하며, 시스템 구성 또한 오픈소스 기반의 비용절감과 확장성을 고려한 시스템으로 구성한다. 그러므로 연구 개발된 시스템은 확장성 및 인터페이스에서 우수함을 보이며, 시스템의 설계 및 개발 방법론은 영상회의, 영상채팅, 실시간 HMI(Human Machine Interface), 영상 SNS 등 여러 분야에서 활용이 가능하다.