• Title/Summary/Keyword: MPEG4

Search Result 1,150, Processing Time 0.031 seconds

모바일 단말에서 H.264/AVC기반 소프트웨어 디코더 적용방안 (Application of Software Decoder Based on H.264/AVC in Mobile Device)

  • 정사균;장옥배;유철중;김은미
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 춘계종합학술대회
    • /
    • pp.800-803
    • /
    • 2005
  • 모바일 단말 기반 동영상 서비스 기술에 관한 연구는 최근에 이르기까지 활발히 수행되고 있으며, 인터넷 기반에서 상용화가 가능한 기술 분야를 모바일에 응용하는 시도가 계속되고 있다. 모바일 단말 기반 영상서비스와 관련하여 최신형 모바일 단말에서는 관련기술을 하드웨어적으로 구현하거나 독자적 동영상 압축기술을 적용한 소프트웨어적 구현을 통하여 동영상 서비스를 제공하고 있다. 그러나 상당한 비율을 점하고 있는 기존 모바일 단말에서는 이들 하드웨어 칩이 없거나 추가적으로 애드온(add-on) 할 수 있는 표준적인 방법이 정해지지 않아 최신의 동영상 서비스 기술을 제공받을 수 없다. 따라서 시시각각으로 변화하는 모바일 동영상 서비스 환경에 적극적으로 대처하기 위해서는 소프트웨어적 해결방안이 필수적이라는 인식이 대두되고 있다. 본 연구에서는 모바일 단말에서 소프트웨어 디코더를 이용하여 기존 단말에서 뿐만 아니라 향후 최신단말에서도 적극적으로 대처하기 위하여 H.264/AVC 기반 소프트웨어 디코더를 모바일 단말에 적용하는 방안에 대하여 제안한다.

  • PDF

WCDMA망상에서 영상통화의 품질향상 기법 (Quality-Enhancement Technique on Video telephony over WCDMA Network)

  • 김요한;곽형원;신지태
    • 방송공학회논문지
    • /
    • 제13권1호
    • /
    • pp.25-33
    • /
    • 2008
  • 영상통화는 3G 이동통신망에서 가장 대표적인 서비스이며, 많은 여러 분야에서 영상통화의 품질을 향상시키기 위한 노력이 있다. 국내에서도 SKT와 KTF에서 3G와 3.5G망으로 WCDMA 방식을 채택해 전국서비스를 시작하였고, 이미 백만 명 이상의 많은 사용자를 확보한 상태이다. 본 논문에서는 WCDMA 망에서의 영상통화방법에 대해 알아보고, 영상품질을 향상시키기 위해 회선망의 물리계층 정보를 이용하여 영상코덱에서 손실확산을 최소화 할 수 있는 슬라이스 그룹을 만드는 새로운 전송기법에 대해 제안하고 실험을 통해 성능을 평가해 보았다. 실험결과, 기존의 방법들보다 좀 더 회선 망과 영상코덱 사이의 동기화가 잘 이루어지고, 이를 통해 손실의 확산을 줄일 수 있는 결과를 보여준다.

A Scalable Audio Coder for High-quality Speech and Audio Services

  • 이길호;이영한;김홍국;김도영;이미숙
    • 대한음성학회지:말소리
    • /
    • 제61호
    • /
    • pp.75-86
    • /
    • 2007
  • In this paper, we propose a scalable audio coder, which has a variable bandwidth from the narrowband speech bandwidth to the audio bandwidth and also has a bit-rate from 8 to 320 kbits/s, in order to cope with the quality of service(QoS) according to the network load. First of all, the proposed scalable coder splits bandwidth of the input audio into narrowband up to around 4 kHz and above. Next, the narrowband signals are compressed by a speech coding method compatible to an existing standard speech coder such as G.729, and the other signals whose bandwidth is above the narrowband are compressed on the basis of a psychoacoustic model. It is shown from the objective quality tests using the signal-to-noise ratio(SNR) and the perceptual evaluation of audio quality(PEAQ) that the proposed scalable audio coder provides a comparable quality to the MPEG-1 Layer III (MP3) audio coder.

  • PDF

3차원 객체를 사용하는 모바일 DMB 콘텐츠 및 템플릿의 제작을 지원하는 저작도구 개발 (Development of Authoring Tool for Mobile DMB Contents and Templates with 3D Objects)

  • 공신;박태진;임순범;최윤철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (B)
    • /
    • pp.178-183
    • /
    • 2007
  • 디지털 방송 기술의 비약적인 발전은 그 수요와 공급을 늘려가며 디지털 컨버전스 시대의 매력적인 산업으로 디지털 방송을 급부상시키고 있다. 이러한 발전 추세를 반영하듯 국내 아날로그 방송 서비스는 2012년을 기점으로 종료해야 하는 운명을 맞아 그 가속화는 더욱 빨라질 것으로 예상된다. 한편, 디지털 방송의 한 분야인 지상파 이동 멀티미디어 방송(Digital Multimedia Broadcasting, DMB) 역시 시류에 발맞추어 디지털 방송과 모바일 환경의 결합이라는 추가적인 이점을 안고, 몇 가지 서비스를 선보이고 있다. 하지만 이와 같은 이점에도 불구하고, DMB 서비스는 교육 혹은 광고 분야 등의 뚜렷한 수요의 증가를 가져오는 콘텐츠에 대한 제작과 배포가 쉽지 않고, 그 방법과 기준이 혼재하는 어려움으로 인하여 DMB가 지닌 무한한 가능성에 비해 크게 이슈화가 되지 못하고 있는 실정이다. 본 연구에서는 이러한 점에 착안하여, 지난 연구들에서 얻은 경험을 밑거름 삼아 기본적인 콘텐츠의 제작 및 배포는 물론 DMB 서비스에서 특화될 수 있는 콘텐츠를 더욱 쉴게 생성할 수 있으며, 기술적으로는 3차원 객체를 지원하는 부분을 보강하며, 편리한 인터페이스 등을 포함하는 저작 도구를 개발한다. 이를 위해 기존 연구들에서 다루어온 MPEG-4 Part 11 : BIFS(Binary Format for Scenes)를 기반으로 국내외에서 연구된 기존의 저작도구들을 비교하며, 새로운 아이디어들을 접목시켜 향후 DMB 서비스에서 효율적으로 쓰여 질 수 있는 저작도구를 개발한다.

  • PDF

Shape Description and Retrieval Using Included-Angular Ternary Pattern

  • Xu, Guoqing;Xiao, Ke;Li, Chen
    • Journal of Information Processing Systems
    • /
    • 제15권4호
    • /
    • pp.737-747
    • /
    • 2019
  • Shape description is an important and fundamental issue in content-based image retrieval (CBIR), and a number of shape description methods have been reported in the literature. For shape description, both global information and local contour variations play important roles. In this paper a new included-angular ternary pattern (IATP) based shape descriptor is proposed for shape image retrieval. For each point on the shape contour, IATP is derived from its neighbor points, and IATP has good properties for shape description. IATP is intrinsically invariant to rotation, translation and scaling. To enhance the description capability, multiscale IATP histogram is presented to describe both local and global information of shape. Then multiscale IATP histogram is combined with included-angular histogram for efficient shape retrieval. In the matching stage, cosine distance is used to measure shape features' similarity. Image retrieval experiments are conducted on the standard MPEG-7 shape database and Swedish leaf database. And the shape image retrieval performance of the proposed method is compared with other shape descriptors using the standard evaluation method. The experimental results of shape retrieval indicate that the proposed method reaches higher precision at the same recall value compared with other description method.

An Efficient Feature Point Extraction and Comparison Method through Distorted Region Correction in 360-degree Realistic Contents

  • Park, Byeong-Chan;Kim, Jin-Sung;Won, Yu-Hyeon;Kim, Young-Mo;Kim, Seok-Yoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권1호
    • /
    • pp.93-100
    • /
    • 2019
  • One of critical issues in dealing with 360-degree realistic contents is the performance degradation in searching and recognition process since they support up to 4K UHD quality and have all image angles including the front, back, left, right, top, and bottom parts of a screen. To solve this problem, in this paper, we propose an efficient search and comparison method for 360-degree realistic contents. The proposed method first corrects the distortion at the less distorted regions such as front, left and right parts of the image excluding severely distorted regions such as upper and lower parts, and then it extracts feature points at the corrected region and selects the representative images through sequence classification. When the query image is inputted, the search results are provided through feature points comparison. The experimental results of the proposed method shows that it can solve the problem of performance deterioration when 360-degree realistic contents are recognized comparing with traditional 2D contents.

An Efficient Feature Point Extraction Method for 360˚ Realistic Media Utilizing High Resolution Characteristics

  • Won, Yu-Hyeon;Kim, Jin-Sung;Park, Byuong-Chan;Kim, Young-Mo;Kim, Seok-Yoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권1호
    • /
    • pp.85-92
    • /
    • 2019
  • In this paper, we propose a efficient feature point extraction method that can solve the problem of performance degradation by introducing a preprocessing process when extracting feature points by utilizing the characteristics of 360-degree realistic media. 360-degree realistic media is composed of images produced by two or more cameras and this image combining process is accomplished by extracting feature points at the edges of each image and combining them into one image if they cover the same area. In this production process, however, the stitching process where images are combined into one piece can lead to the distortion of non-seamlessness. Since the realistic media of 4K-class image has higher resolution than that of a general image, the feature point extraction and matching process takes much more time than general media cases.

A 3D Audio-Visual Animated Agent for Expressive Conversational Question Answering

  • Martin, J.C.;Jacquemin, C.;Pointal, L.;Katz, B.
    • 한국정보컨버전스학회:학술대회논문집
    • /
    • 한국정보컨버전스학회 2008년도 International conference on information convergence
    • /
    • pp.53-56
    • /
    • 2008
  • This paper reports on the ACQA(Animated agent for Conversational Question Answering) project conducted at LIMSI. The aim is to design an expressive animated conversational agent(ACA) for conducting research along two main lines: 1/ perceptual experiments(eg perception of expressivity and 3D movements in both audio and visual channels): 2/ design of human-computer interfaces requiring head models at different resolutions and the integration of the talking head in virtual scenes. The target application of this expressive ACA is a real-time question and answer speech based system developed at LIMSI(RITEL). The architecture of the system is based on distributed modules exchanging messages through a network protocol. The main components of the system are: RITEL a question and answer system searching raw text, which is able to produce a text(the answer) and attitudinal information; this attitudinal information is then processed for delivering expressive tags; the text is converted into phoneme, viseme, and prosodic descriptions. Audio speech is generated by the LIMSI selection-concatenation text-to-speech engine. Visual speech is using MPEG4 keypoint-based animation, and is rendered in real-time by Virtual Choreographer (VirChor), a GPU-based 3D engine. Finally, visual and audio speech is played in a 3D audio and visual scene. The project also puts a lot of effort for realistic visual and audio 3D rendering. A new model of phoneme-dependant human radiation patterns is included in the speech synthesis system, so that the ACA can move in the virtual scene with realistic 3D visual and audio rendering.

  • PDF

스케일러블 비디오 부호화에서 통계적 가설 검증 기법을 이용한 프레임 간 모드 결정 (Fast Intermode Decision of Scalable Video Coding using Statistical Hypothesis Testing)

  • 이범식;김문철;함상진;이근식;박근수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2006년도 학술대회
    • /
    • pp.111-115
    • /
    • 2006
  • 스케일러블 비디오 코딩(SVC, Scalable Video Coding)은 MPEG(Moving Picture Expert Group)과 VCEG (Video Coding Expert Group)의 JVT(Joint VIdeo Team)에 의해 현재 표준화 되고 있는 새로운 압축 표준 기술이며 시간, 공간 및 화질의 스케일러빌리티를 지원하기 위해 계층 구조를 가지고 있다. 특히 시간적 스케일러빌리티를 위해 계층적 B-픽처 구조를 채택하고 있다. 스케일러블 비디오 코딩의 기본 계층은 H.264|AVC와 호환적이므로, 모션 예측과 모드 결정과정에서 $16{\times}16,\;16{\times}8,\;8{\times}16,\;8{\times}8,\;8{\times}4,\;4{\times}8$ 그리고 $4{\times}4$와 같은 7개의 서로 다른 크기를 갖는 블록을 사용한다. 스케일러블 비디오 코딩에서 사용되고있는 계층적 B-픽처 구조는 키 픽처인 I와 P 픽처를 제외하고는 한 GOP (Group of Picture)내에서 모두 B-픽처를 사용하므로 H.264|AVC와 비교했을 때 연산량 증가와 함께 부호화 지연도 급격히 증가한다. B-픽처는 양방향 모션 벡터인 LIST0와 LIST1을 사용하고 양방향 모두에서 다중 참조 픽처를 사용하기 때문이다. 본 논문에서는 통계적 가선 검증을 이용하여 스케일러블 비디오 부호화에 적용 가능한 고속 프레임간 모드 결정 알고리듬 대해 소개한다. 제안된 방법은 $16{\times}16$ 매크로 블록과 $8{\times}8$ 서브 매크로 블록에 통계적 가설 감증 기법을 적용하여 실행되며, 현재 블록과 복원된 참조 블록간의 픽셀 값을 비교하여 RD(Rate Distortion) 최적화 기반 모드 결정을 빨리 완료함으로써 고속 프레임간 모드 결정을 가능하게 한다. 제안된 방법은 프레임 간 모드 결정을 고속화함으로써 스케일러블 비디오 부호화기의 연산량과 복잡도를 최대 57%감소시킨다. 그러나 연산량 감소에 따른 비트율의 증가나 화질의 열화는 최대 1.74% 비트율 증가 및 0.08dB PSNR 감소로 무시할 정도로 작다.

  • PDF

H.264에서 화소 변화량을 이용한 빠른 인트라 예측 (Fast Intra Prediction using Pixel Variation in H.264)

  • 이탁기;김성민;신광무;정기동
    • 한국멀티미디어학회논문지
    • /
    • 제11권7호
    • /
    • pp.956-965
    • /
    • 2008
  • H.264는 가장 최근에 제정된 동영상 압축 표준으로 다양한 기법 등을 도입하여 기존의 표준들에 비해 동일한 화질을 유지하면서도 높은 압축 효율을 보여준다. 하지만 이러한 기법들은 처리과정이 복잡해, 계산 과정을 간소화시킨 효율적인 기법들이 요구된다. 따라서 본 논문에서는 새롭게 도입된 기법 중에서 복잡한 처리가 요구되는 인트라 예측의 효율적인 처리를 위한 2단계의 빠른 인트라 예측 방법을 제안한다. 1단계에서는 매크로블록 내 작은 블록들($4{\times}4,\;8{\times}8,\;12{\times}12$ 크기)의 경계 부분의 화소 변화량을 조사하고, 이를 통해서 매크로블록의 평탄 여부를 판단하여 인트라 예측을 위한 블록 크기를 빠르게 선택한다. 2단계에서는 매크로 블록 내부의 대표성을 띄는 화소들을 이용하여 1단계에서 선택된 블록 크기의 여러 모드 중에서 최종 모드를 빠르게 결정한다. 제안한 인트라 예측 기법의 성능측정을 위해 다양한 테스트 동영상으로 화질, 비트율 및 처리시간을 확인한 결과, 관련기법 및 표준과 비교해서 동일한 화질과 비트율을 유지하면서 표준과 비교하여 41.5%, 관련기법과 비교하여 24.7%의 인트라 예측 처리 시간을 감소시켰다.

  • PDF