Search | Korea Science

Salient Video Frames Sampling Method Using the Mean of Deep Features for Efficient Model Training (효율적인 모델 학습을 위한 심층 특징의 평균값을 활용한 의미 있는 비디오 프레임 추출 기법)

Yoon, Hyeok;Kim, Young-Gi;Han, Ji-Hyeong
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 2021.06a
- /
- pp.318-321
- /
- 2021
최근 정보통신의 발달과 함께 인터넷에 접속하는 사용자 수와 그에 따른 비디오 데이터의 전송량이 늘어나는 추세이다. 이렇게 늘어나는 많은 비디오 데이터를 관리하고 분석하기 위해서 최근에는 딥 러닝 기법을 많이 활용하게 된다. 일반적으로 비디오 데이터에 딥 러닝 모델을 학습할 때 컴퓨터 자원의 한계로 인해 전체 비디오 프레임에서 균등한 간격 또는 무작위로 프레임을 선택하는 방법을 많이 사용한다. 하지만 학습에 사용되는 비디오 데이터는 항상 시간 축에 따라 같은 문맥을 담고 있는 Trimmed 비디오라고 가정할 수가 없다. 만약 같지 않은 문맥을 지닌 Untrimmed 비디오에서 균등한 간격 또는 무작위로 프레임을 선택해서 사용하게 된다면 비디오의 범주와 관련이 없는 프레임이 샘플링 될 가능성이 있기 때문에 모델의 학습 및 최적화에 전혀 도움이 되지 않는다. 이를 해결하기 위해 우리는 각 비디오 프레임에서 심층 특징을 추출하여 평균값을 계산하고 이와 각 추출된 심층특징들과 코사인 유사도를 계산해서 얻은 유사도 점수를 바탕으로 Untrimmed 비디오에서 의미 있는 비디오 프레임을 추출하는 기법을 제안한다. 그리고 Untrimmed 비디오로 구성된 데이터셋으로 유명한 ActivityNet 데이터셋에 대해서 대표적인 2가지 프레임 샘플링 방식(균등한 간격, 무작위)과 비교하여 우리가 제안하는 기법이 Untrimmed 비디오에서 효과적으로 비디오의 범주에 해당하는 의미 있는 프레임 추출이 가능함을 보일 것이다. 우리가 실험에 사용한 코드는 https://github.com/titania7777/VideoFrameSampler에서 확인할 수 있다.
PDF

Human Instance Segmentation using Video Data Augmentation (비디오 데이터 보강을 이용한 인물 개체 분할)

Chun, Hyun-Jin;Kim, Incheol
- Proceedings of the Korea Information Processing Society Conference
- /
- 2022.11a
- /
- pp.532-534
- /
- 2022
본 논문에서는 미생 드라마 비디오들을 토대로 구축한 비디오 인물 개체 분할 데이터 집합인 MHIS를 소개하고, 등장인물 클래스 간의 심각한 데이터 불균형 문제를 효과적으로 해결하기 위한 새로운 비디오 데이터 보강 기법인 CDVA를 제안한다. 기존의 비디오 데이터 보강 기법들과는 달리, 새로운 CDVA 보강 기법은 비디오의 시공간적 맥락을 충분히 고려해서 부족한 인물 클래스의 훈련 비디오 데이터들을 추가 생성함으로써, 비디오 개체 분할 신경망 모델의 성능을 효과적으로 개선시킬 수 있다. 본 논문에서는 정량 및 정성 실험들을 통해, 제안 비디오 데이터 보강 기법의 우수성을 입증한다.
https://doi.org/10.3745/PKIPS.y2022m11a.532 인용 PDF

Design and Implementation of MPEG-2 Video Drips Decoder for DVB-MHP Set-top Box Middleware (DVB-MHP 셋톱박스 미들웨어를 위한 MPEG-2 비디오 드립 디코더의 설계 및 구현)

김우종;이양선
- Proceedings of the Korea Multimedia Society Conference
- /
- 2004.05a
- /
- pp.199-202
- /
- 2004
데이터 방송은 지상파, 위성, 케이블 둥의 방송망을 이용하여 하나의 송신자가 다수의 수용자에게 디지털 멀티미디어 컨텐츠를 여러 종류의 단말기에 전송하는 것으로 컨텐츠는 프로그램에 연동되는 서비스 및 비연동형 서비스, 또는 대화형 서비스 헝태로 제공되는 다양한 서비스를 포함한다. 방송망을 이용한 데이터방송의 전송 규약은 DSM-CC에서 정의한 캐로셀(carousel) 형태로 전송된다. 캐로셀은 주기적으로 반복 전송되는 데이터 모듈을 가리키며, 캐로셀로 전송되는 데이터 중에는 MPEG-2 비디오로 인코딩되어 광고와 배경 이미지 등으로 사용할 수 있는 영상 데이터가 있다. 이 MPEG-2 비디오 영상 데이터를 TV화면에 출력하기 위해 셋톱박스의 미들웨어는 썬 마이크로시스템즈(Sun Microsystems)에서 만든 자바 기반의 JMF(Java Media Framework) 플레이어를 통해 화면에 출력한다 이렇게 제공되는 MPEG-2 비디오 영상 데이터를 비디오 드립(drips)이라 하고, 비디오 드립을 JMF 플레이어를 통해 화면에 출력하는 모드를 드립피드(drip-feed) 모드라 한다. 그러나 MHP용 셋톱박스를 위한 JMF 버전 1.0은 그대로 사용 할 수 없다. 비디오 드립 모드를 위한 구현이 없기 때문에 별도의 확장을 통해 비디오 드립을 지원하거나, 네이티브(Native) 메소드를 만들어 JMF를 확장하는 방식을 제공해야 한다. 본 논문에서는 데이터 캐로셀로 전송되는 비디오 드림 모드를 구현하기 위해 네이티브 코드로 JMF를 확장해서 비디오 드립을 JMF 플레이어를 통해 TV 화면에 출력하는 MPEG-2 비디오 드립 디코더를 설계하고 구현하였다.
PDF

Compression Methods for Knowledge Discovery of Similar Video Data (유사비디오 데이터의 공통 정보 마이닝을 위한 압축 기법)

박동철;장중혁;이원석
- Proceedings of the Korea Multimedia Society Conference
- /
- 2002.05c
- /
- pp.118-123
- /
- 2002
산업정보사회가 발달함에 따라 다양한 형태의 비디오 데이터들이 여러 분야에서 대량으로 생성되고 있다. 이에 따라 이들의 가공을 통해 비디오에 나타난 의미 정보를 추출하려는 다양한 접근들이 시도되고 있으며, 최근 들어 데이터 마이닝을 이용한 기법에 대한 관심들이 증대되고 있다. 그러나 기존의 연구 대상에서 비디오 데이터를 기본으로 하여 지식 정보를 추출하기 위한 시도는 시공간적으로 방대한 비디오 데이터의 특징으로 인해 소극적으로 접근되어왔다. 본 논문에서는 유사한 비디오들로부터 효과적으로 비디오 데이터를 압축하고 특성을 추출하며 클러스터링을 통하여 형태론적인 비디오 정보로부터 직접 의미 있는 패턴을 추출하는 방법을 제안한다. 이를 위해 관심 영역 제한방법, 최소 반복도 제한방법 및 키 프레임 추출 방법 등이 포함된다. 최종적으로 실험용 비디오에 대한 마이닝 결과를 생성하고 최초의 트랜잭션과의 정확도를 비교하여 본 논문에서 제시한 기법들을 검증하였다.
PDF

A Study on the Content-Based Video Information Indexing and Retrieval Using Closed Caption and Speech Recognition (캡션정보 및 음성인식을 이용한 내용기반 비디오 정보 색인 및 검색에 관한 연구)

손종목;김진웅;배건성
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 1999.11b
- /
- pp.141-145
- /
- 1999
뉴스나 드라마, 영화 등의 비디오에 대한 검색 시 일반 사용자의 요구에 가장 잘 부합되는 결과를 얻기 위해 비디오 데이터의 의미적 분석과 색인을 만드는 것이 필요하다. 일반적으로 음성신호가 비디오 데이터의 내용을 잘 나타내고 비디오와 동기가 이루어져 있으므로, 내용기반 검색을 위한 비디오 데이터 분할에 효율적으로 이용될 수 있다 본 논문에서는 캡션 정보가 주어지는 방송뉴스 프로그램을 대상으로 효율적인 검색, 색인을 위한 비디오 데이터의 분할에 음성인식기술을 적용하는 방법을 제안하고 그에 따른 실험결과를 제시한다.
PDF

A Distributive Placement Policy according to the Degree of Requests for Video Data (비디오 데이터의 요청 정도에 따른 동적 분산 배치 기법)

안유정;원유헌
- Proceedings of the Korean Information Science Society Conference
- /
- 2000.04b
- /
- pp.113-115
- /
- 2000
주문형 비디오 서버와 같은 작업을 하는 멀티미디어 서버에서 검색 요청에 대한 보다 효율적인 서비스는 데이터 배치 기법에 의해 많은 영향을 받는다. 특히 사용자들에게 가장 인기있는 몇몇 비디오 데이터들은 많은 사용자들에 의해 동시에 요청되기도 하지만 짧은 시간 간격을 두고 연속적으로 요청되기도 하므로 인기있는 비디오 데이터일수록 데이터의 서로 다른 많은 부분이 동시에 검색될 수 있도록 효율적으로 배치시키는 것이 필요하다. 본 논문에서는 비디오 데이터의 인기도 즉 요청 정도에 따라 스트라이핑 폭을 동적으로 결정하는 배치 정책을 제안하고 실험읕 통해 기존의 정책과 비교한다.
PDF

An Anchor-frame Detection Algorithm in MPEG News Data using DC component extraction and Color Clustering (MPEG으로 압축된 뉴스 데이터에서의 DC성분 추출과 컬러 클러스터링을 이용한 앵커 프레임 검색 기법)

정정훈;이근섭;오화종;최병욱
- Proceedings of the IEEK Conference
- /
- 2000.09a
- /
- pp.729-732
- /
- 2000
대용량 비디오 데이터의 이용에 있어 효과적인 비디오 검색을 위해서는 비디오 데이터의 색인 과정이 필요하다. 효과적인 비디오 데이터의 색인을 위해서는 의미적 단위인 씬(Scene)으로 이루어진 비디오 데이터를 물리적인 경계면인 컷(장면전환점)으로 검출하는 기법이 필수적이며 각 샷에서의 키 프레임 추출 또한 필수적이다. 본 논문에서는 뉴스 비디오데이터의 키 프레임인 앵커 프레임의 효과적인 검색을 위해 DC 성분 추출과 이진 검색기법, 그리고 컬러 클러스터링을 이용하고 있다. 본 논문에서 제하고 있는 방법을 검증하기 위해서 47분 10초 분량의 MPEG-2 로 압축된 뉴스 비디오 데이터에 적용한 결과 91.3%의 정확도와 84.0%의 재현율을 보여 제안한 방법의 우수성을 증명하고 있다.
PDF

Camera Motion Detection and Key-Frame Selection from Region-Based Video Data (영역 정보를 이용한 비디오 데이터의 카메라 모션 검출 및 대표 프레임 선택 방법)

이용현;강행봉;박용진
- Proceedings of the Korean Information Science Society Conference
- /
- 1998.10c
- /
- pp.315-317
- /
- 1998
많은 양의 비디오 데이터가 디지털화 되면서 사용자가 쉽게 자신이 원하는 비디오 데이터를 검색할 수 있는 내용 기반 검색이 필요하게 되었다. 내용 기반 검색을 위해서는 비디오 데이터를 연속된 카메라 모션으로 구성된 셧으로 나누고, 셧의 내용을 대표 할 수 있는 대표 프레임을 찾아야 한다. 대표 프레임은 비디오 데이터의 요약과 색인의 중요한 수단이다. 본 논문에서는 셧의 내용 기반으로 대표 프레임을 찾기 위해서 프레임에 존재하는 영역 정보를 바탕으로 셧의 내용을 알 수 있는 핵심 정보인 카메라 모션을 검출 하고, 이를 기반으로 대표 프레임을 선택하는 방법을 제안한다.
PDF

Efficient Video Data Allocation Methods in a Hierarchical VOD Server (계층적 VOD서버에서의 효율적인 비디오 데이터 저장 방법)

Jeon, Seong-Bae;Lee, Won-Seok
- The Transactions of the Korea Information Processing Society
- /
- v.5 no.3
- /
- pp.592-605
- /
- 1998
주문형 비디오(VOD) 서버는 대용량의 비디오 데이터를 저장하고 사용자에게 이를 실시간으로 전송하여야 하는 제약 조건을 만족시켜야 한다. 기존의 VOD 서버 시스템은 실시간 반응 시간을 보장하기 위해 대부분 비디오 데이터의 영구 저장 장치로 하드 디스크를 사용하지만 대용량의 비디오 데이터를 저장하는 데에는 경제성과 신뢰성의 문제점이 대두된다. 본 논문은 이러한 문제점을 보완하기 위해 대용량 저장 장치인 광자기 디스크 쥬크박스를 사용하는 복합 다단계 VOD 서버에서 다양한 비디오 데이터저장 방법들을 제안하고 각 방법의 저장 비용 및 성능을 비교 분석한다. 또한, 복합 다단계 시스템과 하드 디스크를 기반으로 하는 서버의 특성을 고려하여 비디오 데이터를 저장함으로써 비용 효과적인 VOD 서버 구성 방법을 제안한다.
PDF

A Hybrid Neural Network model for Enhancement of Speaker Recognition in Video Stream (비디오 화자 인식 성능 향상을 위한 복합 신경망 모델)

Lee, Beom-Jin;Zhang, Byoung-Tak
- Proceedings of the Korean Information Science Society Conference
- /
- 2012.06b
- /
- pp.396-398
- /
- 2012
대부분의 실세계 데이터는 시간성을 띄고 있으므로 시간성을 지닌 데이터를 분석할 수 있는 기계 학습 방법론은 매우 중요하다. 이런 관점에서 비디오 데이터는 다양한 모달리티가 결합된 대표적인 시간 데이터 이므로 비디오 데이터를 대상으로 하는 기계 학습 방법은 큰 의미를 갖는다. 본 논문에서는 음성 채널에기반한 비디오 데이터 분석 방법의 예비 연구로 비디오 데이터에 등장하는 화자를 인식할 수 있는 간단한 방법을 소개한다. 제안 방법은 MFCC (Mel-frequency cepstrum coefficients)를 이용하여 인간 음성 특성의 분포를 분석한 후 분석 결과를 신경망에 입력하여 목표한 화자를 인식하는 복합 신경망 모델을 특징으로 한다. 실제 TV 드라마 데이터에서 가우시안 혼합모델, 가우시안 혼합 신경망 모델, 제안 방법의 화자 인식 성능을 비교한 결과 제안 방법이 가장 우수한 인식 성능을 보임을 확인하였다.

Search Result 1,526, Processing Time 0.032 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)