• 제목/요약/키워드: 동영상 분류

검색결과 245건 처리시간 0.03초

원 영상 복원을 위한 TV 자막 특성 분석에 관한 연구 (A Study on Analyzing Caption Characteristic for Recovering Original Images of Caption Region in TV Scene)

  • 전병태
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.177-182
    • /
    • 2010
  • 자막의 원영상 복원은 동영상 재 사용성이란 측면에서 많은 연구가 진행되어 왔다. 외국에서 수입된 동영상의 경우 외국어 자막이 삽입된 경우가 종종 발생하며 자막에 삽입된 외국어를 자국어로 대치할 필요가 종종 발생한다. 원영상 손실없이 자연스런 자막교환을 위해서는 자막 부분의 원영상 복원이 필요하며, 자막의 원영상 복원은 동영상 재 사용성이란 측면에서 많은 연구가 진행되어 왔다. 이러한 원영상 복원의 중요성에 불구하고 복원의 대상이 되는 자막 특성에 대한 체계적인 분석이 이루어 지지 않는 문제점이 있다고 볼 수 있다. 본 논문에서는 TV 프로그램 장르별 구분 방법을 학계, 방송사, 방송기구별로 분류 조사하고, 각 장르별 자막의 출현 빈도, 자막 내용의 중요도 및 복원의 필요성에 대하여 분석한다. 복원의 필요성이 크게 인식되는 자막에 대한 특성을 분석하고 그 정보를 복원 정보로 사용한다.

영상처리를 이용한 얼굴 인식 및 연령 분류에 대한 연구 (Face Recognition and Age Classification Study using Image Processing)

  • 강성욱;정진동;서홍일;이해연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1370-1373
    • /
    • 2013
  • 영상에서 사람의 얼굴 영상을 추출하여 성별 및 연령대를 자동으로 분석하는 시스템은 광고판 등을 이용한 마케팅, 보안, 통계 분야 등 여러 가지 적용이 가능하다. 이러한 시스템의 개발을 위해서는 얼굴 인식 알고리즘과 특성 분류 알고리즘이 요구된다. 그러나 기존 알고리즘의 경우 문제점이 존재한다. 얼굴 인식 알고리즘으로 가장 많이 사용되는 HAAR 특징은 오탐률이 높으며, 특성 분류 알고리즘으로 사용하는 Fisherface 기법의 경우 분류 Class가 3가지 이상시 분류 성공률이 현저히 떨어지는 문제점이 있다. 본 논문에서는 이 두 알고리즘의 문제점을 개선한 새로운 알고리즘을 제안한다. 얼굴 인식을 위해 기존 HAAR 특징과 LBP 특징을 결합하여 오탐률을 크게 감소시켰다. 또한 특성 분류를 위하여 3 Class 이상의 분류를 대체할 방법으로 2 Class-multi-level 반복 분류방식을 사용하였다. 대량의 데이터에 대한 실험을 통하여 제안한 방법이 기존 방법들보다 성능이 향상되었음을 보인다.

변형된 비용 함수를 이용한 움직임 추정 기법 (Motion Estimation Using Modified Cost Functions)

  • 조한욱;서정욱;정제창
    • 방송공학회논문지
    • /
    • 제3권1호
    • /
    • pp.100-109
    • /
    • 1998
  • 최근 HDTV나 화상회의 시스템, VOD(video on demand) 서비스 등에서 쓰이는 영상 신호의 부호화가 주요한 관심사가 되고 있다. 동영상 압축 알고리즘에서 움직임 추정기법은 매우 중요한 역할을 담당하는 반면, 수행시간이나 하드웨어 구현에 어려움이 많아 이를 개선하기 위한 많은 알고리즘들이 개발되어 왔다. 본 논문에서는 적절한 화소 분류를 통해 우수한 화질과 적은 계산량, 간단히 하드웨어 구조를 가지는 효율적인 움직임 추정기법을 제안한다. 기존의 1-비트 화소 분류 방법에서 변형된 새로운 비용 함수를 이용한 2-비트, 3-비트 호소 분류 방법과 2차 비용함수를 이용한 화소 분류 방법을 제안하였다. 또한 여러 고속 움직임 추정 알고리즘과도 쉽게 연결하여 사용할 수 있으며 우수한 성능을 나타내는 것을 모의 실험을 통해 보였다.

  • PDF

어텐션 알고리듬 기반 양방향성 LSTM을 이용한 동영상의 압축 표준 예측 (Video Compression Standard Prediction using Attention-based Bidirectional LSTM)

  • 김상민;박범준;정제창
    • 방송공학회논문지
    • /
    • 제24권5호
    • /
    • pp.870-878
    • /
    • 2019
  • 본 논문에서는 어텐션 알고리듬 (attention algorithm) 기반의 양방향성 LSTM (bidirectional long short-term memory; BLSTM) 을 동영상의 압축 표준을 예측하기 위해 사용한다. 자연어 처리 (natural language processing; NLP) 분야에서 순환적 신경망 (recurrent neural networks; RNN) 의 구조를 이용하여 문장의 다음 단어를 예측하거나 의미에 따라 문장을 분류하거나 번역하는 연구들은 계속되어왔고, 이는 챗봇, 음성인식 스피커, 번역 애플리케이션 등으로 상용화되었다. LSTM 은 RNN에서 gradient vanishing problem 을 해결하고자 고안됐고, NLP 분야에서 유용하게 사용되고 있다. 제안한 알고리듬은 BLSTM과 특정 단어에 집중하여 분류할 수 있는 어텐션 알고리듬을 자연어 문장이 아닌 동영상의 비트스트림에 적용해 동영상의 압축 표준을 예측하는 것이 가능하다.

딥러닝을 이용한 마스크 착용 여부 검사 시스템 (Mask Wearing Detection System using Deep Learning)

  • 남충현;남은정;장경식
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.44-49
    • /
    • 2021
  • 최근 COVID-19로 인해 마스크 착용 여부 자동 검사 시스템에 신경망 기술들을 적용하는 연구가 활발히 진행되고 있다. 신경망 적용 방식에 있어서 1단계 검출 방식 또는 2단계 검출 방식을 사용하며, 데이터를 충분히 확보할 수 없는 경우 사전 학습된 신경망에 대해 가중치 미세 조절 기법을 적용하여 학습한다. 본 논문에서는 얼굴 인식부와 마스크 검출부로 구성되는 2단계 검출 방식을 적용하였으며, 얼굴 인식부에는 MTCNN 모델, 마스크 검출부에는 ResNet 모델을 사용하였다. 마스크 검출부는 다양한 실 상황에서의 인식률과 추론 속도 향상을 위하여 5개의 ResNet모델을 적용하여 실험하였다. 학습 데이터는 웹 크롤러를 이용하여 수집한 17,219개의 정지 영상을 이용하였으며, 1,913개의 정지 영상과 1분 동영상 2개에 대해 각각 추론을 실시하였다. 실험 결과 정지 영상인 경우 96.39%, 동영상인 경우 92.98%의 높은 정확도를 보였고, 동영상 추론 속도는 10.78fps임을 확인하였다.

AdaBoost를 이용한 윈도우 영상의 하위 영상 검출 (Subimage Detection of Window Image Using AdaBoost)

  • 길종인;김만배
    • 방송공학회논문지
    • /
    • 제19권5호
    • /
    • pp.578-589
    • /
    • 2014
  • 윈도우 영상은 흔히 컴퓨터에서 응용프로그램을 실행하였을 때, 모니터를 통해 출력되는 화면을 의미하여, 웹페이지, 동영상 플레이어 및 여러 가지 응용프로그램을 모두 포함한다. 웹페이지는 다른 어플리케이션에 비해 다양한 종류의 정보를 다양한 형태로 전달한다. 이러한 웹페이지와 같은 윈도우 영상은 카메라로부터 획득할 수 있는 자연영상과 달리 텍스트, 로고, 아이콘 및 하위 영상과 같은 여러 가지 요소들을 포함하고 있고, 각 요소들은 서로 다른 형식의 정보를 사용자에게 전달한다. 그러나 텍스트와 영상은 정보가 다른 형태로 제공되기 때문에, 엄연히 다른 특성을 가지고 있는 요소들을 지역적으로 분리할 필요성이 있다. 본 논문에서는 윈도우 영상을 지역적인 특성에 따라 다수의 블록으로 분할한 후, 분할된 각 영역을 배경, 텍스트, 하위영상으로 분류하였다. 이러한 분류기법을 통해 분류된 하위 영상은 3D입체영상 변환, 영상 검색, 영상 브라우징등과 같은 응용을 가질 수 있다. 영상을 분류하는 방법에는 여러 가지가 존재할 수 있으나, 본 논문에서는 기계학습 기반의 알고리즘이 하위 영상 검출에도 좋은 접근법이 될 수 있음을 증명하기 위해 AdaBoost를 이용하였고, 실험결과로부터 93.4%의 검출률, 13%의 거짓 긍정률을 보임으로서, 이를 입증하였다.

반복적 최적 자승 학습에 기반을 둔 움직임 적응적 시간영역 잡음 제거 필터링 (Motion Adaptive Temporal Noise Reduction Filtering Based on Iterative Least-Square Training)

  • 김성득;임경원
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.127-135
    • /
    • 2010
  • 동영상에 내재된 잡음을 제거하기 위해 사용되는 움직임 적응적 시간영역 잡음 제거 필터링에서는 움직임의 정도에 따라 필터링의 강도를 적절하게 조절하는 것이 매우 중요하다. 본 논문에서는 최적 자승 학습에 기반을 둔 움직임 적응적 시간영역필터링 방안을 제안한다. 움직임 정도에 따라 각 화소를 분류하여 분류코드를 지정하고, 각 분류코드에 따라 반복적 최적 자승학습에 기반을 둔 최적의 필터 계수를 유도한다. 반복적 학습과정은 사전에 미리 수행되어 학습된 결과만 룩업 테이블에 저장된다. 실제 잡음 제거 필터링 과정에서는 각 화소를 움직임 정도에 따라 분류한 후 분류코드에 따라 룩업 테이블에 있는 필터계수를 읽어 간결한 필터링을 취한다. 실험결과는 제안된 방법이 잡음 제거 응용에서 번짐을 방지하면서 동영상 잡음을 효과적으로 제거함을 보여준다.

글로벌 라이프로그 미디어 클라우드 개발 및 구축 (Global lifelog media cloud development and deployment)

  • 송혁;최인규;이영한;고민수;오진택;유지상
    • 방송과미디어
    • /
    • 제22권1호
    • /
    • pp.35-46
    • /
    • 2017
  • 글로벌 라이프로그 미디어 클라우드 서비스를 위하여 네트워크 기술, 클라우드 기술 멀티미디어 App 기술 및 하이라이팅 엔진 기술이 요구된다. 본 논문에서는 미디어 클라우드 서비스를 위한 개발 기술 및 서비스 기술 개발 결과를 보였다. 하이라이팅 엔진은 표정인식기술, 이미지 분류기술, 주목도 지도 생성기술, 모션 분석기술, 동영상 분석 기술, 얼굴 인식 기술 및 오디오 분석기술 등을 포함하고 있다. 표정인식 기술로는 Alexnet을 최적화하여 Alexnet 대비 1.82% 우수한 인식 성능을 보였으며 처리속도면에서 28배 빠른 결과를 보였다. 행동 인식 기술에 있어서는 기존 2D CNN 및 LSTM에 기반한 인식 방법에 비하여 제안하는 3D CNN 기법이 0.8% 향상된 결과를 보였다. (주)판도라티비는 클라우드 기반 라이프로그 동영상 생성 서비스를 개발하여 현재 테스트 서비스를 진행하고 있다.

칼라 영상처리에 의한 과일분류시스템 (Classification system of fruits by color image processing)

  • 최연호;부기동;구본호
    • 한국산업정보학회논문지
    • /
    • 제5권3호
    • /
    • pp.65-70
    • /
    • 2000
  • 일반적으로 농산물의 품질은 무게나 크기 등을 직접 측정하여 판정하거나 간접 또는 비파괴방법을 이용하여 판정하게 된다. 본 논문에서는 비파괴를 이용한 판정방법인 칼라 영상처리를 이용하여 농산물의 품질과 등급을 결정하는 알고리즘을 개발하여, 이를 실시간 귤 분류시스템에 적용하였다. 개발된 시스템은 귤의 크기와 색상을 칼라 영상처리 하여 초당 최대 6개를 실시간 분류 할 수 있는 성능을 가지고 있다. 또한 다른 농산물의 품질판정을 위한 제어기를 설계할 경우에도 본 논문에서 개발한 알고리즘이 적용될 수 있을 것으로 기대된다.

  • PDF

영상기반 비접촉식 PPG 신호 취득을 위한 3D-CNN 설계 (Designing a 3D-CNN for Non-Contact PPG Signal Acquisition Based on Video Imaging)

  • 김태완;염찬욱;곽근창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.627-629
    • /
    • 2023
  • 생체 신호를 분석하여 사용자의 건강과 정신 상태를 예측하고, 관련 질병에 관해 예방하는 연구가 늘어나고 있다. 생체 신호 중 심박은 사람의 육체, 정신적인 상태를 반영하는 대표적인 신호이지만 기존의 접촉 패드를 통한 ECG나 광학 센서를 통한 PPG로 심박을 예측할 때는 구속적인 환경이 필요하여 일상적인 상황 속에 적용하기 어려웠다. 이러한 단점을 해결하고자 본 논문은 UBFC-RPPG 데이터셋의 동영상 프레임을 RGB 채널마다 다른 가중치를 적용하는 전처리를 하여 학습 데이터의 크기를 줄이면서 정확도를 높이고, 3D-CNN을 활용한 딥러닝으로 순간적인 영상에서도 PPG 신호를 예측할 수 있도록 1초 전처리 영상을 학습한 후, 신호를 예측하는 것을 목표로 한다. 이렇게 비접촉식으로 취득된 신호는 더 다양한 환경에서의 감정분류, 우울증 진단, 질병 감지 등 다양한 분야에 활용될 수 있다.