• 제목/요약/키워드: Broadcast image

검색결과 1,306건 처리시간 0.026초

H.264에서 성능향상을 위한 Uni-directional 8X8 인트라 예측 (Uni-directional 8X8 Intra Prediction for H.264 Coding Efficiency)

  • 국승용;박광훈;이윤진;심동규;정광수;최해철;최진수;임성창
    • 방송공학회논문지
    • /
    • 제14권5호
    • /
    • pp.589-600
    • /
    • 2009
  • 본 논문은 초 고화질급(UHD) 영상으로 디지털화 되어 가는 시대에 대응하기 위하여, 현재 우리가 사용하고 있는 최신 코덱의 하나인 H.264 코덱 구조에서 인트라 예측 성능을 향상토록 한 Uni-directional $8{\times}8$ 인트라 예측 기반 코덱을 개발하여 앞으로의 동영상 압축 개발에 기여하고자 한다. Uni-directional $8{\times}8$ 인트라 예측은 $8{\times}8$ 픽셀 단위의 인트라 예측 시 $4{\times}4$ 픽셀 단위로 나누어 같은 인트라 예측방향을 사용하면서 $4{\times}4$ 픽셀 단위로 재구성된 영상을 통하여 예측을 세밀하게 할 수 있게 하는 아이디어를 기반으로 한다. 본 논문에서 제안한 Uni-directional $8{\times}8$ 인트라 예측은 H.264 코덱 구조에서 기존의 $8{\times}8$ 인트라 예측만을 수행한 코딩 결과와 비교할 경우 QCIF, CIF에서 약 7.3% BDBR 성능 향상을 가져오며, 현재의 H.264 코덱 구조에 더하여 적용하였을 경우, 약 1.3% BDBR 성능 향상을 가져왔다. 더 큰 영상 사이즈를 압축하기 위해서는 지금 영상 사이즈에 최적화 된 코덱을 그대로 쓰기보다는 지금보다 더 큰 블록 사이즈를(현재는 $4{\times}4$ 블록 단위가 최소 단위) 기준으로 할 수도 있기 때문에 새로운 코덱기술 개발에 있어 기초 연구가 될 수 있을 것이다.

컬러 영상에서 평균 이동 클러스터링과 단계별 영역 병합을 이용한 자동 원료 분류 알고리즘 (Automatic Classification Algorithm for Raw Materials using Mean Shift Clustering and Stepwise Region Merging in Color)

  • 김상준;곽준영;고병철
    • 방송공학회논문지
    • /
    • 제21권3호
    • /
    • pp.425-435
    • /
    • 2016
  • 본 논문에서는 카메라로부터 입력된 영상으로부터 쌀, 커피, 녹차 등 다양한 원료를 양품과 불량품으로 자동 분류하기 위한 분류 모델을 제안한다. 현재 농산물 원료 분류를 위해서 주로 숙달된 노동력의 육안 선택에 의존하고 있지만 작업시간이 길어질수록 반복적인 작업에 의해 분류 능력이 현저히 떨어지는 문제점이 있다. 노동력에 부분적으로 의존하는 기존 제품의 문제점을 해결하기 위해, 본 논문에서는 평균-이동 클러스터링 알고리즘과 단계별 영역 병합 알고리즘을 결합하는 비전기반 자동 원료 분류 알고리즘을 제안한다. 우선 입력 원료 영상에서 평균-이동 클러스터링 알고리즘을 적용하여 영상을 N개의 클러스터 영역으로 분할한다. 다음단계에서 N개의 클러스터 영역 중에서 대표 영역을 선택하고 이웃 영역들의 영역의 색상과 위치 근접성을 기반으로 단계별 영역 병합 알고리즘을 적용하여 유사한 클러스터 영역을 병합한다. 병합된 원료 객체는 RG, GB, BR의 2D 색상 분표로 표현되고, 병합된 원료 객체에 대해 색상 분포 타원을 만든다. 이후 미리 실험적으로 설정된 임계값을 적용하여 원료를 양품과 불량품을 구분한다. 다양한 원료 영상에 대해 본 논문에서 제안하는 알고리즘을 적용한 결과 기존의 클러스터링 알고리즘이나 상업용 분류 방법에 비해 사용자의 인위적 조작이 덜 필요하고 분류성능이 우수한 결과를 나타냄을 알 수 있었다.

임베디드 보드에서의 CNN 모델 압축 및 성능 검증 (Compression and Performance Evaluation of CNN Models on Embedded Board)

  • 문현철;이호영;김재곤
    • 방송공학회논문지
    • /
    • 제25권2호
    • /
    • pp.200-207
    • /
    • 2020
  • CNN 기반 인공신경망은 영상 분류, 객체 인식, 화질 개선 등 다양한 분야에서 뛰어난 성능을 보이고 있다. 그러나, 많은 응용에서 딥러닝(Deep Learning) 모델의 복잡도 및 연산량이 방대해짐에 따라 IoT 기기 및 모바일 환경에 적용하기에는 제한이 따른다. 따라서 기존 딥러닝 모델의 성능을 유지하면서 모델 크기를 줄이는 인공신경망 압축 기법이 연구되고 있다. 본 논문에서는 인공신경망 압축기법을 통하여 원본 CNN 모델을 압축하고, 압축된 모델을 임베디드 시스템 환경에서 그 성능을 검증한다. 성능 검증을 위해 인공지능 지원 맞춤형 칩인 QCS605를 내장한 임베디드 보드에서 카메라로 입력한 영상에 대해서 원 CNN 모델과 압축 CNN 모델의 분류성능과 추론시간을 비교 분석한다. 본 논문에서는 이미지 분류 CNN 모델인 MobileNetV2, ResNet50 및 VGG-16에 가지치기(pruning) 및 행렬분해의 인공신경망 압축 기법을 적용하였고, 실험결과에서 압축된 모델이 원본 모델 분류 성능 대비 2% 미만의 손실에서 모델의 크기를 1.3 ~ 11.2배로 압축했을 뿐만 아니라 보드에서 추론시간과 메모리 소모량을 각각 1.2 ~ 2.1배, 1.2 ~ 3.8배 감소함을 확인했다.

준 지도학습과 여러 개의 딥 뉴럴 네트워크를 사용한 멀티 모달 기반 감정 인식 알고리즘 (Multi-modal Emotion Recognition using Semi-supervised Learning and Multiple Neural Networks in the Wild)

  • 김대하;송병철
    • 방송공학회논문지
    • /
    • 제23권3호
    • /
    • pp.351-360
    • /
    • 2018
  • 인간 감정 인식은 컴퓨터 비전 및 인공 지능 영역에서 지속적인 관심을 받는 연구 주제이다. 본 논문에서는 wild 환경에서 이미지, 얼굴 특징점 및 음성신호로 구성된 multi-modal 신호를 기반으로 여러 신경망을 통해 인간의 감정을 분류하는 방법을 제안한다. 제안 방법은 다음과 같은 특징을 갖는다. 첫째, multi task learning과 비디오의 시공간 특성을 이용한 준 감독 학습을 사용함으로써 영상 기반 네트워크의 학습 성능을 크게 향상시켰다. 둘째, 얼굴의 1 차원 랜드 마크 정보를 2 차원 영상으로 변환하는 모델을 새로 제안하였고, 이를 바탕으로 한 CNN-LSTM 네트워크를 제안하여 감정 인식을 향상시켰다. 셋째, 특정 감정에 오디오 신호가 매우 효과적이라는 관측을 기반으로 특정 감정에 robust한 오디오 심층 학습 메커니즘을 제안한다. 마지막으로 소위 적응적 감정 융합 (emotion adaptive fusion)을 적용하여 여러 네트워크의 시너지 효과를 극대화한다. 제안 네트워크는 기존의 지도 학습과 반 지도학습 네트워크를 적절히 융합하여 감정 분류 성능을 향상시켰다. EmotiW2017 대회에서 주어진 테스트 셋에 대한 5번째 시도에서, 제안 방법은 57.12 %의 분류 정확도를 달성하였다.

다중 단계 신호의 적응적 전파를 통한 동일 장면 영상의 이원 영역화 (Bilayer Segmentation of Consistent Scene Images by Propagation of Multi-level Cues with Adaptive Confidence)

  • 이수찬;윤일동;이상욱
    • 방송공학회논문지
    • /
    • 제14권4호
    • /
    • pp.450-462
    • /
    • 2009
  • 최근까지 단일 영상이나 동영상을 영역화하는 기법들은 다양하게 제시되어 왔으나, 유사한 장면에 대한 여러 장의 영상을 동시에 영역화하는 기법은 많지 않았다. 본 논문에서는 한 장소에서 연속적으로 촬영하였거나 전경 물체가 유사한 여러 영상들을 동일 장면 영상으로 정의하고, 이런 동일 장면 영상들을 적은 양의 사용자 입력을 통해 효과적으로 영역화하는 기법을 제안한다. 구체적으로, 사용자가 최초의 영상 한 장을 직접 영역화한 후, 그 영상의 영역화 결과와 영상의 특성을 토대로 다중 단계 신호를 적응적 가중치를 주어서 인접 영상으로 전파하고, 이를 통해 제안하는 기법은 인접 영상을 반복적으로 영역화한다. 영역화는 마르코프 랜덤 장에서의 에너지 최소화를 통해 이루어지는데, 전파되는 신호는 각 픽셀에 대한 에너지를 정의하는 바탕이 되며, 픽셀, 픽셀 패치, 그리고 영상 전체로부터 비롯되었는가에 따라 낮은 단계, 중간 단계, 그리고 높은 단계의 신호로 지칭된다. 또한 에너지 최소화 틀 안에서 전파된 신호를 통해 정의되는 에너지 역시 낮은 단계, 중간 단계, 그리고 높은 단계의 세 단계로 정의한다. 이런 과정을 통해 전파된 신호를 최대한 다양하게 활용하고, 이를 통해 다양한 영상에 영역화 결과가 일관되게 유지된다. 다양한 동일 장면 영상들에 제안하는 기법을 적용하여 성능을 평가하고, 픽셀 패치를 바탕으로 하는 중간 단계 신호만을 이용한 결과와 제안하는 다중 신호를 적용하는 기법의 결과를 비교한다.

주파수 적응 채널 잡음 모델링에 기반한 변환영역 Wyner-Ziv 부호화 방법 (Transform domain Wyner-Ziv Coding based on the frequency-adaptive channel noise modeling)

  • 김병희;고봉혁;전병우
    • 방송공학회논문지
    • /
    • 제14권2호
    • /
    • pp.144-153
    • /
    • 2009
  • 최근, 사용자 제작 콘텐츠(UCC: User Created Contents) 또는 다시점 비디오(Multiview Video) 등의 응용을 위한 경량화 부호화 기술의 필요성이 대두됨에 따라 비디오 부호화 복잡도의 대부분을 차지하는 움직임 예측/보상 과정을 부호화기가 아닌 복호화기 측에서 수행하는 분산 비디오 부호화 기술(Distributed Video Coding)에 대한 연구가 활발히 이루어지고 있다. Wyner-Ziv 부호화 기술은 채널 코딩을 이용하여 원본 영상에 대한 복호화기 측의 예측영상인 보조정보에 포함된 잡음을 제거함으로써 영상을 복원하는 구조를 가진다. 일반적인 Wyner-Ziv 부호화 기술은 키 프레임 간의 움직임 예측/보상 과정에 기반한 프레임 보간법을 통해 보조정보를 생성하며, Shannon limit에 근접한 성능을 보이는 Turbo 코드나 LDPC 코드를 통해 잡음을 제거한다. Wyner-Ziv 부호화 기술은 채널 코드의 복호화를 위해 보조정보에 포함된 잡음의 정도를 예측하는데, 이를 '가상 채널 잡음(Virtual Channel Noise)'이라 하며 일반적으로 Laplacian이나 Gaussian으로 모델화 한다. 본 논문은 변환영역에서의 주파수 단위에 적응적인 채널 잡음 모델링에 기반한 Wyner-Ziv 부호화 방법을 제안한다. 다양한 영상에 대한 제안 방법의 실험 결과는 기존 방법과 비교하여 최대 약 0.52dB에 해당하는 율-왜곡 성능의 향상을 보여준다.

Adaboost와 깊이 맵 기반의 블록 순위 패턴의 템플릿 매칭을 이용한 얼굴검출 (Face Detection Using Adaboost and Template Matching of Depth Map based Block Rank Patterns)

  • 김영곤;박래홍;문성수
    • 방송공학회논문지
    • /
    • 제17권3호
    • /
    • pp.437-446
    • /
    • 2012
  • 흑백 혹은 컬러 영상과 같은 2차원 정보를 사용한 얼굴 검출 알고리즘에 관한 연구가 수십 년 동안 이루어져 왔다. 최근에는 저가 range 센서가 개발되어, 이를 통해 3차원 정보 (깊이 정보: 카메라와 물체사이의 거리를 나타냄)를 손쉽게 이용함으로써 얼굴의 특징을 높은 신뢰도로 추출하는 것이 가능해졌다. 대부분 사람 얼굴에는 3차원적인 얼굴의 구조적인 특징이 있다. 본 논문에서는 흑백 영상과 깊이 영상을 사용하여 얼굴을 검출하는 알고리즘을 제안한다. 처음에는 흑백 영상에 adaboost를 적용하여 얼굴 후보 영역을 검출한다. 얼굴 후보 영역의 위치에 대응되는 깊이 영상에서의 얼굴 후보 영역을 추출한다. 추출된 영역의 크기를 $5{\times}5$ 영역으로 분할하여 깊이 값의 평균값을 구한다. 깊이 값들의 평균값들 간에 순위를 매김으로써 블록 순위 패턴이 생성된다. 얼굴 후보 영역의 블록 순위 패턴과 학습 데이터를 사용하여 미리 학습된 템플릿 패턴을 매칭함으로써 최종 얼굴 영역인지 아닌지를 판단할 수 있다. 제안하는 방법의 성능을 Kinect sensor로 취득한 실제 영상으로 실험하였다. 실험 결과 true positive를 잘 보존하면서 많은 false positive들을 효과적으로 제거하는 것을 보여준다.

3D 환경에서 가보 영상을 이용한 입체 시력 검사도구의 개발: 탐색적 연구 (The Development of Stereotest using Gabor Images in 3D Environment: An Explorative Study)

  • 감기택
    • 방송공학회논문지
    • /
    • 제20권6호
    • /
    • pp.901-911
    • /
    • 2015
  • 최근 3D 디스플레이 환경들이 확대되면서 컴퓨터와 3D 디스플레이 장치들을 통해 개인의 입체 시력을 검사하려는 다양한 시도들이 제안되었다. 기존의 입체검사도구들에 비해 3D 디스플레이를 이용한 입체 시력 검사는 여러 장점들을 갖고 있지만, 3D TV나 모니터에서는 최소로 조작할 수 있는 양안시차의 한계가 1픽셀이다. 관찰거리가 짧은 pc 환경에서는 1 픽셀의 양안 시차 값은 정상 입체 시력을 구분해 낼 수 있는 기준보다 너무 크다. 본 연구에서는 이러한 문제를 극복하고자 가보 자극을 사용하여 1픽셀보다 작은 단위의 양안 시차를 제공할 수 있는 입체 검사 자극을 생성한 후 이 자극이 입체 시력 검사자극으로 적용가능한 지를 탐색적으로 살펴보았다. 넓은 범위의 시차를 1회만 측정하는 기존의 입체 시력 검사 대신에 좁은 범위의 시차 값에 대해 조건 당 10번의 반복 측정을 실시하여 각 개인별 정답률을 구하였다. 가보 영상을 사용한 검사결과의 신뢰도와 타당도를 살펴보기 위해 기존 입체 시력 검사에 사용되는 무선점 입체 자극을 이용한 검사 결과와 가보 영상을 이용한 검사결과를 비교하였고 그 결과 온건한 정도의 상관관계를 보여주었다. 또한 검사 결과가 얼마나 신뢰도운지를 평가하기 위해 약 1개월 후에 동일한 환경에서 가보 영상을 이용하여 입체 시력을 측정한 후, 두 검사 결과를 비교한 결과 높은 검사-재검사 신뢰도를 보였다. 이러한 결과는 가보 자극을 사용하여 입체 검사 도구를 개발하는 경우 충분히 신뢰로운 결과를 산출할 수 있음을 시사하는 것으로, 가보 자극은 충분한 관찰거리가 제공되지 않거나 혹은 매우 정밀한 단위로 입체 시력을 평가할 필요가 있는 상황에서 개인의 입체 시력을 평가하기에 적절한 자극임을 보여준다.

의류 검색용 회전 및 스케일 불변 이미지 분류 및 검색 기술 (Invariant Classification and Detection for Cloth Searching)

  • 황인성;조법근;전승우;최윤식
    • 방송공학회논문지
    • /
    • 제19권3호
    • /
    • pp.396-404
    • /
    • 2014
  • 의류 검색 분야는 의류의 비정형 특성으로 인해 매우 어려운 분야로 인식 오류 및 연산량을 줄이기 위한 노력이 많이 진행되어 왔으나 이를 위한 학습 및 인식 과정 전체에 대한 구체적인 사례가 없고 일부 관련 기술들은 아직 많은 한계를 보이고 있다. 이에 본 논문에서는 입력된 영상에서 사람 객체를 파악하여 착용한 의상으로부터 색상, 무늬, 질감 등 의상이 가질 수 있는 특성 정보를 분석하여, 이를 분류하고 검색하는 방법에 대한 전 과정을 구체적으로 보였다. 특히, 의류의 패턴 및 무늬 등을 구분하기 위한 비정형 의류 검색을 위한 LBPROT_35 디스크립터를 제안하였다. 이 제안 방식은 영상의 통계적 특징을 분석하는 기존의 LBP_ROT(Local Binary Pattern with ROTation-invariant) 방식에 추가로 원 영상에 크기 변화가 생겨도 검색해 낼 수 있도록 하는 특성이 추가된 것이며, 이를 통해 비정형 의류 검색 시 옷이 회전되어 있거나 스케일에 변화가 있어도 높은 검색율을 얻을 수 있게 되었다. 또한 색 공간을 11개의 구간으로 양자화 하는 방식을 이용하여 컬러 분류를 구현하여, 의류 검색에 있어서 중요한 컬러 유사성을 상실하지 않도록 하였다. 한편, 인터넷 상의 의류 사진들로부터 추출한 총 810장의 트레이닝 이미지로 데이터베이스를 구축하고 이들 중 36장을 질의영상으로 테스트 한 결과, 94.4%의 인식률을 보이는 등 Dense-SIFT 대비 높은 인식률을 보였다.

제스처 인식 기반의 인터랙티브 미디어 콘텐츠 제작 프레임워크 구현 (Implementation of Interactive Media Content Production Framework based on Gesture Recognition)

  • 고유진;김태원;김용구;최유주
    • 방송공학회논문지
    • /
    • 제25권4호
    • /
    • pp.545-559
    • /
    • 2020
  • 본 논문에서는 사용자의 제스처에 따라 반응하는 인터랙티브 미디어 콘텐츠를 프로그래밍 경험이 없는 사용자가 쉽게 제작할 수 있도록 하는 콘텐츠 제작 프레임워크를 제안한다. 제안 프레임워크에서 사용자는 사용하는 제스처와 이에 반응하는 미디어의 효과를 번호로 정의하고, 텍스트 기반의 구성 파일에서 이를 연결한다. 제안 프레임워크에서는 사용자의 제스처에 따라 반응하는 인터랙티브 미디어 콘텐츠를 사용자의 위치를 추적하여 프로젝션 시키기 위하여 동적 프로젝션 맵핑 모듈과 연결하였다. 또한, 제스처 인식을 위한 처리 속도와 메모리 부담을 줄이기 위하여 사용자의 움직임을 그레이 스케일(gray scale)의 모션 히스토리 이미지(Motion history image)로 표현하고, 이를 입력 데이터로 사용하는 제스처 인식을 위한 합성곱 신경망(Convolutional Neural Network) 모델을 설계하였다. 5가지 제스처를 인식하는 실험을 통하여 합성곱 신경망 모델의 계층수와 하이퍼파라미터를 결정하고 이를 제안 프레임워크에 적용하였다. 제스처 인식 실험에서 97.96%의 인식률과 12.04 FPS의 처리속도를 획득하였고, 3가지 파티클 효과와 연결한 실험에서 사용자의 움직임에 따라 의도하는 적절한 미디어 효과가 실시간으로 보임을 확인하였다.