Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
The Korean Institute of Broadcast and Media Engineers
- Semi Annual
Domain
- Media/Communication/Library&Information > Media/Consumers
2021.06a
-
최근 딥러닝 기술에 발전으로 스마트 시티, 자율주행 자동차, 감시, 사물인터넷 등 다양한 분야에서 활용이 되고 있으며, 이에 따라 기계를 위한 영상 압축에 대한 필요성이 대두되고 있다. 본 논문에서는 열 적외선 영상에서 기계 소비를 위한 객체 기반 압축 기법을 제안한다. 신경망의 객체 탐지 결과와 객체 크기에 따라 이미지를 객체 부분과 배경 부분으로 나누어 서로 다른 압축률로 인/디코딩 한 후, 나눠진 이미지들 다시 하나의 이미지로 합치는 기법을 사용하여 압축하였으며, 이는 압축효율은 높이면서 객체 탐지 성능을 높게 유지한다. 실험 결과, 제안하는 방법이 Pareto mAP에서 BD-rate가 -28.92%로 FLIR anchor 결과와 비교했을 때 압축효율이 뛰어나다는 것을 확인할 수 있다.
-
MPEG(Moving Pictures Experts Group)에서는 딥러닝을 포함한 머신 비전과 관련하여 Video for machines 란 이름의 새로운 부호화 표준에 대한 논의를 진행하고 있다. VCM 에서는 기존의 비디오 부호화와 달리 머신을 기준으로 한 비디오 부호화를 목표로 한다. 본 논문에서는 적대적 공격 모델을 이용하여 VCM 부호화에 대해서 분석을 하고자 한다. 적대적 공격 모델 관점에서 비디오 부호화의 특성에 대해서 살펴보고, 이를 고려한 부호화 개발 방향에 대해 살펴본다.
-
본 논문은 Detectron2 [1]에서 지원하는 객체 검출 임무 수행 네트워크의 과정 중에서 추출한 피쳐 맵을 신경망 기반으로 압축하는 방법을 제안한다. 이를 위해, 신경 망 기반 영상 압축을 지원하는 공개 소프트웨어인 CompressAI [2] 모델 중 하나인 bmshj2018-hyperprior 의 압축 네트워크를 활용하여 임무 수행 네트워크의 과정 중 스탬 레이어(stem layer)에서 추출된 피쳐 맵을 압축하도록 학습시켰다. 또한, 압축 네트워크의 입력 피쳐 맵의 너비와 높이 크기가 64 의 배수가 되도록 객체 검출 네트워크의 입력 영상 보간 값을 조정하는 방법도 제안한다. 제안하는 신경망 기반 피쳐 맵 압축 방법은 피쳐 맵을 최근 표준이 완료된 차세대 압축 표준 방법인 VVC(Versatile Video Coding, [3])로 압축한 결과에 비해 큰 성능 향상을 보이고, VCM 앵커와 유사한 성능을 보인다.
-
본 논문에서는 과다 노출된 영상을 영상 간 변환(Image-to-Image Translation)을 위해 설계된 적대적 생성 신경망(Generative Adversarial Network)을 활용하여 복원하는 연구를 수행한다. 과다 노출 복원을 위한 기존의 연구에서 과다 노출 영역 판별, 밝기 회복, 색상 보정 과정을 거치는데, 영상 내 과다 노출 영역을 판별하는 과정에서 임의로 결정하는 파라미터에 의해 복원된 영상 결과가 달라지는 한계점을 극복하기 위해 종단간(End-to-End) 신경망을 학습시켜 과다 노출 영역을 별도의 파라미터 선택과 분할된 과정 없이 한 번에 복원하는 방법을 제안한다. 영상 간 변환 신경망 학습에 필요한 과다 노출 여부로 도메인이 분할된 데이터셋은 게임 소프트웨어를 활용하여 만들어 사용하였다. 본 연구에서는 신경망이 생성한 영상이 실제로 과다 노출 영역을 탐지하여 복원하는 것을 확인하였다. 그리고 과다 노출 영역을 탐지하여 복원하는 과정을 학습 단계별로 확인함으로써 신경망이 실제로 과다 노출 복원 과정을 학습함을 보였다.
-
물리 시뮬레이션 기반의 캐릭터 동작 제어 문제를 강화학습을 이용하여 해결해 나가는 연구들이 계속해서 진행되고 있다. 이에 따라 이 문제를 강화학습을 이용하여 풀 때, 영향을 미치는 요소에 대한 연구도 계속해서 진행되고 있다. 우리는 지금까지 이뤄지지 않았던 상태 표현 방식에 따른 강화학습에 미치는 영향을 분석하였다. 첫째로, root attached frame, root aligned frame, projected aligned frame 3 가지 좌표계를 정의하였고, 이에 대해 표현된 상태를 이용하여 강화학습에 미치는 영향을 분석하였다. 둘째로, 동역학적 상태를 나타내는 캐릭터 관절의 위치, 각도에 따라 학습에 어떠한 영향을 미치는지 분석하였다.
-
미디어 기술은 사용자가 더욱 몰입감을 느낄 수 있는 방향으로 개발되어 왔다. 이러한 흐름에 따라 기존의 2D 이미지에 비해 깊이감을 느낄 수 있는 증강 현실, 가상 현실 등 3D 공간 데이터를 활용하는 미디어가 주목을 받고 있다. 포인트 클라우드는 수많은 3차원 좌표를 가진 여러 개의 점들로 구성된 데이터 형식이므로 각각의 점들에 대한 좌표 및 색상 정보를 사용하여 3D 미디어를 표현한다. 고정된 크기의 해상도를 갖는 2D 이미지와 다르게 포인트 클라우드는 포인트의 개수에 따라 용량이 유동적이며, 이를 기존의 비디오 코덱을 사용하여 압축하기 위해 국제 표준기구인 MPEG(Moving Picture Experts Group)에서는 Video-based Point Cloud Compression (V-PCC)을 제정하였다. V-PCC는 3D 포인트 클라우드 데이터를 직교 평면 벡터를 이용하여 2D 패치로 분해하고 이러한 패치를 2D 이미지에 배치한 다음 기존의 2D 비디오 코덱을 사용하여 압축한다. 본 논문에서는 앞서 설명한 2D 패치 이미지에 super resolution network를 적용함으로써 3D 포인트 클라우드의 성능 향상하는 방안을 제안한다.
-
기존 영상 콘텐츠에 새로운 물체를 삽입하는 등의 영상 재구성 기술은 새로운 게임, 가상현실, 증강현실 콘텐츠를 생성하거나 인공신경망 학습을 위한 데이터 증대를 위해 사용될 수 있다. 하지만, 기존 기술은 컴퓨터 그래픽스, 사람에 의한 수동적인 영상 편집에 의존하고 있어 금전적/시간적 비용이 높다. 이에 본 연구에서는 인공지능 신경망을 활용하여 낮은 비용으로 영상을 재구성하는 기술을 소개하고자 한다. 제안하는 방법은 기존 콘텐츠와 삽입하고자 하는 객체를 포함하는 영상이 주어졌을 때, 객체 세그먼테이션 네트워크를 활용하여 입력 영상에서 객체를 분리하고, 스타일 변환 네트워크를 활용하여 입력 영상을 스타일 변환한 후, 사용자 입력과 두 네트워크의 결과를 활용하여 기존 콘텐츠에 새로운 객체를 삽입하는 것이다. 실험에서는 기존 콘텐츠는 온라인 영상을 활용하였으며 삽입 객체를 포함한 영상은 ImageNet 영상 분류 데이터 세트를 활용하였다. 실험을 통해 제안한 방법을 활용하면 기존 콘텐츠와 잘 어우러지게끔 객체를 삽입할 수 있음을 보인다.
-
This paper describes an approach of composing music with multiple AI composers. This approach enriches more the creativity space of artificial intelligence music composition than using only one composer. This paper presents a simple example with 2 different deep learning composers working together for composing one music. For the experiment, the two composers adopt the same deep learning architecture of an LSTM model trained with different data. The output of a composer is a sequence of notes. Each composer alternatively appends its output to the resulting music which is input to both the composers. Experiments compare different music generated by the proposed multiple composer approach with the traditional one composer approach.
-
본 논문에서는 자막방송 제공을 위해 방송콘텐츠를 이해하는 방법으로 잔차 합성곱 순환신경망 기반 음향 사건 분류 기법을 제안한다. 제안된 기법은 잔차 합성곱 신경망과 순환 신경망을 연결한 구조를 갖는다. 신경망의 입력 특징으로는 멜-필터벵크 특징을 활용하고, 잔차 합성곱 신경망은 하나의 스템 블록과 5개의 잔차 합성곱 신경망으로 구성된다. 잔차 합성곱 신경망은 잔차 학습으로 구성된 합성곱 신경망과 기존의 합성곱 신경망 대비 특징맵의 표현 능력 향상을 위해 합성곱 블록 주의 모듈로 구성한다. 추출된 특징맵은 순환 신경망에 연결되고, 최종적으로 음향 사건 종류와 시간정보를 추출하는 완전연결층으로 연결되는 구조를 활용한다. 제안된 모델 훈련을 위해 라벨링되지 않는 데이터 활용이 가능한 평균 교사 모델을 기반으로 훈련하였다. 제안된 모델의 성능평가를 위해 DCASE 2020 챌린지 Task 4 데이터 셋을 활용하였으며, 성능 평가 결과 46.8%의 이벤트 단위의 F1-score를 얻을 수 있었다.
-
전세계적으로 우울증은 정신 건강 질환으로써 문제가 되고 있으며, 이를 해결하기 위해 일상생활에서의 우울증 탐지에 대한 연구가 진행되고 있다. 따라서 본 논문에서는 일상생활에 밀접하게 연관되어 있는 AI 스피커를 사용한 어텐션 메커니즘(Attention Mechanism) 기반 멀티모달 우울증 감지 시스템을 제안한다. 제안된 방법은 AI 스피커로부터 수집할 수 있는 음성 및 텍스트 데이터를 수집하고 CNN(Convolutional Neural Network)과 BiLSTM(Bidirectional Long Short-Term Memory Network)를 통해 각 데이터에서의 학습을 진행한다. 학습과정에서 Self-Attention 을 적용하여 특징 벡터에 추가적인 가중치를 부여하는 어텐션 메커니즘을 사용한다. 최종적으로 음성 및 텍스트 데이터에서 어텐션 가중치가 추가된 특징들을 합하여 SoftMax 를 통해 우울증 점수를 예측한다.
-
본 논문에서는 시간축 정보량을 감축하여 오디오 부호화 효율을 개선하기 위한 기술을 제안한다. 시간축 정보량 감축 방법은 종전의 오디오 코덱에서도 활용되었던 대표적인 기술로 TNS(temporal noise shaping) 기술이 있다. 그러나 TNS 기술은 오디오 신호의 천이구간에서 선별적으로 유효하게 동작하며 그 효율성도 간헐적으로 나타나는데 이는 MDCT(modified discrete cosine transform)에서 예측 과정을 수행하는 구조적인 문제를 갖고 있기 때문이다. 본 논문에서는 종전의 TNS 기술의 취약점을 보완한 ITES(intensive temporal envelope shaping) 기술을 제안하였다. 제안 기술은 TNS 보다 유효한 오디오 시간영역 정보량을 예측하고 감축하였으며, 개선된 음질을 나타냄을 주관적 평가를 수행하여 검증하였다.
-
Jin, Hoe-Yong;Jeong, Min Hyuk;Yoo, Do-Jin;Kim, Sang-Kyun;Lee, Jin Young;Lee, Hee Kyoung;Cheong, Won-Sik 36
본 논문은 물체 검출(Object Detection)과 물체영역분할(Object Segmentation)의 CNN 추론 결과를 MPEG-7 서술자 이진화를 통해 표현함으로써 원본과의 용량을 비교한다. 영상의 사용 목적에 따라 CNN 추론 결과를 압축하여 활용할 시 원본 영상 대비 용량을 측정하여 그 효율성을 판단하는 것이 목표이다. 물체 검출과 물체영역분할에 대한 추론 결과를 MPEG-7 서술자를 이용해 압축하였으며, 비교를 위해 원본 영상, CNN 추론 결과 파일, MPEG-7 서술자, MPEG-7 서술자 이진화 파일의 크기를 측정하였다. 실험 결과, MPEG-7 서술자를 이진화를 통한 표현 방식이 원본 영상 및 추론 결과 파일에 비해 효율적임을 알 수 있었다. -
최근 영상 혹은 비디오를 이용한 신경망 기반 기술들이 활발히 응용되고 있으며, 신경망이 처리하는 임무도 다양하고 복잡해지고 있다. 이러한 신경망 임무의 다양성과 복잡성은 더욱 많은 비디오 데이터를 요구하기 때문에 비디오 데이터를 효과적으로 전송할 방법이 필요하다. 이에 따라 국제 표준화 단체인 MPEG 에서는 신경망 기계 소비에 적합한 비디오 부호화 표준 개발을 위해서 Video Coding for Machines 표준화를 진행하고 있다. 본 논문에서는 신경망의 특징 맵 부호화 효율을 개선하기 위해 특징 맵 채널 간의 유사도가 높도록 특징맵 채널을 재배열하여 압축하는 방법을 제안한다. 제안 방법으로 VCM 의 OpenImages 데이터셋의 5000 개 검증 영상 중 임의 선택된 360 개 영상에 대해 부호화 효율을 평가한 결과, 객체 검출 임무의 정확도가 유지되면서 모든 양자화 값에 대해 화소당 비트수가 감소했으며, BD-rate 측면에서 2.07%의 부호화 이득을 얻었다.
-
최근 기계 임무수행에 사용되는 데이터양이 증가함에 따라 기계를 위한 효율적인 영상 압축방식의 필요성이 높아졌다. 기존의 비디오 코덱은 HVS (Human Visual System) 특성을 고려한 기술이기 때문에 부호화 과정에서 기계 임무수행에 필요하지 않은 정보를 효과적으로 제거할 수 없다. 반면 심층신경망 기반 압축네트워크의 경우, 원본 영상으로부터 기계 임무수행에 필수적인 데이터만을 추출하여 부호화 하도록 학습할 수 있는 장점이 있다. 본 논문에서는 압축 심층신경망과 기계 임무수행 네트워크로 구성되는 VCM (Video Coding for Machine) 프레임워크를 제안하고 학습에 의한 압축효율 향상을 검증한다. 이를 위해 압축 심층신경망을 객체탐지 임무수행 네트워크와 함께 학습시킨 결과, VVC (Versatile Video Coding) 대비 평균 61.16%의 BD-rate 감소가 확인되었다. 뿐만 아니라, 학습된 압축 심층신경망은 객체분할 임무수행에서도 VVC 대비 평균 58.43%의 BD-rate 감소를 보여 다중 기계 임무의 효율적 수행이 가능함을 확인할 수 있었다.
-
본 논문에서는 대용량의 3D 데이터 시퀀스의 압축을 진행한다. 3D 데이터 시퀀스의 각 프레임에서 Pose Estimation을 통해 3D Skeleton을 추출한 뒤, 포인트 클라우드를 skeleton에 묶는 리깅 과정을 거치고, 다음 프레임과 같은 자세로 deformation을 진행한다. 다음 프레임과 같은 자세로 변형된 포인트 클라우드와 실제 다음 프레임의 포인트 클라우드를 비교하여, 두 데이터에 모두 있는 점, 실제 다음 프레임에만 있는 점, deformation한 데이터에만 있는 점으로 분류한다. 두 데이터에 모두 있는 점을 제외하고 나머지 두 분류의 점들을 저장함으로써 3D 시퀀스 데이터를 압축할 수 있다.
-
Versatile Video Coding(VVC)에서 동영상 압축 효율을 증가시키기 위한 다양한 화면 간 예측(inter prediction) 기법 중에 적응적 움직임 벡터 해상도(Adaptive motion vector resolution, 이하 AMVR) 기술이 채택되었다. 다만 AMVR을 위해서는 다양한 움직임 벡터 해상도를 테스트해야 하는 부호화 복잡도를 야기하였다. AMVR의 부호화 복잡도를 줄이기 위하여, 본 논문에서는 가벼운 신경망 모델 기반의 AMVR 조기 판별 기법을 제안한다. 이에 따라 불필요한 상황을 미리 조기에 인지하여 대응한다면 나머지 AMVR 과정을 생략할 수 있기에 부호화 복잡도의 향상을 볼 수 있다.
-
In this paper we propose a method predict whether a video frame contains motion according to the invoking situation of the coding unit mode in HEVC. The motion prediction of video frames is conducive for use in video compression and video data extraction. In the existing technology, motion prediction is usually performed by high complexity computer vision technology. However, we proposed to analyze the motion frame based on HEVC coding unit mode which does not need to use the static background frame. And the prediction accuracy rate of motion frame analysis by our method has exceeded 80%.
-
최근, 딥러닝 및 인공신경망 기술의 발전으로 비디오 부호화 분야에서도 인공지능을 이용한 요소 기술에 대한 연구가 활발이 진행되고 있다. 본 논문에서는 주변 참조샘플로부터 문맥정보를 이용하여 현재블록을 예측하는 CNN 기반의 화면내 예측 모델을 구현하고, 비디오 부호화의 블록 분할 구조를 반영한 학습 기법에 따른 부호화 성능을 분석한다. 실험결과 HM(HEVC Test Model)에 구현한 문맥적응적 신경망 기반 예측 모델에서 트리 분할 구조를 반영한 학습이 HM16.19 대비 0.35% BD-rate 부호화 성능 향상을 보였다.
-
오디오 대역 확장 기술은 저 해상도의 오디오 신호를 고 해상도의 오디오 신호로 복원 또는 생성해 내는 기술이다. 이와 관련하여 오디오 코덱에서는 고 대역 오디오 신호의 저 비트 부호화를 위해 사람이 청각이 둔감하게 인지하는 고 대역의 오디오 신호에 대해 실제 신호에 대한 양자화를 수행하지 않고, 코딩 되어 전송된 저 대역 신호와 고 대역의 파라미터를 이용하여 신호를 합성하는 스펙트럼 대역 복제 기술이 널리 사용된다. 본 연구에서는 선형 예측 기반의 주파수 대역 복제 방법을 통해 추가 정보를 활용한 오디오 대역 확장을 수행하고 신경망 기반의 오디오 신호 개선을 통해 복제된 신호의 개선 가능성을 검토하였다. 실험 평가는 MPEG 에서 코덱 평가용으로 사용되는 테스트 시퀀스를 사용하였으며, 실험 결과 제안하는 방법을 적용하여 기존 오디오 대역 확장 기술 대비 성능이 향상됨을 확인하였다.
-
본 논문에서는 조건부 wavenet을 이용한 음성 신호의 잡음 제거 기술을 제안한다. 기존의 음성 신호 잡음 제거 기술은 스펙트로그램을 기반으로 발전되어 왔으나, 잡음으로 인해 변형된 원음의 위상 정보를 복원할 수 없는 문제점을 가진다. 이를 해결하기 위해 시간 영역에서 전 과정을 실행하는 기계학습 모델인 wavenet을 사용하여 음성 신호의 잡음을 제거하는 방법을 제안한다. 특히, 잡음 종류를 조건으로 입력하여 성능 향상을 얻도록 한다. 성능 평가를 통하여 제안 방법이 시간 영역에서 잡음을 감소시킬 수 있음을 확인하였다.
-
본 논문은 wavenet을 이용하여 음성 신호의 대역폭을 확장하는 새로운 모델을 제안한다. 기존의 대역폭 확장은 주로 주파수 영역에서 진행되며, 확장 대역의 주파수 크기는 높은 성능으로 복원하지만 위상 정보를 정확히 복원할 수 없다는 문제점을 가진다. 이를 해결하기 위해 wavenet 모델을 기반으로 시간 영역에서 저대역과 고대역의 상관관계를 이용하여 고대역 성분을 생성하도록 한다. 제안하는 방법은 모든 동작을 시간 영역에서 수행하며, 제안 방법으로 생성한 고대역 성분이 원음의 고대역 성분과 유사한 것을 확인하였다.
-
본 논문에서는 Wave-U-Net 기반의 오디오 부호화 성능 향상 기법을 제안한다. 기존의 인공지능 기반 오디오 부호화 기술은 오디오의 주파수 정보를 복원하는 방식이기 때문에 완전한 복원을 위해서 주파수의 위상 정보를 별도로 부호화하여 전송해야 한다는 문제점이 있다. 따라서 본 논문에서는 오디오 부호화의 성능 향상을 위해 음원의 주파수 분석을 필요로 하지 않은 end-to-end 모델인 Wave-U-Net을 사용할 것을 제안한다. Wave-U-Net을 사용한 음원이 사용 전의 음원보다 객관적, 주관적 평가 지표에서 우수한 성능을 보이는 것을 확인하였다.
-
인공 지능, 사물 인터넷, 클라우드 컴퓨팅, 빅데이터, 모바일을 중심으로 시작된 4차 산업혁명은 최근 메타버스(Metaverse)시대로 자연스럽게 확장되어 가고 있다. 메타버스 시대의 핵심 기술인 VR(Virtual Reality)/AR(Augmented Reality)/MR(Mixed Reality)과 이를 디스플레이 하기 위한 HMD(Head Mounted Display)나 글래스(glass) 장치들은 사용자에게 고품질 영상뿐만 아니라 3차원 공간에 대한 6DoF(Degrees of Freedom)급의 자유도를 제공해야 한다. 이에 발맞춰 MPEG에서는 최근 실사 및 CG(Computer Graphics)로 제작된 다시점 텍스쳐 및 깊이 영상에 대한 효과적인 압축 방법을 찾기 위한 MIV(MPEG Immersive Video) 표준화를 진행중이다. 본 논문은 최신 2차원 압축 표준인 VVC(Verstitle Video Coding)를 기반으로 MPEG MIV 1.0 표준 프레임워크를 검증해본다. 특히 높은 압축율에 비해 복잡도가 높은 VVC 표준의 특성을 고려하여 HHI에서 개발한 최적화 코덱인 VVenC를 이용하여 압축 효율과 복잡도 관점에서 MIV 표준 활용을 위한 최적의 솔루션을 찾고자 한다.
-
본문에서는 TMIV 에서 비디오 코덱으로 사용되고 있는 HEVC 를 MV(Multiview)-HEVC 로 대체한 실험결과를 소개하고 부호화 효율을 향상시키기 위한 아틀라스 생성 구조에 대해 제안하고자 한다. 이를 위해 본 논문에서는 푸루닝(pruning)된 패치를 패킹한 아틀라스 영상으로 구성된 MIV 앵커(anchor)에 MV-HEVC 를 적용하는 구조, 소스 시점영상으로부터 선택된 기본 시점영상으로만 패킹한 아틀라스 영상으로 구성된 MIV view 앵커에 적용하는 구조를 실험한다. 이와 더불어 부호화 효율을 향상시키기 위해 선택된 기본시점 영상을 패킹함에 있어서 2 개의 아틀라스영상에 걸쳐 가장 인접한 시점을 배치하는 아틀라스 영상 구조를 제안한다. 실험결과, 기존의 MIV 앵커에 MV-HEVC 를 적용하면 성능 개선이 거의 없으며, MIV view 앵커와 제안한 MIV view 앵커의 아틀라스영상 구조에 MV-HEVC 를 적용하면 객관적인 성능이 최대로 얻을 수 있음을 알 수 있었다.
-
This paper presents a scheme to downscale the patches in geometry atlas based upon its contents for MPEG Immersive Video (MIV). In proposed scheme, the geometric contents of a patch is analyzed across the intra period, and a decision is made, whether to downscale a patch or not. The patches containing homogeneous information is downscaled by half, while the patches having salient information about the object such as edges are retained. Experimental results show that the bitrate saving is achieved by incorporating the patch level downscaling.
-
MPEG 비디오 그룹은 제한된 3D 공간 내에서 움직임 시차(motion parallax)를 제공하면서 원하는 시점(view)을 렌더링(rendering)하기 위한 표준으로 TMIV(Test Model for Immersive Video)라는 테스트 모델과 함께 효율적인 몰입형 비디오의 부호화를 위한 MIV(MPEG Immersive Video) 표준을 개발하고 있다. 몰입감 있는 시각적 경험을 제공하기 위해서는 많은 수의 시점 비디오가 필요하기 때문에 방대한 양의 비디오를 고효율로 압축하는 것이 불가피하다. TMIV 는 여러 개의 입력 시점 비디오를 소수의 아틀라스(atlas) 비디오로 변환하여 부호화되는 화소수를 줄이게 된다. 아틀라스는 선택된 소수의 기본 시점(basic view) 비디오와 기본 시점으로부터 합성할 수 없는 나머지 추가 시점(additional view) 비디오의 영역들을 패치(patch)로 만들어 패킹(packing)한 비디오이다. 본 논문에서는 아틀라스 비디오의 보다 효율적인 부호화를 위해서 패치 내에 생기는 작은 홀(hole)들을 채우는 기법을 제안한다. 제안기법은 기존 TMIV8.0 에 비해 1.2%의 BD-rate 이 향상된 성능을 보인다.
-
In this paper, we proposed an improved method on the picture order of coding (POC) of MPEG-5 Essential video Coding (EVC) encoder to support a short intra period for Video-based Point Cloud Compression (V-PCC). As a codec-agnostically designed standard, V-PCC claimed to be able to work with a lot of codecs. Current EVC test model software shows that the baseline profile could not provide appropriate POC calculation. The proposed method offers a solution to this POC-related problem and provides up to 44.6% coding grains for EVC based V-PCC.
-
In this paper, a rate-distortion optimization (RDO) model is proposed to find the joint bit allocation of geometry data and color data based on geometry-based point cloud compression (G-PCC) of Moving Picture Experts Group (MPEG). The mechanism of the method is to construct the RD models for geometry and color data through the training process. Afterward, two rate-distortion (RD) models are integrated as well as the decision of the parameter λ to obtain the final RDO model. The experimental results show that the proposed method can decrease 20% of the geometry Bjøntegaard delta bit rate and increase 37% of the color Bjøntegaard delta bit rate compared to the MPEG G-PCC TMC13v12.0 software.
-
포인트 클라우드 콘텐츠는 실제 환경 및 물체를 3 차원 위치정보를 갖는 점들과 그에 대응하는 색상 등을 획득하여 기록한 실감 콘텐츠이다. 위치와 색상 정보로만 이뤄진 3 차원 점으로 이뤄진 포인트 클라우드 콘텐츠는 확대하여 렌더링 할 경우 점과 점 사이의 간격이 벌어지면서 발생하는 구멍에 의해 콘텐츠 품질이 저하될 수 있다. 이러한 문제를 해결하기 위해 본 논문에서는 포인트 클라우드 확대 시 점들 간 간격이 벌어져 생기는 구멍에 대해 깊이정보를 활용한 역변환 기반 보간 방법을 통해 포인트 클라우드 콘텐츠 품질을 개선하는 방법을 제안한다. 벌어진 간격들 사이에서 빈 공간을 찾을 때 그 사이로 뒷면의 점들이 그려지게 되어 보간 방법을 적용하는데 방해요소로 작용한다. 이를 해결하기 위해 구멍이 발생하지 않은 시점에서 렌더링 된 영상을 사용하여 포인트 클라우드의 뒷면에 해당되는 점들을 제거한다. 다음으로 깊이 맵(depth map)을 추출한 후 추출된 깊이 값을 사용하여 뎁스 에지(depth edge)를 구하고 에지를 사용하여 깊이 불연속 부분에 대해 처리한다. 마지막으로 뎁스 값을 활용하여 이전에 찾은 구멍들의 역변환을 하여 원본의 데이터에서 픽셀을 추출한다. 제안하는 방법으로 콘텐츠를 렌더링 한 결과, 기존의 크기를 늘려 빈 영역을 채우는 방법에 비해 렌더링 품질이 평균 PSNR 측면에서 2.9 dB 향상된 결과를 보였다.
-
본 논문에서는 3D(dimensional) 스켈레톤을 이용하여 멀티 뷰 RGB-D 카메라를 캘리브레이션 하는 새로운 기법을 제안하고자 한다. 멀티 뷰 카메라를 캘리브레이션 하기 위해서는 일관성 있는 특징점이 필요하다. 우리는 다시점 카메라를 캘리브레이션 하기 위한 특징점으로 사람의 스켈레톤을 사용한다. 사람의 스켈레톤은 최신의 자세 추정(pose estimation) 알고리즘들을 이용하여 쉽게 구할 수 있게 되었다. 우리는 자세 추정 알고리즘을 통해서 획득된 3D 스켈레톤의 관절 좌표를 특징점으로 사용하는 RGB-D 기반의 캘리브레이션 알고리즘을 제안한다.
-
디지털 홀로그램(digital hologram, DH)은 2차원 데이터에 3차원의 정보를 포함하는 차세대 영상 콘텐츠이다. 따라서 이 콘텐츠의 유통을 위해서는 그 지적재산권이 반드시 보호되어야 한다. 본 논문에서는 이를 위한 딥러닝 기반 DH의 워터마킹 방법을 제안한다. 이 방법은 워터마크의 비가시성, 공격에 대한 강인성, 워터마크 추출 시 호스트 정보를 사용하지 않는 blind 워터마킹 방법이다. 이 네트워크는 고주파 성분이 강한 DH의 특성을 감안하여 호스트 데이터를 축소하지 않고 워터마크 데이터를 확장하여 워터마크를 삽입한다. 또한 홀로그램의 복원성능을 위한 학습을 제안한다. 제안한 방법을 다양한 종류와 강도의 공격에 대해 실험을 수행하여 그 성능을 보인다.
-
본 연구는 딥러닝 기반의 복원 모델을 사용하여, 비디오 압축을 통해 변질된 위상 홀로그램의 화질을 복원하는 방법을 제안한다. 압축 효율을 위해 위상 홀로그램의 해상도를 감소시킨 후 압축한다. 원래의 해상도로 되돌린 홀로그램을 딥러닝 모델을 사용하여 복원한다. 복원된 위상 홀로그램은 원본 홀로그램을 압축한 것보다 동일한 BPP에서 더 높은 PSNR을 보인다.
-
본 논문에서는 단안비디오 입력으로부터 각 SAI(sub-aperture image)간의 넓은 기준선을 갖는 라이트필드 합성기법을 제안한다. 기존의 라이트필드 영상은 취득의 어려움에 의해 규모가 작고 특정 물체위주로 구성되어 있어 컴퓨터 비전 및 그래픽스 분야의 최신 딥러닝 기법들을 라이트필드 분야에 적용하기 어렵다는 문제를 갖고 있다. 이러한 문제점들을 해결하기 위해 사실적 렌더링 기반의 가상환경상에서 실제환경과 유사함을 갖는 데이터를 취득하였다. 생성한 데이터셋을 이용하여 기존의 새로운 시점을 생성하는 기법 중 하나인 다중 평면 영상(Multi Plane Image) 기반 합성기법을 통해 라이트필드 영상을 합성한다. 제안하는 네트워크는 단안비디오의 연속된 두개의 프레임으로부터 MPI 추정하는 네트워크와 입력영상의 깊이 정보를 추정하는 네트워크로 구성되어 있다.
-
Light field (LF) superpixel segmentation aims to group the similar pixels not only in the single image but also in the other views to improve the computational efficiency of further applications like object detection and pattern recognition. Among the state-of-the-art methods, there is an approach to segment the LF images while enforcing the view consistency. However, it leaves too much noise and inaccuracy in the shape of superpixels. In this paper, we modify the process of the clustering step. Experimental results demonstrate that our proposed method outperforms the existing method in terms of view-consistency.
-
영상에 새로운 광원을 추가하거나 기존의 광원을 변경하여 영상 내 오브젝트들에 적용된 조명을 변경하는 것을 영상 기반 재조명이라 한다. 하지만, 영상에는 재조명을 위해 필요한 광원과 오브젝트들의 3차원 기하 정보가 부재하다는 문제가 있다. 이를 해결하기 위해, 본 연구에서는 영상으로부터 재조명에 필요한 요소들을 추정하는 접근법을 취한다. 오브젝트 표면의 노말과 알베도는 조명의 주 요소이지만 광원에는 독립적이므로 새로운 광원에 대한 재조명을 가능케 한다. 따라서 본 연구는 영상으로부터 노말맵과 알베도맵을 추정한 뒤, 이를 이용하여 영상 기반 렌더링하는 영상 재조명 방법을 제안한다. 조건부 적대적 생성망을 다양한 조명 환경에서 렌더링된 3차원 오브젝트 영상들과 그에 대응하는 노말맵, 알베도맵을 이용해 학습함으로써, 임의의 영상에 대한 노말맵과 알베도맵 추정기를 생성한다. 이를 통해 추정된 노말맵과 알베도맵은 3차원 공간상에서 새로운 광원에 대해 렌더링됨으로써 재조명 영상을 생성한다. 마지막으로, 영상 기반으로 재조명된 영상과 ground truth와의 비교 실험을 통해 본 연구에서 제안한 방법이 유효함을 확인한다.
-
Generative adversarial networks (GANs) have reached a great result at creating the synthesis image, especially in the face generation task. Unlike other deep learning tasks, the input of GANs is usually the random vector sampled by a probability distribution, which leads to unstable training and unpredictable output. One way to solve those problems is to employ the label condition in both the generator and discriminator. CelebA and FFHQ are the two most famous datasets for face image generation. While CelebA contains attribute annotations for more than 200,000 images, FFHQ does not have attribute annotations. Thus, in this work, we introduce a method to learn the attributes from CelebA then predict both soft and hard labels for FFHQ. The evaluated result from our model achieves 0.7611 points of the metric is the area under the receiver operating characteristic curve.
-
360 도 영상은 기존 미디어와 다른 몰입감을 제공하지만 HMD 기반 시청은 멀미, 신체적 불편함 등을 유발할 수 있다. 또한, 시청 디바이스 보급 문제, 네트워크 대역의 문제, 단일 소스 다중 이용의 수요 등으로 일반 디스플레이 기반 서비스 수요도 존재한다. 본 논문에서는 360 도 영상의 일반 디스플레이 서비스를 위한 뷰포트 추출에 필요한 영상 내 객체의 동적 속성을 활용한 시각적 관심 지도 증강 기법과 이를 이용한 서비스 구조를 제시한다.
-
최근 가상현실 및 증강 현실에 대한 관심도가 높아지면서, 깊이 추정, 객체 인식, 영상 분할 등의 다양한 컴퓨터 비전 알고리즘을 360° 영상에 적용하는 연구가 활발히 진행되고 있다. 이 중, 다수의 RGB 카메라를 활용하여 3 차원 정보를 추출하는 깊이 추정 기술은 보다 나은 몰입감을 제공하기 위한 핵심 기술이다. 그러나 깊이 추정 알고리즘의 객관적 성능 평가를 위한 정제된 360° 영상 데이터셋은 극히 부족하며, 이로 인하여 관련 분야 연구에 한계가 있다. 따라서 본 논문에서는 객관적인 알고리즘 성능 평가가 가능하며, 정제된 360° 동영상 데이터셋을 제안하고, 추후 다양한 360° 영상 응용 알고리즘 개발에 활용하고자 한다.
-
국내 이동통신은 4 세대(4G)에서 5 세대(5G)로 전환되는 과정에 있으며 행정안전부는 기존 긴급재난문자 서비스를 5G 망으로 고도화하기 위해 준비하고 있다. 재난문자 길이의 확장, 송출 지역 세분화, 외국어 문자 지원 등을 긴급재난문자 서비스에 포함하기 위해 국내외 표준화와 검증 시스템 구축이 준비되고 있다. 본 논문에서는 해외 사례 분석을 통해 국내 5G 망으로 고도화된 긴급재난문자를 서비스하기 위해 요구되는 검증 요구사항을 정의하고 있다. 이를 기반으로 긴급재난문자 서비스를 검증할 리빙랩이 구축될 예정이다.
-
최근 기후 변화와 사회적 위험 요인이 결합된 복합 재난의 발생이 급격하게 증가하고 있다. 이러한 재난에 신속하게 대응하기 위하여 통신망을 이용한 긴급재난문자 시스템에 대한 관심이 증가하고 있다. 기존 LTE 기반의 긴급재난문자 서비스는 한정된 자원으로 인해 시스템의 한계가 있으며, 단순한 정보 전달의 기능만 제공하는 문제점이 있다. 5G 이동 통신 서비스가 상용화 되면서 다양한 서비스 제공이 가능하기 때문에 긴급재난문자 서비스를 고도화하기 위한 연구가 수행되고 있다. 본 논문에서는 고도화된 5G 기반 긴급재난문자 서비스의 성능을 검증하기 위한 리빙랩을 설계한다.
-
이 연구에서는 국내 재난문자와 미국 WEA의 법령과 표준의 관계를 비교하였다. 국내 재난문자 재난 및 안전관리 기본법을 상위법으로 두는 법령이 있으나 기술적 내용은 대부분 민간 표준단체(TTA)의 표준으로만 제정되어 있다. 따라서 이동통신사와 단말기 제조사는 의무적으로 준수해야 하는 법적 근거가 없다. 한편, 미국은 WEA 연방 규칙에서 기술적 내용을 포함하고 있어서 이동통신사와 단말기 제조사는 의무적으로 해당 내용을 준수해야 한다. 이에, 국내는 이동통신사와 단말기 기종별로 재난문자 서비스의 차이가 발생하고 있지만 미국에서는 이러한 차이를 발견하기 어렵다.
-
재난문자는 이동통신망을 통해 제공되며 인터넷망을 통해 포털에서도 제공되고 있다. 현재 국내에서는 다양한 경보 전달 채널들을 CAP 메시지를 기반으로 통합하여 운용하기 위한 연구가 진행되고 있다. 따라서 이를 대비하여 CAP 메시지와 인터넷 포털 경보 서비스 규격을 연동할 필요성이 있다. 이 연구에서는 메시지의 정보, 메시지 내용, 수신 지역 정보 등에 대한 CAP 메시지와 인터넷 포털 경보 서비스의 연동규격을 제시하였다.
-
지상파 방송에서 재난방송 기술이 진화되고 있다. 하지만 재난방송 정책은 진화된 기술을 제도화하지 못하고 있다. 본 연구는 기술이 재난방송 정책 변화를 줄 수 있는 다섯 가지 요소에서 정책과 기술이 어떤 간극을 보이는지 살펴보았다. 결론적으로 현재 '재난방송 및 민방위경보방송의 실시에 관한 기준'은 신규 기술에 대한 규정을 담기 부족하다. 따라서 재난경보 방송을 구체화하고 재난경보 메시지와 재난방송 수신환경과 수신기에 대한 기술적 규격을 제도화하기 위한 가칭 '재난방송 기술기준'을 시급히 마련하여 할 필요성을 제기하고 있다.
-
지상파 방송에서는 청각장애인을 위해 폐쇄자막(closed caption) 서비스가 제공되고 있지만, 이를 저장하여 VOD 서비스 등에 제공하고자 할 때는 영상과의 비동기화(desynchronization) 문제로 인해 활용할 수 없는 문제가 있다. 본 논문에서는 이를 해결하기 위해 자동 음성인식(automatic speech recognition)과, 자막 동기화 문제에 맞게 변경된 동적계획법(modified dynamic programming)을 이용하는 방법을 제안한다. 문자열 정렬에서 삽입과 삭제 등 간격(gap)의 발생을 제어하는 제약조건과 그에 따른 점수 구조를 적용함으로써 문자열 정렬 성능을 개선한다. 또한 정렬된 폐쇄자막과 음성인식 문자열로부터 시간 동기정보를 복원하고 동기화된 자막을 생성하는 방법을 제안한다. 실제 TV 프로그램과 자막에 적용하여 기존 방법에 비해 성능의 향상이 있음을 확인하였다.
-
최근 지상파 UHD 방송에서는 자막을 비디오 패킷에 삽입하여 전달하는 기존 방식이 아닌 별도의 전송로로 전달하는 폐쇄형 자막(closed caption) 방식을 적용하고 있다. 또한 자막에는 문자 뿐만 아니라 이미지까지 포함하여 청각장애인의 프로그램 이해도를 높이는데 활용할 수 있다. 따라서 본 논문에서는 청각장애 시청자가 방송 콘텐츠 내용의 이해도를 향상시키기 위하여 지상파 UHD 방송에서 기존의 문자 자막과 움직이는 이미지 자막(=감정표현 자막)을 수신하여 동시에 표현할 수 있는 수신시스템을 제안한다.
-
지상파 UHD 방송은 2017년 세계 최초로 본방송이 시작되었고 2018년 평창 올림픽과 러시아 월드컵을 지상파 UHD 방송으로 중계하면서 성장해 왔다. 그런데 최근 급변하는 미디어 기술과 코로나 19 팬데믹 이후 미디어 시장이 요동치며 미디어 이용 플랫폼과 콘텐츠 그리고 미디어 이용 기기별 사용 시간에도 많은 변화가 생기고 있다. 이에 따라 지난 2017년 본 방송 이후 지상파 UHD 방송에 대한 시청자들의 이용 실태 및 인식 변화에 대한 조사의 필요성이 대두하게 됐다. UHD KOREA와 KBS 공영미디어 연구소는 UHD 방송에 대한 인지도와 시청의향, TV 크기의 변화, TV와 인터넷 연결 여부 등 미디어 환경변화에 따른 시청자의 미디어 이용 형태를 공동으로 조사했다. 그리고 지상파 UHD 방송의 추가 서비스의 선호도와 선호 콘텐츠, OTT 이용 여부 등에 대하여도 분석했다. 지상파 UHD 방송은 고화질, 다채널, 모바일, 재난방송, 양방향 서비스 등 ATSC 3.0 기술을 기반으로 다양한 최신 서비스를 제공하는 것이 가능하다. 이러한 조사 결과는 향후 지상파 UHD 방송 및 미디어 정책의 수립과 추진의 기초 자료로 활용될 것이다.
-
최근 지상파 UHD 방송에서는 자막을 비디오 패킷에 삽입하여 전달하는 기존 방식이 아닌 별도의 전송로로 전달하는 폐쇄형 자막(closed caption) 방식을 적용하고 있다. 또한 자막에는 문자 뿐만 아니라 이미지까지 포함하여 청각장애인의 프로그램 이해도를 높이는데 활용할 수 있다. 따라서 본 논문에서는 청각장애 시청자가 방송 콘텐츠 내용의 이해도를 향상시키기 위하여 지상파 UHD 방송에서 기존의 문자 자막과 움직이는 이미지 자막(=감정표현 자막)을 송출하여 동시에 표현할 수 있는 송출시스템을 제안한다.
-
본 논문에서는 저화질의 구작 콘텐츠를 고품질로 변환하기 위한 클라우드 기반의 미디어 변환 시스템에 대한 구조 및 설계 방안에 대하여 제안한다. 우선 저화질의 콘텐츠를 고품질로 변환하기 위한 핵심요소기술에 대하여 정의하고, 이러한 요소기술이 적용된 클라우드 기반 시스템의 구조설계를 제안한다. 제안한 구조에 기반하여 각각의 요소기술이 효율적으로 결합된 통합 시스템을 제안하고 이를 통해 상용화 수준의 솔루션을 얻는 것을 목표로 한다.
-
최근 컴퓨터 그래픽 기술이 발전함에 따라 가상으로 만들어낸 객체와 현실 객체 사이의 분간이 어려워지고 있으며, AR/VR/XR 등의 서비스를 위해 현실 객체를 컴퓨터 그래픽으로 표현하는 기술의 연구가 활발히 진행되고 있다. 포인트 클라우드는 현실 객체를 표현하는 기술 중의 하나로 객체의 표면을 수많은 3차원의 점으로 표현하며, 2차원 영상보다 더욱 거대한 데이터 크기를 가지게 된다. 이를 다양한 서비스에 응용하기 위해서는 3차원 데이터의 특징에 맞는 고효율의 압축 기술이 필요하며, 국제표준기구인 MPEG에서는 연속적인 움직임을 가지는 동적 포인트 클라우드를 2차원 평면으로 투영하여 비디오 코덱을 사용해 압축하는 Video-based Point Cloud Compression (V-PCC) 기술이 연구되고 있다. 포인트 클라우드를 2차원 평면에 투영하는 방식은 점유 맵 (Occupancy Map), 기하 영상 (Geometry Image), 속성 영상 (Attribute Image) 등의 2차원 정보와 보조 정보를 사용해 압축을 진행하고, 부호화 과정에서는 보조 정보와 2차원 영상들의 정보를 사용해 3차원 포인트 클라우드를 재구성한다. 2차원 영상을 사용해 포인트 클라우드를 생성하는 특징 때문에 압축 과정에서 발생하는 영상 정보의 열화는 포인트 클라우드의 품질에 영향을 미친다. 이와 마찬가지로 추가적인 기술을 사용한 2차원 영상 정보의 향상으로 포인트 클라우드의 품질을 향상할 수 있을 것으로 예상된다. 이에 본 논문은 V-PCC 기술에서 생성되는 영상 정보에 2차원 보간 (Interpolation) 기술을 적용하여 기존의 영상 정보에 포함되지 않은 추가적인 포인트를 생성하는 것으로 재구성되는 포인트 클라우드의 밀도를 증가시키고 그 영향을 분석하고자 한다.
-
포인트 클라우드는 특정 개체 혹은 장면을 다수의 3 차원 포인터를 사용하여 표현하는 데이터의 표현 방식 중 하나로 3D 데이터를 정밀하게 수집하고 표현할 수 있는 방법이다. 하지만 방대한 양의 데이터를 필요로 하기 때문에 효율적인 압축이 필수적이다. 이에 따라 국제 표준화 단체인 Moving Picture Experts Group 에서는 포인트 클라우드 데이터의 효율적인 압축 방법 중 하나로 Video based Point Cloud Compression(V-PCC)에 대한 표준을 제정하였다. V-PCC 는 포인트 클라우드 정보를 Occupancy, Geometry, Texture 와 같은 다수의 2D 영상으로 변환하고 각 2D 영상을 전통적인 2D 비디오 코덱을 활용하여 압축하는 방법이다. 본 논문에서는 V-PCC 에서 변환하는 Occupancy 의 정보를 활용하여 효율적으로 Texture 영상을 압축할 수 있은 방법을 소개한다. 또한 제안방법이 V-PCC 에서 약 1%의 부호화 효율을 얻을 수 있음을 보인다.
-
최근 3차원 영상이 다양한 분야에서 활용되고 있으며, 이에 따라 3차원 영상에 대한 압축과 전송 방안에 대한 연구가 활발히 진행되고 있다. 국제 표준화 기구인 ISO/IEC 산하 Moving Picture Expert Group(MPEG)에서는 기존의 2차원 비디오 코덱을 이용하여 고밀도 포인트 클라우드 압축하는 방안인 V-PCC와 3DoF+ 영상을 압축하기 위한 방안인 MPEG Immersive Video(MIV)를 표준화 중에 있다. V-PCC와 MIV는 압축 방법의 유사성으로 인해 동일한 Volumetric Visual Video-based Coding(V3C) 형식으로 저장된다. 압축된 V3C 데이터를 효과적으로 저장하여 이용하기 위해서는 ISO based Media File Format(ISOBMFF) 캡슐화 과정이 필수적이다. 본 논문에서는 MPEG의 Carriage of V3C data 표준에 따라 V3C 데이터를 ISOBMFF로 캡슐화 실험을 진행하였으며, 실험에 대한 검증을 위하여 생성된 ISOBMFF 데이터를 V3C 데이터로 복원한 뒤, 디코딩 하여 확인하였다.
-
프레임 단위 LiDAR (Light Detection And Ranging) 기반의 포인트 클라우드는 프레임 간 상관 관계가 높기 때문에 프레임 사이의 예측 기법을 사용하여 더 높은 압축 효율을 얻을 수 있으며, 이를 위해 MPEG의 G-PCC는 Inter-EM (Inter-Exploratory Model)의 표준화를 진행하고 있다. 특히, Inter-EM은 LiDAR 기반 포인트 클라우드의 이러한 특성을 효율적으로 압축하기 위해 전역 및 지역 움직임을 모두 고려하여 압축하는 구조로 설계되었다. 이 중 전역 움직임은 LiDAR 센서가 장착된 차량의 움직임으로 인해 발생되므로, 포인트 클라우드 내 모든 물체들이 동일한 움직임을 나타낼 것으로 예상된다. 하지만, LiDAR 기반 포인트 클라우드는 포인트 클라우드 내 점들의 특성에 따라서 전역 움직임이 나타나는 양상이 다르다. 본 논문은 이러한 LiDAR 기반 포인트 클라우드의 특성을 설명하고, LiDAR 기반 포인트 클라우드 압축 시 전역 움직임 압축을 위한 포인트 클라우드 분할 방안에 대해 제안한다. 본 논문에서 제안하는 포인트 클라우드 분할 방안을 활용한 전역 움직임 압축 시 기존 Inter-EM 대비 더 효율적인 압축이 가능하다.
-
최근 언택트 시대에 프리랜서 시장이 활성화되면서 재능거래 플랫폼이 빠르게 성장하고 있다. 이러한 재능거래 플랫폼은 판매 금액의 일정 부분을 중개 수수료로 책정하여 수익을 올리는데, 서버-클라이언트 모델 기반의 서비스를 제공하기 때문에 서버 운영비용이 발생하여 수수료가 높다는 단점이 있다. 본 논문은 분산저장파일시스템(IPFS)을 활용한 이더리움 플랫폼 기반 분산앱(dApp) 시스템에 대한 것으로, 거래 정보 같은 가벼운 데이터는 블록에 올리고 블록체인에 올릴 수 없는 대용량 데이터는 IPFS에 분산 저장 후 파일 주솟값인 CID 값을 블록체인에 올려 서버 및 데이터베이스 운영비용을 절감하는 방법을 제안한다.
-
MPEG-IoMT 표준은 미디어 사물과 관련된 데이터 포맷 및 인터페이스와 관련된 국제 표준 프로젝트로서 여러 플랫폼에서도 다양한 미디어 사물을 등록, 연결 및 통신을 할 수 있게 제공한다. 하지만 현재로서 다수의 미디어 사물 간 연결 수립은 사용자가 수동으로 수행해야 하며, 연결이 되었다 하더라도 미디어 사물 간 데이터 통신의 진행 상태를 확인할 수단이 없다. 따라서 본 논문에서는 MPEG-IoMT 표준 내 미디어 사물 관리자(Media Thing Manager)를 제안한다. 미디어 사물 관리자는 미디어 사물 간 자동 연결을 위해 미션 데이터를 생성 및 관리하며, API 를 통해 미디어 사물 간 통신 수행 여부를 확인할 수 있다.
-
최근 미디어 기반 분석 기술의 활성화에 따라 국제 표준 기구인 ISO/IEC는 미디어 관련 분석 및 제어 기술에 대한 표준화를 진행하고 있다. ISO/IEC SC29 WG7은 Internet of Media Thing (IoMT) 이라는 기술명으로 Internet of Thing (IoT) 기술을 이용하여 미디어 기반 분석 서비스의 제공을 위한 인터페이스 기술에 대한 표준화를 진행 중이며, 이는 IoMT를 통한 미디어 취득 기기 및 센서 기기, 미디어 분석 기기, 미디어 저장 및 표현 기기에 대한 인터페이스를 정의하고 있다. 기본적으로 이 표준은 IoT 기법을 기반으로 하고 있는 데, IoT 기법은 서비스 제공자 - 소비자의 peer to peer 서비스 관리 기법으로 다양한 기기간 연동을 제공하는 미디어 기기간의 서비스 구성의 적용을 위해서는 연계에 대한 고려가 추가로 필요하다. 본 논문에서는 상기와 같은 IoMT 기반의 미디어 서비스 구성에 있어 IoMT 기기간 연계를 보다 손쉽게 설정하고 구성할 수 있는 서비스 연동 기법에 대한 요구사항을 검토하고 해결 방안을 검토한다. 단일 기기에 대한 제어와 달리 다양한 기기간의 밀접한 연계를 통한 미디어 서비스에 대하여, 본 논문은 각 기기간 연결을 autonomous하게 수행할 수 있는 별도의 IoMT 기기를 제시하여 해당 기기간 연계 기법을 제시한다. 이 과정에서 별도의 IoMT 기기가 제공해야 할 요구사항 및 주요 기능에 대한 척도를 함께 제시한다.
-
최근 메타버스, 디지털트윈 등 산업계의 요구가 높아지고, 아울러 스마트홈, 스마트시티, 스마트팩토리와 같은 사물인터넷을 근간으로 하는 상용화 기술의 발전이 가속화되고 있다. 현실 세계의 센서와 구동기의 연결을 통해 사물들을 통한 현실세계 인식 및 제어에 초점을 맞추어 왔던 기존 사물인터넷 기술에서 이제는 사물 간 자율협업을 통한 문제 해결에 대한 요구가 커지고 있다. 본 논문은 미디어사물인터넷 국제표준인 MPEG-IoMT의 아키텍처 및 유스케이스를 통해 미디어사물의 자율협업에 대한 기본적인 개념을 전달하려 한다.
-
You, Do-jin;Kim, Su-ji;Jeong, Min-hyuk;Yoon, Ji-soo;Kang, Ye-jin;Lee, Chae-hee;Kim, Sang-Kyun 173
최근 코로나시대의 비대면적 사회환경에서 원격 회의 요구가 증가하고 있다. 기존의 비대면 환경에서의 회의나 강의 어플리케이션에서 회의 참가자의 참여도와 몰입도를 향상시키기 위해 본 논문에서는 VR 기술을 기반으로 한 원격 회의, 강의 어플리케이션을 제안하였다. 본 논문의 어플리케이션은 양방향통신방식으로 설계 및 구성되었으며, Unity 프로그램을 사용하여 어플리케이션을 제작하고 사용자는 Oculus2 기기를 통하여 VR 환경의 어플리케이션을 실행하였다. -
최근 딥 러닝 기법의 하나인 합성곱 신경망(Convolutional Neural Network, CNN)은 영상 잡음(Noise) 제거 분야에서 전통적인 기법보다 좋은 성능을 나타내고 있지만 학습하는 과정에서 영상 내 디테일한 부분이 손실될 수 있다. 본 논문에서는 웨이블릿 변환(Wavelet Transform)을 기반으로 영상 내 디테일 정보도 같이 학습하여 영상 디테일을 향상하는 잡음 제거 합성곱 신경망 네트워크를 제안한다. 제안하는 네트워크는 디테일 향상 서브 네트워크(Detail Enhancement Subnetwork)와 영상 잡음 추출 서브 네트워크(Noise Extraction Subnetwork)를 이용하게 된다. 실험을 통해 제안하는 방법은 기존 알고리듬보다 디테일 손실 문제를 효과적으로 해결할 수 있었고 객관적 품질 평가인 PSNR(Peak Signal-to-Noise Ratio)와 주관적 품질 비교에서 모두 우수한 결과가 나온 것을 확인하였다.
-
본 논문은 눈 랜드마크 위치 검출과 시선 방향 벡터 추정이 하나의 딥러닝 네트워크로 통합된 시선 추정 네트워크를 제안한다. 제안하는 네트워크는 Stacked Hourglass Network[1]를 백본(Backbone) 구조로 이용하며, 크게 랜드마크 검출기, 특징 맵 추출기, 시선 방향 추정기라는 세 개의 부분으로 구성되어 있다. 랜드마크 검출기에서는 눈 랜드마크 50개 포인트의 좌표를 추정하며, 특징 맵 추출기에서는 시선 방향 추정을 위한 눈 이미지의 특징 맵을 생성한다. 그리고 시선 방향 추정기에서는 각 출력 결과를 조합하고 이를 통해 최종 시선 방향 벡터를 추정한다. 제안하는 네트워크는 UnityEyes[2] 데이터셋을 통해 생성된 가상의 합성 눈 이미지와 랜드마크 좌표 데이터를 이용하여 학습하였으며, 성능 평가는 실제 사람의 눈 이미지로 구성된 MPIIGaze[3] 데이터 셋을 이용하였다. 실험을 통해 시선 추정 오차는 0.0396 MSE(Mean Square Error)의 성능을 보였으며, 네트워크의 추정 속도는 42 FPS(Frame Per Second)를 나타내었다.
-
인간 자세 추정 연구는 최근 크게 주목 받고 있는 연구 분야이다. 본 연구는 또한, 자기 지도 학습이라고 명명된 딥러닝 기법이 부상하면서 여러 문제가 해결되고 있다. 본 논문에서는, 이러한 문제를 해결하는 딥러닝 기반 인간 자세 추정 방법들을 유형별로 분류해본다. 그리고 각 분류별 설명과 함께 대표적인 방법들을 소개한다. 마지막으로, 결론에서는 본 연구가 앞으로 나아갈 방향에 대한 논의를 제시한다.
-
모션 전이 기법은 주어진 모션 시퀀스를 타겟 대상의 움직임에 적용하는 기법이다. 사실적인 모션 전이를 위해서는 소스와 타겟 휴먼의 포즈, 형태 및 카메라 정보를 기반으로 한 모션 정보가 필요하다. 본 논문은 최근 3 차원 인체 모델링에서 우수한 성능을 보인 SMPL 을 이용하여 정교한 모션 정보를 추출하고 이를 통한 모션 전이를 수행 할 수 있는 기법을 보인다. 소스와 타겟의 SMPL 매개 변수를 사용하여 모션 정보를 나타내고 이를 통해 encoder 로부터 추출된 특징 맵을 변형하여 모션 전이를 수행한다. 제안하는 기법의 정성, 정량적 분석을 보이고 휴먼 모션 전이 기법에 대한 향후 연구 방향을 제시한다.
-
얼굴 검증 기술은 출입통제 시스템이나 모바일 기기에서의 열람 또는 금융 서비스 등 보안이 요구되는 다양한 분야에서 널리활용되고 있다. 최근 얼굴 검증 분야에서 높은 성능 향상을 보인 대부분의 검증 모델은 깊은 네트워크를 사용하므로 상대적으로 매우 큰 컴퓨팅 파워를 요구한다. 따라서 해당 모델들을 실환경에 적용하기 위해서는 모델 경량화 기술에 대한 고려가 반드시 필요하다. 얼굴 검증 연구에서 경량화 기술의 중요성에도 불구하고 해당 연구는 이제까지 잘 다뤄지지 않았다. 본 논문은 주요 얼굴 검증 모델에 대해서 지식 증류 기술을 수행하고, 이에 따른 실험 결과를 비교 분석하여 제시함으로써 경량화 기술 적용에 대한 방향성을 제시한다.
-
본 논문에서는 지식 증류 (knowledge distillation) 기법을 적용한 얼굴 초해상화 모델을 제안한다. 제안하는 기법은 최근 얼굴 복원 분야에서 좋은 성능을 보여준 얼굴 영역의 딕셔너리 (dictionary) 정보를 사용한 모델을 선생 모델로 선정하여 적대적 (adversarial) 지식 증류 기법을 통해 효율적인 학생 모델을 구축하였다. 본 논문은 테스트시 얼굴의 사전 정보가 초래하는 추가적인 비용이 필요 없는 얼굴 초해상화 방법을 제시하고, 제안하는 기법과 다양한 기존 초해상화 기법과의 정량적, 정성적 비교를 통해 우수성을 보인다.
-
본 논문에서는 재귀 신경망을 통해 동적 비전 센서 (DVS: Dynamic Vision Sensor)의 출력에서 엣지를 추정하는 방법을 제안한다. 동적 비전 센서는 기존의 일반적인 카메라들과 달리 급격한 움직임이나 밝기 변화에 강인하게 동작한다. 그러나 동적 비전 센서에서 획득한 출력은 각각이 독립적이기 때문에 화소들의 상관관계를 이용한 알고리즘을 사용함에 어려움이 따른다. 제안하는 방법은 센서에서 획득한 출력을 일정한 시간단위로 분할하고 2차원 평면에 투영함으로써 출력의 정보량 및 상관관계를 향상시키고, 이를 재귀 신경망에 통과시켜 엣지 정보를 추정한다. 이 방법은 센서의 출력에 의해 형성된 패턴을 학습하여 엣지를 잘 추출하였으며, 기존의 컴퓨터 비전 알고리즘의 적용 및 시각 관성 측위 등의 분야에서 활용될 수 있다.
-
본 논문에서는 Stereoscopic VR 영상안의 Hole 을 제거하기 위한 효과적인 Inpainting 기술을 소개한다. 본 논문은 Mesh-based warping 과 Blending 기술을 적용하여 Hole 을 제거하는 새로운 Inpainting 알고리즘을 기술하였고, 성능 평가를 통해 제안 방법이 고품질의 Stereoscopic VR 영상을 생성시킬 수 있음을 확인하였다.
-
LiDAR 장비 및 SfM 과 MVS 방법을 이용하여 생성된 point cloud 와 mesh 에는 항상 노이즈가 포함되어 있다. 이러한 노이즈를 제거하기 위해선 노이즈와 edge 를 효과적으로 구분해낼 수 있어야 한다. 노이즈를 제거하기 위해 mesh 로부터 edge 를 먼저 구분해낸 후 edge 에 해당하는 영역과 평면에 해당하는 영역에 서로 다른 필터를 사용하는 많은 연구들이 있지만 강한 노이즈가 포함된 mesh 에서는 edge를 잘 구분해내지 못하는 문제가 존재한다. 이러한 방법들은 mesh 로부터 edge 를 구분해내는 알고리즘의 성능이 노이즈를 제거하는 전체 알고리즘의 성능에 큰 영향을 주기 때문에 강한 노이즈에서도 edge 를 잘 구분해낼 수 있는 알고리즘이 필요하다. 본 논문에서는 PCA 와 graph-cut 을 이용하여 강한 노이즈가 포함된 mesh 에서 edge 영역을 추출하는 알고리즘을 제안한다.
-
최근 가상현실 및 증강현실 기술을 응용한 콘텐츠 개발이 활발하다. 증강현실 기술은 가상현실 기술과 다르게 현실세계와 컴퓨터 그래픽과의 융합을 토대로 개발된다. 때문에 증강현실은 현실감, 몰입감을 극대화 하는 방향으로 개발되고 있다. 그러나 현실과 컴퓨터 그래픽은 서로 다른 차원에 존재한다. 이를 해결하기 위해 마커검출 기법과 오차를 미리 계산해 출력 전에 반영해주는 방식이 제시되었지만 이는 사용자의 자유도 향상과 공간적인 제약을 최소화하기에 부담이 크다. 본 논문에서는 캘리브레이션을 통한 증강현실 구현결과로서 사용자의 관절 정보를 증강현실 내 캐릭터의 관절과 맵핑한다. 이는 사용자의 움직임을 캐릭터와 동기화함으로써 증강현실의 자유도와 몰입도를 향상시켰다. 제안된 증강현실 시스템은 사용자의 생활에 적용될 수 있는 범위가 넓어지고 사용자의 편의를 향상시킬 수 있는 가능성이 높였다.
-
본 논문에서는 6 Fisheye lens 원본 영상에 대하여 Insta360 stitcher, AutoStitch[4], As-Projective-AsPossible(APAP)[5] 스티칭 방법으로 360 도 파노라마 영상을 생성하고 기하학적 왜곡과 컬러 왜곡을 비교 평가한다. 360 도 파노라마 Image Quality Assessment(IQA) 메트릭으로 Natural Image Quality Evaluator(NIQE)[6], Blind/Referenceless Image Spatial Quality Evaluator (BRISQUE)[7], Perception based Image Quality Evaluator(PIQE)[8], Feature Similarity(FSIM)[9] 그리고 high frequency feature 에 대한 Structural Similarity(SSIM)[10]을 측정하여 정량적 평가를 하며 정성적인 비교를 통하여 파노라마 영상의 품질과 평가 메트릭에 대한 벤치마크를 제공한다.
-
본 연구는 사전에 VR(virtual reality) 콘텐츠 상황을 제어함으로써 파악된 사용자의 의도에 따라 가상 객체에 우선순위를 부여하고, VR 환경에서 사용자와 가상 객체 간에 집는 상호작용(interaction)의 개선 방안을 제안한다. VR 콘텐츠에서 가상 객체를 집는 행위는 필수적이면서 가장 많이 사용되는 상호작용이다. 이때 VR 환경에서 가상 객체가 서로 가까이 위치해있는 경우 집는 상호작용이 사용자의 의도와 다른 가상 객체에 적용되는 경우가 발생하며 콘텐츠를 진행하는데 방해요소로 작용한다. 이 현상을 방지하기 위해 본 논문에서는 사전에 제어한 상황에 사용되는 가상 객체에 더 큰 가중치를 부여하는 방법을 제안한다. 사용자 만족도 실험을 통해 거리만을 고려하는 기존 방식 대비 36.31%가 증가하였으며 상호작용이 더 정교하게 수행됨을 입증하였다.
-
본 논문에서는 시각-관성 측위시스템(Visual-Inertial Odometry, VIO)에서 광학 문자 인식(Optical Character Recognition, OCR)을 활용해 문자의 영역을 찾아내고, 그 위치를 기억해 측위시스템에서 다시 인식되었을 때 비교하기 위해 위치와 특징점을 저장하고자 한다. 먼저, 실시간으로 움직이는 카메라의 영상에서 문자를 찾아내고, 카메라의 상대적인 위치를 이용하여 문자가 인식된 위치와 특징점을 저장하는 방법을 제안한다. 또한 저장된 문자가 다시 탐색되었을 때, 문자가 재인식되었는 지 판별하기 위한 방법을 제안한다. 인공적인 마커나 미리 학습된 객체를 사용하지 않고 상황에 따른 문자를 사용하는 이 방법은 문자가 존재하는 범용적인 공간에서 사용이 가능하다.
-
실감 미디어에 대한 수요가 증가함에 따라 고품질의 실감 미디어에 대한 중요성이 증가하고 있다. 이러한 실감미디어를 제작하기 위해 사용되는 일반적인 기법 중 하나인 Multi View Stereo 는 깊이 영상 추정 및 해당 깊이 영상을 이용하여 3 차원에 point cloud 를 생성하는 fusion 과정을 거치게 된다. 본 논문에서는 다중 시점 영상의 깊이 영상을 정합하는 fusion 과정을 개선하기 위한 방법을 제안한다. 제안하는 방법에서는 깊이 영상, 색상정보를 이용하여 기준 시점의 depth map 을 이용한 fusion 과정을 거친다. 실험을 통하여 제안한 알고리즘을 이용한 결과가 기존보다 개선됨을 보인다.
-
딥러닝을 활용한 영상 분석 기술은 GPU 하드웨어의 발전으로 인하여 소프트웨어 기반 처리 기술이 급격히 발전하였고 기존 패턴 분석 기술 대비 높은 정확도를 보여주고 있다. PC나 특정 하드웨어에서 동작하는 소프트웨어 기반 영상분석기술은 적용분야의 한계가 발생하였다. 신경망 기술을 하드웨어로 구현한 NPU(Network processing unit)의 개발로 고가의 플랫폼이 아닌 임베디드 플랫폼에서의 딥러닝 구현이 가능해졌다. 반면에 하드웨어에서 활용 가능한 네트워크가 제한적임으로 인하여 구현 가능한 딥러닝 모델의 크기, 메모리 등의 한계가 있으며 시시각각 변하는 딥러닝 기술에 기반한 최신모델 또는 고성능 모델을 구동하기에는 한계가 발생하였다. 이를 해결하기 위하여 본 연구에서는 Distillation 기법을 적용한 임베디드 시스템을 개발하고 이에 기반한 딥러닝 모델의 구현 및 상황에 따른 가변적 딥러닝 모델의 적용이 가능한 시스템을 구현하였다.
-
인물의 행동 및 이동을 인식하는 것은 다양한 분야에서 활용될 수 있다. 사람의 행동을 파악하여 니즈를 예상하고 맞춤형 콘텐츠를 제공하거나 행동을 예측하여 범죄나 폭력을 예방하는 등 여러 방면으로 활용 가능하다. 그러나 이동과 현재 위치 정보만으로 인물의 행동을 예측하기에는 한계가 있다. 본 논문에서는 실시간으로 사람의 이동과 행동을 인식하기 위해 Kinect v2가 제공하는 관절 정보와 YOLOv3를 이용하여 실시간으로 사람의 행동을 인식하는 시스템을 제작하였다.
-
본 논문에서는 딥러닝 얼굴 인식을 이용하여 실시간 360 공간 Classroom 과 실시간을 기반으로 한 가상 360 공간 Classroom 을 제안한다. MTCNN 을 이용한 얼굴 검출 및 Inception Resnet V1 모델을 이용한 딥러닝 기법을 통해 얼굴인식을 진행하고 HSV 색공간 기반의 화자 판별, 아바타 Rendering, 출석 체크 등을 진행한다. 이후 시각화를 위해 제작한 Web UI/UX 를 통해 사용자에게 현실과 가상 공간을 넘나드는 Twin Classroom 을 제공한다. 따라서 사용자는 새로운 화상 교육 플랫폼에서 보다 개선되고 생동감 있는 Classroom 에서 교육을 받을 수 있다.
-
최근 코로나 19로 인해 비대면 활동이 늘어나고 있다. 비대면 회의, 비대면 강의, 비대면 과제 등이 이에 해당한다. 그에 따라 가상공간을 활용한 활동 또한 많은 관심을 받고 있다. 가상공간에서 인물들 사이 원활한 소통 및 현실감을 위해서는 실사적인 인물묘사가 필요하다. 따라서 실제 인물의 헤어스타일과 유사한 헤어스타일을 자연스럽게 증강시켜주는 것이 매우 중요하다. 본 논문에서는 실사적인 아바타 생성을 위한 헤어스타일의 분류 및 탐색방법을 제안한다. 이를 위해 본 논문에서는 우선 PCA(Principal Component Analysis) 와 K-means clustering 을 통해 헤어스타일에 대한 군집화를 진행한다. 그리고 Shape Indexed features를 이용하여 군집화 된 결과로부터 제일 유사한 헤어스타일 탐색방법을 제안하고 그 효용을 입증하였다.
-
2019 발생한 COVID-19로 인하여 전 세계 사람들의 여가 활동이 제한되면서 건강관리를 위해 홈 트레이닝에 많은 관심을 기울이고 있다. 뿐만 아니라 최근 컴퓨팅 기술의 발전에 따라 사람의 행동을 눈으로 직접 판단했던 작업을 컴퓨터가 키포인트 탐지를 통해 인간의 행동을 이해하려는 많은 연구가 진행되고 있다. 이에 따라 본 논문은 Azure Kinect를 이용하여 촬영한 RGB 이미지와 Depth 이미지를 이용하여 3D 키포인트를 추정한다. RGB 이미지는 2D 키포인트 탐지기를 이용하여 2차원 공간에서의 좌표를 탐지한다. 앞서 탐지한 2D 좌표를 Depth 이미지에 투영하여 추출한 3D 키포인트의 깊이 값을 이용하여 3D 키포인트 탐지에 대한 연구 개발하였다.
-
시청자의 시점 위치를 선택하여 360VR 콘텐츠를 경험하는 다중시점 또는 자유시점 360VR 콘텐츠의 전송은 매우 높은 대역폭을 소비하게 된다. 특히 다중 사용자가 존재하는 셀룰러 환경에서는 특정 사용자에게 한정된 대역폭만을 할당할 수 있으므로 불가피하게 전송 품질 악화 또는 전송 지연을 겪게 된다. 다중시점(multi-viewpoint) 360VR 콘텐츠의 경우 시청자가 시점의 위치를 변경하면 해당 위치의 콘텐츠를 전송하므로, 한정된 대역폭이 주어지는 통신환경에서 시점을 이동할 때 마다 큰 전송 지연을 겪게되어 사용자 경험이 매우 떨어지는 것을 예상할 수 있다. 본 논문에서는 다시점 360 비디오에서 시점 변경을 시도할 때 전송지연을 줄이기 위하여 주변 위치의 영상을 적절히 Pre-Loading 하는 전송방식을 고려하고, 실질적인 5G 네트워크 환경에서 시점 변환에 따른 지연시간 성능을 분석하였다. 특정 수준 이하로 지연시간을 낮추기 위해서는 사용자 이동패턴에 대한 적절한 예측 기법이 요구되며, 정확도에 따른 지연시간 감소를 실험을 통하여 확인하였다.
-
기존의 이미지 분리 및 합성 과정은 전문 프로그램의 도움을 받아 이미지로부터 사물이나 환경을 분리하거나 합성하여 이루어져 왔으며 생산되는 이미지의 양에서 일반 사용자가 생성하는 이미지의 비중이 높음에도 상대적으로 적은 수의 인원만이 기존 이미지를 분리하고 합성할 수 있었다. 본 논문에서는 다량의 기존 이미지 내 요소를 손쉽게 분리, 합성하여 새로운 컨텐츠를 제작할 수 있도록 하는 메타데이터 구조와 이를 활용하여 이미지 합성에 대한 사용자 편의성을 높이는 플랫폼을 제안한다. 이는 object segmentation 을 기반으로 이미지의 각 요소를 분리하고 계층화 하여 이루어지며 이미지 합성에 대한 접근성을 높이고 분리된 이미지의 속성을 메타데이터로 함께 표기하여 다량의 기존 이미지에서 필요로 하는 이미지 요소를 빠르게 찾을 수 있도록 한다. 또한 분리된 이미지 요소의 속성을 구체화하기 위해 사용할 수 있는 방법들에 대해 논의한다. 결과적으로 위 제안은 기존 이미지 요소를 분리, 합성하기 위해 필요한 장벽을 낮추는 역할을 수행하여 더 많은 사용자들이 이미지 합성에 참여할 수 있게 할 것으로 기대된다.
-
블루투스 비콘을 이용한 실내 측위 시스템에서 수신 RSSI 신호는 다중경로 페이딩, 주변 신호의 간섭 등의 영향으로 인하여 불규칙한 잡음이 섞이게 된다. 본 논문에서는 실제 실내 환경에서의 측정을 통해 RSSI 신호의 통계적 특성을 분석한다. 또한, RSSI 신호의 잡음을 완화시켜서 효과적으로 실내 측위를 수행할 수 있는 방안에 대해서도 모색해 본다.
-
근래에 메타버스가 크게 주목을 받으면서 VR 영상의 퀄리티가 중요해졌다. VR 실사 영상의 경우 HMD 로 시청할 때 모노 및 스테레오 환경으로 입체감을 느끼게 한다. 하지만 스테레오스코픽 비디오의 경우 제작자가 스테레오스코픽으로 촬영하지 않으면 제공하기 어렵다는 단점이 있다. 본 논문에서는 이를 해결하기 위해 RVS 를 Client 단에서 활용하여 제공하는 방식을 고려, 모든 장치에서 스테레오스코픽을 시청할 수 있는 웹 플랫폼을 aframe 프레임워크를 사용하여 제작하고, PC HMD 등 HMD 에서 웹 플랫폼 접근 시 생기는 제한을 해결하는 방법도 같이 서술한다.
-
본 논문에서는 IM-OFDM-SS(index modulated orthogonal frequency division multiplexing with spread spectrum)와 IM-OFDM-QOS(IM-OFDM with quasi-orthogonal sequence) 시스템을 위한 2 단계 검출 (2-stage detection) 방법에 대해 연구하였다. IM-OFDM-SS/QOS 시스템은 전송할 수열의 인덱스(index)와 변조심볼(modulation symbol)을 이용하여 정보를 전달하며, 수신기(receiver)에서는 인덱스와 변조 심볼을 결합하여 동시에 검출하는 최대 우도(maximum-likelihood) 검출 방법을 사용할 수 있다. 그리고, 인덱스를 먼저 검출하고, 검출한 인덱스에 대한 변조 심볼을 이어서 검출하는 2 단계 방법을 적용할 수 있다. 따라서, 본 논문에서는 IM-OFDM-QOS 시스템에 2 단계 검출 방법을 적용하여 성능을 비교한다. 또한, 두 개 이상의 수열을 동시에 전송하는 경우 2 단계 검출 방법의 한계를 논의한다.
-
3GPP (3rd generation partnership project)는 5G 요구 조건을 충족시키기 위해 release 16 에서 FeMBMS (further evolved MBMS)를 LTE 기반 5G MBMS 로 개선하였다. 이어서, 현재 개발 중인 release 17 에서 NR 기반의 디지털 방송을 위한 NR MBS (multimedia broadcast services)가 논의되고 있다. 본 논문에서는 LTE (long term evolution) 기반 5G MBMS (fifth generation multimedia broadcast & multicast services)와 5G NR (fifth generation new radio)의 PBCH (physical broadcast channel) 에 대한 송수신기 구조를 설명하고, 성능을 평가한다. 본 논문에서는 가산 백색 가우시안 잡음(additive white Gaussian noise: AWGN) 및 고정 환경 하에서 LTE 기반 5G MBMS 와 5G NR 에 대한 PBCH 의 성능을 비교한다.
-
본 논문에서는 높은 이동성 요구를 만족하기 위한 새로운 변조기술인 OTFS (orthogonal time frequency space) 시스템을 살펴보고 주파수 효율을 높이기 위해 제안된 RCP-OTFS (Reduced Cyclic prefix OTFS) 와 CP-OTFS (Cyclic Prefix OTFS)의 성능을 비교한다.
-
현재 세계 모바일 App 시장에서는 메신저 서비스가 꾸준히 인기를 이어가고 있으며 국내 모바일 메신저 시장 또한 월간이용자수가 꾸준히 유지되고 있다. 이에 따라 많은 App들이 메신저 기능을 제공하기 위해 자체 채팅 서비스를 도입하거나 외부 메신저 App을 연동하는 방법을 사용하고 있다. 하지만 중·소 IT 기업의 경우 자체 개발 인력 및 인프라를 마련하는데 한계가 있으며 외부 메신저 App 연동 시 이탈 역효과의 단점이 발생한다. 이에 본 논문은 중·소 IT 기업에 활용성을 높일 수 있는 STOMP 프로토콜 활용 자체 메신저 App 서비스를 개발하려 한다. 본 논문을 통해 App 자체에서 메신저 기능을 손쉽게 도입해 이용자 이탈율 최소화를 기대한다.
-
Fisheye 카메라로 촬영된 영상은 일반 영상보다 넓은 시야각을 갖는 장점으로 여러 분야에서 활용되고 있다. 그러나 fisheye 카메라로 촬영된 영상은 어안렌즈의 곡률로 인하여 영상의 중앙 부분은 팽창되고 외곽 부분은 축소되는 방사 왜곡이 발생하기 때문에 영상을 활용함에 있어서 어려움이 있다. 이러한 방사 왜곡을 보정하기 위하여 기존 영상처리 분야에서는 렌즈의 곡률을 수학적으로 계산하여 보정하기도 하지만 이는 각각의 렌즈마다 왜곡 파라미터를 추정해야 하기 때문에, 개별적인 GT (Ground Truth) 영상이 필요하다는 제한 사항이 있다. 이에 본 논문에서는 렌즈의 종류마다 GT 영상을 필요로 하는 기존 기술의 제한 사항을 극복하기 위하여, fisheye 영상만을 입력으로 하여 왜곡계수를 계산하는 딥러닝 네트워크를 제안하고자 한다. 또한, 단일 왜곡계수를 왜곡모델로 활용함으로써 layer 수를 크게 줄일 수 있는 경량화 네트워크를 제안한다.
-
영상 스티칭은 다수의 영상을 넓은 시야각을 갖는 하나의 영상으로 합성하여 사용자들에게 몰입감과 현장감을 제공하는 기술이다. 그러나 영상에 시차(Parallax)가 존재하는 경우 스티칭된 영상에서 왜곡이 발생할 수 있는데 이는 사용자의 몰입을 방해할 수 있다. 따라서 스티칭 영상의 다양한 활용을 위해서는 시차로 인한 왜곡을 최소화하여 자연스러운 스티칭 영상을 만드는 것이 중요하다. 기존 호모그래피 추정 방법으로 발생할 수 있는 고스트 현상을 최소화하기 위해서 seam 기반 스티칭 방법이 사용되었지만, 단순히 작은 특징값을 따라 생성된 seam은 사물 영역 정보가 반영되지 않아 seam이 특징이 있는 부분을 지나가면서 시차 왜곡이 발생할 수 있다. 이에 본 논문에서는 딥러닝 기반의 MegaDepth를 활용한 depth 예측 정보를 에너지 함수 기반의 seam 생성 행렬의 가중치로 사용하여 seam이 사물을 피해 생성되면서 시차가 작은 영역으로 유도되도록 하는 seam optimization 기법을 제안한다.
-
포인트 클라우드는 3 차원 물체를 표현하기 위한 점들의 집합으로, 동적인 3 차원 데이터를 정밀하게 획득할 수 있기에 이의 효율적인 압축의 필요성이 대두되고 있다. 기존 3D DCT(3D Discrete Cosine Transform)를 이용한 동적 객체의 포인트 클라우드 압축 방식은 Inter 프레임 압축을 고려하지 않아 압축시의 데이터 압축률에 한계가 있다. 따라서 본 논문은 이러한 문제점을 개선하기 위해 3D DCT 를 이용한 움직임 예측을 통하여 포인트 클라우드 영상의 I 프레임 및 P 프레임을 압축하는 방식을 제안한다.
-
Seol, Kwon;Lee, Jonghyun;Kwon, Hyukin;Kim, Hyeongseok;Ahn, Haesung;Cha, Eunyoung;Kim, Jeongchang 283
본 논문에서는 수중에서 선박 하부에 붙은 오손생물(fouling organism)을 탐지하고 격자지도(grid map)로 나타내는 시스템을 제안한다. 제안하는 시스템은 소나(sound navigation and ranging: SONAR) 센서와 오손생물사이의 시간 데이터를 수집한 후, 라즈베리 파이 4(raspberry pi 4)에서 수집된 데이터를 이용해 격자지도에 맵핑(mapping)함으로써, 선저하부의 상태를 파악하는데 도움을 줄 수 있다. 본 논문에서는 제안된 지도 시스템을 이용하여 선박 하부에 붙은 오손생물의 분포를 확인할 수 있다. -
코로나-19와 4차 산업혁명 시대가 진행되면서 가상 현실에 대한 사람들의 관심이 나날이 증가하고 있다. 이에 따라 디지털화의 핵심 기술로 Digital twin과 Metaverse 기술의 중요성이 제고되고 있다. 현재 Metaverse를 사용한 다양한 기술이 개발되면서 적용 범위가 확대되고 있다. 미래에 Metaverse는 가상공간의 주류가 될 것이다. 이에 본 논문은 기존의 실감형 콘텐츠로 접근하고 있는 가상현실을 Digital twin을 기반한 Metaverse platform으로서의 무한한 가능성을 제안한다. 언제 어디서나 사용자의 접근이 가능하고 자유로운 이동, 회전을 통해 현실에서의 경험을 가상공간에서 이어갈 수 있는 Platform을 개발하였다.
-
본 논문에서는 머신 러닝 (machine learning)을 이용하여 x, y, z 세 축의 가속도계 측정 값을 이용하여 5 가지 유산소 운동을 분류하는 알고리즘을 제시한다. 제안하는 알고리즘으로는 운동 데이터 각 샘플 마다 운동을 분류한 개별 판단, 판단된 데이터 샘플을 그룹 지어 판단하는 다수결 판단, 각 데이터 샘플의 분류하여 확률을 결합하는 확률 누적 판단이 있으며 이를 적용하여 5 가지 유산소 운동을 분류하고 성능을 비교한다.
-
본 논문에서는 컴퓨터 그래픽에서 주로 적용되어 왔던 푸아송 디스크 샘플링(Poisson Disk Sampling)을 3차원 영상 모델링에 적용하는 것을 제안한다. 이 샘플링 기법은 3차원 영상 센서의 핵심 기술로 사용되는 라이다 센서를 활용해 수집한 PointCloud가 특정 위치로 뭉쳐지는 클러스터 현상이 발생하지 않고 균일하게 분포하게 할 뿐 아니라 영상의 노이즈도 제거한다. Intel의 라이다 센서 L515와 Apple의 태블릿 라이다 센서를 이용해 추출한 PointCloud를 Poisson Disk Sampling 과정을 거쳐 Mesh를 생성하고 이를 SLAM 기법으로 추출한 경우와 비교한다. PointCloud의 수를 줄였을 때 더 좋은 Mesh를 생성할 수 있다.
-
영상 잡음 제거는 잡음으로 저하된 영상으로부터 잡음 없는 영상을 복원하는 기술이다. 최근 영상 처리에 딥러닝을 사용한 학습 기반 방법 중 저수준 컴퓨터 비전 분야에 고수준 영상 정보를 활용하는 접근이 있었다. 본 논문에서는 고수준 영상 정보인 영상 분할 지도를 활용하여 영상 속 가산 백색 잡음 제거 연구를 진행하였다. 잔차 연결을 활용한 구조의 인공신경망 모델에 잡음 영상, 잡음 수준 지도, 영상 분할 지도를 입력으로 넣어 고수준 영상 정보를 활용할 수 있게 하였다. 본 논문에서 제안한 인공신경망을 Outdoor Scene Dataset과 CBSD68 Dataset에 대해 확인해본 결과, PSNR과 인지적인 측면에서 DnCNN과 FFDNet보다 성능이 향상되는 것을 확인하였다.
-
본 논문에서는 움직임 정보와 시공간 주의 정보를 심층신경망을 이용하여 함께 활용한 행동 인식 방법을 제안한다. RGB 영상을 입력으로 사용하는 기존 방법과 달리 제안하는 방법은 움직임 정보를 입력으로 사용하여 시간적 특징 및 시공간 주의 정보를 추출하고, RGB 영상에서 추출한 공간적 특징에 시공간 주의 정보를 고려하게 하여 행동 인식 정확도를 향상시킨다. 실험 결과를 통해 행동 분류 정확도 및 연산 효율성이 기존 신경망보다 우수함을 보인다.
-
이미지 초해상도는 영상 취득 과정에서 센서와 렌즈의 물리적인 한계 등으로 인하여 의해 화질이 저하된 이미지를 더 높은 배율로 복원하는 문제이다. 이미지 초해상도는 딥러닝을 통해 놀라운 성능향상을 이루었지만, 카메라로 촬영된 실제 이미지에서는 좋은 성능을 내지 못하였다. 이는 딥러닝에서는 'bicubic' 커널로 down-sampling된 합성 이미지 데이터를 사용하였던 것과 달리 실제 이미지에서는 'bicubic' 커널을 통한 화질 저하와는 다른 화질 저하, 즉 다른 커널을 통한 화질 저하가 발생하기 때문이다. 따라서 실제 이미지에 대한 성능을 높이기 위해서는 이에 대한 정확한 커널 예측이 필요하다. 최근 주목받기 시작한 이미지 초해상도를 위한 커널 예측은 초해상도를 잘 시켜주는 커널을 직접 찾는 방법[10, 13]과 이미지의 분포와 커널을 통해 다운샘플된 이미지에 대한 분포를 일치시켜주면서 커널을 예측하는 방법[14]으로 나누어져 있다. 그러나 두 방법 모두 ill-posed problem 인 커널 예측 문제를 한 장의 이미지만으로 해결하려는 것이기 때문에 정확한 예측에는 어려움이 발생한다. 따라서 본 논문에서는 두 장의 이미지를 활용한 이미지 화질 저하 커널 예측 방법을 제안한다. 제안된 방법은 두 장의 이미지가 같은 카메라를 통해 촬영되었으며 이때 이미지 화질 저하는 카메라에 의해서만 영향을 받는다는 가정을 기반으로 한다. 즉, 두 장의 이미지는 같은 커널을 통해 저하된 이미지라는 가정을 한다. 제안된 방법은 [14]에서처럼 이미지 분포를 기반으로 한 커널 예측을 진행하며, 이미지 초해상도를 진행하고자 하는 이미지 외에 참고 이미지 또한 같은 커널에서 화질 저하를 시켰을 때 본래의 이미지와 같은 분포에 있도록 학습을 진행한다. 결과적으로 본 논문에서는 두 장의 이미지를 사용하였을 때 더욱 정확하게 커널을 찾을 수 있음을 보여준다. 두 장의 이미지를 활용하는 방식이 한 장의 이미지만을 활용하는 기존의 최고 수준의 방법에 비해 합성된 다양한 커널 데이터셋[14]에서 약 0.17dB 성능 향상이 있었다.
-
X-ray 영상 검사·검출 문제에 기존 딥러닝 모델을 사용하려는 시도들이 존재해왔고, 합성곱 신경망의 강력한 표현력 덕분에 대체로 준수한 성능이 보장되었다. 그러나 문제의 특성에 따라 기대한 만큼의 분류 및 검출 성능이 나오지 않는 경우가 존재한다. 이는 1) 검출 대상의 스케일이 다양하거나, 2) X-ray 영상은 흑백 영상으로 미세한 특징을 학습하기 어렵거나, 3) 지도학습을 하기에는 학습 데이터의 양이 부족하기 때문인 것이 주요 원인들이다. 본 논문에서는 다양한 스케일의 특징맵을 추출하여 종합적으로 학습하는 신경망을 통해, '생선살 X-ray 영상' 데이터셋에서 '생선 가시' 이물질 class가 모델 내에서 어떻게 학습되는지를 살펴본다. 그리고 X-ray 영상의 경우, 이물질 class를 크기별로 새롭게 labeling하여 성능 개선이 일어날 수 있음을 보인다. 또한 Multi-scale CAM을 통해 class에 따른 활성화 정도를 시각화하여 모델을 직관적으로 분석할 수 있음을 보일 것이다.
-
최근 VVC(Versatile Video Coding) 표준 완료 이후 JVET(Joint Video Experts Team)은 NNVC(Neural Network-based Video Coding) AhG(Ad-hoc Group)을 구성하고 인공지능을 이용한 비디오 압축 기술들을 탐색하고 있다. 본 논문에서는 VVC 복원 영상의 DCT 계수를 기반으로 복원 영상을 분류하고, 분류된 각 클래스에 따라 적응적으로 CNN(Convolutional Neural Network) 기반의 화질 개선을 수행하는 VVC 후처리 기법을 제안한다. 실험결과, 제안기법은 AI(All Intra) 부호화 모드에서 1.23% BD-rate 이득을 보였다.
-
최근 많은 단일 영상 초해상도 네트워크에서 입력 저 화질 영상 자체의 내부 정보를 테스트 타임에 이용하여 파라미터를 업데이트하는 방법을 통해 높은 성능 향상을 이루어냈다. 본 원고에서는, 해당 방법에서 더 나아가 동영상 초해상도네트워크의 파라미터를 테스트 타임의 저 화질 영상만을 가지고 업데이트 하는 기법을 소개한다. 첫째로, 동영상 내에 일반적으로 존재하는 반복되는 패치의 특성을 분석하고, 다음으로 기존의 복원된 동영상을 관찰하여 자기 지도 적응의 가능성을 보인다. 마지막으로, 폭넓은 실험을 통해 제안하는 기법을 검증한다.
-
최근 팬데믹으로 인해 다양한 산업에서 온라인화가 빠르게 진행되고 있다. 이러한 흐름에 따라 생체 신호를 이용한 로그인 시스템이나 자동 출결관리 시스템의 개발 또한 활발하게 연구되고 있다. 이에 본 논문에서는 생체 정보 중 얼굴을 이용하여 산업에서 도입 가능한 수준까지 얼굴인식 시스템의 성능을 향상 시키고자 한다. 우리는 성능향상을 위해 먼저 얼굴인식 시스템에서 성능 저하원인인 영상 속 얼굴 위치 및 각도 변화를 해결하고자 정면 얼굴 Capture 방법을 제안하였다. 두 번째로는 FRR 오류가 발생하면 추가적으로 정면얼굴을 추출하여 개인 인증을 다시 시도방법을 제안하였다. 검증을 위해 얼굴인식 분야에서 가장 많이 사용되고 있는 유사도 기반 프레임워크를 구현하여 제안한 성능향상 방법을 적용, 실험 하였으며 420명의 Database를 구축하고 2주 동안 99개의 비디오 데이터를 수집하여 실제 산업에서 도입 가능한 환경과 유사하게 구축해 우리의 제안 방법을 테스트 및 검증하였다.
-
최근 정보통신의 발달과 함께 인터넷에 접속하는 사용자 수와 그에 따른 비디오 데이터의 전송량이 늘어나는 추세이다. 이렇게 늘어나는 많은 비디오 데이터를 관리하고 분석하기 위해서 최근에는 딥 러닝 기법을 많이 활용하게 된다. 일반적으로 비디오 데이터에 딥 러닝 모델을 학습할 때 컴퓨터 자원의 한계로 인해 전체 비디오 프레임에서 균등한 간격 또는 무작위로 프레임을 선택하는 방법을 많이 사용한다. 하지만 학습에 사용되는 비디오 데이터는 항상 시간 축에 따라 같은 문맥을 담고 있는 Trimmed 비디오라고 가정할 수가 없다. 만약 같지 않은 문맥을 지닌 Untrimmed 비디오에서 균등한 간격 또는 무작위로 프레임을 선택해서 사용하게 된다면 비디오의 범주와 관련이 없는 프레임이 샘플링 될 가능성이 있기 때문에 모델의 학습 및 최적화에 전혀 도움이 되지 않는다. 이를 해결하기 위해 우리는 각 비디오 프레임에서 심층 특징을 추출하여 평균값을 계산하고 이와 각 추출된 심층특징들과 코사인 유사도를 계산해서 얻은 유사도 점수를 바탕으로 Untrimmed 비디오에서 의미 있는 비디오 프레임을 추출하는 기법을 제안한다. 그리고 Untrimmed 비디오로 구성된 데이터셋으로 유명한 ActivityNet 데이터셋에 대해서 대표적인 2가지 프레임 샘플링 방식(균등한 간격, 무작위)과 비교하여 우리가 제안하는 기법이 Untrimmed 비디오에서 효과적으로 비디오의 범주에 해당하는 의미 있는 프레임 추출이 가능함을 보일 것이다. 우리가 실험에 사용한 코드는 https://github.com/titania7777/VideoFrameSampler에서 확인할 수 있다.
-
증강현실이나 자율 주행, 드론 등의 기술에서 현재 위치와 시점을 파악하기 위해서는 실시간 카메라 자세 추정이 필요하다. 이를 위해 가장 일반적인 방식인 연속적인 단안 영상으로부터 카메라 자세를 추정하는 방식은 두 영상의 정적 객체 간에 견고한 특징점 매칭이 이루어져야한다. 하지만 일반적인 영상들은 다양한 이동 객체가 존재하는 동적 환경이므로 정적 객체만의 매칭을 보장하기 어렵다는 문제가 있다. 본 논문은 이 같은 동적 환경 문제를 해결하기 위해, 신경망 기반의 객체 분할 기법으로 영상 속 객체를 추출하고, 객체별 특징점 매칭 및 자세 추정 결과로 정적 객체를 특정해 매칭하는 방법을 제안한다. 또한, 제안하는 정적 객체 특정 방식에 적합한 신경망 기반 특징점 추출 방법을 사용하면 동적 환경에 보다 강인한 카메라 자세 추정이 가능함을 실험을 통해 확인한다.
-
증강현실은 현실 공간에 가상의 객체를 합성한 영상을 생성하는 기술이다. 증강현실 기술에 대한 지속적인 수요 증가와 기술 발전이 이루어져 왔으며, 앞으로 사용자에게 현실을 기반으로 생성된 이질감이 느껴지지 않는 정교한 영상을 제공할 수 있으리라 기대할 수 있다. 본 논문에서는 증강현실 기술로 생성된 합성 영상이 정교한 영상임을 판단할 수 있는 객관적인 기준을 마련하기 위해 기존의 머신 러닝 기반의 이미지 분류 모델들로 합성 이미지 예측에 대한 실험을 진행하고 그 결과를 비교한다.
-
본 논문은 RGB 영상 데이터셋의 일부만을 지도학습하여(Sparsely-supervised learning) Annotation 되지 않은 영상에 대해 손-객체의 3D 포즈를 복원하기 위한 방법을 제안한다. 기존의 연구에서는 손-객체의 포즈에 해당하는 6DoF 만을 학습 데이터로 활용한다. 이와 달리, 본 논문에서는 정확도 향상을 위해 복원된 결과를 동일한 입력 영상 내에서 비교 가능하도록 3D 모델로 복원한 결과를 입력 영상의 마스크로 만들어 학습에 반영하였다. 구체적으로 추정된 포즈로 만들어낸 마스크를 입력 영상에 적용한 결과와 Ground-truth 포즈를 적용한 영상을 학습 시에 손실 함수에 반영하였다. 비교 실험을 통해 제안된 방법이 해당 방법을 적용하지 않은 경우 보다 3D 매쉬 오차가 적었음을 확인할 수 있었다.
-
가상 현실(VR: Virtual Reality) 기술은 대표적인 몰입형 미디어 기술로써, 컴퓨터 등을 통해 인공적으로 만들어낸 실제와 유사한 특정 환경, 상황 혹은 그 기술 자체를 의미한다. VR 기술은 비교적 간단한 장비를 착용한 것만으로 가상 세계에 구현된 모든 공간을 체험할 수 있기 때문에 사용자가 신체적 불편하더라도 손쉽게 유명 관광 명소를 여행할 수 있다. 또한, 실제 작전지역을 가상 세계에 반영함으로써, 가상 세계에서 안전한 군사 훈련이 가능하다. 이와 같은 활용을 가능하게 하기 위해서는 가상 세계의 배경 정보가 실제 세계의 모습과 흡사한 실사 그래픽으로 구성되어야 한다. 그러나 실사 그래픽을 제작하는 것은 제작 난이도가 높고 제작비용이 비싸다는 제한 사항으로 인하여 실사 그래픽을 바탕으로 한 VR 콘텐츠의 수는 부족하다. 이에 본 논문에서는 일반 카메라를 통해서 촬영한 단일 영상 또는 다시점 영상을 통해서 Point Cloud 데이터를 생성하고, 이를 가상 세계의 배경 정보로 활용하기 위한 방법을 제안하고자 한다.
-
본 논문에서는 기존 AHDRNet에 channel attention 기법을 적용했을 때 성능에 어떠한 변화가 있는지를 평가하였다. 기존 모델의 병합 망에 존재하는 DRDB(Dilated Residual Dense Block) 사이, 그리고 DRDB 내의 확장된 합성곱 레이어 (dilated convolutional layer) 뒤에 또다른 합성곱 레이어를 추가하는 방식으로 channel attention 기법을 적용하였다. 데이터셋은 Kalantari의 데이터셋을 사용하였으며, PSNR(Peak Signal-to-Noise Ratio)로 비교해본 결과 기존의 AHDRNet의 PSNR은 42.1656이며, 제안된 모델의 PSNR은 42.8135로 더 높아진 것을 확인하였다.
-
본 논문에서는 강화학습을 이용하여 비활성 영역 패딩하여 동영상 압축 효율을 향상시키는 기법을 제안한다. 비활성 영역이란 360 영상 혹은 3DOF+ 영상의 예시와 같이 영상 내에서 정보가 존재하지 않는 영역을 의미한다. 하지만 이러한 비활성 영역은 일반적으로 영상의 압축 성능을 제한한다. 기존에는 이를 해결하기 위해 활성 영역과 비활성 영역의 경계부분을 필터링하여 압축 성능을 향상시켰다. 하지만 이러한 방법들은 영상의 특성을 적절하게 반영하지 못하게 된다. 제안하는 기법에서는 영상의 특성과 압축 과정을 고려한 강화학습을 통해서 패딩을 진행하였다. 실험 결과 제안한 기법이 기존 기법에 비해 좋은 성능을 보임을 확인할 수 있다.
-
최근 영상의 활용도의 증가에 따라, 비정형 영상 데이터에 대한 양이 기하급수적으로 증가하였다. 디지털 영상을 획득할 시에 처리/압축/저장/전송/재생산 등의 과정을 거치면서 왜곡을 수반하게 되며 영상의 품질을 저하시키는 요인이 된다. 영상의 품질은 활용 결과에도 큰 영향을 미치기 때문에 품질이 저하된 영상은 분류를 하는 것이 중요하다. 하지만 사람이 수신된 모든 영상에 대해서 직접 분류를 하는 것은 많은 시간과 비용이 소요된다는 문제점이 존재한다. 따라서 본 논문에서는 사람이 인지하는 주관적인 영상 품질 평가와 유사하게 품질에 대한 평가를 위한 왜곡영상의 특징정보를 검출 및 분석하는 방안에 대해서 제안한다. 본 방법은 사람이 영상을 인지할 때 가장 많이 사용되는 요소인 색상에 대한 선명도, 블러와 노이즈에 대한 특징정보를 이용한다. 검출된 특징정보를 공간 도메인으로 변환함으로써 왜곡 영상별 특성을 분석하였다. 실험을 위해서 IQA 데이터베이스인 LIVE를 이용하였으며, 원본영상 및 5가지 유형의 왜곡영상으로 구성되어 있다. 실험결과 품질이 좋은 영상과 왜곡영상에 대한 특성을 검출할 수 있었다.
-
단일 이미지 초해상도는 딥러닝의 발전과 함께 놀라운 성능 향상이 이루어 졌다. 이러한 딥러닝 모델은 매우 많은 파라미터를 갖고 있어 많은 연산량과 메모리를 필요로 한다. 하지만 사용할 수 있는 리소스는 한정되어 있기 때문에 네트워크를 경량화 시키려는 연구도 지속되어 왔다. 본 논문에서는 Stochastic Weight Averaging (SWA) 알고리즘을 이용하여 상대적으로 적은 양의 메모리와 연산을 추가해 이미지 초해상도 모델의 성능을 높이고 안정적인 학습을 달성하였다. SWA 알고리즘을 적용한 모델은 그렇지 않은 모델에 비해 테스트셋에서 최대 0.13dB 의 성능 향상을 보였다.
-
최근 자동화의 필요성이 증가함에 따라 얼굴 표정 인식 분야(face expression recognition)가 인공지능과 이미지 처리 분야에서 활발히 연구되고 있다. 본 논문에서는 기존 인공신경망에서 요구되었던 고성능 GPU 환경과 높은 연산량을 극복하고자 모델 경량화(Light weighted Model) 기법을 적용하여 드론 및 모바일 기기에서 적용될 수 있는 얼굴 표정 인식 신경망을 제안한다. 제안하는 방법은 미세한 얼굴의 표정 인식을 위한 방법으로, 입력 이미지의 receptive field 를 늘려 특징 맵의 표현력을 높이는 방법을 제안한다. 또한 효과적인 신경망의 경량화를 위하여, 파라미터의 연산량을 줄일 때 발생하는 문제점을 극복하기 위한 방법을 제시한다. 따라서 제안하는 네트워크를 적용하면 많은 연산량과 느린 연산속도로 인해 제한되었던 네트워크 환경을 극복할 수 있을 뿐만 아니라, UAV(Unmanned Aerial Vehicle, 무인항공기) 및 모바일 기기에서 신경망을 이용한 실시간 얼굴 표정 인식을 할 수 있다.
-
본 논문에서는 2D 이미지를 입력으로 받는 3D 모델러 결과를 이용한 피부 반사 및 투과 요소를 조절한 데이터 셋 생성 방법을 제안한다. 고화질 얼굴 이미지로 된 Flickr-Faces-HQ 데이터셋을 이용해 3D 모델러의 결과인 3 차원 얼굴 모델과 텍스처를 추출해 이를 이용해 피부 반사 및 투과 요소를 조절한 2D 영상 생성 방법을 제시한다. 따라서 피부 반사 요소를 조절하기 위해 여러 조명과 카메라로 이루어진 라이트 스테이지 (light stage)와 같은 환경 없이 비용을 절약할 수 있다. 동시에 피부 투과 요소 측정 장비에 대한 한계를 극복하고 원하는 조건을 설정해 이미지를 생성할 수 있는 방법과 데이터셋을 제안한다.
-
딥러닝 기술과 하드웨어의 발전으로 다양한 분야에서 인공신경망과 관련한 연구가 활발히 진행되고 있다. 비디오 코덱 부분에서도 딥러닝 기술을 적용하는 부호화 기술이 많이 연구되고 있다. 본 논문은 최근 완료된 VVC 에 채택된 신경망 기반의 기술인 MIP(Matrix Weighted Intra Prediction)를 확장하여 보다 깊은 계층의 모델로 학습된 새로운 화면내 예측 모델을 제안한다. 기존 VVC 의 MIP 의 성능과 비교하기 위하여 기존 MIP 모델과 제안하는 다중완전연결계층(Fully Connected Layer) 화면내 예측 모델을 HEVC(High Efficiency Video Coding)에 적용하여 그 성능을 비교하였다. 실험결과 제안기법은 VVC MIP 대비 0.08 BD-rate 성능 향상을 보였다.
-
본 논문에서는 VVC(Versatile Video Coding)의 색차 채널을 위한 화면 내 예측 모드 중 하나인 CCLM (Cross-Component Linear Model) 모드의 부호화 성능을 향상시킬 수 있는 방법을 제안하였다. 기존의 CCLM 모드는 예측과정에서 대응 휘도 영역의 화소로만 색차 블록의 예측자를 생성하기 때문에 현재 색차 블록과 그 주변의 참조 화소와의 연관성을 고려하지 않는 문제점이 있다. 본 논문에서는 참조 화소를 사용하는 예측 모드를 유도하여 예측자를 생성한 후 기존 CCLM 을 통해 생성된 예측자와 가중 결합하는 방법을 제안함으로써 문제점을 극복하고 부호화 성능의 향상을 가져오고자 한다. 실험 결과 제안 방법은 기존 VVC 방법 대비 BDBR 측면에서 Y(0.10%), Cb(-0.22%), Cr(-0.22%)의 결과를 얻을 수 있었다.
-
본 논문에서는 차세대 비디오 부호화 기술인 VVC (Versatile Video Coding)의 색차 성분 화면 내 예측 기술인 DM (Derived Mode) 가 분할 구조가 이중 트리일 때 색차 블록에 대응하는 휘도 블록을 선택하는 기존 방식의 효율성을 분석하기 위해 색차 블록에 대응하는 휘도 영역 내 휘도 블록의 개수를 측정하였다. 실험 결과, 하나의 색차 블록에 대응하는 휘도 영역 내에 평균적으로 4.408 개의 휘도 블록이 존재함을 확인하였다. 따라서 DM 을 통한 부호화 시 대응하는 휘도 영역 내 복수개의 휘도 블록을 고려하여, 유도되는 최적의 예측 모드를 잘 선정하는 방법에 대한 연구가 필요하다.
-
본 논문에서는 VVC(Versatile Video Coding) 부호화 시간 감소를 위해 ISP(Intra Sub-Partition) 모드의 복잡도를 감소시키는 방법을 제안한다. 이 방법은 ISP 모드 적용을 위한 RDO(Rate-Distortion Optimization) 탐색을 수행할 때 현재 블록의 모양에 따라 특정 ISP 모드 방향을 사전에 제한하여 RDO 과정을 생략함으로써 부호화 시간을 단축한다. 실험 결과, 기존 VVC 방법 대비 BDBR(Bjøntegaard Delta Bit Rate) 측면에서 AI(All Intra) 구성하에 Y 채널에서 0.01%, Cb, Cr 채널에서 각각 -0.04%, -0.08% 변화로 2%의 부호화 시간 감소의 결과를 얻을 수 있었다.