Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
The Korean Institute of Broadcast and Media Engineers
- Semi Annual
Domain
- Media/Communication/Library&Information > Media/Consumers
2022.11a
-
최근 기존의 영상 압축 파이프라인 대신 신경망의 종단 간 학습을 통해 압축을 수행하는 알고리즘의 연구가 활발히 진행되고 있다. 본 논문은 종단 간 학습 기반 공간적 스케일러블 압축 기술을 제안한다. 보다 구체적으로 본 논문은 신경망의 각 계층에서 하위 계층의 학습된 특징 (feature)을 융합하여 상위 계층으로 전달하는 다중 스케일 특징 융합 (multi-scale feature fusion) 모듈을 도입해 상위 계층이 더욱 풍부한 특징 정보를 학습하고 계층 사이의 특징 중복성을 더욱 잘 제거할 수 있도록 한다. 기존 방법 대비 향상 계층(enhancement layer)에서 1.37%의 BD-rate가 향상된 결과를 볼 수 있다.
-
기존 합성곱 신경망 기반의 잡음 제거 네트워크들은 학습을 위한 noisy-clean 데이터 쌍을 필요로 한다. 하지만 실제 카메라 잡음의 경우, 잡음에 대한 깨끗한 원본 영상을 얻는 것은 불가능하거나 많은 비용이 소모된다. 따라서 이러한 방법을 해결하기 위하여 원본 영상 없이 잡음 영상만으로만 잡음 제거 네트워크를 학습하는 방법들이 제안되어왔다. 그 중 카메라 잡음 영상을 처리하기 위한 대표적인 방법으로 학습과 추론에서 비대칭적인 downsampling을 사용하는 AP-BSN이 제안되었다. 본 논문에서는 Functional neural network를 AP-BSN 알고리즘에 적용하여 다양한 downsampling ratio에 대응되는 하나의 네트워크를 학습하였다. 이를 통해 기존 hyperparameter로 사용되던 downsampling ratio에 대한 결과를 하나의 네트워크에서 분석 및 확인하였다. 또한 해당 파라미터를 조절함으로써 다양한 잡음 제거 후보들을 추출하고 사용자가 원하는 잡음 제거 정도를 조정할 수 있도록 하였다.
-
최근 VVC(Versatile Video Coding) 표준 완료 이후 JVET(Joint Video Experts Team)에서는 NNVC(Neural Network-based Video Coding) EE(Exploration Experiment)를 통하여 화면내 예측을 포함한 신경망 기반의 부호화 기술들을 탐색하고 검증하고 있다. 본 논문에서는 VVC 에 채택되어 있는 다중 변환 선택(MTS: Multiple Transform Selection)에 따라서 적절한 예측 블록을 선택할 수 있는 TDIP(Transform-Dependent Intra Prediction) 모델을 제안한다. 실험결과 제안기법은 VVC 의 AI(All Intra) 부호화 환경에서 VTM(VVC Test Model) 대비 Y, U, V 에 각각 0.87%, 0.87%, 0.99%의 BD-rate 절감의 비디오 부호화 성능 향상을 보였다.
-
최근 인공지능 기술을 바탕으로 지능형 분석을 수행하는 기계를 위한 비디오 부호화 기술의 필요성이 요구되면서, MPEG 에서는 VCM(Video Coding for Machines) 표준화를 시작하였다. VCM 에서는 기계를 위한 비디오/이미지 압축 또는 비디오/이미지 특징 압축을 위한 다양한 방법이 제시되고 있다. 본 논문에서는 객체추적(object tracking)을 위한 머신비전(machine vision) 네트워크에서 추출되는 다중스케일(multi-scale) 특징의 효율적인 압축 기법을 제시한다. 제안기법은 다중스케일 특징을 단일스케일(single-scale) 특징으로 차원을 축소하여 형성된 특징 시퀀스를 최신 비디오 코덱 표준인 VVC(Versatile Video Coding)를 사용하여 압축한다. 제안기법은 VCM 에서 제시하는 기준(anchor) 대비 89.65%의 BD-rate 부호화 성능향상을 보인다.
-
본 논문에서는 현실세계에서 사용되던 오디오 처리 기법을 가상현실과 증강현실로 확장하는 기술에 대해 제시한다. 메타버스 서비스 구축 등에 활용되는 가상현실 공간을 설계할 때에는 오디오 처리를 위해서 가상현실 공간내 사용자가 위치하는 장면에 따른 소리의 회절과 반사에 따른 잔향 효과를 고려해 줄 수 있어야 장면에 몰입된 사용자 경험이 가능하다. 증강현실 응용에서는 실제 정보와 증강된 효과를 제공하기 위해 가상과 실제 정보간의 위치 정합이 영상 또는 위치를 기반으로 하여 제공되어야 한다. 가상현실과 증강현실 지원을 위해 현실세계 오디오 재생 기술에 추가되어야 하는 기술들과 함께 진행중인 몰입형오디오 서비스를 제공하기 위한 국제표준 기술 개발의 현황을 살펴보고, 향후 추가로 기술이 개발되고 보완되어야 할 부분을 제시한다.
-
본 논문에서는 6 자유도 공간음향 렌더링 기술 관련 음향객체의 거리감 인지에 중요한 공기흡음 감쇠 효과 처리에 있어, 현장의 음원과 음향 센서 사이의 거리인 녹음거리에 해당하는 공기흡음 감쇠가 기본적으로 포함되어 3kHz 이상의 고주파 성분이 감쇠된 음원이 렌더링에 사용되는 문제점을 해결하는 방법을 제시한다. 이 방법에 의하면 6 자유도 공간음향 콘텐츠에 메타데이터로서 녹음거리 파라메터를 포함시키고, 렌더링할 때 공기흡음을 적용하기 위한 음원과 청취자의 거리값에 녹음거리에 대한 보상을 적용함으로써, 음원의 공기흡음 감쇠 효과를 정확하게 수정 적용하여 음원의 음색을 모든 거리에서 실제에 가깝도록 제공할 수 있게 된다. 특히, 원거리 녹음이 불가피한 비행기, 천둥, 폭발음 등 원거리 녹음음원의 음색에 녹음거리에 의한 음원의 공기흡음 감쇠가 적지 않은 영향을 미치게 되는데, 녹음거리의 적용에 의한 제안한 방법에 의해 음원과 청취자의 거리값에 대한 음원의 음색이 고주파영역의 녹음거리에 의한 원치 않는 감쇠를 보상하는 효과를 확인할 수 있었다.
-
본 논문에서는 인공적인 가상 환경에서 사실적인 충격응답을 제공할 수 있는 방법을 모색하기 위한 첫 단계로서 실제 청취 공간에서 충격응답을 획득하고 장애물이 존재할 때 그 충격응답이 어떻게 변화하는지 살펴보기 위하여 충격응답 변화 실측에 대한 실험 결과를 제시한다. 실험은 일상적인 공간으로서 한국전자통신연구원의 회의실과 휴게실에서 수행하였으며, 실험 결과 장애물의 존재에 따라 그리고 청취 위치에 따라 주파수 영역에서 차이점이 발생하는 것을 확인할 수 있었다. 향후 흡음률 등 장애물에 대한 물리적 정보를 조사, 분석하고 보다 더 다양한 공간과 위치에서 장애물에 대한 충격응답의 변화로부터, MPEG-I Immersive Audio 등의 애플리케이션에서 사실적인 공간감을 제공하기 위한 인공적인 충격응답을 가공 방법을 제안할 수 있을 것으로 기대한다.
-
The diffuse sound field plays a crucial role in the perceptual quality of the auralization of virtual scenes. Diffuse Rain is a geometrical scattering model which enables the simulation of diffuse fields that is compatible with acoustic ray tracing, but is often computationally expensive. We develop a novel method that can reduce this cost by rendering the large number of Diffuse Rain data in Ambisonics format. The proposed method is evaluated in a shoebox scene simulation run on MATLAB, in reference to a more faithful method of rendering the Diffuse Rain data ray-by-ray. The EDC and IACC of the binaural output show that the simulated diffuse field can be rendered in Ambisonics with only minimal deviations in energy decay and spatial quality, even with 1st-order Ambisonics.
-
지속되는 팬데믹과 함께 비대면 시대가 개막 되었다. 따라서 사람과 사람사이 접촉을 최소화 하면서, 동시에 생활과 작업의 효율을 보장하는 시스템에 대한 수요가 사회의 이슈로 떠오르게 되었다. 이런 시대적 배경에 발 맞춰 회사생활 또한 급속한 변화를 이루어내고 있다. 그중에서 컴퓨터 비전과 그래픽스 기술의 눈부신 발전과 함께 온라인과 가상공간에서 업무를 보려고 하는 시도가 좋은 대안으로 세간의 주목을 받고 있다. 본 논문에서는 가상공간에서 미팅을 진행 할 수 있는 가상 온라인 미팅 시스템과 이런 시스템을 구성하는데 제일 중요한 과제인 실감 3차원 아바타를 생성하는 방법을 제안한다.
-
팬데믹이후 온라인 커뮤니케이션이 가속화되면서 개인화의 현상이 두드러지고 있는 가운데 도시의 정보시스템의 많은 부분들이 디지털 트윈으로 가고 있다. 때문에 오프라인의 사이니지 등은 이미 개인화에 익숙한 사용자에게 만족도나 낮고 이를 반영하여 다양화시키기에는 많은 예산이 소요되며 물리적 한계가 있다. 본 연구는 사용자 중심 프로세스의 기술 융합 연구를 통해 이러한 오프라인 정보 표기와 전달 등의 문제점을 해결하고자 하였다. 본 논문은 이러한 목적을 가지고 개인화 기반 도시 인포메이션 시스템의 물리적 사이니지와의 정보 데이터 간의 상호운용을 실현화하는 연구를 진행하였다. QR 코드 등 비쥬얼 코드-기반 기존의 인터랙션 기술들의 장점을 활용하고 AI 기반의 필터 시스템을 도입하여 도시 복합정보데이터와 개인데이터와의 연동 및 변별 시스템을 설계하여 AR서비스 환경을 디자인 하였다. 개인화 서비스를 위하여 'Personal Data'와 타사용자의 'Feedback Data를 기존의 클라우드 정보와 AI-Analytic-Process에 개입시켜서 개인화 기반의 서비스 시스템 모델로 개발하였다.
-
본 논문은 모바일 단말에서 실시간으로 동작하는 딥러닝 기반 경량 초고해상화 기술에 관한 내용이다. 대용량 3차원 메쉬 모델의 비실시간 압축은 실시간 스트리밍 응용 시나리오에서 제약점으로 작용하고 있고, 본 논문에서는 두 입력 텐서의 차원을 일치시켜야 하는 element-wise 덧셈 대신 concatenation을 활용해 연산량을 개선하고, float-to-int8 양자화 과정에서 발생하는 오차를 줄이기 위해 weight clipping 및 regularization 기법을 활용해 초고해상화 화질 성능을 개선하였다. 제안하는 알고리즘은 기존 모바일 초고해상화 기술을 화질 측면에서 0.12dB, 처리 속도 측면에서 13.6ms 개선하였고, Mobile AI & AIM 2022 실시간 이미지 초고해상화 대회에서 1등을 수상하였다.
-
본 논문에서는 TMIV 부호화 과정에서 개선된 압축성능을 위해 딥러닝을 이용한 초해상화 기술을 적용하는 방식을 제안한다. 제안 방식에서는 TMIV 인코더에서 아틀라스 생성한 후, 해당 아틀라스의 패킹된 뷰들을 downsampling하여 뷰들이 축소된 아틀라스를 생성하는 방식을 사용한다. 생성된 아틀라스는 기존의 방식 그대로 VVC를 이용하여 부복호화를 한다. 복호화된 아틀라스를 렌더링을 위해 뷰로 만드는 과정 중에 딥러닝을 이용한 초해상화 기술을 적용하여 줄어든 뷰들을 원래의 크기로 복원시킨다. 제안 기술을 통해 복원된 뷰의 화질을 유지시킨 채 많은 비트율을 감소시킬 수 있음이 확인된다.
-
In this paper, we proposed a method for Video-based point cloud compression reference software TMC2 encoder with an option for empty partitions in point cloud encoding. This encoder option allows tile initialization and process for an empty partition. The proposed method provides the TMC2 encoder the robustness to process dynamic point clouds.
-
MIV(MPEG Immersive Video)의 시험모델 TMIV 는 다시점의 비디오와 깊이(depth) 비디오를 입력 받아 시점 사이의 중복성을 제거한 후 남은 텍스처(texture)와 깊이로 텍스처 아틀라스(atlas)와 깊이 아틀라스를 각각 생성하고 이를 압축한다. 각 화소별 점유(occupancy) 정보는 깊이 아틀라스에 포함되어 압축되는데 압축 손실로 인한 점유맵 오류를 방지하기 위하여 임계값 T = 64 로 설정한 보호대역을 사용한다. 기존에 설정된 임계값을 낮추어 깊이 동적범위를 확대하면 보다 정확한 깊이값 표현으로 부호화 효율을 개선할 수 있지만 보호대역 축소로 점유맵 오류가 증가한다. 본 논문에서는 TMIV 의 부호화기와 보호화기에 비대칭 임계값을 사용하여 보호대역 축소로 인한 점유맵 오류를 보정하면서 보다 정확한 깊이 값 표현을 통하여 부호화 효율을 개선하는 기법을 제안한다. 제안기법은 깊이 동적범위 확대와 비대칭 임계값 기반의 점유맵 오류 보정을 통하여 CG 시퀀스에서 2.2% BD-rate 이득과 주관적 화질 개선을 보인다.
-
Jong-Beom Jeong;Soonbin Lee;Jaeyeol Choi;Gwangsoon Lee;Sangwoon Kwak;Won-Sik Cheong;Bongho Lee;Eun-Seok Ryu 54
다수의 색상 및 거리 정보로 구성된 몰입형 영상 부호화를 위한 MPEG immersive video (MIV) 표준은 각 시점의 영상 간 중복성 제거 및 잔여 영상 병합을 통한 압축률 향상을 목표로 한다. 시점에 따른 카메라 그룹핑을 통해 압축률 향상이 가능하나, 그룹 기반 MIV 부호화 기술은 최근 활발히 논의되고 있지 않다. 따라서 본 논문은 최신 버전의 MIV 참조 소프트웨어에 그룹 기반 부호화 기술을 이식하고 적응적 스트리밍을 위한 그룹 기반 부호화 기술의 효율을 검증하였다. -
야외 환경을 카메라로 촬영한 일반 영상에서 텍스트 이미지를 검출하고 인식하는 기술은 로봇 비전, 시각 보조 등의 기반이 되는 기술로 활용될 수 있어 매우 중요한 기술이다. 하지만 저해상도의 텍스트 이미지의 경우 텍스트 이미지에 포함된 노이즈나블러 등이 더 두드러지기 때문에 텍스트 내용을 인식하는 것이 어렵다. 이에 본 논문은 일반 영상에서의 저해상도 한글 및 영어 텍스트에 대한 이미지 초해상화를 통해 텍스트 인식 정확도를 개선하였다. 트랜스포머에 기반한 모델로 한글 및 영어 텍스트에 대한 이미지 초해상화를 수행하였으며, 영어 및 한글 데이터셋에 대해 제안한 초해상화 방법을 적용했을 때 그렇지 않을 때보다 텍스트 인식 성능이 개선되는 것을 확인하였다.
-
기계 소비(machine consumption)를 대상으로 하는 이미지 및 비디오의 압축 목표는 사람이 소비하는 것과 다를 수 있다. 예를 들어, 인간의 소비에는 이미지 및 비디오의 전체 캡처 영역이 필요하지만, 기계는 응용 프로그램에서 요구하는 이미지 또는 비디오의 일부만 사용할 수 있다. 이 논문에서는, 효과적인 기계 소비를 위한 영상 압축 방법 개발을 통한 다중 임무(task) 수행 성능 개선 및 압축률(bpp) 향상을 목적으로, 관심 객체(object of interest) 또는 관심 영역(region of interest)을 식별하기 위한 신경망 기반 영상 분석 작업을 수행하는 전처리 네트워크 구성 방법을 제안한다.
-
MPEG-VCM(Video Coding for Machines)에서는 머신비전(machine vision) 네트워크의 백본(backbone)에서 추출된 이미지/비디오 특징 압축을 위한 표준화를 진행하고 있다. 현재 VCM 표준기술 탐색 과정에서 가장 좋은 압축 성능을 보이는 MSFC(Multi-Scale Feature compression) 기반 압축 네트워크 모델은 추출된 멀티-스케일 특징을 단일-스케일 특징으로 변환하여 특징맵으로 구성하고 이를 VVC 로 압축한다. 본 논문에서는 MSFC 기반 압축 모델에서 Min-Max 값 시그널링을 제외한 최소-최대(Min-Max) 정규화를 포함한 개선된 특징맵 생성 기법을 제시한다. 즉, 제안기법은 VCM 디코더에서의 특징맵 복원을 위한 Min-Max 값을 학습 기반으로 생성함으로써 Min-Max 시그널링의 비트 오버헤드 절감뿐만 아니라 별도의 시그널링 기제를 생략한 보다 단순한 전송 비트스트림 구성을 가능하게 한다. 실험결과 제안기법은 이미지 앵커(Anchor) 대비 BPP-mAP 성능에서 83.24% BD-rate 이득을 보이며, 이는 기존 MSFC 보다 1.74%정도 다소 떨어지지만 별도의 Min-Max 시그널링 없이도 기존의 성능을 유지할 수 있음을 보인다.
-
최근 자율주행에서 안전한 주행을 위해 영상 기반 다중객체 검출 기술이 활발히 연구되고 있다. 이때, 저해상도 영상은 객체 검출 단계에서 정확도가 떨어지는 한계가 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 초해상화와 객체 검출을 위한 방법을 함께 사용하는 기법을 제안한다. 더 나아가 초해상화 단계에서 하나의 구분자만 사용하는 기존의 방법과 다르게 이미지 생성 과정 중간에서 추가의 구분자를 사용하여 총 두 개의 구분자를 사용하여 성능을 향상하고자 하였다. 본 논문은 한국 고속도로 교통 데이터를 사용하여 실험하였으며, 그 결과 제안된 방법의 성능이 mAP@0.5 및 F1 점수 측면에서 기존 방법보다 우수하다는 것을 확인하였다.
-
최근 CCTV 출입 기록, 휴대폰 보안, 스마트 매장 등에서 얼굴 인식을 통해 개인을 식별하는 기술이 널리 사용되고 있다. 카메라의 각도, 조명, 사람의 움직임 등 얼굴 인식에 많은 외부 환경이 영향을 미치고 있지만 그중에서도 실제 영상에서 얼굴이 차지하는 영역이 작아 저해상도 얼굴 인식에 어려움을 겪고 있다. 이러한 문제점을 해결하고자 본 논문에서는 이미지 해상도가 얼굴 인식에 끼치는 영향을 알아보고 이미지 초해상화를 통해 얼굴 인식 성능을 개선하고자 한다. 쌍선형, 양3차 회선 보간법과 딥러닝 기반의 이미지 초해상화 모델인 RCAN을 이용하여 업스케일링한 데이터셋에 대해 학습한 ArcFace를 통해 얼굴 검증 평가를 진행하였다. 고해상도 이미지는 얼굴 인식 성능을 향상시키며, RCAN을 사용한 이미지 초해상화가 보간법을 사용한 방법보다 더 좋은 성능을 보였다.
-
Semi Supervised Learning 은 일부의 data 에는 labeling 을 하고 나머지 data 에는 labeling 을 안한채로 학습을 진행하는 방법이다. Object Detection 은 이미지에서 여러개의 객체들의 대한 위치를 여러개의 바운딩 박스로 지정해서 찾는 Computer Vision task 이다. 당연하게도, model training 단계에서 사용되는 data set 의 크기가 크고 객체가 많을 수록 일반적으로 model 의 성능이 좋아 질 것이다. 하지만 실험 환경에 따라 data set 을 잘 확보하지 못하던가, 실험 장치가 데이터 셋을 감당하지 못하는 등의 문제가 발생 할 수 있다. 그렇기에 본 논문에서는 semi supervised learning based object detection model 을 알아보고 data set 의 크기를 조절해가며 modle 을 training 시킨 뒤 data set 의 크기에 따라 성능이 어떻게 변화하는 지를 알아 볼 것이다.
-
자율주행 자동차 개발 연구가 활발히 진행됨에 따라 객체 검출기의 성능이 중요하게 되었다. 딥러닝 기술의 발전하면서 객체 검출기의 성능도 큰 발전을 이루었다. 그에 따라 도로 위 차량 검출기의 성능도 발전하고 있으나 평상시 낮 도로상황에서 잘 동작하던 모델은 안개가 끼거나 밤 상황이 되면 제대로 동작하지 못하는 문제를 가지고 있다. 이유는 딥러닝 모델이 학습할 때 사용한 데이터셋의 정보에 따라 특정 도메인에 편향된 특성을 학습하기 때문이다. 따라서, 본 논문에서는 객체 검출 신경망에 도메인 판별기를 적용하여 이와 같은 도메인 이동 문제를 극복하는 모델을 제안한다. 모델의 성능을 Cityscapes 데이터셋과 Foggy Cityscapes 데이터셋을 사용하여 평가한 결과, 기존의 특정 도메인에서 학습한 모델보다 제안하는 모델의 검출 성능이 개선된다는 것을 확인하였다.
-
아날로그 게이지는 여전히 많은 산업 시설에서 사용되고 있지만, 게이지 값을 사람이 수동으로 읽기 때문에 정확히 측정하기 위해 많은 시간이 소모가 되는 문제점이 있다. 이러한 이유로 최근에는 합성곱 신경망을 사용하여 아날로그 게이지 값을 자동으로 인식하는 연구가 진행되고 있다. 그러나 대부분의 선행연구들은 게이지가 촬영된 영상을 그대로 입력으로 사용하고 있으며, 이러한 방법은 사람이 게이지를 읽는 과정을 고려하였을 때 불필요한 부분이 많다. 본 논문에서는 게이지 전체 이미지를 학습에 사용하지 않고, 게이지의 특정 이미지 패치 기반으로 아날로그 게이지 값을 인식하는 방법을 제안한다. 제안하는 방법은 게이지의 중심, 눈금의 최소, 최대, 지침의 좌표를 기반으로 이미지 패치를 생성하고 채널 축으로 병합하여 학습을 진행하였으며, 최종적으로게이지의 각도를 계산한다. 이는 게이지의 평균 각도 오차를 통해 제안한 방법이 게이지 값을 인식하는데 우수한 성능이 보였으며, 게이지 이미지에 장애물이 있는 경우에도 게이지 값을 인식할 수 있음을 확인하였다.
-
실재하는 물체나 장소를 디지털 카메라나 휴대폰 카메라로 여러 장 촬영하여 얻은 2차원 이미지 데이터셋으로부터 3차원 영상을 얻기 위해서 이미지를 이루는 각 pixel의 depth 정보를 얻는 것은 필수적인 과정이다. 주어진 이미지에서 depth 정보를 얻기 위해 Shuhan Shen은 PatchMatch 알고리즘을 활용하는 것을 제안하였다. 그 이후 PatchMatch 기반의 알고리즘은 널리 사용되며 우수한 성능을 보이고 있다. PatchMatch 기반의 알고리즘을 사용해 depth를 추정하는 과정에서 depth와 법선 벡터를 Zero-mean Normalized Cross Correlation(ZNCC)를 사용해 평가한다. 하지만, ZNCC는 depth를 평가하려는 pixel의 주변 pixel들의 밝기 값 혹은 색상 값의 분포를 사용하기 때문에 밝기 값이나 색상 값의 변화가 적은 texture-less region에서는 신뢰성이 떨어진다. 본 논문에서는 이 문제를 epipolar geometry를 활용한 기하학적 정보를 이용하여 개선하고자 한다.
-
본 논문에서는 스네이크 알고리즘에서 복잡한 배경으로 인해 어긋난 윤곽선을 개선하는 방법을 제안한다. 스네이크 알고리즘은 능동 윤곽선 모델(active contour model)중 하나로, 사전 정의한 영역에서 시작하여 점진적으로 강한 변화가 감지되는 방향으로 윤곽선을 수정하는 방법이다. 그러나 이러한 방법은 강한 기울기 성분이 나타나는 배경에 취약하고, 대상의 불필요한 영역이 포함되거나, 필요한 영역이 포함되지 않는 문제가 발생한다. 제안하는 방법은 이미지에 원근 변환을 기반으로 한 스네이크 알고리즘을 반복적으로 적용하여 대상의 윤곽선을 온전히 추출한다. 이는 실험 데이터에서 평균 IoU가 약 11.5% 이상 증가한 것을 통해 올바른 윤곽선을 찾는데 효과적인 방법임을 알 수 있다.
-
이미지 기반 3D 형상 복원에 있어서, 이미지에 보이지 않는 폐색(Occlusion) 영역 부분에 대한 정보가 손실되므로 완전한 복원에 어려움이 있으며, 세밀한 텍스쳐(Texture) 표현이 이루어지지 않고 심한 평활화(Smoothing)나 고립된 노이즈 메쉬(Isolated Noise Mesh) 등 구조적 훼손이 발생한다. 주로 깊은 신경망을 이용하여, 음함수(Implicit Function) 기반 방법은 사전훈련이 완료된 보조 신경망들을 전면부에 배치하거나, Hourglass 등 임베딩(Embedding) 아키텍처를 추가하거나, 또는 표면 법선(Surface Normal)과 같은 환시(Hallucination)를 생성하여 신경망에 입력하기도 한다. 이 논문에서는, 인물의 이미지를 입력받아 색상, 머리카락 및 의상을 포함하는 완전 3D 인간 복원 기술들을 조망해본다.
-
일반적인 포인트 클라우드(Point Clouds)는 3 차원 공간상의 포인트가 한 개의 색상 정보만을 포함하고 있는 반면에 플렌옵틱 포인트 클라우드(Plenoptic Point Clouds)는 사실감을 향상시키기 위해 한 개의 포인트가 여러 시점에서 촬영된 색상 정보들을 모두 포함하고 있는 새로운 방식의 볼륨 메트릭 데이터 표현 방식이다. 하지만, 일반적인 포인트 클라우드에 비해 더 많은 색상 정보를 필요로 하기 때문에 효율적인 압축이 필수적이다. 따라서, 본 논문에서는 비디오 기반 포인트 클라우드 압축 표준 기술인 V-PCC 를 기반으로 플렌옵틱 포인트 클라우드의 색상 속성간 중복성 제거를 통해 효율적으로 색상 정보를 압축할 수 있는 방법을 제안한다. 실험 결과 제안 방법은 다중 플렌옵틱 색상 속성 정보를 독립적으로 부호화 경우에 비해 상당한 성능 향상이 있음을 보여준다.
-
The process of deep learning usually needs to deal with massive data which has greatly limited the development of deep learning technologies today. Convolutional Neural Network (CNN) structure is often used to solve image classification problems. However, a large number of images may be required in order to train an image in CNN, which is a heavy burden for existing computer systems to handle. If the image data can be compressed under the premise that the computer hardware system remains unchanged, it is possible to train more datasets in deep learning. However, image compression usually adopts the form of lossy compression, which will lose part of the image information. If the lost information is key information, it may affect learning performance. In this paper, we will analyze the effect of image compression on deep learning performance on CNN-based cat and dog classification. Through the experiment results, we conclude that the compression of images does not have a significant impact on the accuracy of deep learning.
-
MPEG-VCM(Video Coding for Machine)은 입력된 이미지/비디오의 특징(feature)를 압축하는 Track 1 과 입력 이미지/비디오를 직접 압축하는 Track 2 로 나뉘어 표준화가 진행 중이다. 본 논문은 Track 1 의 비전임무 네트워크로 사용하는 Detectron2 의 FPN(Feature Pyramid Network)에서 추출한 멀티-스케일 특징을 효율적으로 압축하는 MSFC 기반의 압축 모델의 개선 기법을 제시한다. 제안기법은 해상도를 줄여서 단일-스케일 압축맵을 압축하는 기존의 압축 모델에서 저해상도 특징맵을 고해상도 특징맵에 바텀-업(Bottom-Up) 구조로 합성하여 단일-스케일 특징맵을 구성하는 바텀-업 MSFF 를 가지는 압축 모델을 제시한다. 제안방법은 기존의 모델 보다 BPP-mAP 성능에서 1 ~ 2.7%의 개선된 BD-rate 성능을 보이며 VCM 의 이미지 앵커(image anchor) 대비 최대 -85.94%의 BD-rate 성능향상을 보인다.
-
연합학습은, 데이터 샘플을 보유하는 다수의 분산 에지 디바이스 또는 서버들이 원본 데이터를 공유하지 않고 기계학습 문제를 해결하기 위해 협력하는 기술로서, 각 클라이언트는 소유한 원본 데이터를 로컬모델 학습에만 사용함으로써, 데이터 소유자의 프라이버시를 보호하고, 데이터 소유 및 활용의 파편화 문제를 해결할 수 있다. 연합학습을 위해서는 통계적 이질성 및 시스템적 이질성 문제 해결이 필수적이며, 인공지능 모델 정확도와 시스템 성능을 향상하기 위한 다양한 연구가 진행되고 있다. 최근, 중앙서버 의존형 연합학습의 문제점을 극복하고, 데이터 무결성 및 추적성과 데이터 소유자 및 연합학습 참여자에게 보상을 효과적으로 제공하기 위한, 블록체인 융합 연합학습기술이 주목받고 있다. 본 연구에서는 이더리움 기반 블록체인 인프라와 호환되는 연합학습 레퍼런스 아키텍처를 정의 및 구현하고, 해당 아키텍처의 실용성과 확장성을 검증하기 위하여 대표적인 연합학습 알고리즘과 데이터셋에 대한 실험을 수행하였다.
-
본 논문에서는 판별자를 활용하여 Image to Image translation(I2I) 분야에서 사용되는 적대적 생성 신경망(GAN)을 압축하는 방법을 제시한다. 우선, 잘 학습된 판별자와 생성자 사이의 adversarial loss 를 활용하여 생성자 내 필터들의 중요도 점수를 매겨준다. 그리고 생성자 내의 필터들을 중요도 점수를 기준으로 나열한 후 점수가 낮은 필터들을 제거하는 필터 프루닝을 한번 수행하여 적은 시간 비용으로 생성자를 압축한다. 마지막으로 지식 증류를 활용해 압축된 생성자를 학습시켜 기존의 생성자와 유사한 성능을 보이도록 하였다. 이 과정들을 통해 효과적이고 빠르게 GAN 모델을 압축할 수 있음을 확인하였다.
-
경량화 기법 중 하나인 Knowledge distillation 은 최근 object detection task 에 적용되고 있다. Knowledge distillation 은 3 가지 범주로 나뉘는데 그들 중에서 Self-Knowledge distillation 은 기존의 Knowledge distillation 에서의 pre-trained teacher 에 대한 의존성 문제를 완화시켜준다. Self-Knowledge distillation 또한 object detection task 에 적용되어 training cost 를 줄이고 고전적인 teacher-based methods 보다 좋은 성능을 성취했다.
-
얼굴 표정 데이터셋에는 특정 감정 부류로 분류하기 어려운 이상치들이 존재한다. 이러한 이상치들은 얼굴 표정 인식과 더불어 얼굴 표정 조작의 성능을 저하시키는 원인 중 하나이다. 따라서, 본 논문에서는 이상치 억제를 통한 개선된 얼굴 표정 조작 프레임워크를 제안한다. 우리는 이상치 억제를 위해 의미론적 속성 분류 측면에서 우수한 성능을 보여주는 CLIP 을 활용하였다. 우리는 정성적인 비교를 통해 기존의 얼굴 표정 조작 기법보다 개선된 성능을 제시한다.
-
최근 비대면 사회가 지속되며 매장에서 각종 키오스크가 더 많이 사용되고 있다. 이는 위생면에서 비대면으로 자유롭게 서비스를 제공받을 수 있고, 말을 하기 어려운 사람들에게 편리함을 제공한다는 장점이 있다. 하지만 디지털 격차가 벌어진 세대에게는 불편함을 느끼게 한다. 이러한 키오스크가 개인에 맞춰 제공받을 서비스를 알려 준다면 문제점을 개선할 수 있다. 본 논문은 얼굴인식과 2차 인증수단을 통해 개인을 식별한 후 맞춤형으로 서비스를 제공하도록 만들었다. 특히 장노년층의 사용이 많은 병원을 대상으로 하여 키오스크의 장점인 높은 편리성과 효율성을 기대할 수 있도록 UI를 구성하였다.
-
스포츠 방송/미디어 데이터에서 특정 이벤트 시점을 효율적으로 검출하는 방법은 정보 검색이나 하이라이트, 요약 등을 위해 중요한 기술이다. 이 논문에서는, 야구 중계 방송 데이터에서 투구에 대한 타격 및 포구 이벤트 시점을 강인하게 검출하는 방법으로, 음향 및 영상 정보를 융합하는 방법에 대해 제안한다. 음향 정보에 기반한 이벤트 검출 방법은 계산이 용이하고 정확도가 높은 반면, 영상 정보의 도움 없이는 모호성을 해결하기 힘든 경우가 많이 발생한다. 특히 야구 중계 데이터의 경우, 투수의 투구 시점에 대한 영상 정보를 활용하여 타격 및 포구 이벤트 검출의 정확도를 보다 향상시킬 수 있다. 이 논문에서는 음향 기반의 딥러닝 이벤트 시점 검출 모델과 영상 기반의 보정 방법을 제안하고, 실제 KBO 야구 중계 방송 데이터에 적용한 사례와 실험 결과에 대해 기술한다.
-
최근에 정지 홀로그램에 대한 표준화 및 압축 방법에 대한 연구를 JPEG Pleno에서 진행 중에 있다. 또한, 기존 연구들에서 웨이블릿 변환의 효율이 좋은 대안이 될 수 있다는 것을 보여왔다. 웨이블릿 변환기반의 압축에서 EZW, EBCOT 그리고 SPIHT 등을 사용할 수 있다. 하지만 부대역 단위의 제로트리 기반의 알고리즘들은 고해상도의 영상에 대해서 고압축으로 코딩할 경우에 비트스트림 제어 시 악영향을 줄 수 있으며, EBCOT는 지나치게 복잡도가 높다. 이를 보완하기 위해 본 논문에서는 홀로그램의 압축을 위해 양자화된 웨이블릿 트리를 사용하여 압축하는 방법을 제안한다. 양자화 트리는 해당 홀로그램의 대표 계수 값을 양자화하여 획득한다. 양자화 트리를 사용하여 양자화한 후에 원본과의 차이 값을 SPIHT를 통해 압축하여 목표 BPP에 맞게 압축한다.
-
최근 인터넷을 통한 동영상 제공 서비스가 확대됨에 따라 높은 품질의 온라인 컨텐츠에 대한 수요가 급증하고 있다. 그런데 넓은 동적 범위를 표현할 수 있는 High Dynamic Range (HDR) 컨텐츠의 공급은 수요를 따라가지 못하고 있는 실정이다. 본 논문에서는 밝기가 다른 프레임들로 구성된 Low Dynamic Range (LDR) 동영상을 이용해 HDR 영상을 생성하는 방법을 제안한다. 우선, 프레임들 간에 움직임이 존재하기 때문에 정렬 과정을 통해 이웃 프레임들을 중심 프레임에 맞추어 정렬한다. 이때 내용 (content) 기반으로 정렬을 해 정확도를 높이고, 원래 크기의 입력을 그대로 이용하는 모듈을 함께 사용하여 세부 정보도 잘 살려준다. 그리고 나서 잘 정렬된 다중 프레임들을 합쳐서 하나의 HDR 프레임을 생성한다. 실험을 통해 기존 방법들에 비해 우수한 성능을 보임을 확인하였다.
-
준지도학습 기반의 동영상 이상행동감지는 구하기 어려운 프레임 단위 레이블이 필요하지 않아 더 많은 동영상을 학습에 활용 가능한 장점이 있어 관련 연구가 활발히 진행되고 있다. 최근 제안된 기법들은 주로 UCF-Crime 이라는 실제 CCTV 동영상 데이터셋을 활용하고 있는데, 본 데이터셋은 학습 영상과 테스트 영상에서 이상행동 클래스 별 분포도가 균등하지 않다. 본 연구에서는 해당 불균형으로 인해 학습 모델이 특정 행동 클래스에 과적합될 수 있음을 보이며, 이러한 불균형을 해결하기 위해 Class-Balanced Multiple Instance Learning Loss 를 제안한다. 이를 통해 기존에 특정 클래스에 편중되었던 모델이 이상행동 종류에 좀 더 균등한 성능을 낼 수 있음을 보여준다. 특히 단순히 클래스별 정확도가 제로섬(zero sum)으로 증감하는 것이 아니라 전체적인 이상행동 판별 정확도 또한 향상됨을 실험 결과를 통해 확인할 수 있다.
-
본 연구는 현실과는 다른 공간, 시대 및 문화적 배경 등을 디자인하고 그 속에서 살아가는 메타버스 가상 세계를 작품으로 제시한다. 제시된 작품인 언플래닛 시티(Unplanet City)는 상징적 의미가 담긴 조형 언어를 통해 새롭게 창조된 도시를 의미하며, 기존 도시와 대칭점에 있는 상상 속 세상이다. 현재 우리가 사는 플래닛과 대칭되는 언플래닛 시티에는 상징적인 건축물로 가득하며, 이 건축물들은 3D로 표현되었다. 언플래닛 시티는 작품 전체가 전시 공간이 되는 새로운 전시 공간의 활용과 확장 가능성에 목적을 둔다.
-
최근 Moving Picture Experts Group(MPEG)에서는 2차원 비디오 압축 표준인 Versatile Video Coding(VVC)에 이어서 다양한 영상 포맷들에 대한 압축 방식을 표준화하고 있다. 특히, 가상현실, 증강현실, 혼합현실 등의 지원을 위한 Six Degrees of Freedom(6DoF) 입체영상 콘텐츠들이 최근 다양한 분야들에서 활용되고 있는데, 6DoF 입체영상은 일반적으로 복수 시점의 고해상도 칼라영상과 깊이영상으로 구성된다. 이러한 고해상도의 6DoF 몰입형 입체영상을 제한된 네트워크 환경에서 완벽한 서비스를 목표로 MPEG에서는 몰입형 입체영상 압축 기술인 MPEG Immersive Video(MIV) 표준화를 활발하게 진행 중에 있다. MIV에서는 기본 뷰(Basic View)로 이루어진 영상과 추가 뷰(Addtional View)에서 중복성 높은 픽셀들이 제거된 아틀라스 패치로 이루어진 영상을 각각 VVC로 압축한다. 하지만 아틀라스 패치로 이루어진 영상의 경우에는 일반적인 2차원 칼라영상과 다른 특성을 가지기 때문에, VVC 인루프 필터 기술이 비효율적일 수 있다. 따라서, 본 논문에서는 MIV 표준에서의 VVC 인루프 필터들의 성능을 분석한다.
-
본 논문은 카메라 어레이기반 실사 다시점 입체영상을 획득·생성하기 위한 워크플로우를 제시하고 이를 검증하기 위한 실험 결과를 소개한다. 구체적으로, 액션 캠 기반 수렴형 리그 구조, 획득 동기화, 카메라 캘리브레이션, 깊이 맵 추출을 포함하는 일련의 과정 및 이에 대한 검증으로 실내외 2종의 콘텐츠의 획득 실험 결과를 기술한다.
-
본 논문에서는 다중 인물 포함 단일 영상으로부터 파라미터 기반 3차원 휴먼 모델 생성 기법 중 최근 발표된 SOTA 기법 4가지에 대해 대표적인 데이터 셋들에 대해 사전 학습 모델을 사용한 복원 성능 비교 실험을 수행하였다. 실험결과, CLIFF 기법과 PyMAF-x 기법이 PARE 기법이나 ROMP 기법에 비해 우수한 결과를 보였다.
-
본 논문에서는 패치매치 기법 및 분할 기법의 조밀 깊이지도들의 효율적인 결합을 통해 기존의 패치매치 기반의 방법들이 낮은 깊이값 추정 정확도를 보인 영역들인 텍스처가 부족한 영역과 기존의 분할 기반 방법들이 깊이값 추정에 한계를 보인 세밀한 영역에서의 깊이값 추정 정확도를 동시에 높이고 고품질의 조밀 깊이지도를 얻는 것을 목표로 한다. 이를 위해 제안한 방법에서는 신뢰지도를 바탕으로 패치매치 기법의 조밀 깊이지도, 조밀 노말지도와 분할 기법의 조밀 깊이지도, 조밀 노말지도의 초기 결합 깊이지도 및 초기 결합 노말지도를 생성한다. 이후 각 픽셀에서 원래 픽셀과 주변 픽셀에서의 깊이값, 노말값들로 업데이트를 위한 후보들을 만든다. 이후 각각의 후보들에 대해서 깊이값, 노말값, 컬러값들을 바탕으로 비용을 계산한다. 이후 가장 최적의 비용을 가지는 후보값으로 각 픽셀의 깊이값과 노말값을 업데이트한다. 이를 통해 패치매치 기법 및 분할 기법의 조밀 깊이지도들의 장점을 합친 결합 조밀 깊이지도를 생성한다.
-
Long-tail problem은 class 별로 sample의 개수에 차이가 있어 성능에 안 좋은 영향을 미치는 것을 말한다. 본 논문에서는 cost-sensitive learning 중 Class-Balanced Loss를 이용해 성능을 개선하여 Long-tail problem을 해결하려고 한다. 먼저, balanced data set과 imbalanced data set의 성능 차이를 살펴보도록 할 것이다. 그 후, Class-Balanced Loss를 3가지 버전으로 이용해 그 성능을 측정하고 분석해 볼 것이다.
-
본 논문에서는 화장품의 효율적 구매를 위한 화장품 성분표를 분석하고 정보를 전달하는 기능의 시스템을 제안한다. 이 시스템에서는 화장품 성분표에 최적화시킨 OCR (Optical Character Recognition) 모델을 사용해 화장품 성분표를 촬영한 영상에서 인식한 문자 데이터를 추출한다. 이 문자 데이터를 통해 얻은 화장품 성분이 사용자 피부 유형에 적합한지 구축된 데이터베이스와의 비교를 통해 소비자에게 최종 전달된다. 200개의 화장품 성분표 영상을 사용해 제안하는 화장품 성분표 분석 모델의 성능을 평가한 결과 80.348%의 정확도를 보였다.
-
Weakly-supervised learning is a widely adopted approach in video anomaly detection whereby only video labels are utilized instead of expensive frame-level annotations. Since the success of multi-instance learning (MIL), almost all recent approaches are based on maximizing the margin between the set of abnormal video snippets and those of normal video snippets. In this work, we present a simple contrastive approach for weakly supervised video anomaly detection (WS-VAD) with aims to enhance the performance of existing models. The method is generic in nature and introduces a loss function to encourage attraction of output features from the same video class and repel those from different video classes. Experimental results demonstrate our method can be applied to existing algorithms to improve detection accuracy in public video anomaly dataset.
-
최근의 코로나 팬데믹과 같은 사회적 요구로 주목을 받고 있는 가상공간은 가상의 환경에서 사용자에게 존재하지 않지만 존재한 것처럼 믿게 만드는 시각적 공간이라 할 수 있다. 본 연구는 언리얼 엔진의 'HDRI backdrop'과 'Paper 2D' 기능을 활용하여 2D 이미지들로 가상공간을 제작한 작품을 서술한 글이다. 작품에서 배경은 HDRI backdrop을 이용하여 4K HDR 사진 이미지를 3D 공간에 설정하여 제작하고 캐릭터는 Paper 2D를 활용하여 책 표지에 등장하는 캐릭터 이미지를 포토샵 편집 후 스프라이트로 변환하여 배치하였다. 2D 이미지를 활용하여 가상공간을 제작한 작품을 계기로 2D 콘텐츠와 3D 가상공간의 융합으로 새로운 방향의 활용가능성을 발견하고 다양한 표현방식과 아이디어로 발전할 수 있을 것이다.
-
딥러닝의 발전과 함께 합성곱 신경망 기반의 이미지 내 글자 영역 검출(Scene Text Detection) 방법들이 제안됐다. 그러나 이러한 방법들은 대부분 데이터셋이 제공하는 단어의 위치 정보만을 이용할 뿐 글자 영역이 갖는 고유한 정보인 글자 수는 활용하지 않는다. 따라서 본 논문에서는 글자 수 정보를 학습하여 효과적으로 이미지 내의 글자 영역을 검출하는 모듈을 제안한다. 제안하는 방법은 간단한 합성곱 신경망으로 구성된 이미지 내 글자 영역 검출 모델에 글자 수를 예측하는 모듈을 추가하여 학습을 진행하였다. 글자 영역 검출 성능 평가에 널리 사용되는 ICDAR 2015 데이터셋을 통해 기존 방법 대비 성능이 향상됨을 보였고, 글자 수 정보가 글자 영역을 감지하는 데 유효한 정보임을 확인했다.
-
최근 팬데믹의 영향으로 비대면 문화가 확산하였다. 온라인 수업의 경우 시간과 공간에 구애받지 않고, 본인이 원하는 강의를 선택함으로써 학습의 질을 향상할 수 있는 장점이 있다. 이에 비대면 문화가 퍼짐에 따라 교육 온라인 수업의 수요와 중요도가 증가하였다. 따라서, 기업이나 교육단체가 가지는 원격 강의 플랫폼 품질의 중요성이 크다. 온라인 학습 플랫폼 구축을 위해서는 미디어 플레이어가 필수적이다. 인터넷에서 보안의 중요성이 대두됨에 따라, 본 논문에서는 다양한 플랫폼에 적용할 수 있는 HLS 프로토콜 기반 미디어 웹 플레이어를 개발하고자 한다.
-
최근 인공지능 기반 객체 탐지 기술이 발전함에 따라 영상 감시, 얼굴 인식, 로봇 제어, IoT, 자율주행, 제조업, 보안 등 다양한 분야에 활용되고 있다. 이에 본 논문은 발전된 객체 탐지 알고리즘을 이용하여 비전문가에겐 생소한 컴퓨터나 전기 장치 등의 '단자(terminal)' 모양을 구별하는 방법을 제안한다. 이를 위해 객체 탐지 프로그램인 You Only Look Once (YOLO) 알고리즘을 이용하여 입력한 단자들의 모양을 검출하는 알고리즘을 구성하였다. 일상에서 쉽게 볼 수 있는 단자들의 이미지(VGA, DVI, HDMI, DP, USB-A, USB-C)를 라벨링하여 데이터셋을 구축하였고, YOLOv4와 YOLOv5 두 버전의 알고리즘을 사용하여 성능을 검증하였다. 실험 결과 mean Average Precision(mAP) 기준 최대 92.9%의 정확도를 얻을 수 있었다. 전기 장치에 따라 단자의 모양이 다양하고, 그 종류 또한 많기 때문에 본 연구가 방송 기술 등의 여러 분야에 응용될 것으로 기대된다.
-
본 논문은 메타버스 등 인공지능 연계 증강/가상현실 부동 중계 플랫폼에서 부동산 영상 기반 매물 소개 시스템 구축에서 사생활 및 개인정보가 영상에 담기게 될 수 있는 위험이 존재하기에 부동산 영상 내의 개인정보 및 민감 정보를 인공지능 기술을 기반으로 검출하여 삭제해주고 복원해주는 인공지능 기술 연구개발을 목표로 하였다. 한국형 부동산 내 민감 object 를 정의하고, 최신 인공지능 딥러닝 기술 기반 민감 object detection 알고리즘을 연구 개발하며, 영상에서 삭제된 부분은 인공지능 기술을 기반으로 물체가 없는 실제 공간영상으로 복원해주는 영상복원 기술도 연구 개발하였다. 한국형 부동산 환경 (영상 촬영 조도, 디스플레이 스타일, 주변 가구 배치 등)에 맞는 인공지능 모델 구축을 위하여, 자체적으로 한국 영상 database 구축 및 Transfer learning for target domain adaptation 을 진행하였다. 제안된 알고리즘은 일반적인 환경에서 98%의 정확도와 challenge 환경에서 (occlusion 빛 반사, 저조도 등) 81%의 정확도를 보였다. 본 기술은 Proptech 분야에서 주목받고 있는 메타버스 기반 온라인 중계 서비스 기술을 활성화하기 위하여 기획되었으며, 특히 메타버스 부동산 중계 플랫폼의 활성화를 위하여 사생활 보호 측면에서 필요한 중요 기술을 인공지능 기술을 활용하여 연구 개발하였다.
-
본 논문에서는 딥러닝의 주요 기법 중 하나인 GAN 을 활용하여 압축된 영상의 품질을 개선하는 방법을 제안한다. 제안하는 GAN 의 생성자는 U-Net 과 ResNet 을 기반으로 구성되었으며, 판별자는 합성곱층과 전연결층으로 구성하였다. 네트워크의 학습은 HEVC (High Efficiency Video Coding)의 테스트 모델인 HM16.25 를 사용하여 RA (Random Access) 구성하에 양자화 계수 37 로 압축된 영상을 입력으로 하여 수행되었다. 제안하는 네트워크의 성능 확인을 위해 학습 시와 동일한 조건으로 압축된 다른 영상을 입력으로 하여 실험하였다. 실험 결과 영상의 평균 PSNR 은 34.20dB 에서 34.24dB 로 0.04dB 의 품질 향상이 이루어진 것을 확인할 수 있었다.
-
Personal-Fit Virtual Try-On iOS Mobile Service using 3D Human body and Clothing model reconstruction본 논문에서는 3차원 스캔 없이 이미지 입력만을 사용한 개인 체형을 고려한 모바일 가상 착용 시스템의 전체 과정을 설계하고 개발하였다. 이를 위하여 이미지상 인물의 자세와 체형의 추정을 통하여 3차원 인체모델(SMPL)을 추정하는 최근의 방식을 이용하였고, 앞 뒷면 의상 이미지를 2차원 texture 매핑과 평면 triangle mesh로 복원하고 의상 봉제 (sewing) 시뮬레이션을 사용하여 3차원 의상 모델을 생성하는 방법을 새롭게 개발하였다. 또한 이를 활용한 3차원 개인화된 가상 착용 모바일 앱과 서비스를 Flask와 iOS 환경에서 SceneKit을 활용하여 개발하였다. 이를 통하여 단순히 의상의 매칭과 스타일 뿐 아니라 사이즈에 따른 착용 Fit을 구매 전에 확인할 수 있는 전체 서비스를 실현 및 검증하였다.
-
코로나19의 여파로 E-sports 산업이 가파른 성장세를 보이고 있다, 하지만 현재 E-sports만을 중계하는 OTT 플랫폼은 전무한 실정이며, 기존의 E-sports 중계는 전문 선수들의 경기를 옵저버가 잡아주는 화면만으로 시청 가능하다는 한계가 존재한다. 따라서 본 논문에서는 '자율 선택형 멀티뷰 시스템'을 도입하여 보다 몰입도 높은 E-sports 경기를 제공하고, 직관적인 인터페이스로 누구나 쉽게 이용 가능한 E-sports OTT 플랫폼 시스템을 제안한다.
-
왜곡된 영상에 강인한 물체 검출은 자율 주행과 같은 안전에 치명적인 실생활 응용 분야에서 핵심 문제로 다뤄지고 있다. 이러한 이유로, 영상 처리 및 컴퓨터 비전 분야에서 강인한 물체 검출에 대한 연구가 활발하게 진행되고 있다. 본 논문에서 우리는 왜곡된 영상이나 이미지에서도 일정한 성능의 물체 검출을 위한 연구 [4]를 benchmark 하여 다양한 방법으로 변형된 데이터셋을 통해 학습한 모델을 성능과 feature map 측면에서 분석해 봄으로써, 향후 강인한 물체 검출에 있어 효과적인 성능 향상을 위한 intuition 을 제공하고자 한다.
-
본 논문에서는 생성된 이미지에 대한 YOLO 모델의 객체 인식의 성능을 확인하고 사례를 연구하는 것을 목적으로 한다. 최근 영상 처리 기술이 발전함에 따라 적대적 공격의 위험성이 증가하고, 이로 인해 객체 인식의 성능이 현저히 떨어질 수 있는 문제가 발생하고 있다. 본 연구에서는 앞서 언급한 문제를 해결하기 위해 text-to-image 모델을 활용하여 기존에 존재하지 않는 새로운 이미지를 생성하고, 생성된 이미지에 대한 객체 인식을 사례 별로 연구한다. 총 8가지의 동물 카테고리로 분류한 후 객체 인식 성능을 확인한 결과 86.46%의 정확도로 바운딩 박스를 생성하였고, 동물에 대한 116개의 60.41%의 정확도를 보여주었다.
-
최근 자연어 처리 분야에서 기계학습 독해 관련 연구가 활발하게 이루어지고 있다. 그러나 그 중에서 한국어 기계독해 학습을 통해 문제풀이에 적용한 사례를 찾아보기 힘들었다. 기존 연구에서도 수능 영어와 수능 수학 문제를 인공지능(AI) 모델을 활용하여 문제풀이에 적용했던 사례는 있었지만, 수능 국어에 이를 적용하였던 사례는 존재하지 않았다. 또한, 수능 영어와 수능 수학 문제를 AI 문제풀이를 통해 도출한 결괏값이 각각 12점, 16점으로 객관식이라는 수능의 특수성을 고려했을 때 기대에 못 미치는 결과를 나타냈다. 이에 본 논문은 한국어 기계독해 데이터셋을 트랜스포머(Transformer) 기반 모델에 학습하여 수능 국어 문제 풀이에 적용하였다. 이를 위해 객관식으로 이루어진 수능 문항의 각각의 선택지들을 질문 형태로 변형하여 모델이 답을 도출해낼 수 있도록 데이터셋을 변형하였다. 또한 BERT(Bidirectional Encoder Representations from Transformer)가 가진 입력값 개수의 한계를 극복하기 위해 더 큰 입력값을 처리할 수 있는 트랜스포머 기반 모델 중에서 한국어 기계독해 학습에 적합한 KoBigBird를 사전학습모델로 설정하여 성능을 높였다.
-
Lip Reading(독순술(讀脣術)) 이란 입술의 움직임을 보고 상대방이 무슨 말을 하는지 알아내는 기술이다. 본 논문에서는 MBC, SBS 뉴스 클로징 영상에서 쓰이는 문장 10개를 데이터로 사용하고 CNN(Convolutional Neural Network) 아키텍처 중 모바일 기기에서 동작을 목표로 한 MobileNet을 모델로 이용하여 발화자의 입모양을 통해 문장 인식 연구를 진행한 결과를 제시한다. 본 연구는 MobileNet과 LSTM을 활용하여 한국어 입모양을 인식하는데 목적이 있다. 본 연구에서는 뉴스 클로징 영상을 프레임 단위로 잘라 실험 문장 10개를 수집하여 데이터셋(Dataset)을 만들고 발화한 입력 영상으로부터 입술 인식과 검출을 한 후, 전처리 과정을 수행한다. 이후 MobileNet과 LSTM을 이용하여 뉴스 클로징 문장을 발화하는 입모양을 학습 시킨 후 정확도를 알아보는 실험을 진행하였다.
-
2018 년 평창 동계올림픽부터 우리나라 사람들이 컬링이라는 종목에 큰 관심을 갖기 시작하였다. 하지만 이 종목을 직접 체험하거나 경기를 보기 위해서는 빙판이 있어야 하는 특수성과 비싼 장비, 찾아보기 힘든 경기장 등 여러 열악한 조건들 때문에 결국 올림픽 시즌에만 반짝 관심을 가졌다가 시들어버렸다. 이를 해결하기 위해서 우리는 Unity 라는 게임 엔진을 사용하여 사람들이 쉽게 접할 수 있는 컬링 게임을 제작하였다. 실제 컬링을 게임으로 만들기 위해 컬링에 필요한 도구들을 이미지로 제작하여 Unity 내부에서 저장 후 오브젝트에 입력하였고 물리 법칙을 구현하기 위해 Unity 상에서 방향, 세기, 속도, 충돌들을 프로그래밍하였으며 대한컬링연맹에 나와있는 컬링 경기 규칙서를 활용하여 게임에 적용하였다. 또한 컬링의 진행이 현실적인 운동과 비슷하게 하기 위하여 스크립트 안의 충돌 및 마찰 관련 계수를 조절하였고 이를 이용하여 반복한 결과값들을 수치화 하여 그래프로 작성해보았다. 추가적으로 컬링 게임의 점수판과 카메라 시점 등을 통해서 게임 사용자가 게임 진행에 있어서 도움이 되는 부분을 구현하였고 현실성을 위하여 Arduino 를 이용한 게임 패드를 제작하여 직접 게임하는 듯한 느낌을 들도록 하였다. 최종적으로 게임을 이용하여 컬링에 대한 이해도가 증가하고 사람들이 컬링이라는 비인기 종목에 한 걸음 더 접근할 수 있게 되고, 스포츠발전에 조금이나마 기여할 수 있게 될 것이다.
-
본 논문은 라즈베리 파이(Raspberry Pi) 아두이노(Arduino)을 이용하여 무단 침입자를 스마트폰을 통해 실시간으로 스트리밍 되는 영상을 통해 확인하고, 즉각적으로 신고할 수 있는 홈 케어 방범 IoT 시스템 구축에 대한 내용을 다룬다. 이는 1인 가구 및 비어있는 원룸 등의 무단 침입을 방지하고 범죄를 예방하는데 큰 도움이 될 것으로 기대한다.
-
지난 2021년, 국내 최초로 온라인 소비가 오프라인 소비를 뛰어넘을 정도로 언택트 경제가 급부상하였다. 덕분에 언택트 시장의 주도권을 가진 라이브 커머스는 무서운 속도로 성장하고 있고, 이는 적어도 2023년까지 이어질 것으로 예상된다. 중소기업은 물론 대기업, 심지어 개인까지 라이브 커머스 시장에 탑승한 현재, 라이브 커머스 시장의 경쟁력은 점차 사라지고 있다. 이로 인해 공급자들은 차별성을 두기 위해 여전히 다양한 방법을 찾아 시도하고 있다. 본 논문에서는 계속해서 수요되는 라이브 커머스 시장에서 경쟁력을 갖출 수 있는 방법으로 LED Wall의 활용을 제안한다.
-
다양한 분야에서 전자기기들을 사용함으로 인해 문서를 작성할 때 디지털 글꼴을 통해 작성하게 되는데, 이로 인해 글꼴을 종류가 여러 형태로 증가하면서 다양한 글꼴들을 사용하고 있다. 하지만, 글꼴마다 저작권을 가지고 있어서 마음에 든다고 해서 함부로 사용할 수도 없는 것이 문제점이다. 또한, 한글은 다른 언어에 비해 글자 조합방식이 많아서 폰트로 제작하기엔 많은 시간과 비용이 든다는 문제도 있다. 이러한 문제들을 해결하기 위해서 딥러닝을 통해 글꼴을 제작하게 된다면 적은 글자를 입력해 많은 글자의 결과를 도출함으로써, 시간과 비용을 절감해 효율적으로 만들고자 하였다. 이에 본 논문은 GAN을 기반으로 한 손글씨 폰트 제작을 하는 가운데 글꼴을 만들기 위해 입력에 어떤 글자들이 필요한 지에 대해 연구하였다. 다양한 분석적 요소를 갖고 실험을 하여 입력에 따라 결과가 어떻게 달라지는지를 알아보았고 이를 바탕으로 글꼴을 생성하였다.
-
'코로나19'의 여파로 인해 많은 분야에서 비대면 회의 및 상거래가 활성화되면서 기존 홈쇼핑에서의 방송 시스템 방식이 아닌 간단하게 구성할 수 있는 라이브 커머스의 중요성이 대두되었다. 시스템적으로 간편함을 갖춘 동시에 누구나 쉽게 접근을 할 수 있는 시스템을 구성하여 제안하고자 한다.
-
본 논문은 딥러닝과 핸드 제스처, 미디어 파이프를 이용하여 비접촉식 키오스크를 만들어 (코로나19로 인한) 감염병 예방 및 대형마트에서 원하는 물건을 검색 후 편리한 구매를 위해 구현한 내용을 다룬다. 단순한 핸드 제스처 인식만을 이용한 것이 아니라 그림을 그리는 비접촉 제스처 인식을 더해 하나의 예술로써 제스처 인식을 더 많이 사용하고자 했다. 또한 하나의 손가락으로 그림을 그리는 것이 아닌 주먹을 쥐었을 때 그 중심을 인식해 그림을 그리는 방법을 이용해 기존의 방법보다 더 안정감 있게 그릴 수 있게 구현하였다. 현실에서 사용하기 위해 세부적인 기능들은 학습을 통해 기존보다 정확도가 향상된 미디어 파이프를 이용하였다. 빠른 처리 속도와 정확성에 초점을 두는 것이 아닌 하나의 미디어 아트로써 키오스크를 설계하였다.
-
증강현실로 날씨, 뉴스 요약 등이 제공되거나 AI 비서 기능을 제공하는 스마트 미러(smart mirror)가 개발되고 있다. 본 작품에서는 IoT 통합제어, 뉴스 요약 및 날씨 정보 제공 등의 서비스를 하나의 웹 플랫폼으로 구축하고 이를 손가락 제스쳐 및 음성 명령으로 제어하는 것을 제안하고 구현하였다. 본 작품에서는 음성 인식을 통해 IoT 서비스를 직관적으로 이용할 수 있게끔 설계하여 사용자의 편의성을 높였으며, 디바이스를 직접 터치하는 방식이 아닌 finger gesture로 제어하는 방식을 채택해, 디바이스 유지 보수 및 위생 문제를 해결하였다. 단순 IoT 통합 제어 기능뿐만 아니라 다양한 컨텐츠 및 기능을 제공함으로써 통합 플랫폼의 기능을 수행할 수 있도록 하였다. 뉴스 홈페이지에서 Crawling한 뉴스를 text rank 알고리즘을 이용. 자동으로 요약하는 기능과, 사용자의 IP를 기반으로 위도와 경도를 추론, 해당 지역의 일기 예보 정보를 표현해 주는 등 단순 IoT 제어 플랫폼이 아닌, 통합 플랫폼의 기능을 다하도록 설계하였다. 이처럼 다양한 정보를 압축해서 사용자가 편하게 볼 수 있도록 제공하며, 직관적인 two track 제어 방식을 채택. 사용 대상의 편의성을 증대시켜 본 프로젝트는 기존 프로젝트보다 사용자에게 더 나은 사용 경험을 제공할 것이다.
-
본 논문에서는 네일 아트를 한 손 이미지가 주어졌을 때 손톱에 있는 네일 아트의 컬러를 자동으로 분류해주기 위한 시스템을 제안한다. 네일 아트 컬러 자동 분류기는 Object Detection 모델을 이용하여 인풋으로 들어오는 손 이미지에서 손톱 영역을 찾고, 각 손톱에 대하여 13 가지 컬러 중 하나로 분류한 결과를 아웃풋으로 반환한다. 본 프로젝트에서는 사용자가 요청하는 네일 아트 손 이미지에 대하여 컬러 라벨링 결과를 반환해주는 API 형태의 서비스를 제안하며, 반응형 웹을 통해 시연 가능하도록 시스템을 설계 및 구현하였다.
-
Kim Gi yeon;Ryu Dong hun;Kim Hyun soo;Lee Seung gi;Kim Ye seo;Oh Hyeon jeong;Kim Bo kyung;Sangun Lee 244
중계 시스템은 드론과 무선 장비들을 사용하기 시작하였고 여러 가지 시스템을 도입하고 있는 추세이다. 따라서 본 논문에서는 드론과 4K, 무선을 기반으로 한 중계 시스템을 제안한다. 제안한 시스템은 드론을 활용하여 더욱 현장감 있고 역동적인 콘텐츠를 제작할 수 있다. -
유튜브에 대한 관심이 급증하면서 1인 방송시스템에 대한 수요가 증가하고 있다. 장비를 구축하는데 생기는 문제 중 가장 중요한 요소는 경제적인 부분이다. 따라서 본 논문에서는 스튜디오의 상용화와 경제성, 전문성의 상향평준화에 초점을 맞춘 스튜디오 구성을 제안해 누구나 손쉽게 1인 방송을 할 수 있도록 한다. 또한, 본 논문에서 제안한 새로운 1인 방송 시스템을 통해 '크로마키' 기능을 추가로 구현해봄으로서, 매번 같은 장소에서 촬영하는 1인 미디오 스튜디오의 특성을 보완해 1인 방송 제작자들이 더욱 다양한 컨텐츠를 만들어낼 수 있도록 한다.
-
본 설계에서는 택배의 현재 상태를 확인 후 택배 상자의 파손 유무를 분류하고 사진으로 제공하는 기술을 제안하였다. 본 설계에서는 딥러닝 네트워크를 통해 훈련된 인공지능을 통해 일반 상자와 파손 상자를 분류하고, 파손 상태일 시 소비자와 택배사에 알람으로 보고하는 것을 주 기능으로 하고 있다. 딥러닝 네트워크 훈련을 위해 약 1,000장의 데이터셋을 직접 구성하고 학습하였다. 본 설계에서 사용된 택배 상자 파손 여부 분류기의 분류 정확도는 93.33%이고, 이 분류 성능은 택배 상자의 상태를 분류하는 데 있고, 정확도의 분류 성능이라고 할 수 있다.
-
현재는 온라인을 통해 개인이 직접 방송을 제작하는 형태의 1인 방송이 가능한 시대이다. 스마트폰을 이용하였을 경우 방송할 만한 충분한 환경이 마련되지 않아도 비교적 간단하게 중계 시스템을 구성할 수 있다. 본 논문에서는 최근 하나의 문화이자 대중 스포츠로 자리 잡은 E-스포츠의 게임 유저들이 스마트폰을 활용해 게임에 쉽게 참여할 수 있는 중계 시스템 구현을 제안한다.
-
최근 딥러닝 기술이 발전하면서 이미지를 설명하는 캡션을 생성하는 모델 또한 발전하였다. 하지만 기존 이미지 캡션 모델은 대다수 영어로 구현되어있어 영어로 캡션을 생성하게 된다. 따라서 한국어 캡션을 생성하기 위해서는 영어 이미지 캡션 결과를 한국어로 번역하는 과정이 필요하다는 문제가 있다. 이에 본 연구에서는 기존의 이미지 캡션 모델을 이용하여 한국어 캡션을 직접 생성하는 모델을 만들고자 한다. 이를 위해 이미지 캡션 모델 중 잘 알려진 Show, Attend and Tell 모델을 이용하였다. 학습에는 MS-COCO 데이터의 한국어 캡션 데이터셋을 이용하였다. 한국어 형태소 분석기를 이용하여 토큰을 만들고 캡션 모델을 재학습하여 한국어 캡션을 생성할 수 있었다. 만들어진 한국어 이미지 캡션 모델은 BLEU 스코어를 사용하여 평가하였다. 이때 BLEU 스코어를 사용하여 생성된 한국어 캡션과 영어 캡션의 성능을 평가함에 있어서 언어의 차이에 인한 결과 차이가 발생할 수 있으므로, 영어 이미지 캡션 생성 모델의 출력을 한국어로 번역하여 같은 언어로 모델을 평가한 후 최종 성능을 비교하였다. 평가 결과 한국어 이미지 캡션 생성 모델이 영어 이미지 캡션 생성 모델을 한국어로 번역한 결과보다 좋은 BLEU 스코어를 갖는 것을 확인할 수 있었다.