Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
The Korean Institute of Broadcast and Media Engineers
- Semi Annual
Domain
- Media/Communication/Library&Information > Media/Consumers
2022.06a
-
코로나 19 팬데믹으로 인한 4차 산업혁명이 앞당겨지고 초현실, 초실감, 초연결 사회 등의 키워드가 대두되고 언택트(Untact) 시대가 일상생활에 불가항력적으로 접목되면서 몰입감과 흥미성, 유희성을 목적으로 한 콘텐츠들이 다양하게 활성화되었다. 특히, 메타버스(Metaverse) 플랫폼이 빠르게 진화하면서 물리적 현실과 디지털 가상성을 융합한 다중 사용자에게 다양한 경험이 가능한 서비스가 주목받고 있다. 메타버스는 다중 사용자 플랫폼에서 원활한 커뮤니케이션과 대규모 멀티플레이가 가능한 온라인 비디오 게임, 오픈 게임 월드, AR 협업 공간과 호환되는 사회적, 몰입감이 있는 VR(Virtual Reality) 플랫폼 서비스 중 하나이다. 우리는 메타버스 플랫폼 개발 시 필요로 하는 요소기술 및 3D 데이터 획득을 통한 VR 콘텐츠를 설계하고 구현하고자 한다. 1) 콘텐츠 시나리오 및 사용자 인터랙션 설계; 2) 볼류메트릭 캡처를 활용한 실사 기반의 동적(Dynamic) 데이터 생성; 3) 컴퓨터 그래픽 기반 가상공간 설계 및 정적(Static)데이터 요소기술 개발; 4) 가상 현실 공간 데이터와 볼류메트릭 캡처의 실사 데이터 정합; 5) 공간 데이터 시각화 생성 및 모듈형 공간 이동 제어 기능 개발; 최종적으로 6) VR 환경에서의 콘텐츠 구현을 목표로 한다.
-
Son, Hosung;Shin, Minjung;Kim, Joonsoo;Yun, Kug-jin;Cheong, Won-sik;Lee, Hyun-woo;Kang, Suk-ju 4
최근 다 시점 영상 콘텐츠 기반 3차원 공간(장면) 복원을 위한 다 시점 깊이 추정 딥러닝 네트워크 방법론이 널리 연구되고 있다. 다 시점 영상 콘텐츠는 촬영 구도, 촬영 환경 및 세팅에 따라 다양한 특성을 가지며, 고품질의 3차원 복원을 위해서는 이러한 특성을 이해하고, 적절한 깊이 추정 네트워크 기법들을 적용하는 것이 중요하다. 다 시점 영상 촬영 구도로는 수렴형, 발산형이 존재하며, 촬영 세팅에는 카메라 시점 간 물리적 거리인 baseline이 있다. 본 연구는 이와 같은 다 시점 영상 콘텐츠의 종류와 각 특징에 기반하여 콘텐츠(데이터 셋)의 특성에 따른 적절한 깊이 추정 네트워크 방법론을 다룬다. 실험 결과로부터, 기존의 다 시점 깊이 추정 네트워크를 발산형 또는 large baseline 특성을 가지는 데이터 셋에 곧바로 적용하는데 한계점이 존재함을 확인하였다. 따라서, 각 영상 환경에 적합한 '참조 시점 개수' 및 적절한 '참조 시점 선택 알고리즘'의 필요성을 검증하였다. 결론적으로, 3차원 공간(장면) 복원을 위한 딥러닝 기반 깊이 추정 네트워크 구현 시, 본 연구 결과가 다 시점 영상 콘텐츠 기반 깊이 추정 기법 선택에 있어 가이드라인으로 활용될 수 있음을 확인하였다. -
고정된 위치를 중심으로 회전운동만 체험할 수 있는 3 자유도(DoF: Degrees of Freedom)를 넘어 위치를 변경하며 운동시차까지 포함된 6 자유도를 지원하는 몰입형 미디어에 대한 연구가 지속해서 진행되고 있다. 특히 부드러운 시점 변경을 제공하기 위해 특정 위치에서 샘플링 된 여러 개의 텍스쳐(또는 컬러) 및 깊이맵 영상(MVD: Multiview Video plus Depth)으로 구성된 다시점 영상을 통해 실제로 획득되지 않은 위치에서의 영상을 만들어내는 가상시점 합성(virtual view synthesis) 기술이 많이 사용되고 있다. 본 논문에서는 몰입형 미디어의 대표적인 데이터 형식인 다시점 영상을 실사 및 컴퓨터 그래픽스(CG: Computer Graphics) 환경에서 획득하는 방법에 관해 설명한다.
-
본 논문에서는 심층 신경망 기반 점진적 다계층 오디오 코덱의 비트 전송률 효율 향상을 위한 엔트로피 모델 기반 양자화 방식을 제안한다. 최근 심층 신경망을 이용하여 전통적인 신호 처리 이론 기반의 상용 오디오 코덱들을 대체하기 위한 오디오 압축 및 복원 시스템에 관한 연구가 활발하게 이루어지고 있다. 그러나 아직은 기존 상용 코덱의 성능에 도달하지 못하고 있으며 특히 종단 간 오디오 압축 모델의 경우, 적은 정보량으로 높은 품질을 얻기 위해서는 부호화기의 양자화 구조를 개선하는 것이 필수적이다. 본 연구에서는 기존에 제안된 종단 간 오디오 압축 모델 중 하나인 점진적 다계층 오디오 코덱의 벡터 양자화기를 엔트로피 모델 기반 양자화기로 대체하고 전송률-왜곡 트레이드오프 관계를 활용하여 전송률을 다양한 형태로 조절할 수 있음을 보임으로써 엔트로피 모델 기반 양자화기 도입의 타당성을 검증한다.
-
본 논문에서는 복소(complex) 공간큐를 활용한 다채널 오디오 부호화 기술을 제안한다. 복소 공간큐 방식의 다채널 오디오 부호화 기술은 시간영역에서 수행된다. 시간영역의 오디오 채널 신호를 복소 데이터로 변환하여 각 오디오 채널 간의 상관관계를 복소 공간큐로 표현하고, 이를 활용하여 채널 부호화를 수행하기 위한 오디오 채널 신호를 생성한다. 참조 기술로는 최고 성능의 오디오 코덱인 USAC의 예측 부호화 방식의 다채널 오디오 부호화 기술과 비교하여 정보량 감축 측면에 있어서 평균 2.24 dB 이상의 높은 SNR을 나타냄을 관측할 수 있었다.
-
본 논문에서는 시간 영역 에너지의 companding을 이용하여 오디오 부호화에서 발생하는 프리 에코를 효과적으로 감소시키는 방법을 제안한다. 일반적으로 오디오 부호화는 블록 단위의 변환 부호화를 사용하므로 과도 구간에서 프리 에코를 발생시킨다. 프리 에코를 줄이기 위한 기존 TNS 방법은 주파수 영역에서 선형 예측 방법을 사용하며, 부가 정보 전송이 필요하고 성능이 낮은 문제점을 가진다. 제안하는 방법은 시간 영역 에너지의 동적 범위를 감소시킨 후 부호화 하고, 복호화 이후에 에너지를 복원하는 과정을 통하여 양자화 오차의 시간 영역 에너지 분포를 조정하여 프리 에코를 감소시킨다. 제안하는 방법이 TNS보다 우수한 프리 에코 감소 성능을 가지는 것을 확인하였다.
-
마스크 착용은 대화나 통화 등의 의사소통에 불편함을 초래하고 음성의 품질과 명료도를 떨어트린다. 이를 해결하기 위해 음성 향상 기술이 필요하며, 머신러닝 기반의 다양한 음성 향상 방법이 개발되었다. 지도 학습을 위해 마스크 착용 유무에 따라 일대일로 대응된 음성 데이터를 확보하는 것은 매우 어렵고, 따라서 일대일로 대응된 데이터가 필수적이지 않은 비지도 학습이 요구된다. 본 논문에서는 비지도 학습방식을 사용하면서 콘텍스트를 유지하며 특징을 변경할 수 있는 CycleGAN을 이용하여 마스크 착용에 의한 음성 왜곡을 복원 시키는 기술을 제안한다. 스펙트로그램 기반으로 마스크 착용에 의해 왜곡된 음성을 마스크 미착용 음성으로 변환하여 음성의 품질을 향상시켰다. 청취평가를 진행한 결과 품질이 향상된 음원의 선호도가 더 높음을 확인하였으며 스펙트로그램을 통해 3 kHz 이상의 고대역 에너지가 증가하는 것을 확인하였다. 이를 통해 CycleGAN을 이용한 비지도 학습으로 마스크 착용에 의해 왜곡된 음성의 품질을 향상시킬 수 있음을 확인하였다.
-
본 논문은 딥러닝을 이용하여 예측 블록을 개선하는 화면 내 예측 기법을 제안한다. 컨볼루션 신경망 네트워크로부터 기존의 VVC의 화면 내 예측 모드를 통해 구성한 예측 블록과 주변 참조 샘플을 통과하여 보다 원본에 가까운 예측 블록을 생성한다. 따라서 예측 후 신호는 원본 블록과의 차분 신호를 줄여 비디오 부호화 성능을 향상하게 된다. 실험 결과, VTM-10.0 대비 휘도성분에 대해 약 1.16%의 BD-rate을 개선하였다.
-
최근 딥러닝 방법의 발전하면서 영상처리 및 컴퓨터 비전의 다양한 분야에서 딥러닝 기반의 알고리즘들이 그 이전의 방법들에 비하여 큰 성능 향상을 보이고 있다. 손실 영상 압축의 경우 최근 encoder-decoder 형태의 네트웍이 영상 압축에서 사용되는 transform을 대체하고 있고, transform 결과들의 엔트로피 코딩을 위한 추가적인 encoder-decoder 네트웍을 사용하여 HEVC 수준에 버금가는 성능을 내고 있다. 무손실 압축의 경우에도 매 픽셀 예측을 CNN으로 수행하는 경우, 기존의 예측방법들에 비하여 예측성능이 크게 향상되어 JPEG-2000 Lossless, FLIF, JEPG-XL 등의 딥러닝을 사용하지 않는 방법들에 비하여 우수한 성능을 내는 것으로 보고되고 있다. 그러나 모든 픽셀에 대하여 예측값을 CNN을 통하여 계산하는 방법은, 영상의 픽셀 수 만큼 CNN을 수행해야 하므로 HD 크기 영상에 대하여 지금까지 알려진 가장 빠른 방법이 한 시간 이상 소요되는 등 비현실적인 것으로 알려져 있다. 따라서 최근에는 성능은 이보다 떨어지지만 속도를 현실적으로 줄인 방법들이 제안되고 있다. 이러한 방법들은 초기에는 FLIF나 JPEG-XL에 비하여 성능이 떨어져서, GPU를 사용하면서도 기존의 방법보다 좋지 않은 성능을 보인다는 면에서 여전히 비현실적이었다. 최근에는 신호의 특성을 더 잘 활용하는 방법들이 제안되면서 매 픽셀마다 CNN을 수행하는 방법보다는 성능이 떨어지지만, 짧은 시간 내에 FLIF나 JPEG-XL보다는 좋은 성능을 내는 현실적인 방법들이 제안되었다. 본 연구에서는 이러한 최근의 몇 가지 방법들을 살펴보고 이들보다 성능을 더 좋게 할 수 있는 보조적인 방법들과 raw image에 대한 성능을 평가한다.
-
다양한 미디어 서비스의 발전으로 비디오의 방대한 데이터를 효과적으로 압축할 수 있는 비디오 부호화 표준은 지속적인 발전을 하고 있다. 압축된 데이터를 다시 영상으로 복원하는 비디오 부복호화 과정에서 영상 데이터의 손실이 일어나고 그에 따른 다양한 형태의 열화가 나타나 영상의 화질을 저하한다. 이러한 열화들을 제거하여 원본 이미지에 가깝게 만들기 위해서 인루프 필터 과정을 비디오 부호화 표준에서 포함하고 있다. 이에 최근 영상처리 및 컴퓨터 비전 분야에서는 널리 사용되는 인공 신경망을 적용하여 효과적인 필터링을 하는 방법을 제시한다. 본 논문에서는 비디오 부호화 시 인루프 필터링에서 자기 참조를 통한 화질 개선 방법에 대해 연구하였다. 이를 위하여 트랜스포머 기반의 화질 개선 네트워크를 제안하고 기존 부호화 방법과 비교하였다. 인루프 필터링을 통해 화질을 향상하여 주관적 화질을 개선할 뿐만 아니라 객관적 부호화 효율을 증가시키는 방법을 개발하였다.
-
본 논문에서는 계층적 픽셀 예측과 컨텍스트 적응적 산술 부호화를 이용한 이미지 적응 무손실 압축 알고리즘을 제안한다. 입력 RGB 이미지는 먼저 가역적 색상 변환이 적용된다. Y 채널 이미지는 기존의 무손실 압축 인코더로 압축되고, U와 V채널 이미지는 Y 채널 이미지를 기반으로 예측된다. 원본과의 차이는 컨텍스트 적응적 산술 부호화를 통해 압축된다. 본 논문에서 제안된 알고리즘에서는 입력 이미지의 성질에 따라 산술 부호화에 사용되는 인코더의 개수를 적응적으로 변화시킨다. 또한 저주파 성분에 상대적으로 많은 자원을 집중시킴으로써 압축 성능을 향상시켰다. 제안된 방법은 기존에 사용되던 압축 방식들과 비교했을 때에도 의미 있는 성능을 보였다.
-
Strawberry (Fragaria × ananassa) cultivation methods are rapidly changing from traditional soil cultivation to high bed hydroponics, which are easy to agricultural working. The objective was to evaluate the growth characteristics of three strawberry cultivars cultivated high bed system. The "Seolhyang", "Altaking", and "Keumsil" strawberry plants were transplanted in a glass-type greenhouse at Kyungpook National University Gunwi Agricultural Field. The cultivation period was approximately seven months from September 17, 2021 to April 21, 2022. Growth parameters measured including the number of leaves, plant height, petiole length, leaf length, leaf width, and crown diameter at two-week intervals. The environmental parameters for each location in the greenhouse were collected. Plant height in all cultivars continued to decrease from the early stage to the late stage of growth. The crown diameter was increased by 50 DAT, and then gradually decreased until late growth stage in all cultivars. Results indicated that the growth parameters represented to vary according to the cultivar of strawberry plants.
-
고성능 컴퓨팅 기술과 딥 러닝 기술이 충분한 발전을 거쳐 인공지능 기술은 다양한 분야에서 실제로 적용되고 있다. 인공지능 플랫폼 기술이 사용자에게 적절하게 활용되기 위해서 엣지 컴퓨팅 기반의 마이크로 서비스 아키텍처(MSA)가 주목받고 있다. 이와 관련된 기술을 통해 클라우드 기반의 여러 인공지능 애플리케이션들이 엣지 장치에서 직접 처리가 가능하다면 비용적인 측면뿐 아니라 여러 관점에서 효율적이므로 엣지 컨테이너의 운용 기술에 대한 수요가 높아지고 있다. 이에 따라, 본 논문에서는 엣지 디바이스에 간단한 딥 러닝 서비스를 배포하고 운용할 수 있는 컨테이너를 구현하였다. 또한, REST 통신 방법 이외에 RPC 방식을 사용하여 원격 제어를 가능하게 하도록 구성하였으며, 여러 제어 기능들이 동작함을 확인하였다.
-
최근 미디어, 금융 등 다양한 분야의 기업들이 AI를 활용해 제공하는 서비스가 늘어남에 따라 학습된 모델을 엣지 자원에 배포하여 기능을 제공하는 서비스형태 또한 늘어나고 있다. AI-Application이 동작하기 위해서는 AI-Model 파일뿐 아니라 동작을 위한 설정 파일들이 필요하여 AI-Application이 사용 중인 AI-Model의 정보를 수집, 관리하는 것은 중요한 이슈라고 할 수 있다. 하지만 단일 서비스서버에서 동작하는 형태가 아닌 각 자원이 산재되어 다양한 형태로 서비스를 제공하는 엣지컴퓨팅의 구조적인 특성상 AI-Application의 기존 서비스구조, 기능을 수정하지 않고 정보를 수집하는 과정은 다양한 문제에 부딪치게 된다. 이에 따라 본 논문에서는 기존 서비스구조를 변경하지 않고 독립적으로 AI-Application에서 사용중인 AI-Model의 정보를 파악하고, 사용자 요청에 대응할 수 있는 관리구조를 제안한다.
-
ICT 정보기술에 기초한 시설원예의 복합환경제어 시스템에 빅데이터 분석과 인공지능기술을 접목하여 농업생산성을 극대화하기 위한 영농기법을 딸기 농업에 적용하는 기술을 개발하고 있으며, 본 논문에서는 이 개발과정의 중간결과물에 대해 기술하게 되며, 향후 진행할 내용에 대해서도 논문 중에 간략히 소개되어 있다. 대상 재배작물인 딸기의 재배방식에 적합한 영상촬영 시스템을 고려하여 시스템을 구성하였고, 경제적인 촬영시스템이 되도록 시스템 설계를 하였으며, 엣지 컴퓨팅 기술을 응용하여 궁극의 목표인 신속하고 다양한 의사결정 서비스를 로컬의 로봇시스템에 구현할 예정이다.
-
이 논문에서는 합성된 애기장대 데이터셋을 활용하여 딸기의 엽면적을 추정할 수 있는 딥러닝 모델을 제안한다. 제안된 모델에서는 개별 잎 검출을 위하여 합성 데이터셋으로 학습된 Mask R-CNN 의 객체 검출 모델을 사용하였고, 이어 이미지 후처리 작업에 해당되는 모폴로지 연산의 침식 및 팽창, 픽셀 카운터를 통해 엽면적을 추정하였다. 각기 다른 역할을 수행하는 신경망 계층에 어텐션 메커니즘 적용하여 검출 성능의 향상과 검출 시간을 단축하였다. 제안된 모델은 딸기 데이터셋을 사용하지 않는 합성된 데이터셋만으로도 실제 온실에서 획득한 다양한 이미지에서의 딸기 엽면적을 추정하는 데에 우수한 성능을 보여준다.
-
IoT 기기의 보급 및 확산으로 많은 산업군에서 이를 바탕으로 시계열 데이터를 획득하고 분석하려는 시도가 확대되고 있다. 시간의 흐름에 따라 저장된 데이터들은 주기에 따라 특정 패턴을 갖는 경우가 많으며 이러한 패턴을 파악한다면 주요 산업군의 의사 결정에 도움이 된다. 그러나 IoT 기기의 수집 오류 및 네트워크 환경에 의해 대부분의 시계열 데이터들은 누락 데이터, 이상 데이터를 갖고 있으며 이를 처리하지 않고 분석할 경우 오히려 잘못된 결과를 초래한다. 본 논문에서는 패턴 파악을 위해 '시간, 일, 주, 월, 년' 등 시간의 주기를 기준으로 데이터를 분할하며 이에 기반하여 데이터셋을 재구성하고 활용 가능한 데이터와 불가능한 데이터로 구분한다. 선별된 데이터셋은 클러스터링에 적용하였으며, 제안하는 방법을 적용할 경우 주기를 갖는 시계열 데이터를 활용하는 분석 및 학습에서 더 나은 결과를 보임을 확인하였다.
-
다양한 산업 분야에서 생성되는 시계열 데이터는 그 특성상 데이터의 기술 방법 범위의 양과 질이 서로 다르며 이로 인해 서로 통합하여 활용하기가 쉽지 않다. 본 논문에서는 서로 다른 수집 주기와 길이를 갖는 시계열 데이터 간의 통합 방법을 제안한다. 여러 이질적 데이터를 함께 사용하기 위해 고려해야 할 시계열 데이터의 특성과 연관 기술을 소개하고 두 가지 시계열 데이터 통합 방법 및 필요한 파라미터를 제안한다. 제안하는 방법은 시계열 본연의 특성을 고려하여 데이터를 같은 차원으로 변환하거나 활용 목적을 고려하여 다른 차원을 변환하는 방법으로 이를 통해 통합하려는 데이터의 불균등 주기 문제를 극복할 수 있다.
-
MPEG Immersive Video (MIV) 표준화 기술은 다시점 영상 부호화 시 비디오 코덱의 부담을 최소화하기 위해 각 시점 영상의 차분 정보만을 표현하는 처리 기술을 바탕으로 하고 있다. 본 논문에서는 시점 간 중복성 제거를 진행하는 과정인 프루닝(pruning) 과정에서 복잡도 절감을 위해 병렬처리에 용이하도록 구성되는 프루닝 클러스터 그래프에 대해 서술하고, 각 클러스터 그래프 별 구성 전략에 따른 성능 분석을 진행한다. 클러스터 그래프 내에서 중복성 제거를 진행하지 않고 완전한 정보를 보존하는 바탕 시점(basic view)의 개수가 적게 포함될수록 처리할 전체 픽셀 화소율(pixel rate)은 감소하지만, 복원 화질 역시 감소하며 프루닝 복잡도는 증가하는 경향을 보인다. 실험 결과를 통해 프루닝 클러스터 그래프 구성에 따른 트레이드오프를 탐색하고, 최적화된 그래프 구성 전략에 따라 몰입형 비디오의 효율적인 전송이 가능함을 보인다.
-
TMIV 레퍼런스 모델에는 VWS(View Weighting Synthesizer), AS(Additive Synthesizer), MPIS(Multiplane Image Synthesizer)의 세 가지 방식의 렌더러 구현이 제시되어 있는데 본 논문에서는 VWS 에 포커스를 맞추어 GPU 로 구현하여 디코딩 성능을 개선한 결과를 소개하고자 한다. AS, MPIS 등에 대해서는 GPU 에 의한 구현이 아직 진행 중이며 본 구현이 적용된 TMIV 레퍼런스 모델의 버전은 8.0.1 이어서 최신 버전인 11 또는 12 에 바로 적용하기에는 다소 거리가 있겠으나, 본 구현에서 적용된 세부 구현 기술과 서브 모듈 등은 충분한 재활용성을 가지고 있어 다른 방식의 렌더러나 상위 버전의 고속화 구현에도 적용이 가능할 것이다. TMIV 8.0.1 의 디코더에서 1920×4640 크기를 가지는 두 개의 아틀라스를 기준으로 프레임 렌더링의 경우 싱글 프레임 당 약 4 초에서 평균 25ms 이하 로 실행 시간이 단축되어 약 150 배 이상의 성능 향상을 획득하였으며 렌더링 파이프라인의 추가 등에 의해 통상적으로 실시간이라고 여기는 30fps 의 속도로 재생이 가능한 성능에 도달한 결과를 소개하였다.
-
Han, Heeji;Choi, Minseok;Jung, Soon-heung;Kwak, Sangwoon;Choo, Hyon-Gon;Cheong, Won-Sik;Seo, Jeongil;Choi, Haechul 140
최근 신경망 기반 기술들의 발달에 따라, 신경망 기술들은 충분히 높은 임무 수행 성능을 달성하고 있으며 사물인터넷, 스마트시티, 자율주행 등 다양한 환경을 고려한 응용 역시 활발히 연구되고 있다. 하지만 이러한 신경망의 임무 다양성과 복잡성은 더욱 많은 비디오 데이터가 요구되며 대역폭이 제한된 환경을 고려한 응용에서 이러한 비디오 데이터를 효과적으로 전송할 방법이 필요하다. 이에 따라 국제 표준화 단체인 MPEG 에서는 신경망 기계 소비에 적합한 비디오 부호화 표준 개발을 위해 Video Coding for Machines (VCM) 표준화를 진행하고 있다. 본 논문에서는 신경망의 특징 부호화 효율을 개선하기 위하여 VCM 을 위한 다중 스케일 특징 압축 방법을 제안한다. COCO2017 데이터셋의 검증 영상을 기반으로 제안방법을 평가한 결과, 압축된 특징의 크기는 원본 이미지의 0.03 배이며 6.8% 미만의 임무 정확도 손실을 보였다. -
MPEG-VCM(Video Coding for Machine)은 입력된 비디오 특징(feature)를 압축하는 Track1 과 입력 영상을 직접 압축하는 Track2 로 나뉘어 표준화가 진행중이다. 본 논문은 VCM Track 1 에 해당하는 Detectron2 FPN(Feature Pyramid Network)에서 추출한 다중 스케일 특징맵을 VVC 로 압축하는 MSFC(Multi-Scale Feature Compression)을 구조를 제안한다. 본 논문의 MSFC 에서는 다중 스케일 특징을 결합하여 부호화/복호화하는 기존의 구조에서 특징맵의 해상도를 줄여 압축하는 개선된 MSFC 를 제시한다. 제안 방법은 VCM 의 Track2 의 영상 앵커(image anchor) 보다 우수한 BPP-mAP 성능을 보이고 최대 -84.98%의 BD-rate 성능향상을 보인다.
-
기존 RDO(Rate Distortion Optimization) 기반 압축 방식은 압축 성능에 초점을 두기 때문에 영상 내 인지 특성이 무시될 수 있다. 따라서 RoI(Region of Interest)을 기반으로 압축률을 조절하는 연구가 고안[1, 2, 3, 4] 되었으며, HVS(Human Visual System) 관점에서 영상 내 중요한 부분에 대해 더 높은 품질로 영상을 압축하는 연구가 대부분이다. 최근 인공지능 기술이 발전함에 따라 지능형 영상 분석에 대한 수요가 증가하고 있으며, 이에 따라 머신 비전을 위한 영상 부호화 및 효율적인 전송에 대한 필요성이 대두되고 있다. 본 논문에서는 VVC(Versatile Video Coding)의 dQP(delta Quantization Parameter)를 활용하여 RoI(Region of Interest) 기반압축 방법을 제안하고, 두가지의 RoI 추출 방식을 소개한다. Detectron2 Faster R-CNN X101-FPN [5]의 첫번째 탐지기를 통해 후보 영역 기반 RoI 을 추출하고, 두번째 탐지기를 통해 객체 기반 RoI 을 추출하여, 영상 내 객체 부분과 비객체 부분으로 나누어 서로 다른 압축률로 압축을 수행하였으며, 이에 따른 성능을 비교하고자 한다.
-
최근 XR은 LED스크린의 VR과 그 LED 스크린의 외부영역을 AR 그래픽으로 덮는 방법으로 LED에서 표현되는 VR영상과 확장된 AR의 효과로 LED VR의 확장의 개념으로 가상환경 제작으로서 많이 시도 되고 있다. 그러나, 여전히 LED 스크린의 VR에서 어떤 가상의 객체가 AR로 튀어 나올 때 타이밍을 맞추어 전환해야 할 경우 부자연스럽거나 동기가 맞지 않아 합성결과가 어긋나 품질이 떨어지며, 여러 객체를 동시에 수동으로 전환시켜야 할 때 객체의 제어에 어려움이 많을 수 있다. 본 논문에서는 그래픽 오브젝트가 VR과 AR의 경계를 오갈 때 자동으로 자연스럽게 전환/합성 가능하도록 하는 'Culling 박스'와 또, 여러 렌더링 머신에서 같은 오브젝트 제어를 동시에 제어 가능한 'TCP/IP 기반의 원격제어 UI'를 설명한다. 컬링박스는 전환해야 할 객체가 많은 복잡한 장면에서 모든 오브젝트가 일정 경계에서 자동으로 전환되며, 원격제어 UI의 타임라인 에디터와 이벤트 제어메뉴 UI를 통하여, 각각의 다른 머신의 시퀀스 및 오브젝트들을 제어 가능하여 효율적인 XR제작이 가능함을 확인 하였다.
-
본 논문에서는 RGB-D 카메라 캘리브레이션의 결과를 개선하는 새로운 기법을 제안한다. 멀티 뷰 카메라 캘리브레이션은 카메라를 통해 획득한 이미지에서 특징점을 찾아 다른 카메라에서 촬영된 동일한 특징점을 기준으로 캘리브레이션을 진행하는 것이 일반적이다. 그러나 카메라를 통해 획득된 RGB-D 영상은 필연적으로 렌즈와 Depth senor에 의한 오차가 포함되기 때문에 정확한 캘리브레이션 결과를 획득하는 것은 어려운 과정이다. 본 논문에서는 이를 개선하기 위해 획득한 특징점을 기반으로 캘리브레이션을 진행한 후, 최소제곱법을 통해 각 특징점간의 거리가 최소가 되는 카메라 파라미터를 획득하여 결과를 개선하는 기법을 제안한다.
-
본 논문에서는 선택적 시점에서의 2D 포즈 추정(pose estimation) 결과를 정합 하여 정확도 높은 3D 스켈레톤(skeleton)을 만들어 낸다. 여러 프레임의 3D 데이터를 10 도 간격으로 36 방향에서 투영한 뒤, 2D 포즈 추정 결과 신뢰도가 높은 시점에서의 결과만을 선별하여 3 차원으로 정합 한다. 이때 사용하는 시점의 개수를 달리하며 정확도에 미치는 영향을 분석하여 실험적으로 정확도가 높은 최소의 시점 개수를 정하였다. 또한, 정합 한 3D 뼈대를 모션 캡쳐(motion capture) 센서와 비교하여 제안하는 알고리즘에 의해 3D 포즈 추정의 정확도가 향상되는 것을 확인했다.
-
최근의 자연 재난의 발생 빈도의 증가는 재난에 대한 정보전달의 중요성이 높아지는 만큼 전달 방법의 중요도도 높아지고 있다. 특히, 2020년의 코로나19(COVID-19)로 인하여 자연 재난에 더해 사회재난에 관한 관심도 증대하고 있으나, 재난정보의 빈도가 매우 높아져, 2000년대 통틀어서 제공된 재난 정보량보다 20년, 21년의 재난 정보량이 더 많아 보인다. 이러한 재난정보의 홍수는 반대급부로 정보의 피로도를 증가시켜 의도적 또는 비의도적 무시 경향을 유발할 수 있다. 이에 본 논문에서는 재난 위험지역을 기반으로 Segment를 생성하고 관리하며, Segment 단위로 재난 위험 메시지를 제공하는 Segment기반 긴급메시지전송 시스템을 연구한다. 목표시스템에서는 재난정보를 실황 정보와 1시간 예측정보를 비교, 위험지역 회피시나리오를 지능화 개선하여 모바일앱 이용자에게 제공함으로써 대피 이동관리와 행동 유도를 이끌어 이용자의 인명피해 저감과 재산손실 감소의 효과를 얻고자 개발하였다.
-
실시간 동작 애니메이션을 생성하는 기술은 게임, 영화, 의료 등 많은 분야에서 활용할 수 있는 기술이다. 기존에는 마커를 부착하는 모션캡처 방식이 사용되어왔지만 비용, 편의성 등의 문제로 쉽게 사용될 수 없었다. 최근 딥러닝 기술의 발전으로 영상을 통해 사람의 신체 관절 좌표를 추정할 수 있게 되면서 여러가지 방식으로 연구되어 왔다. RGB-D 카메라 등을 통해 얻는 깊이 영상으로부터 3 차원 관절 좌표를 추정하는 방식이 연구되고 있으며, 본 논문에서는 이러한 방식을 통해 실시간 동작 애니메이션을 생성하고 가상공간에 표출하는 시스템을 구현한다.
-
본 논문에서는 ATSC 3.0 Layered-Division-Multiplexing(LDM) Multiple-Inputs-Multiple-Outputs(MIMO) 방송 시스템에서 Core-Layer 신호에 대한 새로운 Hybrid PGA(HPGA) 복호 기법을 제안하고자 한다. 제안된 기법은 각 수신단의 Enhanced-Layer 신호의 평균전력 대비 잡음 값에 따라 기존의 GA 기법과 PGA 기법을 선택적으로 적용하여 기존의 PGA 기법에 비해 큰 성능저하 없이 복호 복잡도는 약 25% 줄일 수 있다.
-
Ji-hun, Jang;Woo-jong, Koh;Gong-tak, Kim;Hyung-wook, Choi;Hun-seok, Ki;Heung-bae, Jun;Seung-ho, Kang;Sam-Mo, Cho;Hyo-Sung, Jeong 167
2022년은 세계 최초로 지상파 UHD 본방송이 2017년에 시작되고 5년이 경과한 시점이다. 이제는 과거의 추진 경과를 살펴보고 기술의 발전과 미디어 환경 변화에 필요한 정책을 새롭게 추진하는 노력이 필요한 시점이라고 할 수 있다. 2015년에는 "지상파 UHD 방송 도입을 위한 정책 방안"이 마련되고, 2020년에는 "지상파 UHD 방송 활성화 방안"이 수립되어 지상파 UHD 방송 추진의 중심 역할을 수행하였다. 시청자가 원하는 지상파 UHD 방송은 어떤 모습이고, 불편한 점은 무엇인지, 어떤 점을 개선해 주면 좋은지에 대한 질문과 그에 대한 답을 찾는 노력은 아쉬움이 남는다. 시청자들은 UHD 방송 화질에 만족하는지? HDTV를 UHD TV로 교체하기 위한 필요·충분조건은 무엇인지에 대한 질문의 답변을 지속적으로 분석할 필요가 있다. 지상파 방송사와 UHD KOREA는 그동안 조사한 시청자의 지상파 UHD 방송에 대한 통계자료를 분석하고 정리하였다. 이를 토대로 새로운 미디어 환경에 필요하고 UHD 미디어 정책 수립과 추진에 기여할 수 있는 시청자 조사와 분석을 지속적으로 추진하려고 한다. -
자동차의 전기차로의 전환과 더불어 IT 기술이 접목된 자율주행기술이 빠르게 발전하고 있으며, 현대기아자동차 그룹을 비롯한 글로벌 완성차 제조사 및 애플, LG 등과 같은 IT 제조사간에 완성도 높은 자율주행차 개발에 치열한 경쟁이 이루어지고 있다. 특히 사람의 개입이 거의 없는 4단계 이상의 자율주행 기술이 적용된 자율주행차는 운전석이 없는 등 기존과는 매우 다른 실내 구조를 가질 것으로 예상되며, 사람에게 움직이는 생활공간을 제공할 것으로 기대된다. 이와 같은 자율주행차 내의 미디어 소비는 고화질 미디어를 대형 화면으로 볼 것으로 예상되며, 지상파 TV 방송은 미디어를 단방향으로 대용량 전송하는데 유리하여 자율주행차를 대상으로 미디어 서비스에 적용성이 높을 것으로 기대된다. 본 논문은 이러한 미래 자율주행차가 제공하는 움직이는 생활공간에서 TV를 시청하는 '이동TV'를 염두에 두고, 현재의 4K-UHDTV 시대 및 미래의 8K/Post-8K 시대의 비용 효과적인 지상파 TV 방송망 기술을 소개한다.
-
본 논문은 고차 계층 변조, 즉 계층 64QAM의 연판정 비트 검출을 위한 단순화된 연산 방법을 다룬다. 이는 기존 계층 변조의 연판정 비트, 즉 LLR(Log-Likelihood Ratio)값의 근사를 통해 불필요한 연산을 줄여 이에 필요한 지연시간을 줄일 수 있다. 또한 제안된 기법은 기존의 연판정 비트 검출 기법과 매우 유사한 비트 오류율(BER: Bit Error Rate) 성능을 유지하기 때문에 연판정 비트를 활용하는 방송 및 통신 시스템에 폭넓게 적용될 수 있을 것으로 기대한다.
-
동적 비전 센서(Dynamic Vision Sensor)라고도 알려진 이벤트 카메라는 생체에서 영감을 받은 새로운 시각 센서이다. 고정된 속도로 이미지를 생성하는 기존 카메라와 달리 이벤트 기반 카메라의 픽셀은 독립적이고 비동기적으로 작동한다. 기존 프레임 기반 카메라보다 이벤트 기반 카메라가 움직임을 포착하는데 더 적합하며 모션 블러(Motion Blur)가 없고 시간 해상도가 높다는 이점을 통해 고속카메라로 활용할 수 있다. 본 논문은 이벤트 카메라의 높은 시간 해상도와 동적 범위, 낮은 지연시간, 전력 소비량의 이점을 활용하여 움직이는 물체를 모션 블러 없이 포착하는 이벤트 기반 물체 추적 시스템을 제안한다. 실험을 통해 전체 영상을 포착하는 기존 프레임 기반 카메라에 비해 밝기 변화에 따른 동적 변화만을 추적하는 이벤트 기반 카메라는 모션 블러가 없다는 점을 검증하였다.
-
The large data volume of light field (LF) image has motivated much research on how to compress the data volume more efficiently. One of the approaches is to compress LF images after representing them in the form of pseudo video sequence. In this way, the pseudo temporal redundancy between views can be exploited by motion estimation and compensation. Based on our observation that images obtained by LF cameras have small range of disparity values between adjacent views, we propose to limit the motion search range to reduce the time complexity of motion estimation. Our experimental results show that a smaller motion search range reduces the encoding time while not affecting the bitrate of H.266/VVC much.
-
인터넷 환경의 변화에 따라 텍스트 기반의 정보 전달에서 멀티미디어 기반의 스트리밍 방식으로 바뀌어가고 있다. 또한 대용량의 동영상 데이터뿐 아니라 Shorts, Clip Reels 또는 등 다양한 방식의 동영상 형태로 배포되고 있으며 서비스 플랫폼에서는 손쉽게 편집할 수 있도록 기능을 제공하고 있다. 대용량 콘텐츠, TV, Youtue 콘텐츠를 포함하여 소용량 동영상 편집에 필요한 영상 제작 기술에서 가장 인력과 시간이 많이 소요되는 부분은 편집 단계로 딥러닝 기반 인공지능 기술을 활용하여 자동화하고 있으며 영상편집에서 가장 기본이 되는 단위인 씬검출 기법을 개발하였다. 키프레임 검출 기법과 유사도 기법을 이용하여 씬을 추출하였으며 블록 Cost Function을 이용하여 최적화하여 0.5214의 정확도를 도출하였다.
-
스마트팜 피노믹스 시스템은 재배하는 식물의 성장조건에 맞게 생육 환경을 일정하게 유지하고 관리하는 장치이지만, 그럼에도 불구하고 식물의 질병은 여러 가지 이유로 발생할 수 있다. 본 논문에서는 스마트팜 피노믹스 시스템에서 Mean Shift Segmentation 을 통한 식물의 질병을 자동으로 검출하는 식물 질병 검출 알고리즘을 제안한다. 식물의 질병 정도가 임의의 임계값을 넘을 경우, 해당 식물을 질병의 정도가 심한 식물로 판별하고, 적절한 수확시기를 결정하여 더 나은 상품성을 가진 식물을 재배할 수 있는 방법을 제시한다. 또한 식물의 질병이 급격하게 심해지는 기간을 확인하여 인간의 개입 없이 완전히 자동화된 시스템으로 더욱 세심하고 효율적인 식물 재배를 가능하게 함을 제시한다. 본 논문에서는 아이스버그(양상추)에 대한 재배 환경을 구축하여 생장 기간에 아이스버그에 발생하는 질병인 팁번 현상을 검출하는 실험을 진행하였다. 본 논문에서 제안한 방법은 다른 종류의 다양한 식물에서도 질병 검출이 가능하며, 스마트팜 피노믹스 시스템에서 질병 검출의 자동화를 위한 한 가지 방법으로 활용될 수 있을 것으로 기대된다.
-
본 논문에서는 RGB-D 카메라와 Mediapipe 모듈을 이용한 신체 추적 및 리깅 프레임 워크를 제안한다. Openpose 및 Mediapipe를 통해 스켈레톤 정보를 추출할 수 있으며, 이 정보를 그래픽스 엔진의 입력으로 사용하여 휴머노이드 아바타 기능을 통해 각 캐릭터의 아바타가 다르더라도 리깅을 구현할 수 있다. 결과적으로 수작업을 통해 리깅을 구현하는 시간을 단축시킬 수 있다. 두 모듈과 RGB-D 카메라를 통해 획득한 3차원 스켈레톤 정보를 통해 실시간으로 사용자를 추적하고 자동 rigging하는 그래픽스 엔진 프레임 워크를 제안한다.
-
본 논문에서는 VVC(Versatile Video Coding) 화면 내 예측에서 참조 샘플 생성의 정확도를 높이기 위해 블록의 크기와 방향성 모드에 따라 더 많은 정수 위치 참조 샘플을 이용하는 보간 필터를 추가적으로 사용하는 방법을 제안한다. VVC 표준에서 4-tap 보간 필터를 사용하는 기존의 방식에 추가로 8-tap 보간 필터를 함께 사용하여 VVC 참조 소프트웨어인 VTM(VVC Test Model) 14.2[1] 대비 평균 -0.16% 의 luma BD-rate 개선을 보였다.
-
최근 미디어 기술 발전에 따라 기존에 주로 사용되었던 4:2:0 영상 이외에도 4:2:2, 4:4:4 영상들 또한 널리 활용되고 있다. 본 논문에서는 VVC 압축 표준에서 새롭게 채택된 JCCR(Joint Coding of Chroma Residuals) 기술의 사용 빈도를 3 개의 색차 채널 공간해상도 영상에 대하여 분석하였다. 분석 결과 색차 채널 공간해상도에 따라 JCCR 기술의 사용 빈도가 다르다는 것을 확인할 수 있었다.
-
Versatile Video Coding (VVC)는 차세대 동영상 압축 표준화 과정에서 다수의 부호화 기술을 새롭게 채택하였는데, 이중 Multiple Reference Lines (MRL)을 포함한 일부 기술은 휘도 채널에만 적용될 수 있으며 색차 성분에 대해서는 적용이 고려되지 않는다. 본 논문은 VVC 에서 휘도 채널에만 적용되는 MRL 기술을 색차 채널로 확장하기 위하여, DM(Derived Mode)을 사용하는 색차 블록의 대응 휘도 블록이 MRL 을 사용하는 경우에 해당 참조 라인을 선택적으로 공유하여 색차 블록이 화면 내 예측에 복수개의 참조 라인을 고려하여 선택할 수 있도록 하는 방법을 제안한다. 실험 결과, VVC Test Model (VTM) 15.0 대비 Cb, Cr 성분 각각 -0.09%, -0.05%의 성능 향상을 보인다.
-
최신 비디오 압축 표준인 VVC(Versatile Video Coding)의 화면 내 부호화 기술이 사용하는 MIP (Matrix-based Intra Prediction), MRLP (Multiple Reference Line Prediction), ISP (Intra Sub-Partition) 기술의 성능평가를 위하여 VTM (VVC Test Model) 10.0 을 이용한 각 기술들의 비활성화 성능은 보고된 바 있지만, 최근 버전인 VTM 16.0 을 기준으로 하나 또는 복수개의 기술을 비활성화 하였을 때의 성능은 아직 보고된 바 없다. 본 논문에서는 VVC 의 화면 내 부호화 기술들을 활성화 및 비활성화 성능실험을 통하여 부호화 성능 또는 부호화 복잡도를 우선시하는 응용에 따라 VVC 부호화기를 경량화 시킬 수 있는 부호화 기술 선택 방법을 제안한다.
-
본 논문에서는 VVC(Versatile Video Coding)의 화면 내 예측 수행 시 픽처의 좌측 상단 블록에서 고정적으로 Planar 를 사용하도록 하여 부호화 성능을 향상시킬 수 있는 방법을 제안한다. VVC 의 화면 내 예측 기술은 픽처의 좌측 상단 블록의 참조 화소가 모두 패딩되어 동일한 값을 가짐에도 불구하고 다른 블록들과 동일하게 화면 내 예측모드를 탐색 및 신호하는 비효율성을 갖는다. 본 논문에서는 이 경우 화면 내 예측 모드에 관한 탐색과 신호를 생략하고 고정적으로 Planar 모드를 사용하도록 하고, 실험을 통하여 VTM-16.0 대비 BDBR(Bjøntegaard Delta Bit Rate) 측면에서 AI(All Intra) 구성하에 Y(-0.004%), Cb(-0.010%), Cr(0.023%)의 결과를 얻을 수 있음을 보인다.
-
본 논문에서는 다수의 적외선 카메라의 2D 패시브마커 영상을 이용한 3차원 리지드 바디(Rigid Body) 자세추정 방법을 제안한다. 1차로 개별 카메라의 내부 변수를 구하기 위해 체스보드를 이용한 칼리브레이션 과정을 수행하고, 2차 보정 과정에서 3개의 적외선 마커가 있는 삼각형 구조물을 모든 카메라가 관찰 가능하도록 움직인 후 프레임별 누적된 데이터를 계산하여 카메라 간의 상대적인 위치정보의 보정 및 업데이트를 진행한다. 이 후 각 카메라의 좌표계를 3D월드 좌표계로 변환하는 과정을 통해 3개 마커의 3차원 좌표를 복원하여 각 마커간 거리를 계산하여 실제 거리와의 차이를 비교한 결과 1mm 내외의 오차를 측정하였다.
-
Multi-exposure high dynamic range (HDR) image reconstruction, the task of reconstructing an HDR image from multiple low dynamic range (LDR) images in a dynamic scene, often produces ghosting artifacts caused by camera motion and moving objects and also cannot deal with washed-out regions due to over or under-exposures. While there has been many deep-learning-based methods with motion estimation to alleviate these problems, they still have limitations for severely moving scenes. They also require large parameter counts, especially in the case of state-of-the-art methods that employ attention modules. To address these issues, we propose a frequency domain approach based on the idea that the transform domain coefficients inherently involve the global information from whole image pixels to cope with large motions. Specifically we adopt Residual Fast Fourier Transform (RFFT) blocks, which allows for global interactions of pixels. Moreover, we also employ Depthwise Overparametrized convolution (DO-conv) blocks, a convolution in which each input channel is convolved with its own 2D kernel, for faster convergence and performance gains. We call this LFFNet (Lightweight Frequency Fusion Network), and experiments on the benchmarks show reduced ghosting artifacts and improved performance up to 0.6dB tonemapped PSNR compared to recent state-of-the-art methods. Our architecture also requires fewer parameters and converges faster in training.
-
본 논문에서는 지상파 UHD 방송망 기반으로 제공되고 있는 공통경보프로토콜(CAP) 메시지 기반의 리치미디어 재난경보 서비스를 케이블 방송이나 IPTV 등 유료방송 플랫폼으로 확대적용한 시스템의 현장실험 결과를 분석한다. 우선 현재 서비스중인 지상파 UHD 방송망 기반 리치미디어 재난경보 서비스를 유료방송 플랫폼으로 확대하기 위한 시스템의 개념도를 설명하고, 시스템을 구성하는 모듈의 기능 및 동작을 서술한다. 이를 적용하여 구현된 시스템에 대해 실환경 지상파 UHD 방송망 및 유료방송 플랫폼에서 현장실험을 수행한 결과를 분석한다. 이를 통해 현재 서비스 중인 지상파 UHD 방송망 기반 재난경보 방송 서비스를 다양한 형태의 방송 플랫폼으로 확대 적용하고, 정보 취약계층 등으로의 서비스 확산에 기여할 것으로 기대한다.
-
내시경 검사는 내장기관의 이상 유무를 점검할 수 있는 효과적인 의료 기술이다. 해당 논문에서는 자가지도 방식의 직접 감쇠 모델(DAM, Direct Attenuation Model)[3]을 사용한 내시경 비디오 기반 깊이 예측을 제안한다. 단안 카메라의 비디오 영상에서 DAM 을 이용한 빛의 밝기에 따른 깊이 변화 정보와 Normal 정보를 사용하여 깊이와 자세 예측 네트워크 모델 학습을 효과적으로 수행한다. 실험을 통해 제안하는 방법은 기존의 깊이 추정 네트워크 대비 다양한 내시경 비디오 영상에서 더 정확하게 깊이를 추정함을 확인하였다.
-
비디오 프레임 보간 기술은 시간 해상도를 증가시키는 기술로 최근 Convolutional Neural Network(이하 CNN) 기반의 다양한 연구가 진행되고 있다. 하지만 일부 시각에서는 CNN 기반의 연구가 동일한 커널을 모든 화소에 적용하는 것과 객체의 움직임을 예측하기 위해 장기간의 데이터를 활용하는 것에 한계점이 있다고 주장한다. 이에 따라 장기간의 데이터 활용에 특화된 트랜스포머 기반의 비디오 프레임 보간 기술이 제안되었다. 본 논문에서는 트랜스포머 기반의 기존 연구에서 합성 네트워크의 성능을 향상시키기 위해 광학 흐름 안내 기반의 새로운 학습 방법을 제안한다 실험 결과를 통해 평균 PSNR 0.09dB와 SSIM 0.0031 성능 향상을 확인한다.
-
본 논문에서는 CCTV 영상 화질을 향상하고 해상도를 높이기 위해 딥 러닝(Deep Learning)을 이용하여 잡음 제거(Denoising) 와 초해상도(Super-resolution) 작업을 수행한다. 데이터 증강(Data Augmentation)을 통한 초해상도 성능 향상을 위해서 잡음 제거 네트워크의 출력 영상을 초해상도 네트워크의 입력으로 사용하는 순차적 작업을 사용한다. 또한 딥 러닝을 이용한 영상처리에서 발생하는 평균 밝기 오차 문제를 해결하기 위한 손실함수(Loss Function)와 두 가지 이상의 순차적인 딥 러닝 작업에서 발생하는 문제점을 극복하기 위한 손실함수를 제안한다. 제안하는 손실함수는 네트워크의 출력 영상과 타겟 영상의 밝기 오차를 줄이는 것이 가능하고, 순차적 작업에서 보다 정확한 모델 성능 판단이 가능하다.
-
최근 CNN(Convolutional Neural Network)은 초해상화(super-resolution)를 포함한 다양한 컴퓨터 비전 분야에서 우수한 성능을 보이며 널리 사용되고 있다. 그러나 CNN은 계산 집약적이고 많은 메모리가 요구되어 한정적인 하드웨어 자원인 모바일이나 IoT(Internet of Things) 기기에 적용하기 어렵다는 문제가 있다. 이런 한계를 해결하기 위해, 기 학습된 깊은 CNN 모델의 성능을 최대한 유지하며 네트워크의 깊이나 크기를 줄이는 경량화 연구가 활발히 진행되고 있다. 본 논문은 네트워크 경량화 기술인 지식증류(knowledge distillation) 중 자가증류(self-distillation)를 초해상화 CNN 모델에 적용하여 성능을 평가, 분석한다. 실험 결과, 정량적 평가지표를 통하여 자가증류를 통해서도 성능이 우수한 경량화된 초해상화 모델을 얻을 수 있음을 확인하였다.
-
객체 분류는 입력으로 주어진 이미지에 포함된 객체의 종류를 판단하는 기술이다. 대표적인 딥러닝 기반의 객체 분류 방법으로서 Faster R-CNN[2], YOLO[3] 등의 모델이 개발되었으나, 여전히 성능 향상의 여지가 있다. 본 연구에서는 각도 마진 손실 함수를 기존의 몇 가지 객채 분류 모델에 적용하여 성능 향상을 유도한다. 각도 마진 손실 함수는 얼굴 인식 모델인 SphereFace [4]에서 제안한 방법으로, 얼굴 인식과 같이 단일 도메인의 데이터셋을 분류하는 문제를 풀기 위해 제안되었다. 이는 기존 소프트맥스 함수에서 클래스 결정 경계선에 마진을 주는 방식으로 클래스 간의 구분 능력을 향상시킨다. 본 논문은 각도 마진 손실 함수를 CIFAR10, CIFAR100 데이터셋의 분류 문제에 적용하였으며 ResNet, EfficientNet, MobileNet 등의 백본 네트워크로 실험하여 평균적으로 mAP 성능이 향상되는 것을 확인하였다.
-
본 논문은 최근 잡음 제거에서 우수한 성능을 보인 Nested U-Net의 성능을 최적화하기 위하여 두 단계로 이루어진 two-level skip connection (TLS)을 제안하였다. 이때, 인코더와 디코더의 경로를 다르게 하여 다양한 형태의 TLS을 제안하고 각 형태의 성능을 비교 평가하였다. 또한, 가장 좋은 성능을 보인 두 개의 경로를 조합하여 최종 Nested U-Net 기반 모델을 제안하였다. 제안된 모델은 다른 잡음 제거 모델과 비교하여 객관적인 평가 지표에서 매우 우수한 성능을 보인다.
-
본 논문에서는 '스케치로부터 RGB 이미지로의 변환'을 수행하는 웨이블릿 기반의 네트웍에서 생성된 이미지 품질을 높이기 위해, 네트워크가 저주파수에 편향되어 학습이 되는 것을 완화하고자 Wavelet Mix Module(WMM)을 제안하였다. WMM 은 UNet 구조의 skip-connection 과정에 적용되며, 웨이블릿 변환을 사용하여 인코더 특성으로부터 세부값을 추출하여 디코더 특성으로 전달함으로써 네트워크 내에서 고주파 성분이 보존되도록 한다. WMM 이 적용된 네트워크로부터 생성된 이미지는 정량적 및 정성적인 결과가 개선됨을 실험을 통해 확인하였다.
-
본 논문은 인식이 어려운 조명 환경에도 강인한 seven-segment 문자 인식을 위해서, 영상 내에 다양한 조명 연출이 가능하도록 합성 데이터 셋을 생성하고 학습할 수 있는 OCR 방법을 제안한다. 기존 연구에서는 deblurring 과 같이 영상 이미지의 해상도를 높여 문자 인식의 정확도를 향상시키는 것에 초점을 두었으나, 여러 조명 환경에 대비할 수 있는 OCR 관련 연구들은 부족하다. 이를 해결하기 위해 본 논문에서는 문자가 포함된 자연스러운 배경 영상에, seven-segment 문자를 합성시킨 후 relighting 을 적용함으로써 실제 환경과 유사한 장면을 연출해 새로운 합성 데이터 셋을 생성한다. 그리고 생성된 데이터 셋을 딥러닝 기반 학습시켜 다양한 조명에도 강인한 문자 인식기를 만들고자 한다. 합성 데이터 셋의 사용여부와 일반적인 데이터 augmentation 기법의 사용 여부를 비교하여, 본 논문에서 제안한 방법의 효과를 확인할 수 있었다. 이를 통해서 seven-segment 문자 인식 뿐만 아니라, 다양한 문자에 대해서도 적용될 수 있는 초석이 될 것으로 기대된다.
-
MIV(MPEG Immersive Video) 표준은 제한된 3D 공간의 다양한 위치의 뷰(view)들을 효율적으로 압축하여 사용자에게 임의의 위치 및 방향에 대한 6 자유도(6DoF)의 몰입감을 제공한다. MIV 의 참조 소프트웨어인 TMIV(Test Model for Immersive Video)에서는 몰입감을 제공하기 위한 여러 시점의 입력 뷰들 간의 중복 영역을 제거하고 남은 영역들을 패치(patch)로 만들어 패킹(packing)한 아틀라스(atlas)를 생성하고 이를 압축 전송한다. 아틀라스 영상은 일반적인 영상 달리 많은 불연속성을 포함하고 있으며 이는 부호화 효율을 크게 저하시키다 본 논문에서는 아틀라스 영상의 부호화 손실을 줄이기 위한 신경망 기반의 후처리 필터링 기법을 제시한다. 제안기법은 기존의 TMIV 와 비교하여 아틀라스의 복원 화질 향상을 보여준다.
-
코로나 팬데믹으로 세계가 큰 피해를 보고 있다. 기존 얼굴인식 보안시스템이 마스크 사용자 인식이 어려워 마스크 사용자를 인식할 수 있는 방안이 필요하다. 얼굴인식을 위한 영상처리 기술이 딥러닝에 의해 크게 발전하고 있으며, 여전히 전처리 기술 또한 중요하다. 본 논문에서는 영상처리 기술의 선명도 평가 함수와 YOLOv5를 사용해 학습 재학습 이후 변화하는 성능을 확인하였고, 비마스크 사용 시 분류정확도가 1%, 학습 손실률에서 0.2% 정도의 성능 개선을 확인하였다.
-
최근에는 우수한 성능의 딥러닝 기술을 활용한 장비와 프로그램이 개발되고 있으나 기술의 특성상 모든 환경에서 우수한 성능을 보여주지 못하고 고 사양의 서버와 같은 환경에서의 성능만을 보장하고 있다. 따라서 이에 대한 개선으로 엣지 디바이스 독립적으로 혹은 클라우드 의존과 인터넷 연결을 최소화 할 수 있는 엣지 컴퓨팅 기술이 제안되고 있으며 경량 내장형 시스템에 적합한 인공지능 기술의 개발이 필요하다. 본 논문에서는 객체검출 모델을 적은 연산과 효율적인 구조로 설계하고 생성된 모델을 임베디드 보드에서 원활하게 실행할 수 있도록 중립 모델로 변환하고 경량화 하는 방법에 대해 소개한다. Qualcomm snapdragon 프로세서가 갖춰진 임베디드 보드를 목표로 하였고 편의를 위해 SNPE(snapdragon neural processing engine) SDK를 이용하여 실험을 진행하였다. 실험 결과 변환된 중립모델이 기존 모델과 비교하여 압축된 모델 크기 대비 미미한 성능 저하가 발생함을 확인할 수 있었다.
-
최근 들어 세계적으로 크게 관심을 받는 메타버스 및 몰입형(가상현실, 확장현실, 및 라이트필드) 콘텐츠 서비스의 응용 범위를 확대하기 위해서는 3D 객체의 실시간 전송을 위한 압축 기술이 필요하다. ISO/IEC 23090 MPEG-I Part 5 로 2021 년 표준화 완료된 V-PCC (Video-based Point Cloud Compression)는 이러한 산업계의 관심 및 필요에 의해서 국제 표준화된 동적 3D 포인트 클라우드 객체 부호화 기술이다. V-PCC 기술의 압축 성능은 기존 산업계 기술에 비해 매우 우수하나, 부호화기의 연산 복잡도가 매우 높다는 단점을 가지고 있다. 본 논문에서는 V-PCC 부호화기에서 가장 높은 연산 복잡도를 갖는 법선 추정 알고리즘의 결합 고속화 기법을 제안한다. 법선 추정은 2 개의 알고리즘으로 구성되어 있다. 첫번째는 "방향을 무시하는 법선 추정 알고리즘(normal estimation)"이고, 두번째는 첫번째 알고리즘에서 추정된 법선들을 대상으로 하는 "법선 방향 추정 알고리즘(normal orientation)"이다. 본 논문에서 제안하는 고속화 기법은 2 개 알고리즘을 결합하여 첫번째 법선 추정 알고리즘에서 획득한 부가 정보를 두번째 법선 방향 추정 알고리즘에서 활용함으로써 연산량을 대폭 줄이고, 또한 법선 방향 추정 알고리즘 내의 우선순위 큐 자료구조를 변경하여 추가적인 고속화를 달성한다. 7 개 테스트 영상에 대한 실험 결과, 압축 효율 저하 없이 법선 방향 추정 알고리즘의 속도를 평균 89.2% 향상시킬 수 있다.
-
As immersive video contents have started to emerge in the commercial market, research on it is required. For this, efficient coding methods for immersive video are being studied in the MPEG-I Visual workgroup, and they released Test Model for Immersive Video (TMIV). In current TMIV, the patches are packed into atlas in order of patch size. However, this simple patch packing method can reduce the coding efficiency in terms of 2D encoder. In this paper, we propose patch packing method which pack the patches into atlases by using the similarity of each patch for improving coding efficiency of 3DoF+ video. Experimental result shows that there is a 0.3% BD-rate savings on average over the anchor of TMIV.
-
실사 영상 기반의 메타버스 환경을 구축하기 위한 다수의 카메라를 통한 영상 취득 및 부호화, 전송 기술이 활발히 연구되고 있고, 이를 위해 영상 압축 표준화 단체인 moving picture experts group (MPEG) 에서는 MPEG immersive video (MIV) 표준을 개발하였다. 하지만, 현재 널리 사용되는 가상 현실 영상을 스트리밍 가능한 장비의 연산 능력으로는 MIV 기반 몰입형 영상을 스트리밍 시 복호기 동기화 문제가 발생할 수 있다. 따라서 본 논문은 저사양 및 고사양 장비에서 적응적으로 복호기 개수를 조절 가능한 geometry packing 기법을 MIV 의 참조 소프트웨어인 test model for immersive video (TMIV)에서 구현한다. 제안하는 패킹 기법은 지오메트리 영상을 패킹하여 텍스쳐 영상과 같은 높이를 가지도록 한 후 각각 단일 서브픽쳐 (subpicture) 로 부호화한다. 이후 부호화된 서브픽쳐들에 적응적으로 비트스트림 병합이 적용되어 장비의 복호기 사양에 대응한다.
-
국제표준 3차원 포인트 클라우드 압축 기술인 MPEG(Moving Picture Experts Group)-I(Immersive) V-PCC(Video-based Point Cloud Compression)에는 점유 맵(Occupancy Map) 손실/무손실 압축 기술이 포함되어 있다. V-PCC는 기존에 보급되어 있는 2차원 비디오 코덱(H.264/AVC, HEVC, AV1 등)을 그대로 활용할 수 있는 장점이 있는데, 대부분의 소비자 영상 기기에 포함되어 있는 2차원 비디오 복호화기 HW는 무손실을 지원하지 않는다. 따라서 V-PCC 복호화기의 폭넓은 상용화를 위해서는 부호화기에서 점유 맵의 손실 압축이 필수적이다. 본 논문은 V-PCC 부호화기의 점유 맵을 최소한의 압축 효율 저하로 손실 압축하기 위해 다양한 파라미터 실험을 통한 최적의 파라미터 값을 제시한다.
-
MPEG 에서는 frame-based animated mesh compression(FAMC)와 같은 동적 메쉬를 압축하는 기준을 만들어왔다. 그러나 이러한 동적 메쉬 압축 표준은 시변 연결성(time-varying) 정보가 아닌 일정한 연결성 정보를 가진 메쉬를 기준으로 개발되었기 때문에 실시간 스트리밍에서 사용하기 부적합하다. 따라서, moving picture experts group(MPEG)에서는 시변 연결성 정보를 사용하는 동적 메쉬 압축에 대한 새로운 표준을 제안하였는데, 본 논문에서는 MPEG 이 제의한 call for proposals (CfP)에 대해 여러 기관들이 제안한 메쉬 압축 기술들을 소개한다.
-
Video-based Point Cloud Compression(V-PCC) 부호화기의 세그먼트 정제(Refining segmentation) 과정은 3D 세그먼트를 2D 패치 데이터로 효율적으로 변환하기 위한 V-PCC 부호화기의 핵심 파트이지만, 많은 연산량을 필요로 하는 모듈이다. 때문에 이미 TMC2 에 Fast Grid-based refine segmentation 과정이 구현되어 있으나, 아직도 세그먼트 정제 기술의 연산량은 매우 높은 편이다. 본 논문에서는 현재 TMC2 에 구현되어 있는 Fast Gridbased Refine Segmentation 을 살펴보고, 복셀(Voxel) 타입에 따른 특성에 맞춰 두 가지 조건을 추가하는 고속화 알고리즘을 제안한다. 실험 결과 압축성능(BD-BR)은 TMC2 와 거의 차이를 보이지 않았지만, 모듈 단위 평균 10% 연산량이 절감되는 것을 확인하였다.
-
자율주행 자동차의 개발을 위해서는 다양한 기능 평가, 성능 평가, 안전성 평가 등이 필수적이다. 이러한 평가는 컴퓨터 시뮬레이션과 실제 주행을 통해 이뤄질 수 있으며, 현실의 도로 상황을 고려한 단위시험환경들을 조합 구성한 통합시험환경에서 수행하는 것이 일반적이다. 여기서 단위시험환경은 도로망 구성, 장애물, 표지판 등의 정보를 포함하는 정밀도로지도를 기반으로 주행차량수, 보행자, 기상환경, 동적 이벤트 요소 등을 고려하여 구성할 수 있다. 본 논문에서는 이러한 단위시험환경을 구성하기 위한 정밀도로지도 처리 방법을 소개한다. 구체적으로는 정밀도로지도 처리를 포함하는 데이터 파이프라인을 설계하고, 정밀도로지도 객체분석을 통해 시험환경의 특성 및 상호 유사성을 파악한다. 국토지리정보원에서 배포한 정밀도로지도를 사용하여 객체를 추출하고 분석하는 실험을 수행했으며 전반적인 동작 상태를 확인했다. 개발한 소프트웨어는 향후 자율주행 학습을 위한 단위 및 통합 시험환경 구축 및 법규 및 규제 대응 서비스 시나리오의 구성에 활용할 예정이다.
-
최최근 자율주행차의 안전한 주행을 보장하기 위한 모델 공식 기반 접근이 제시되고 있으며, 인텔-모빌아이의 RSS(responsibility-sensitive safety) 모델[1, 2]과 엔비디아의 SFF(Safety Force Field) 방법[2]이 주목받고 있다. 자율주행차 시뮬레이터을 이용하여 이러한 안전 주행 모델 적용의 효과와 역효과를 시뮬레이션하는 것은 자율주행 자동차와 제도의 개발에 매우 중요하다. 본 연구에서는 RSS와 SFF 모델을 살펴보고 이를 자율주행에 적용하기 위한 비교 연구 방법을 제안하고자 한다.
-
NFT study of Combining Entertainment Data and Vehicle Informatics information in autonomous vehicles자율주행 차량의 운전자는 현재 레벨3에서 탑승하는 운전자에부터 최종적으로 레벨 5단계에서 탑승자로 변화하게 된다. 관련하여 자율주행차량이 운행하는 동안 탑승자는 무엇을 하는지가 중요한 이슈로 대두될 여지가 있다. 탑승자는 뉴스를 읽거나 노래를 부르거나 주변 환경을 감상할 수 있고, 또는 탑승자는 다른 탑승자와 게임을 하거나 대화를 하거나 회의와 의사결정을 내릴 수도 있다. 자율주행차량은 이용자의 활용에 따라 오락공간, 휴식공간, 회의공간으로 트랜스포메이션되는 셈이다. 본 논문은 자율주행차량에서 블록체인 기술 중 하나인 NFT를 활용하여 차량의 탑승자에게 소유권이 있는 생산 데이터에 대해 스마트 계약을 구현하는 방법에 대하여 연구하였다. 자율주행 차량 내에서의 소유권을 표식한 스마트 계약 체결과 향후 적용 운용환경을 연구.개발하였다.
-
본 논문에서는 기존 음악 거래 플랫폼의 문제점을 보완하기 위해 블록체인 기술을 기반으로 한 새로운 음악 거래 플랫폼을 제안한다. 기존 음악 거래 플랫폼은 높은 중개 수수료와 생산자에 대한 불공정한 보수 그리고 불투명한 거래가 이루어진다는 단점이 있다. 이러한 단점을 블록체인 기술의 탈중앙성, 보안성, 투명성, 안전성 등의 특징을 이용하여 보완하고자 한다. 또한, 블록체인 기반 플랫폼 구축을 위해 IPFS, signature file, bloomfilter 등 다양한 기술을 사용한다. 최종적으로 생산자와 소비자 모두가 공정하고 투명한 음악 거래를 할 수 있는 음악 거래 플랫폼을 제안한다.
-
Internet of Media Things (IoMT)는 Internet of Things (IoT) 기술을 기반으로 미디어 기반 제어를 지원하고자 하는 표준으로 진행되고 있으며, 다양한 미디어 관련 기기를 크게 네 종류의 카테고리로 구분하여 미디어 기반 서비스를 제공하기 위한 인터페이스 표준을 정의하고 있다. 또한 미디어 기반 서비스 제공을 위한 다양한 유즈 케이스를 제공하고 있으며 이는 서비스 구성 및 활용에 대한 레퍼런스로 제공되고 있다. 본 논문에서는 이와 같은 IoMT 기술을 활용하여 정밀 농업 서비스를 제공하는 구성 기술을 제안한다. 정밀 농업 기술은 영상을 포함한 센서 기술들을 사용하여 농업 환경을 분석하고 이를 기반으로 사용자에게 의사결정을 지원하는 도구로 제시되고 있으며, 기존 온도 습도 등 센서 기반의 환경으로부터 영상 정보를 포함한 분석 기술을 활용하는 형상으로 확장되고 있다. 이는 기존의 IoT 기술에 대한 미디어 기술의 접목이 반드시 요구되는 부분으로, 정밀 농업을 위한 분석 기술의 활용에 대한 IoMT 기술의 새로운 사용 시나리오를 제시할 수 있다. 본 논문에서는 딸기 작물을 대상으로 스마트팜에서의 영상 정보를 활용한 분석 기법을 제안한다.
-
2007년에 '메타버스 로드맵(Metaverse Roadmap)보고서가 발표된 이후, 메타버스 로드맵에 축이 되는 라이프 로깅, 증강현실, 거울세계, 가상세계의 의미와 활용내용에 대한 연구 역시 활발히 이루어지고 있으며, 이것이 갖는 산업적·경제적 영향에 대해 다양한 방송매체·미디어 등을 통해 접할 수 있다. 또한 메타버스를 활용한 사회적 기능으로는 ①경제(메타버스 활용 산업 생태계 육성), ② 교육(메타버스 기반 체감형 학습지원), ③문화관광(시공간 제약 없는 온택트 문화마케팅), ④소통(시민 중심의 맞춤형 열린 소통), ⑤도시(현실과 가상을 결합한 XR기반 도시혁신), ⑥행정(현실보다 편리한 신개념 가상 행정), ⑦인프라('메타버스 서울'의 안정적인 인프라 조성)를 통해 메타버스의 순기능을 극대화하기 위한 전략으로 활용되고 있음을 확인할 수 있다. 이에 본 논문은 메타버스에 대한 기술 및 활용에 관한 관심에 비교해 메타버스 윤리에 대한 논의가 부족한 상황이라는 점에 주목한다. 그래서 메타버스에 대한 사회적 기능에 대해서 살펴보고, 메타버스에서 발생할 수 있는 사회·윤리적 문제를 영화 '레디 플레이어 원(Ready Player One)'을 통해 살펴보았다.
-
본 논문은 메타버스 환경에서 문제가 대두되고있는 AI 윤리(ethic)를 배경으로 인터랙션을 통해 사람들의 온라인과 오프라인의 결정요소에 직접적으로 영향을 미치는 대화형 AI가 어떻게 윤리적으로 진화될 수 있을지에 대한 공학적 솔루션을 UX 관점으로 찾아보는 기술 전략 연구라고 할 수 있다. 연구의 가설은 AI 의 머신러닝과정에 개별 사용자 그룹의 경험데이터가 반드시 포함되고 고려되어야 AI 는 오류값을 줄이고 윤리적으로 대응할 수 있다는 전제이다. 이를 위하여 본 논문은 기존의 머신러닝과 대화형 AI 의 UX 관점의 다이아로그 플로우 등을 연구 분석하고 사용자 데이터들을 실험하여 메타버스 서비스 환경에서의 기존에 논의되고 있는 컨택스트기반의 AI 머신러닝 과정에 사용자의 정성적 경험데이터를 추가한 윤리적 UX 접근 개념 모델을 제안 하였다. 아직은 개념모델 단계이고 시스템에서는 지금까지 다르지 않았던 비정량적인 감정과 융합적경험을 어떻게 문화적으로 코드화 하고 시스템적인 랭귀지와 연결시킬 수 있을지에 대한사용자 연구가 후속연구로 진행될 예정이다.
-
메타버스는 다수 사용자의 협업이 가능한 3 차원 가상현실 환경을 제공한다. 메타버스 공간에서의 현실과 연결된 혹은 현실이 모사된 실시간/비실시간 시뮬레이션은 비용-효율적인 이점을 가진다. 연동-시뮬레이션은 서브시스템들의 통합 시뮬레이션으로, 메타버스 공간에서의 연동-시뮬레이션을 위해 데이터-레벨, 시스템-레벨, 서비스레벨에서 기술 성능 검증 및 메타버스 윤리 검증이 필요하다. 개별 서브시스템이 윤리적으로 동작하는지 뿐만 아니라 연동된 시스템의 활용도 윤리적인가를 살펴보아야 한다. 알고리즘 및 시스템 정책이 반영되어 검증된 모델은 메타버스의 더 적은 위험성을 가지고 자동화된 디지털 사회 체계나 현실세계의 시스템에 적용되어 활용될 수 있다.
-
포인트 클라우드는 다수의 포인트로 구성된 3차원 미디어 콘텐츠로, 기존의 2차원 미디어에 비해 방대한 크기를 가진다. 이러한 포인트 클라우드 데이터를 효과적으로 소비하기 위해서는 포인트 클라우드 데이터를 압축하는 것이 필수적으로 요구된다. 이에 따라, 국제 표준화 기구 The Moving Picture Experts Group (MPEG)에서는 2차원 비디오 코덱 기반의 포인트 클라우드 압축 방안인 V-PCC 압축 방안과, V-PCC 비트스트림을 저장하고 전송하기 위한 ISOBMFF 캡슐화 방안에 대한 표준화가 진행되고 있다. V-PCC는 기존의 2차원 비디오 코덱을 이용하기 위해 3차원 포인트 클라우드 데이터를 투영하여 2차원 패치를 생성하고, 생성된 패치를 2차원 그리드에 배치하여 2차원 이미지를 생성한다. 이 때, 생성되는 2차원 이미지는 패치의 모양 차이와 인코딩의 효율성 때문에 Group of Picture(GOP)마다 다른 크기를 갖는다. 이러한 이미지 크기의 차이는 반복적인 디코더 초기화를 유발하여 송신기와 수신기 모두에 큰 부담을 발생시킨다. 이에 본 논문에서는 비트레이트와 메타데이터를 적응적으로 제어하여 V-PCC 비트스트림을 반복적인 디코더 초기화 없이 안정적으로 송수신 하기 위한 Global grid 기반 V-PCC 전송 방안을 제안한다.
-
포인트 클라우드 데이터는 자율 주행 기술, 가상 현실 및 증강 현실에서 사용될 3차원 미디어 중 하나로 각광 받고 있다. 국제 표준화 기구인 MPEG(Moving Picture Expert Group)에서는 포인트 클라우드 데이터의 효율적인 압축을 위해 G-PCC(Geometry-based Point Cloud Compression) 및 V-PCC(Video-based Point Cloud Compression)의 표준화를 진행 중에 있다. 그 중, G-PCC는 본래 단일 프레임의 압축을 수행하는 정지 영상 압축 방식이지만, LiDAR(Light Detection And Ranging) 센서를 통해 획득된 동적 포인트 클라우드 프레임에 대한 압축의 필요성이 대두됨에 따라 G-PCC 그룹에서는 Inter-EM(Exploratory Model)을 신설하여 LiDAR 포인트 클라우드 프레임의 압축에 관한 연구를 시작하였다. Inter-EM의 압축 비트스트림은 G-PCC 비트스트림과 마찬가지로 효과적인 전송 및 소비를 위해 미디어 저장 포맷인 ISOBMFF(ISO-based Media File Format)으로 캡슐화될 수 있다. 이때, 포인트 클라우드 프레임들은 자율 주행 등의 서비스에 사용하기 위해 시간 도메인뿐만 아니라 공간 도메인을 기반으로도 소비될 수 있어야 하지만, 공간 도메인을 기반으로 콘텐츠를 임의 접근하여 소비하는 방식은 기존 2D 영상의 시간 도메인 기반 소비방식과 차이로 인해 기존에 논의된 G-PCC 캡슐화 방안만으로는 지원이 제한된다. 이에, 본 논문에서는 G-PCC 콘텐츠를 공간 도메인에 따라 소비하기 위한 ISOBMFF 캡슐화 방안에 대한 파일 포맷을 제안하고자 한다.
-
최근 딥러닝(Deep Learning) 기술이 다양한 분야에서 활용되고 있으며, 사전 학습된 딥러닝 모델에 대한 압축과 전송 방안에 관한 연구 또한 활발히 진행되고 있다. 이와 관련하여, 국제 표준화 기구인 ISO/IEC 산하 MPEG(Moving Picture Expert Group)에서는 인공신경망 모델을 다양한 딥러닝 프레임워크(Deep Learning Framework)에서 상호운용 가능한 포맷으로 압축 표현할 수 있는 NNC(Compression of Neural Network for Multimedia Content Description nd Analysis) 표준화를 진행하고 있다. 압축된 딥러닝 모델의 데이터를 효과적으로 저장하여 전송 및 사용하기 위해서는 ISOBMFF(ISO based Media File Format) 캡슐화 과정이 필요하다. 본 논문에서는 MPEG의 NNC 표준에 따라 사전 학습된 딥러닝 모델을 압축한 후 이를 통해 생성된 비트스트림(bitstream)을 ISOBMFF로 캡슐화하기 위한 기술을 제안 및 실험한다. 또한, 실험에 대한 검증을 위하여 생성된 ISOBMFF 데이터를 비트스트림으로 복원한 뒤 복호화하여 입력 비트스트림과 차이가 없음을 확인한다.
-
In this paper, we propose an efficient image size selection method for video-based point cloud compression. The current MPEG video-based point cloud compression reference encoding process configures a threshold on the size of images while converting point cloud data into images. Because the converted image is compressed and restored by the legacy video codec, the size of the image is one of the main components in influencing the compression efficiency. If the image size can be made smaller than the image size determined by the threshold, compression efficiency can be improved. Here, we studied how to improve the compression efficiency by selecting the best-fit image size generated during video-based point cloud compression. Experimental results show that the proposed method can reduce the encoding time by 6 percent without loss of coding performance compared to the test model 15.0 version of video-based point cloud encoder.
-
포인트 클라우드 콘텐츠는 움직임이 있는 콘텐츠를 연속된 프레임에 3 차원 위치정보와 대응하는 색상으로 기록한 데이터이다. 강체 포인트 클라우드 데이터를 정합하기 위해서는 고전적인 방법이지만 강력한 ICP 정합 알고리즘을 사용한다. 그러나 국소적인 모션 벡터가 있는 비 강체 포인트 클라우드 콘텐츠는 기존의 ICP 정합 알고리즘을 통해서는 프레임 간 정합이 불가능하다. 본 논문에서는 비 강체 포인트 클라우드 콘텐츠를 지역적 확률 모델을 사용하여 프레임 간 포인트의 쌍을 맺고 개별 포인트 간의 모션벡터를 구해 정합 하는 방법을 제안한다. 정합 대상의 데이터를 2 차원 투영을 하여 구조화시키고 정합 할 데이터를 투영하여 후보군 포인트를 선별한다. 선별된 포인트에서 깊이 값 비교와 좌표 및 색상 유사도를 측정하여 적절한 쌍을 찾아준다. 쌍을 찾은 후 쌍으로 모션 벡터를 더하여 정합을 수행하면 비 강체 포인트 클라우드 콘텐츠 데이터에 대해서도 정합이 가능해진다.
-
최근 딥러닝 네트워크의 피처 맵을 활용하여 머신 태스크를 수행하는 Collaborative Intelligence에 대한 관심이 증가하고 있다. CI 구조는 피처 맵을 전송함에 따라서 저사양 디바이스에서 딥러닝 기반의 머신 태스크 수행을 가능하게 하여 다양한 산업에서 활용될 것으로 기대되고 있다. 그러나 CI 구조에서 전송되는 피처 맵은 데이터 크기가 방대하기 때문에 전송에 있어 효율적인 피처 맵 압축이 필요하다. 이에 본 논문에서는 MPEG-VCM에서 제안된 리사이징 (resizing)과 보간법 (interpolation)을 활용하여 피처 맵을 압축하는 Feature Coding 기술에 대하여, 다양한 리사이징 및 보간 방법을 조합하여 가장 우수한 압축 성능 대비 머신 태스크 성능을 나타내는 조합을 실험을 통해서 확인하고자 한다.
-
3D Point Cloud는 3D 콘텐츠를 더욱 실감 나게 표현하기 위한 데이터 포맷이다. Point Cloud 데이터는 3차원 공간상에 존재하는 데이터로 기존의 2D 영상에 비해 거대한 용량을 가지고 있다. 최근 대용량 Point Cloud의 3D 데이터를 압축하기 위해 V-PCC(Video-based Point Cloud Compression)와 같은 다양한 방법이 제시되고 있다. 따라서 Point Cloud 데이터의 원활한 전송 및 저장을 위해서는 V-PCC와 같은 압축 기술이 요구된다. V-PCC는 Point Cloud의 데이터들을 Patch로써 뜯어내고 2D에 Projection 시켜 3D의 영상을 2D 형식으로 변환하고 2D로 변환된 Point Cloud 영상을 기존의 2D 압축 코덱을 활용하여 압축하는 기술이다. 이 V-PCC로 변환된 2D 영상은 기존 2D 영상을 전송하는 방식을 활용하여 네트워크 기반 전송이 가능하다. 본 논문에서는 V-PCC 방식으로 압축한 V3C 데이터를 방송망으로 전송 및 소비하기 위해 MPEG Media Transport(MMT) Packet을 만드는 패킷화 방안을 제안한다. 또한 Server와 Client에서 주고받은 V3C(Visual Volumetric Video Coding) 데이터의 비트스트림을 비교하여 검증한다.
-
실감적인 가상 현실을 위해서는 고화질의 360 도 영상 스트리밍이 필요하다. 그러나 이는 높은 대역폭과 연산량을 요구하기 때문에 일반적인 가상 현실 기기로는 감당하기 힘들다. 이를 보완하기 위한 360 도 영상 부호화 및 전송 기술이 활발히 연구되고 있으며, 대표적으로 사용자 시점 기반 타일 스트리밍 기법 등이 있다. 본 논문은 기존의 CTU 기반 스트리밍과 타일 기반 스트리밍과 함께 복호기 적응적인 단일 계층 타일 바인딩을 활용한 타일기반 스트리밍의 부호화 및 복호화 성능을 비교한다. 수행된 실험결과, 단일 계층 타일 바인딩을 활용한 타일 스트리밍 방법이 기존의 타일 스트리밍 기법에 비해 유사한 비트율 성능에 대비하여 복호화 시간에서 큰 이득을 볼 수 있음을 확인하였다.
-
오늘날 인터넷이 보편화되었고, 최근에는 최근에는 코로나19 유행으로 사람들이 집에 머무르는 시간이 많아지면서 여러 온라인 플랫폼을 통해 영화, 드라마 등의 프로그램을 시청하는 것에 관심이 많아지고 있다. 또한, 그러한 시대적 흐름에 따라 시즌제 형식의 시리즈물을 통해 보다 퀄리티 높은 콘텐츠를 보고자 하는 소비자 니즈도 증가하고 있다. 시리즈물은 전편과 속편이 유기적으로 연결되기 때문에 전편의 리뷰를 분석하여 관객의 니즈를 파악하고 그것을 속편에 반영하는 것이 중요해 보인다. 따라서 본 연구에서는 텍스트 분류를 통해 시리즈물의 전편과 속편 리뷰의 긍정 유사도를 비교하고, 나아가 긍정 유사도가 흥행 성적에 유의미한 영향을 미치는지 알아보고자 한다.
-
최근 가상 현실(Virtual Reality), 파노라마(Panorama) 영상 등에 관한 관심과 수요가 증가함에 따라 고해상도 영상을 얻기 위한 영상 스티칭(Image Stitching)에 관한 연구가 활발하게 진행되고 있다. 영상 스티칭은 다수의 영상을 하나의 영상으로 합성해 카메라의 좁은 시야각 문제를 해결함으로써 사용자에게 몰입감과 현장감을 제공할 수 있는 기술이다. 영상 스티칭에 있어 특징점 추출 및 매칭 과정의 정확도는 스티칭 영상의 품질을 결정짓는 핵심적인 요소이지만, 기존의 특징점 추출 및 매칭 방법은 밝기가 어둡고 선명도가 낮은 영상의 스티칭에서 정확도가 저하될 수 있고 생성된 스티칭 영상의 품질 또한 저하될 수 있다는 제한 사항이 있다. 이에 본 논문에서는 앞선 제한적 영상에 대하여 특징점 추출 및 매칭의 정확도를 높여 스티칭 영상의 품질을 높이기 위하여 SuperPoint와 SuperGLUE를 활용한 입력 영상의 밝기 적응형 영상 스티칭 방법을 제안하고자 한다.
-
인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.
-
본 논문에서는 기존 이미지를 통해 위상 홀로그램을 생성하는 네트워크를 학습 및 최적화하여, 기존에 사용하는 알고리즘 방식인 GS 알고리즘(Gerchberg-Saxton algorithm)을 대체하는 것을 목표로 한다. GS는 반복 최적화 기법으로 한 장의 이미지에서 위상 홀로그램을 생성하는데 많은 시간이 걸리지만, 심층 학습 기반으로 학습된 모델을 통해 위상 홀로그램을 생성할 경우, 반복 최적화 과정 없이 짧은 시간 안에 위상 홀로그램을 생성할 수 있다. GS와 심층 학습 기반으로 각각 생성한 위상 홀로그램을 ASM(Angular Spectrum Method)을 통해 수치적으로 재복원하여 PSNR로 원본 이미지와 비교한 결과, 심층 학습 기반으로 생성한 위상 홀로그램에서 더 좋은 화질의 이미지를 짧은 시간 안에 얻을 수 있었다.
-
본 논문에서는 프린지 패턴을 생성하는 딥러닝 기반의 WGAN-GP 네트워크의 최적화 방법을 제안한다. 기존의 복소 프린지 패턴 생성을 위한 GAN 모델은 생성의 정확도뿐만 아니라 학습의 안정성이 다소 부족하였다. 이에 따라 WGAN-GP 등의 업그레이드 된 방법을 사용하였지만, 네트워크 구조 및 파라미터에 따른 최적화가 필요하다. 보다 정확도 높은 정확도를 가진 프린지 패턴 생성을 위해 learning rate decay 사용하여 학습된 결과를 epoch 별 그래프로 최적화 전의 결과와 비교하고, 홀로그램과 복원 결과에 대한 PSNR 을 비교한다.
-
신생아 호흡곤란증후군(RDS, Respiratory Distress Syndrome)은 미숙아 사망의 주된 원인 중 하나이며, 이 질병은 빠른 진단과 치료가 필요하다. 소아의 x-ray 영상을 시각적으로 분석하여 RDS 의 판별을 하고 있으나, 이는 전문의의 주관적인 판단에 의지하기 때문에 상당한 시간적 비용과 인력이 소모된다. 이에 따라, 본 논문에서는 전문의의 진단을 보조하기 위해 심층 신경망을 활용한 소아 RDS/nonRDS 판별 방법을 제안한다. 소아 전신 X-ray 영상에 폐 영역 분할을 적용한 데이터 세트와 증강방법으로 추가한 데이터 세트를 구축하며, RDS 판별 성능을 높이기 위해 ImageNet 으로 사전학습된 DenseNet 판별 모델에 대해 구축된 데이터 세트로 추가 미세조정 학습을 수행한다. 추론 시 입력 X-ray 영상에 대해 MSRF-Net 으로 분할된 폐 영역을 얻고 이를 DenseNet 판별 모델에 적용하여 RDS 를 진단한다. 실험결과, 데이터 증강과 폐 영역을 분할을 적용한 판별 방법이 소아전신 X-ray 데이터 세트만을 사용하는 것과 비교하여 3.9%의 성능향상을 보였다.
-
횡단보도에서의 보행자 교통사고 방지를 위한 다양한 방법들이 연구되고 있다. 본 논문에서는 점멸 신호등 상황에서 보행자 교통사고를 감소시키기 위해 영상을 이용한 심층 신경망 기반 횡단보도 보행자 검출 방법을 소개한다. YOLOv5 와 Faster R-CNN 각각을 기반으로 다양한 버전의 횡단보도 보행자 검출기를 구현하고, 이번 실험에서 중점이 되는 이들의 수행 시간을 비교 평가하고 mAP@0.5 가 어느 정도인지 판단하여 가장 적합한 모델을 판단한다. 실험 결과 실시간 처리 측면에서 YOLOs 모델이 84 fps 를 달성함으로써 실시간 보행자 검출에 가장 좋은 성능을 보였다. 횡단보도의 상황은 상시 빠르게 변하므로 가장 빠른 처리 성능을 기록한 YOLOv5s 모델이 실시간 횡단보도 보행자 검출 시스템에 가장 적합한 것으로 판단된다.
-
최근 홀로그램(Hologram)을 광학현미경(light microscopy)에 적용하여 시료의 두께를 측정하는 방식의 연구가 활발하게 진행되고 있다. 빛의 간섭패턴(Interference pattern)을 사용하여 시료의 두께를 측정할 수 있는 이유는 시료의 두께에 따라 빛의 위상(phase)이 달라지기 때문이다. 빛의 간섭패턴을 저장하는 홀로그램에서 위상만을 분리한 후 위상을 unwrapping 하면 물체의 두께를 측정할 수 있다. JPEG은 기존의 연구방식인 시료를 통과한 홀로그램 이미지를 직접 압축하는 object 압축방식을 사용한다. 하지만 본 논문에서는 object 압축방식과 달리 홀로그램 이미지를 직접 압축하지 않고 홀로그램 이미지에서 시료의 위상(phase)만을 분리하여 위상 도메인에서 압축하는 방식을 취하였다. 이를 통해 object 압축방식에 비해 위상 도메인 압축방식에서 모든 데이터셋에 대하여 평균적으로 0.0003~0.0142 radian의 성능향상을 이룰 수 있었다.
-
인터넷의 발전으로 수많은 이미지와 비디오를 손쉽게 이용할 수 있게 되었다. 이미지와 비디오 데이터의 양이 기하급수적으로 증가함에 따라, JPEG, HEVC, VVC 등 이미지와 비디오를 효율적으로 저장하기 위한 부호화 기술들이 등장했다. 최근에는 인공신경망을 활용한 학습 기반 모델이 발전함에 따라, 이를 활용한 이미지 및 비디오 압축 기술에 관한 연구가 빠르게 진행되고 있다. NNIC (Neural Network based Image Coding)는 이러한 학습 가능한 인공신경망 기반 이미지 부호화 기술을 의미한다. 본 논문에서는 NNIC 모델과 인공신경망 기반의 초해상화(Super Resolution) 모델을 합동훈련하여 기존 NNIC 모델보다 더 높은 성능을 보일 수 있는 방법을 제시한다. 먼저 NNIC 인코더(Encoder)에 이미지를 입력하기 전 다운 스케일링(Down Scaling)으로 쌍삼차보간법을 사용하여 이미지의 화소를 줄인 후 부호화(Encoding)한다. NNIC 디코더(Decoder)를 통해 부호화된 이미지를 복호화(Decoding)하고 업 스케일링으로 초해상화를 통해 복호화된 이미지를 원본 이미지로 복원한다. 이때 NNIC 모델과 초해상화 모델을 합동훈련한다. 결과적으로 낮은 비트량에서 더 높은 성능을 볼 수 있는 가능성을 보았다. 또한 합동훈련을 함으로써 전체 성능의 향상을 보아 학습 시간을 늘리고, 압축 잡음을 위한 초해상화 모델을 사용한다면 기존의 NNIC 보다 나은 성능을 보일 수 있는 가능성을 시사한다.
-
홀로그램은 빛의 세기와 위상 정보를 모두 기록함으로써 3차원 영상 정보를 기록 및 재현할 수 있는 차세대 영상 시스템이다. 홀로그램은 부동 소수점의 복소 데이터로 실수, 허수 또는 진폭, 위상 신호로 분리되어 압축된다. 본 논문에서는 복소 홀로그램 영상의 표현방식에 따른 압축성능을 비교해보고, 진폭-위상 압축에 대해 압축 친화적인 복소 홀로그램 변환 방식을 제안한다. 이후, 각 표현방식의 압축에서 효율적인 비트량 할당 방법을 제시한다. 본 논문은 제안방식인 QS 진폭-위상 표현이 실수-허수 표현만큼 높은 압축성능을 갖는 것을 확인하였다.
-
본 논문에서는 최근 연구되고 있는 신경망 이미지 부호화(NNIC: Neural Network based Image Coding)를 위한 적응적 크기 조정을 이용한 블록 기반 신경망 이미지 부호화 알고리즘을 제안한다. 제안 방법은 이미지를 여러 개의 2N×2N 블록으로 분할한 후 분할된 각 블록에 대해 두 가지 크기 조정 모드 중 하나로 부호화를 수행한다. 첫번째 모드는 2N×2N 블록을 구성하는 4 개의 N×N 블록을 각각 NNIC 인코더의 입력으로 사용하는 모드 1(크기 미조정 모드)이며, 두번째 모드는 2N×2N 블록을 하나의 N×N 블록으로 다운 스케일링하여 NNIC 입력으로 사용하는 모드 2(크기 조정 모드)이다. 모드 결정은 비트율-왜곡 비용(Rate-distortion Cost)이 더 적도록 이루어진다. 블록 기반 부호화와 제안 알고리즘을 비교하면, BDBR 은 약 -1.75%, BDSNR 은 약 0.073dB 으로 제안 알고리즘에서 성능 향상이 나타났고, 픽처 부호화와 제안 알고리즘을을 비교하면 BDBR 은 약 0.57%, BDSNR 은 -0.029dB 로 픽처 부호화와 거의 유사한 성능을 보인다는 것을 확인할 수 있다.
-
자율주행, IoT 등 많은 양의 영상 정보를 실시간으로 처리해야 하는 기술과 mobile device 등의 기기에서 Machine Learning 연산을 하는 소프트웨어들이 등장함에 따라 사람을 위한 영상을 출력하는 영상 부호화 기술 대신 기계의 vision task 성능을 위해 특화된 영상 부호화 기술의 필요성이 대두됐다. 본 연구에서는 영상에서 추출한 특징맵을 Neural-Net based Video Coding 모델을 이용해 압축률과 기계의 vision task 성능을 동시에 최적화한다. 또한, 하드웨어 친화적인 block-based 처리와 이로 인한 성능 저하를 최소화하기 위해 적응적 resizing 방식을 제안한다.
-
2D 이미지로부터 카메라의 위치 정보를 추정할 수 있는 Structure-from-Motion (SfM) 기술과 dense depth map 을 추정하는 Multi-view Stereo (MVS) 기술을 이용하여 2D 이미지에서 point cloud 와 같은 3D data 를 얻을 수 있다. 3D data 는 VR, AR, 메타버스와 같은 컨텐츠에 사용되기 위한 핵심 요소이다. Point cloud 는 보통 VR, AR, 메타버스와 같은 많은 분야에 이용되기 위해 mesh 형태로 변환된 후 texture 를 입히는 Texturing 과정이 필요하다. 기존의 Texturing 방법에서는 mesh의 face에 사용될 image의 outlier를 제거하기 위해 color 정보만을 이용했다. Color 정보를 이용하는 방법은 mesh 의 face 에 대응되는 image 의 수가 충분히 많고 움직이는 물체에 대한 outlier 에는 효과적이지만 image 의 수가 부족한 경우와 부정확한 카메라 파라미터에 대한 outlier 에는 부족한 성능을 보인다. 본 논문에서는 Texturing 과정의 view selection 에서 depth 정보를 추가로 이용하여 기존 방법의 단점을 보완할 수 있는 방법을 제안한다.
-
본 논문에서는 증강현실(AR)과 가상현실(VR)에서 가상 3D 컨텐츠의 고화질 영상을 처리할 수 있는 컨텐츠의 자료 형인 포인트 클라우드(point cloud)에 대하여 알아보고, 포인트 클라우드 데이터의 특징에 대하여 논한다. 이후 증강현실과 가상현실에서 포인트 클라우드를 효율적으로 사용하기 위하여 포인트 클라우드의 재가공 (Preprocess)를 통하여 효율적으로 포인트 클라우드 3D 컨텐츠를 사용할 수 있는 알고리즘을 제안한다.
-
Lim, Sung-Gyun;Hwang, Hyeon-Jong;Oh, Kwan-Jung;Jeong, Jun Young;Lee, Gwangsoon;Kim, Jae-Gon 1213
몰입형 비디오 부호화를 위한 MIV(MPEG Immersive Video) 표준은 제한된 3D 공간의 다양한 위치의 뷰(view)들을 효율적으로 압축하여 사용자에게 임의의 위치 및 방향에 대한 6 자유도(6DoF)의 몰입감을 제공한다. MIV 의 참조 소프트웨어인 TMIV(Test Model for Immersive Video)에서는 복수의 뷰 간 중복되는 영역을 제거하여 전송할 화소수를 줄이기 때문에 복호화기에서 렌더링(rendering)을 위해서 각 화소의 점유(occupancy) 정보도 전송되어야 한다. TMIV 는 점유맵을 깊이(depth) 아틀라스(atlas)에 포함하여 압축 전송하고, 부호화 오류로 인한 점유 정보 손실을 방지하기 위해 깊이값 표현을 위한 동적 범위의 일부를 보호대역(guard band)으로 할당한다. 이 보호대역을 줄여서 더 넓은 깊이값의 동적 범위를 사용하면 렌더링 화질을 개선시킬 수 있다. 따라서, 본 논문에서는 현재 TMIV 의 점유 정보 오류 분석을 바탕으로 이를 보정하는 기법을 제시하고, 깊이 동적 범위 확장에 따른 부호화 성능을 분석한다. 제안기법은 기존의 TMIV 와 비교하여 평균 1.3%의 BD-rate 성능 향상을 보여준다. -
포인트 클라우드는 객체 또는 장면을 재구성하기 위한 3D 데이터의 표현 방식 중 하나로써 가상 및 증강 현실을 포함한 다양한 분야에서 활용되고 있다. 포인트 클라우드 데이터는 품질에 따라 수많은 포인트로 이루어질 수 있으며, 이와 관련된 데이터의 양은 2차원 영상의 데이터보다 상당히 많다. 따라서 포인트 클라우드 데이터를 사용하여 다양한 서비스를 제공하기 위해서는 포인트 클라우드의 특징을 고려한 효율적인 압축 기술이 요구되며, 이에 따라 국제 표준화 단체의 Moving Picture Experts Group은 포인트 클라우드 데이터의 효율적인 압축을 위한 V-PCC 표준을 제정하였다. V-PCC는 포인트 클라우드 데이터를 다수의 2차원 공간으로 투영하여 점유 맵, 기하 영상, 그리고 속성 영상을 생성하고 각 2차원 영상을 기존의 비디오 코덱을 활용하여 압축하는 방식이다. 기존의 코덱을 사용하여 압축함에 따라 활용성이 높지만, 3차원 데이터를 다수의 2차원 영상을 통하여 압축하기 때문에 압축의 효율성을 높이기 위한 많은 연구가 필요하다. 본 논문에서는 V-PCC의 부호화 효율을 높이기 위해 점유 맵의 투영 정보를 활용한 속성 영상의 효율적인 압축 방법을 소개하고 이를 위한 적응적 SAO 방법을 제안한다. 실험에서 제안 방법은 V-PCC의 속성 영상에 대해 약 3.2%의 부호화 효율을 보인다.
-
최근 전세계의 탄소중립 요구에 따른 에너지 효율 증대를 통한 에너지 절감을 위한 효율성 관련 연구가 확대되고 있다. 방송과 미디어 분야에는 에너지 효율이 더욱 시급하다. 이에 본 연구에서는 효율적인 에너지 시스템 구축을 위해 난방 에너지 시계열 데이터를 기반으로 한 수요 예측 모델을 선정하고, 설명하는 인공지능 모델을 도입하여 수요 예측에 영향을 미치는 원인을 파악하는 프레임워크를 제안한다.
-
본 논문에서는 저조도 환경에서 촬영된 영상의 조도를 개선하여 얼굴 검증 정확도를 높이는 방법을 제안하였다. 입력 이미지의 조도 개선을 통해 얼굴 검출 정확도를 개선하며, 검출된 얼굴의 반복적인 조도 향상을 통해 생성된 다수의 특징 벡터를 이용하여 얼굴 검증에 이용하였다. 얼굴 검출 및 검증 정확도 측정을 위해 K-FACE 데이터셋을 이용하였다. 저조도 환경에서 촬영된 검증 이미지에 대하여, 제안하는 특징 벡터 합성 방법으로 인해, 동일인 쌍 및 타인 쌍의 유사도 점수 분포의 표준 편차가 줄어드는 경향을 확인했으며, 이로 인해 검증 성능이 높아지는 결과를 얻었다.
-
FHD 이상을 넘어선 UHD급의 고해상도 동영상 콘텐츠의 수요 및 공급이 증가함에 따라 전반적인 산업 영역에서 네트워크 자원을 효율적으로 이용하여 동영상 콘텐츠를 제공하는 데에 관심을 두게 되었다. 기존 방법을 통한 bi-cubic, bi-linear interpolation 등의 방법은 딥 러닝 기반의 모델에 비교적 인풋 이미지의 특징을 잘 잡아내지 못하는 결과를 나타내었다. 딥 러닝 기반의 초 해상화 기술의 경우 기존 방법과 비교 시 연산을 위해 더 많은 자원을 필요로 하므로, 이러한 사용 조건에 따라 본 논문은 초 해상화가 가능한 딥 러닝 모델을 경량화 기법을 사용하여 기존에 사용된 모델보다 비교적 적은 자원을 효율적으로 사용할 수 있도록 연구 개발하는 데 목적을 두었다. 연구방법으로는 structure pruning을 이용하여 모델 자체의 구조를 경량화 하였고, 학습을 진행해야 하는 파라미터를 줄여 하드웨어 자원을 줄이는 연구를 진행했다. 또한, Residual Network의 개수를 줄여가며 PSNR, LPIPS, tOF등의 결과를 비교했다.
-
RGBD 영상은 다양한 3 차원 비전 연구에서 유용하게 사용되며 고품질 RGBD 영상을 취득하기 위한 많은 연구들이 수행되었다. 기존의 영상 생성 연구들은 주로 좁은 FoV(Field of View) 영상을 사용하여서 전체 장면 중 상당 부분이 소실된 영상에 대한 정보를 생성한다. 본 논문에서는 기존의 좁은 FoV 영상으로부터 360 도 전방향 RGBD 영상을 생성하는 기법을 제안한다. 오버랩 되지 않는 4 장의 소수 영상으로부터 전체 파노라마 영상에 대해서 상대적인 FoV 를 추정하고, 360 도 RGBD 영상을 동시에 생성하는 적대적 생성 신경망 기반의 영상 생성 네트워크이다. 360 도 영상의 특징을 반영하도록 설계하여서 개선된 성능을 보인다.
-
최근 자동차, 철도차량 등 사용자가 있는 기계 시스템에서의 고장 발생 시 사용자의 안전과 관련된 사고로 이어질 수 있어 부품에 대한 모니터링 및 고장 여부 판단은 매우 중요하다. 이러한 부품 중에서 베어링은 회전체와 회전하지 않는 물체 사이에서 회전이 원활하게 이루어질 수 있도록 하는 부품인데, 베어링에 결함이 발생하게 될 경우, 기계 시스템이 정지하거나, 마찰 열에 의해 화재 등의 치명적인 위험이 발생한다. 본 논문에서는 Resnet과 오토인코더를 활용하여 진동 신호 기반의 베어링의 고장을 감지하고 분류할 수 있는 모델을 제안한다. 제안 방법은 raw data를 이미지로 변환하여 입력으로 사용하는데, 이러한 접근을 통해 수집된 데이터의 손실을 최소화하고 데이터가 가지는 정보를 최대한 분석에 활용할 수 있다. 제안 모델의 검증을 위하여 공개된 데이터셋으로 학습/검증 하였고, 제안 방법이 기존 방법과 비교하여 더 높은 F1 Score와 정확도를 보임을 확인하였다.
-
JVET 은 최신 비디오 부호화 표준인 VVC(Versatile Video Coding) 표준화를 완료한 후, VVC 보다 더 높은 압축 성능을 가지는 새로운 표준기술 탐색을 진행하고 있으며, 이를 위하여 참조 소프트웨어 ECM(Enhanced Compression Model)을 개발하고 있다. 현재 ECM4.0 에는 다양한 후보 구성 및 예측 성능 개선 기법을 추가하여 기존 VVC 의 GPM(Geometric Partitioning Mode)을 확장한 GPM-MMVD(GPM with merge MV differences), GPM-TM(GPM with template matching) 등을 채택하고 있다. 본 논문에서는 ECM 에 채택된 확장된 GPM 기술들의 각 기술 별 선택 빈도를 분석하고 이를 바탕으로 보다 효율적인 GPM 확장 모드 시그널링 방식을 제안한다. 또한 후보 탐색 알고리즘을 간소화한 복잡도 감소 기법을 제시한다. 실험결과 제안하는 시그널링 기법은 ECM4.0 대비 Y와 Cb, Cr 에서 각각 0.02%, 0.16%, 0.09% BD-rate 부호화 성능 향상을 보였고 GPM 인덱스 탐색 간소화 기법은 ECM4.0 대비 Y 와 Cr 에서 각각 0.02%, 0.18% BD-rate 부호화 성능 향상을 보였다.
-
JVET 은 VVC(Versatile Video Coding) 표준화 완료 이후 보다 높은 압축 성능을 갖는 차세대 비디오 코덱의 표준 기술을 탐색하고 있으며 ECM(Enhanced Compression Model) 참조 소프트웨어를 통해 제안된 알고리즘의 성능을 검증하고 있다. 현재 ECM 에서는 정해진 순서에 의해 병합(Merge) 후보를 구성하고 템플릿 매칭(template matching)을 통하여 후보들의 순서를 재배열하는 ARMC(Adaptive Reordering of Merge Candidate) 기법을 채택하고 있다. 본 논문은 ARMC 의 병합 후보의 선택 빈도 분석을 바탕으로 정규 병합(regular merge) 후보 수를 확장하여 구성하고, 실제 탐색에 사용되는 최종 후보의 수를 제한하는 효율적인 ARMC 후보 구성 기법을 제안한다. 실험결과 ECM 4.0 대비 Cb 와 Cr 에서 0.12%, 0.19% 비디오 부호화 성능을 확인하였다.
-
최근 K-Pop 을 위시한 예술공연 콘텐츠에 몰입형 미디어를 접목한 온택트 (Ontact) 미디어 스트리밍 서비스가 주목받고 있는 가운데, 본 논문은 일반적으로 사용되는 2D 디스플레이 또는 HMD (Head-Mounted Display) 기반 VR (Virtual Reality, VR) 서비스에서 탈피하여, 대형 가상현실 공연장을 위한 360 도 VR 비디오 스트리밍 시스템을 제안한다. 제안된 시스템은 Phase 1, 2, 3 의 연구개발 단계를 밟아 6DoF (Degrees of Freedom) 시점 자유도를 지원하는 360 도 VR 비디오 스트리밍 시스템을 개발하는 것을 최종목표로 하고 있으며, 현재는 Phase 1: 대형 가상현실 공연장을 위한 3DoF 360 도 VR 비디오 스트리밍 시스템 프로토타입의 개발까지 완료되었다. 구현된 스트리밍 시스템 프로토타입은 서브픽처 기반 Viewport-dependent 스트리밍 기술이 적용되어 있으며, 기존 방식과 비교하였을 때 약 80%의 비트율 감소, 약 543%의 영상 디코딩 속도 향상을 확인하였다. 또한, 단순 구현 및 성능평가에서 그치지 않고, 실제 미국 UCSB 에 위치한 대형 가상현실 공연장 AlloSphere 에서의 시범방송을 수행하여, 향후 Phase 2, 3 연구단계를 위한 연구적 기반을 마련하였다.
-
본 논문에서는 사용자가 보다 간편하게 볼류메트릭 비디오를 소비할 수 있도록 볼류메트릭 비디오 기본 플레이어를 구현하고, 구현한 플레이어에 대하여 성능평가를 진행한다. 본 논문에서 구현한 볼류메트릭 비디오 플레이어는 Draco 와 V-PCC 를 복호화기로 지원하며, 압축 전의 포인트 클라우드 데이터와 Draco 와 V-PCC 로 압축한 비트스트림에 대하여 성능 평가를 진행하였다. 플레이어의 성능을 평가한 결과를 통해 초기 충분한 량의 프레임을 버퍼에 확보할 만큼의 초기 지연시간을 설정하지 않는 이상, 볼류메트릭 비디오를 30fps 이상으로 소비하기에는 어려움이 있음을 확인하였다. 이를 토대로 현재 볼류메트릭 비디오 재생을 위한 기술적 한계를 살펴보고, 볼류메트릭 비디오 플레이어의 성능 향상을 위한 향후 연구개발 방향에 대하여 논의한다.
-
In this paper, we propose a conceptual framework that identifies video frames in motion containing the movement of people and vehicles in traffic videos. The automatic selection of video frames in motion is an important topic in security and surveillance video because the number of videos to be monitored simultaneously is simply too large due to limited human resources. The conventional method to identify the areas in motion is to compute the differences over consecutive video frames, which has been costly because of its high computational complexity. In this paper, we reduced the overall complexity by examining only the keyframes (or I-frames). The basic assumption is that the time period between I-frames is rather shorter (e.g., 1/10 ~ 3 secs) than the usual length of objects in motion in video (i.e., pedestrian walking, automobile passing, etc.). The proposed method estimates the possibility of videos containing motion between I-frames by evaluating the difference of consecutive I-frames with the long-time statistics of the previously decoded I-frames of the same video. The experimental results showed that the proposed method showed more than 80% accuracy in short surveillance videos obtained from different locations while keeping the computational complexity as low as 20 % compared to the HM decoder.
-
예능 프로그램에서 관찰예능 포맷은 널리 사용되는 형태이다. 본 연구에서는 AI기반 리프레이밍 기술을 활용하는 새로운 관찰 예능 제작 기법을 제안한다. 제안방식은 실제 방송프로그램 KBS2 신상출시 편스토랑에 적용되었다. 연구의 조건에 부합하는 촬영 장비의 기능조건과 조사결과를 다룬다. 센서타입와 연속녹화시간은 장비선정에 있어 핵심 고려요소로 나타났다. 시스템 구성은 제작 워크플로우에 따라 촬영파트와 편집파트로 나누어 소개한다. 촬영파트는 실제 제작현장의 기록을 바탕으로 작성되었다. 편집파트의 경우 자체 개발한 편집도구로 이루어지며, 핵심모듈인 AI엔진과 고속렌더링모듈에 대한 소개를 하였다. 향후 최신 촬영 장비의 도입, 처리성능의 향상 등을 통해 제안방식의 적용처를 넓혀갈 수 있을 것으로 기대한다.
-
분할 맵 기반 얼굴 합성 분야의 기존 연구들은 피부 영역을 하나의 라벨로 취급한다. 이는 피부 내 미세한 요소를 표현하지 못하며 고해상도 영상 합성 성능 부족이라는 결과를 초래한다. 본 논문에서는 이러한 문제점을 극복하고자 분할 맵에 주름, 모공, 홍조와 같은 피부 요소를 추가하여 이로부터 얼굴 영상을 합성하는 기법을 제안한다. 기존 분할 맵 기반 영상 합성 연구에 제안하는 기법을 적용하여 정량적 및 정성적 비교를 통해 성능이 개선됨을 보인다.
-
재료공학에서 머신러닝을 이용해 목적 성능에 부합하는 물질의 조성을 탐색하는 연구가 있다. 물질의 성능은밀도 범함수 계산을 통해 시뮬레이션 할 수 있지만, 계산량이 많은 문제가 있다. 본 연구를 통해 우리는 고효율 페로브스카이트 태양광전지를 만들기 위한 페로브스카이트 조성을 추천하는 심층신경망과 베이지안 최적화 모델을 제안했다. 본 연구에서 높은 전력효율이 예상되는 페로브스카이트 조성을 심층신경망과 베이지안 최적화 방법을 통해 추천하는 모델을 구현하였다. 심층신경망 모델은 주어진 조성과 실험조건에서 예상되는 전력효율을 예측해 베이지안 최적화를 통한 탐색과정에서 소요되는 실험비용을 줄인다. 베이지안 최적화 모델은 실험공간을 입력으로 받아 고효율이 예상되는 실험조건을 출력하는데, 미리 설정한 실험공간만을 탐색하기 때문에 실험적으로 가능한 출력값만을 제시 할 수 있다. 본 연구는 심층신경망과 베이지안 최적화 방법을 조합해 주어진 실험공간을 탐색하는 시간과 비용을 최소화하는 방법을 제시한다
-
최근 본인에게 어울리는 색상을 배경으로 촬영하는 감성 증명사진이 유행하고 있다. 개인마다 퍼스널 컬러를 찾아 배경색에 적용하는 것은 시간, 비용, 인력적으로 어려움이 있으므로 자동으로 개인에 따른 배경색을 찾아서 사진을 합성하여 감성 증명사진을 제작해 주는 딥러닝 기반 시스템을 구축하였다. 본 논문에서는 Convolution Neural Network 를 기반으로 한 딥러닝 기술을 이용해 Image Matting 과 Multi-Label Classification 을 수행하여 기존 감성 증명사진들을 학습하여 모델을 구축하였으며, 해당 시스템으로 사용자에게 새로운 배경색이 적용된 감성 증명사진을 제공하는 웹 애플리케이션을 제안한다.
-
방대한 분량의 콘텐츠 홍수 속에서 원하는 소재를 찾기 위해 콘텐츠 내용을 검색할 수 있는 효과적인 방법이 지원되는 것은 창작을 자유롭게 하고, 콘텐츠 활용도를 높이기 위해 매우 중요하다. KBS 바다 서비스의 경우 분류체계 방법을 사용하고 있으나. 최근 딥러닝을 이용한 인공지능 기술의 발전으로 콘텐츠의 내용을 인공지능 기술로 태깅하고, 태깅된 텍스트 정보를 이용하여 검색할 수 있는 기술 개발이 활발히 수행되고, 국가적으로도 해당 기술을 지원하고 있다. 본 논문에서는 이러한 기술 개발의 선행 요소인 방송사의 제작과정에서 요구되는 동영상 소재 콘텐츠 검색의 요구사항을 KBS 비디오 아카이브 검색 키워드 실제 사용 데이터를 이용하여 분석하였다. 약 1,000여건의 검색 키워드 분석과 이용자와 운영자의 응답 내용을 고찰한 결과, 특정 키워드에 집중하여 검색할 수 있도록 보완하여 주는 것이 필요함을 알아내었다. 또한, 검색 범위를 효과적으로 축소하여 검색을 손쉽고 빠르게 할 수 있는 방법을 고찰하였다. 본 논문에서는 미디어 창작에서 필요한 소재 콘텐츠를 찾기 위해 연구 개발해야 할 미디어 속성 추출 기술의 방향성을 제시하였다.
-
Since it is common to have touch-screen devices, it is less challenging to draw sketches anywhere and save them in vector form. Current research on sketches considers coordinate sequence data and adopts sequential models for learning sketch representation in sketch understanding. In the sketch dataset, it has become customary that the dataset is in vector coordinate format. Moreover, the popular dataset does not consider real-life sketches, sketches from pencil, pen, and paper. Art psychology uses real-life sketches to analyze patients. ETRI presents a unique sketch dataset for sketch recognition of autism spectrum disorder in pixel format. We present a method to formulate the dataset for better generalization of sketch data. Through experiments, we show that pixel-based models can produce a good performance.
-
COVID-19 펜데믹으로 인한 비대면 문화 확산과함께 사회 관계망 서비스 등 비대면 수단들을 사용하게 되면서 비대면 기술적 환경의 대안으로 '메타버스(Metaverse)'가 부각되었다. 이에 본 논문은 메타버스의 다양한 개념과, XR, 홀로그램, UI, VR 컨트롤러, NFT 등 메타버스 기반 기술 및 메타버스 기술의 ICT 표준화 현황 및 전략에 대해 살펴보았다.
-
Structure-from-Motion(SfM), Multi-view Stereo(MVS)이 이용되는 3D Reconstruction 과정에서 생성된 3D 포인트 클라우드는 RGB 영상에 기반하여 생성되므로 실제 객체 혹은 Scene 과 달리 point 와 point 간에 존재하는 빈 공간이 발생한다. 이를 개선하기 위하여 3D 포인트 클라우드를 이용하여 3D Mesh 를 복원하는 Mesh Reconstruction 과정을 거치게 된다. 본 논문에서는 Mesh Reconstruction 과정에서 자유공간 지지도에 기반해 수정한 가중치를 이용하는 효율적인 방법을 제안한다. 실험을 통하여 제안한 알고리즘을 이용한 복원 결과가 기존보다 개선됨을 보인다.
-
현재 Action classification model은 computational resources의 제약으로 인해 video전체의 frame으로 학습하지 못한다. Model에 따라 다르지만, 대부분의 경우 하나의 action을 학습시키기 위해 보통 많게는 32frame, 적게는 8frame으로 model을 학습시킨다. 본 논문에서는 이 한계를 극복하기 위해 하나의 video의 많은 frame들을 mix-up과정을 거쳐 한장의 frame에 여러장의 frame 정보를 담고자 한다. 이 과정에서 video의 시간에 따른 변화(temporal- dynamics)를 손상시키지 않기 위해 linear mix-up이라는 방법을 제안하고 그 성능을 증명하며, 여러장의 frame을 mix-up시켜 모델의 성능을 향상시키는 가능성에 대해 논하고자 한다.
-
기존의 video domain adaptation은 closed set 환경에서 주로 연구되었다. 하지만 이는 source와 target의 label이 같다는 비현실적인 전제를 요구한다. 따라서 본 논문에서는 target의 label space가 source보다 넓은 open set video domain adaptation 문제를 다룬다. 우린 open set image domain adaptation에서 사용되는 방법들을 video로 확장 시켜 모델을 설계하고 UCF to HMDB, HMDB to UCF 와 같은 video dataset에서 실험하였다. 그 결과 source only 대비 UCF to HMDB에서 12%, HMDB to UCF 7.1% 향상된 결과를 얻었다.
-
최근 영상 군집화 분야는 딥러닝 모델에게 Self-supervision을 주거나 unlabeled 영상에 유사-레이블을 주는 방식으로 연구되고 있다. 또한, 고차원 컬러 자연 영상에 대해 잘 압축된 특징 벡터를 추출하는 것은 군집화에 있어 중요한 기준이 된다. 본 연구에서는 자연 영상에 대한 Convolutional Auto Encoder의 특징 추출 성능을 평가하기 위해 설계한 실험 방법을 소개한다. 특히 모델의 특징 추출 능력을 순수하게 확인하기 위하여 Self-supervision 및 유사-레이블을 제공하지 않은 채 Naive한 모델의 결과를 분석할 것이다. 먼저 실험을 위해 설계된 4가지 비지도학습 모델의 복원 결과를 통해 모델별 학습 정도를 확인한다. 그리고 비지도 모델이 다량의 unlabeled 영상으로 학습되어도 더 적은 labeled 데이터로 학습된 지도학습 모델의 특징 추출 성능에 못 미침을 특징 벡터의 군집화 및 분류 실험 결과를 통해 확인한다. 또한, 지도학습 모델에 데이터셋 간 교차 학습을 수행하여 출력된 특징 벡터의 군집화 및 분류 성능도 확인한다.
-
본 연구는 완전 복소 홀로그램의 압축을 위하여 DWT를 사용한 제로트리 기반의 잔차 압축 방법을 제안한다. 잔차 압축의 효율을 위하여 유사한 웨이블릿 트리들을 그룹화하여 잔차 값을 계산한다. 계산된 잔차 값을 사용하여 SPIHT를 통해 압축한다. 위 결과와 원본 트리를 SPIHT로 압축한 것의 SNR을 비교하여 성능 차이를 보인다.
-
본 논문은 딱지본의 2D 이미지를 사용하여 3D 버츄얼 스페이스를 제작한 작품에 관한 글이다. 가상 공간에서 현실과 같은 활동이 활발히 이루어지고 있는 최근의 사회 현상에 관심을 두고, 딱지본의 이미지를 차용하여 과거의 낭만적인 시대를 여행하는 듯한 버츄얼 스페이스를 구현해 보았다. 이 작품은 포토샵 편집 과정을 거친 2D 이미지 파일들과 구글 3D 지도를 캡쳐하여 단계적 변환을 거친 3D 이미지 파일로 구성된다. 편집과 변환 과정을 거친 2D 와 3D 파일은 언리얼 엔진을 기반으로 화면에 배치하고 조합하여 버츄얼 스페이스를 제작한다. 2D 레트로 컨텐츠와 3D 가상 공간의 융합은 작품 제작에 있어 다양한 아이디어를 제공하고 새로운 표현 방식으로 확장 할 수 있는 가능성을 보여준다.
-
최근 재난에 신속하게 대응하기 위하여 통신망을 이용한 긴급재난문자 시스템에 관한 관심이 증가하고 있다. 기존 LTE 기반의 긴급재난문자 서비스는 한정된 자원으로 인해 시스템의 한계가 있으며, 이를 해결하기 위해 5G 이동 통신 서비스 기반의 긴급재난 문자 서비스를 고도화하기 위한 연구가 수행되고 있다. 본 논문에서는 5G기반 긴급재난문자 서비스의 성능 검증을 위하여 송출권역 구분, 재난문자 길이, 다국어 지원에 대해서 시험한 결과를 분석하고, 5G 환경에서 고도화된 긴급재난문자 서비스를 검증하기 위한 서비스 시나리오를 정의한다.
-
Document layout analysis는 문서 이미지의 구조와 구성요소를 파악하는 기술이다. 기존 딥러닝을 사용한 학습 기반 방법에는 각 구성 요소를 검출하는 detection 기반 방식이 많으나 이는 다양한 형식의 문서 이미지에 확장될 수 있는 가능성이 낮다는 한계가 존재한다. 특히, 다양한 모양과 크기의 화학 구조를 포함하는 화학 문서 이미지에 적용하기 어렵다. 본 논문에서는 영상분할을 활용하여 화학 구조 문서를 이해하는 연구를 진행하였다. 기존의 블록 단위로 레이블링된 벤치마크와 다르게 객체 단위로 레이블링한 학습 데이터를 가지고 DeepLabv3 구조의 네트워크를 학습하여 화학 문서 이미지를 효과적으로 분할하였다. 객체 단위 레이블링과 영상 분할을 사용한 방식이 문서 이해 및 화학 구조 검출에 준수한 성능을 보이는 것을 확인하였고 이 방식이 다양한 형식의 문서 이미지에 확장될 수 있음을 보였다.
-
최근 인공지능 신경망에 대한 활발한 연구를 바탕으로 다양한 분야에서의 적용에 대해 많은 시도들이 이루어지고 있다. 이러한 흐름에 맞추어 화학 문서에서 화학 구조를 인식하는 문제 또한 딥러닝을 이용하여 해결하려는 시도들이 생겨나고 있다. 본 논문에서는 화학 문서에서 화학 구조를 인식하는 모델을 학습시키기 위한 합성 데이터셋을 제안하였다. 문서의 구조를 이용하여 정교하게 화학 구조들을 문서에 합성하여 데이터셋을 생성하였고, 이를 최신 딥러닝 모델 중 하나인 Mask R-CNN[7]에 학습시켜 제안한 데이터셋을 이용하여 문서에서 화학 구조를 인식할 수 있음을 보였다.
-
자동차 부품의 결함은 시스템 전체의 성능 저하 및 인적 물적 손실이 발생할 수 있으므로 생산라인에서의 불량 검출은 매우 중요하다. 따라서 정확하고 균일한 결과의 불량 검출을 위해 딥러닝 기반의 고장 진단 시스템이 다양하게 연구되고 있다. 하지만 제조현장에서는 정상 샘플보다 비정상 샘플의 발생 빈도가 현저히 낮다. 이는 학습 데이터의 클래스 불균형 문제로 이어지게 되고, 이러한 불균형 문제는 고장을 판별하는 분류 모델의 성능에 영향을 끼치게 된다. 이에 본 연구에서는 모터의 동작음으로부터 불량 모터를 판별하는 불량 검출 시스템 설계를 위한 데이터 불균형 해결 방법을 제안한다. 자동차 사이드 미러 모터의 동작음을 학습 및 테스트를 위한 데이터 셋으로 사용하였으며 손실함수 계산 시 학습 데이터 셋의 클래스별 샘플 수 가 반영되는 label-distribution-aware margin(LDAM) loss 와 Inception, ResNet, DenseNet 신경망 모델의 비교 분석을 통해 불균형 데이터를 처리할 수 있는 가능성을 보여주었다.
-
소리 데이터 분류는 단순 소리를 통한 분류, 감정 인식등 다양한 연구가 진행중이다. 심층 신경망에서 데이터의 부족과 과적합 문제를 개선하는 방법으로 데이터 증강은 중요하다. 본 논문에서는 3가지의 소리데이터(UrbanSound8K, RAVDESS, IRMAS)를 사용하였으며, 소리데이터는 멜 스펙트로그램을 통한 변환과정을 거쳐 네트워크 망에 입력된다. 입력된 신호는 다양한 네크워크 신경망(Bidirection LSTM, Bidirection LSTM Attention, Multi-Head Attention, CNN)을 통해 학습되어지며, 각각의 네트워크 신경망에서 데이터 증강 전후의 분류 정확도를 확인 하였다. 다양한 데이터셋과 다양한 네트워크 망에서의 데이터 증강 방법의 결과 비교를 통한 통찰을 얻을수 있을 것이다.
-
DNN을 사용하여 객체 인식 과정에서 객체를 잘 분류하기 위해서는 시각적 설명성이 요구된다. 시각적 설명성은 object class에 대한 예측을 pixel-wise attribution으로 표현해 예측 근거를 해석하기 위해 제안되었다, Scale-invariant한 특징을 제공하도록 설계된 pyramidal features 기반 backbone 구조는 object detection 및 classification 등에서 널리 쓰이고 있으며, 이러한 특징을 갖는 feature pyramid를 trainable attention mechanism에 적용하고자 할 때 계산량 및 메모리의 복잡도가 증가하는 문제가 있다. 본 논문에서는 일반적인 FPN에서 객체 인식 성능과 설명성을 높이기 위한 피라미드-주의집중 계층네트워크 (FPN-Attention Layered Network) 방식을 제안하고, 실험적으로 그 특성을 평가하고자 한다. 기존의 FPN만을 사용하였을 때 객체 인식 과정에서 설명성을 향상시키는 방식이 객체 인식에 미치는 정도를 정량적으로 평가하였다. 제안된 모델의 적용을 통해 낮은 computing 오버헤드 수준에서 multi-level feature를 고려한 시각적 설명성을 개선시켜, 결괴적으로 객체 인식 성능을 향상 시킬 수 있음을 실험적으로 확인할 수 있었다.
-
최근, 심층신경망 기반 오디오 부호화기가 활발히 연구되고 있다. 심층신경망 기반 오디오 부호화기는 기존의 전통적인 오디오 부호화기보다 구조적으로 간단하지만, 네트워크의 복잡도를 증가시키지 않고 인지적 성능향상을 기대하는 것은 어렵다. 이 문제를 해결하기 위하여 인간의 청각적 특성을 활용한 심리음향모델 기반 손실함수를 사용한 기법들이 소개되었다. 심리음향 모델 기반 손실함수를 사용한 오디오 부호화기는 양자화 잡음을 잘 제어하였지만, 여전히 지각적인 향상이 필요하다. 본 논문에서는 심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 지역 손실함수 윈도우 크기의 최적화 제안한다. Multi-time Scale 손실함수의 지역 손실함수 계산을 위한 윈도우 크기를 조절하며, 이를 통하여 오디오 부호화에 적합한 윈도우 사이즈를 결정한다. 실험을 통해 얻은 최적의 Multi-time Scale 손실함수를 사용하여 네트워크를 훈련하였고, 주관적 평가를 통해 기존의 심리음향모델 기반 손실함수보다 좋은 음성 품질을 보여주는 것을 확인하였다.
-
본 논문에서는 단일 깊이 센서를 사용하는 자율주행 시나리오에서 거리 계산에 주로 이용되는 깊이 데이터만 이용하는 객체 감지 기술을 제안한다. 우선, 해당 시나리오에서 객체 감지 학습 데이터는 깊이 데이터가 사용되지만 상대적으로 객체 감지 성능을 비교하기 위해 동일한 시간의 색상, 깊이 데이터를 함께 획득하여 학습에 이용한다. 학습모델은 객체 감지 분야에서 최근 주목 받고 있는 YOLOv5로 선정하여 색상, 깊이 데이터의 객체 감지 학습의 결과를 각각 확인하였다. 결과적으로 색상과 깊이 데이터 사이에서 객체 감지 학습 결과의 차이를 확인하며 본 논문에서 제안하는 자율주행 시나리오에 깊이 영상만 이용하는 객체 감지 기술의 문제점과 향후 자율주행 기술 발전에 기여 가능성을 확인할 수 있다.
-
최근 딥러닝의 발전에 따라 단일 이미지 초해상도 분야에 좋은 성과를 보여주고 있다. 그러나 보다 더 높은 성능을 획득하기 위해 네트워크의 깊이 및 파라미터의 수가 크게 증가하였고, 모바일 및 엣지 디바이스에 원활하게 적용되기 위하여 딥러닝 모델 경량화의 필요성이 대두되고 있다. 이에 본 논문에서는 초해상도 모델 중 하나인 EDSR(Enhanced Deep Residual Network)에 대조 학습 기반 지식 전이를 적용한 경량화 기법을 제안한다. 실험 결과 제안한 지식 전이 기법이 기존의 다른 지식 증류 기법보다 향상된 성능을 보임을 확인하였다.
-
언제 어디서든 한 손으로 미디어 콘텐츠를 소비할 수 있게 해주는 모바일 기기들이 기존 전통적 미디어 콘텐츠 단말기였던 TV나 데스크톱 PC들을 대체하게 되면서 세로형 영상 콘텐츠에 대한 수요가 나날이 높아져 가고 있다. 이와 더불어 모바일 단말기 제조사들은 서로 간의 경쟁에서 앞서기 위해 제품 차별화 전략을 수립하고 모바일 사용자들의 요구 사항을 세세하게 맞추기 위한 결과, 저마다 다른 디스플레이 해상도 규격을 가진 모바일 기기들이 생산되고 있는 상황이다. 이에 미디어 콘텐츠 제작자들은 기존 가로형 영상 콘텐츠와 더불어 새롭게 요구되는 세로형 영상 콘텐츠들을 저마다 다른 해상도 규격에 맞추는데 많은 시간과 비용을 투자하고 있다. 더 나아가 모바일 단말기 해상도 규격과 맞지 않는 영상 콘텐츠를 시청하게 될 경우, 모바일 사용자 입장에서는 디스플레이 전체 영역을 뷰포트로 잡을 수 없어 시청 만족도가 떨어질 수 있다. 이에 본 논문은 한 번의 콘텐츠 제작을 통해서도 추가 비용 없이 다양한 디스플레이 규격을 가진 단말기들에 대해 맞춤형 콘텐츠 서비스 제공을 가능하게 하여 미디어 콘텐츠 소비자들에게 충분한 시청 몰입감을 제공해줄 수 있는 단말 적응적 미디어 화면비 변환 시스템을 제안한다. 단말 적응적 미디어 화면비 변환 시스템은 딥러닝 네트워크 모델과 이미지 관련 라이브러리를 기반으로 하여 설계한 시스템이며, 사용자가 시청하기 원하는 영역을 판단하고, 사용자가 원하는 뷰포트 종횡비에 따라 해당 영역을 잘라내어 사용자가 원하는 세로형 영상 콘텐츠를 제공해준다.
-
다중 객체 추적 기술은 스포츠, 문화 예술 공연, VR 등 여러 방송 콘텐츠에서 자주 사용되고 있다. 방송 영상 안에 등장하는 여러 객체들은 객체간 상호작용에 의해 가려짐, 사라짐 (Occlusion) 등의 현상이 빈번하게 발생하고, 이 경우 기존에 추적되어온 객체들의 ID 가 소실되거나 교환되는 문제가 발생한다. 본 논문에서 더 강인한 다중 객체 추적을 위해, 주 개체 뿐만 아니라 주 개체에 종속되는 하위 개체 또한 함께 추적하는 개체-쌍-추적 기법을 제안한다. 한 쌍으로 묶인 주 개체와 종속 개체의 추적 정보와 매칭 정보는 상호보완적으로 사용되어, 소실 및 교환된 ID 도 복원할 수 있는 가능성을 높일 수 있다. 본 논문에서는 재인지 성능 향상을 위한 개체 쌍 추적 기법을 기술하였고, 성능 평가를 통해 제안 방법이 재인지 성능 향상에 기여할 수 있음을 확인하였다.
-
최근 딥러닝은 다양한 컴퓨터 비전에 적용되어 높은 성능을 제공하고 있고 이에 따라 중간 프레임을 생성하는 비디오 프레임 보간 기법에도 딥러닝이 적용되고 있다. 많은 딥러닝 기반의 비디오 프레임 보간 기법은 크게 옵티컬 플로우를 추정하는 플로우 추정 네트워크와 합성 네트워크로 구성되며 본 논문에서는 합성 네트워크 부분의 성능향상을 위한 네트워크에 대하여 다룬다. 합성 네트워크에 주로 사용되는 UNet 구조와 GridNet 구조의 장단점과 네트워크에 따른 보간 결과의 차이에 대해서 알아보고 영상 복원에서 제안된 NAFNet 을 비디오 보간 기법에 맞게 변형시켜 합성 네트워크에 적용한 보간 결과의 차이를 보였다. 실험결과는 기존 네트워크 대비 Vimeo90K 데이터셋에 대하여 PSNR 값이 0.63dB 개선됨을 보여준다.
-
폐기물 관리는 전 세계적으로 환경, 사회, 경제 문제를 일으키고 있다. 이러한 문제를 예방하고자 폐기물을 효율적으로 관리하기 위해, 인공지능을 통한 연구를 제안하고 있다. 따라서 본 논문에서는 GAN 기반 데이터 증강을 통한 폐기물 객체 인식모델을 제안한다. Open Images Dataset V6와 AI Hub의 공공 데이터 셋을 융합하여 폐기물 품목에 해당하는 이미지들을 정제하고 라벨링한다. 이때, 실제 배출환경에서 발생할 수 있는 장애물로 인한 일부분만 노출된 폐기물, 부분 파손, 눕혀져 배출, 다양한 색상 등의 인식저해요소를 모델 학습에 반영할 수 있도록 일반적인 데이터 증강과 GAN을 통한 데이터 증강을 병합 사용한다. 이후 YOLOv4 기반 폐기물 이미지 인식 모델 학습을 진행하고, 학습된 이미지 인식 모델에 대한 검증 및 평가를 mAP, F1-Score로 진행한다. 이를 통해 향후 스마트폰 애플리케이션과 융합하여 효율적인 폐기물 관리 체계를 구축할 수 있을 것이다.
-
예술적 스타일 전이는 예술 작품이 지닌 특징을 다른 이미지에 적용하는 이미지 처리의 오랜 화두 중 하나로, 최근에는 StyleGAN 과 같이 미리 학습된 GAN(생성적 적대 신경망)을 통해 제한된 데이터로도 고해상도의 예술적 초상화를 생성하도록 학습하는 연구가 다양한 방면에서 성과를 내고 있다. 본 논문에서는 2 가지 경로의 StyleGAN과 Facial Destylization 을 통해 고해상도의 예시 기반 스타일 전이를 달성한 DualStyleGAN 연구에 대해 소개하고, 기존 연구에서 사용된 Facial Destylization 방법이 지닌 한계점을 분석한 뒤, 이를 개선한 새로운 방법, Re-Destyle을 제안한다. 새로운 Re-Destyle 방법으로 Facial Destylization 을 적용할 경우 학습 시간을 기존 연구의 방법보다 20 배 이상 개선할 수 있으며 그 결과 1000 개 이하의 적은 데이터와 1~2 시간의 추가 학습만으로도 원하는 타겟 초상화 스타일에 대해 1024×1024 수준의 고해상도의 예시 기반 초상화 스타일 전이 및 이미지 생성 모델을 학습할 수 있다.
-
Kwon, Naseong;Lee, Minhun;Choi, Hansol;Park, Seungjin;Oh, Seoung-Jun;Kim, Younhee;Lee, Jooyoung;Jeong, SeYoon;Sim, Donggyu 1343
본 논문에서는 다해상도 피라미드 피처 맵 압축 손상 보상 방법을 제안한다. 본 논문에서 제안하는 방법은 패킹된 C-레이어 피처 맵을 비디오 코덱으로 압축할 때, 저해상도 계층의 원본 피처 맵과 복원된 피처 맵 간의 차분 값을 구해 이를 고해상도 계층의 피처 맵에 더해줌으로써 부호화 과정에서 발생하는 오차를 보상하는 방법이다. 본 논문에서 제안하는 방법의 성능을 평가하기 위하여 OpenImageV6 데이터셋 중 1000 장에 대해 객체 검출 성능을 평가하였다. 본 논문에서 제안하는 피처 맵 압축 방법은 C-레이어 피처 맵 압축 방법 대비 bpp 와 mAP 의 BD-rate 관점에서 35.10%의 성능 향상을 보인다. -
본 논문에서는 병렬 신경망을 기반으로 원형 게이지뿐만 아니라 다양한 종류의 아날로그 게이지 값을 인식하는 방법을 제안한다. 아날로그 게이지는 다양한 산업 현장에 쓰이고 있지만, 게이지 값을 사람이 읽는 과정에 불필요한 시간이 소모가 되고 위급 상황에 빠른 대응이 힘들다. 이러한 문제로 인해 게이지 값을 디지털화하여 컴퓨터로 전송되는 데이터만으로 자동으로 모니터링을 하기 위한 방법이 필요하다. 제안하는 방법은 두 단계로 구성된다. 우선 입력된 게이지에 대해 원근법 보정을 수행하고, 게이지의 중심 좌표와 눈금의 최소, 최대, 지침에 대한 정규 벡터를 이용해 게이지의 각도를 계산한다. 이는 학습 데이터와 추가 학습한 실험 데이터의 적은 평균 각도 오차를 통해 제안한 방법이 실제 산업 현장에 잘 적응 가능함을 확인할 수 있다.
-
본 논문에서는 희소깊이영상과 컬러영상을 이용해 조밀한 깊이영상을 추정하는 깊이 완성(depth completion)을 수행하기위해 최근접 이웃 커널을 추정하는 방식의 네트워크를 제안한다. 회귀방식의 딥러닝 네트워크는 일반적으로 값을 직접 예측하는 것보다 기본 값에 더해질 잔차를 추정하는 방식이 더욱 효율적이다. 본 논문에서는 최근접 이웃 커널을 입력영상에 적용하여 추정하고자 하는 픽셀의 인근 픽셀에서 값을 가져와 기본 값으로 사용하고, 해당 값의 잔차를 회귀방식으로 추정하는 네트워크를 설계했다. 이러한 방식으로 여러 SOTA 알고리즘 대비 좋은 성능을 나타냈고, 특히 이와 유사한 방식인 Plane-residual net 보다 높은 성능을 보여준다.