Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
The Korean Institute of Broadcast and Media Engineers
- Semi Annual
Domain
- Media/Communication/Library&Information > Media/Consumers
2019.11a
-
본 연구에서는 적외선 카메라 기반의 비접촉식 측정 방법을 이용하여 동공 반응 데이터를 수집하여 공감의 사회감성을 객관적이고 정량적으로 추정하는데 그 목적이 있다. 실험에는 10명(남 6명, 여 4명, M ± SD = 24.17 ± 2.16세)의 피험자가 참여하였다. 30초의 참조 데이터 측정 후, 공감 유무에 따라 과제는 얼굴 표정 모방 과제와 얼굴 표정 자발적 표현 과제로 구분되어 두 사람은 표정으로 상호작용하였고, 2번씩 반복 진행하며 적외선 카메라를 통해 동공을 촬영하였다. 이진화 및 원형 윤곽선 검출법의 영상처리를 활용하여 동공 데이터를 수집하였고, 이동 평균 기법을 활용해 눈깜빡임 노이즈를 제거하고 동공 크기 개인차로 데이터 표준화를 진행하였다. 공감 유무에 따른 동공 크기 데이터는 정규성 검증 및 독립표본 t검정을 통해 통계적 유의성을 확인하였다. 분석결과, 공감하는 경우(M ± SD = 0.508 ± 1.278)와 공감하지 않은 경우(M ± SD = 1.681 ± 0.968) 동공 크기가 통계적으로 유의미한 차이를 보였다(t(18) = -2.313, p = 0.033). 판별분석을 통해 동공 크기에 따른 공감의 유무를 추정하는 규칙을 정의하였다. 본 연구에서 제안한 동공 크기 데이터를 이용한 공감의 사회감성 추정 기술은 비접촉식 카메라 기반의 기술로 스마트 글래스와 접목되어 다양한 분야에 활용도가 높을 것으로 기대된다.
-
최근 보행자 행태를 반영한 미시적 시뮬레이션 분석이 가능하게 되었다. 차량 분석과 유사하게 보행자 행태 중 가장 빈번히 사용되는 것은 보행속도로 이는 횡단보도 보행자 녹색시간 산정과도 매우 밀접한 관계가 있다. 또한 보도의 밀도를 산정함에 있어서 보행자 속도는 중요한 역할을 담당한다. 이에 본 논문에서는 횡단보도의 보행자 속도를 실측하고, 이를 기반으로 미시적 시뮬레이션인 VISSIM의 주요 파라메타인 보행속도를 이용하여 역삼역 일대의 보행실태를 점검해 보았다. 분석에 사용된 보행속도 실측자료는 서울시 16개 횡단보도에서 조사되었으며, 연령별로 일반인(64세 이하)과 노인(65세 이상)을 구분하여 분석하였다.
-
지속적인 건축물의 노화와 개발지 부족은 현존하는 건축물의 재건축 및 활용 가능 용지에 신규 건축행위를 유도한다. 서울에서는 근 5년간 25,000여 건의 신축이 발생하였으며, 이에 대한 신규 정책 등 다양한 지원 체계가 활성화되고 있다. 본 연구에서는 2011년부터 2015년까지 발생한 필지별 건축행위 데이터와 추가적 43개의 변수를 활용하여 신규 건축행위가 발생하는 필지에 대한 예측 모델을 구축하고자 한다. 요인도출 기계학습 방식인 의사결정트리 (Decision Tree) 중 CART(Classification And Regression Tree)를 활용하여 신규 건축 예측 모델을 구축하였으며, 86.28%의 정확도와 4개의 주요 신규 건축행위 발생 요인을 도출하였다.
-
서울시 첫 번째 경전철인 우이신설선은 2017년 9월 개통 이후 대중교통 불모지인 서울 동북부지역의 중요한 교통축을 담당하고 있다. 일평균 약 8만 명이 이용하는 우이신설선은 통행시간의 획기적인 개선과 지역 활성화에 기여하는 등 긍정적 효과가 있으나 개통 2주년이 지난 현재 출퇴근시 혼잡도 문제가 심화되는 등 대시민 서비스 측면에서의 쟁점도 제기되고 있다. 본 논문은 우이신설선 사례를 기반으로 서울시 경량전철 통행특성을 분석하고 첨두시 혼잡원인을 파악하여 계획단계부터 혼잡도를 고려한 시설설계 개선방안 등을 제시하였다. 통행특성 및 혼잡원인 분석은 우이신설선을 통과하는 개별 카드데이터를 활용하였으며, 더 나아가 카드데이터의 특성을 고려한 열차 내 혼잡도 산정 알고리즘을 연구·개발하였다.
-
대중들에게 정보를 빠르고 정확하게 제공하는 대표 매체인 뉴스 기사는 일 평균 1만 5천 건 이상이 보도되고 있다. 특정 주제 또는 분야에 대한 전반적인 동향을 파악하고자 대량의 텍스트 데이터를 수집하여 텍스트 마이닝(Text mining)과 머신러닝 등을 적용하는 연구들이 활발하게 수행되고 있다. 본 연구에서는 서울시의 이슈 및 문제를 파악하고자 약 5년간 뉴스 기사를 수집하여 키워드 분석 및 토픽 모델링을 적용하였다. 분석 결과 5년간의 뉴스 기사에서 빈번하게 출현하는 키워드들을 도출하였고 연도별로 도출된 키워드들을 비교분석하였다. 또한 토픽 모델링 적용 결과 뉴스 기사를 구성하는 20개의 주제를 도출하였으며 이를 기반으로 서울시의 주요 이슈들을 파악할 수 있다. 본 연구는 연도별, 분야별 세부 내용 및 시계열 분석, 다른 도시들의 이슈 및 문제를 도출하는데 활용될 것으로 기대된다.
-
스마트관제 시스템은 딥러닝 서버내 학습된 백본 네트워크 모델이 실시간으로 스트리밍 되는 CCTV 영상으로부터 이상행동 패턴을 선별적으로 탐지하고 관제요원에게 전달하여, 사전에 사건사고를 예방하거나 즉시 대응 체계의 유연한 운영을 가능케하는 시스템이다. 최근 지능형 CCTV(Closed Circuit Television) 서비스가 일부 지역에 선별 관제의 형태로 시범적으로 운영되고 있는 상황이다. 지능형 시범서비스는 공공 영역에서 선별 CCTV 관제의 형태로 이상행동 상황을 즉각 인지하여 사건사고를 예방하거나 피해를 최소화하고자 하는 목적으로 주로 사용되고 있다. 그러나, 범죄 등의 특정 시나리오에만 한정해서도 이상 행동 유형이 너무나 다양하기 때문에 이상행동 영상의 사전분류(Annotation)를 통해 딥러닝 모델을 학습시키는 것이 현실적으로 어려운 상황이다. 따라서 본고에서는 최신 이상 행동 탐지(Anomaly detection) 알고리즘과 응용사례를 분석하여 실제 현장에 적용할 수 있는 현장 중심의 기법을 제안하고자 한다.
-
ISO/IEC JTC1 WG11 Moving Picture Expers Group 과 ITU-T SC16 은 Joint Video Experts Team 을 구성하여 차세대 비디오 부호화 표준으로서 Versatile Video Coding(VVC)를 표준화 중이다. VVC 는 현재 블록의 화면내 예측 모드일 가능성이 높은 모드의 집합인 Most Probable Mode(MPM) 리스트를 유도하고, MPM 을 이용하여 효율적으로 화면내 예측 모드를 부호화한다. VVC 는 주변 블록의 화면내 예측 모드에 따라 7가지 종류의 MPM 리스트 유도 방식을 가지고 있으나 이 중 두 가지는 동일한 MPM 들로 유도되는 중복성이 있다. 따라서 본 논문은 이 중복성 문제를 해결하기 위한 MPM 유도 방법을 제안한다. 제안 방법은 MPM 유도조건을 수정하여 중복적인 유도 방식이 제거된 6 가지 MPM 리스트 유도 방식을 갖는다. 실험을 통해 제안방법이 부호화 효율에 전혀 영향을 주기 않고 MPM 유도 과정을 단순화시켰음을 보인다.
-
The Joint Video Experts Team (JVET) has been working on the development of next generation of video coding standard called Versatile Video Coding (VVC). Position Dependent Intra Prediction Combination (PDPC) which is one of the major tools for intra prediction refines the prediction through a linear combination between the reconstructed samples and the predicted samples according to the sample position. In VVC WD6, nScale which is shift value that adjusts the weight is determined by the width and height of the current block. It may cause that PDPC is applied to regions that do not fit the characteristics of the current intra prediction mode. In this paper, we define nScale for each width and height so that the weight can be applied independently to the left and top reference samples, respectively. Experimental results show that, compared to VTM 6.0, the proposed method gives -0.01%, -0.04% and 0.01% Bjotegaard-Delta (BD)-rate performance, for Y, Cb, and Cr components, respectively, in All-Intra (AI) configuration.
-
The emerging Versatile Video Coding (VVC) standard introduces Bi-prediction with CU-level Weights (BCW) to enhance the bi-predictive prediction. The syntax element of BCW index is adaptively coded according to the value of NoBackwardPredFlag which indicates if there is no future picture in the display order among the reference pictures, and it can violate the flexibility of codec and cause the dependency issue. This paper proposes BCW clean-up design that allows all weights can be parsed without any condition. The experimental results show negligible BD-rate losses while resolving the issues.
-
본 논문에서는 최신 비디오 압축 표준인 HEVC 를 기반으로, 영상의 화면 내 예측 모드를 결정하기 위하여 기존의 RDO 프로세스 대신 합성곱 신경망을 접목시켜 예측 모드를 결정하는 연구를 진행하였다. 네트워크 학습에는 실제 화면 내 예측 모드를 결정하는 데 사용되는 데이터들이 사용되었다. 실험 결과 본 제안 기법은 HM 16.20 대비 0.05%의 부호화 성능 향상을 보였다.
-
VVC(Versatile Video Coding)는 입력 YUV영상을 CTU(Coding Tree Unit)으로 분할하고, 다시 이를 QTBTTT(Quad Tree, Binary Tree, Ternery Tree)로 최적의 블록으로 분할하고 각각의 블록을 공간적, 시간적 정보를 이용하여 예측하고 예측블록과 원본블록의 차분신호를 변환, 양자화를 통해 전송한다. 이를 위해 여러가지 인코딩정보가 디코더에 전송되며 이를 이용하여 디코더는 인코더와 똑같은 순서로 영상을 복원 할 수 있다. 본 논문에서는 이러한 VVC 인코더에서 반드시 전송하는 정보를 추가적으로 이용하여 딥러닝 기반의 Convolutional Neural Netwrok로 영상의 압축률 및 화질개선 하는 방법을 제안한다.
-
최근 들어 다양한 초 고화질 스트리밍 서비스의 보급과 통신기술의 급격한 발전에 따라 고화질 비디오 신호를 포함하는 멀티미디어 데이터의 이용과 전송의 중요성이 급속도로 증가하고 있다. 또한, 동시에 동영상에 대한 수요도 지속적으로 증가하고 있어, 더욱 효과적인 동영상의 압축기법이 요구되고 있는 실정이다. 본 논문에서는 최근 VVC(Versatile Video Coding) 표준화를 위하여 채택한 기술인 변환 생략 기술의 적용범위를 확장하여 기존의 방법처럼 휘도 채널에 적용하는 것뿐만 아니라 특정한 조건 하에서는 동일한 방법을 색차 채널에도 적용하도록 하여 압축 효율을 향상하는 방법을 연구하였다. 실험결과, 기존 VVC 방법 대비 BDBR 측면에서 (두번째는 SCC 영상의 실험결과) All Intra 방법에 대하여 Y(0.00%, 0.03%), U(-0.01%, -0.01%) 그리고 V(0.02%, -0.04%), Random access 방법에 대하여 Y(0.00%, 0.01%), U(-0.01%, -0.11%)그리고 V(0.03%, -0.15%)의 결과를 얻을 수 있었다.
-
MPEG-IoMT 프로젝트는 미디어 사물 간 미디어 또는 가공된 데이터를 주고 받을 수 있게 제정된 표준으로 MPEG-IoMT 표준을 통해 센서, 분석기 등 다양한 미디어 사물과의 연결로 새로이 가공된 데이터를 만들어 주고 받을 수 있게 된다. 하지만 현재는 사용자가 다른 미디어 사물을 연결하고자 할 때 그 기능을 직접 찾고 설정을 해야하는 불편이 있다. 본 논문에서는 MPEG-IoMT 내에 다른 미디어 사물과의 자동적인 연결과 통신이 가능하도록 설정할 수 있는 Setup Information 온톨로지에 대해 제안한다.
-
MPEG-IoMT(Internet of Media Thing) 국제 표준은 미디어 사물 인터넷 간 프로세싱된 데이터를 주고 받기 위한 표준이다. 미디어 사물 간 주고 받기 위한 표준화된 데이터 표준은 제정되었으나, 미디어 사물에 연결하기 위한 미디어 사물의 서비스 조건에 대한 서술 표준은 존재하지 않는다. 본 논문에서는 미디어 사물을 연결하기 이전에 서비스 정보를 제공하기 위한 Service Description 온톨로지를 제안하며 제안된 온톨로지를 통해 미디어 사물의 자동화된 스마트 계약이 수월해질 것으로 예상된다.
-
본 논문에서는 블록체인 및 암호화폐를 이용한 재능 거래 플랫폼을 제안한다. 재능 거래 플랫폼은 프로그램의 외주나 컨텐츠 제작 등의 재능 거래를 중개하는 플랫폼이다. 기존의 재능 거래 플랫폼은 서버-클라이언트 모델 기반의 서비스를 제공하고 있다. 이에 따라 서버를 운용하는데 드는 비용과 관리를 위한 인건비가 발생한다. 따라서 이용자들은 높은 수수료를 부담하게 된다. 또한 서버-클라이언트 모델의 서비스의 경우 이용 업체의 요청에 따라 중앙 관리자가 평가 및 평점에 대한 조작 및 수정을 할 수 있는 가능성이 존재한다. 이러한 단점을 보완하기 위해 블록체인 및 암호화폐 기술을 적용하여 P2P 거래를 통해 이용자에게 부과하는 수수료의 부담을 낮추고, 평가를 블록 데이터로 포함하여 데이터의 위 변조 가능성을 낮춰 신뢰성을 확보하는 시나리오를 제안한다.
-
Image-to-image 변환에서 인상적인 성능을 보이는 StarGAN 은 모델의 성능에 중요한 영향을 끼치는 adversarial weight, classification weight, reconstruction weight 라는 세가지 하이퍼파라미터의 결정을 전제로 하고 있다. 본 연구에서는 이 중 conditional GAN loss 인 adversarial loss 와 classification loss 를 대치할 수 있는 attribute loss를 제안함으로써, adversarial weight와 classification weight 를 최적화하는 데 걸리는 시간을 attribute weight 의 최적화에 걸리는 시간으로 대체하여 하이퍼파라미터 탐색에 걸리는 시간을 획기적으로 줄일 수 있게 하였다. 제안하는 attribute loss 는 각 특징당 GAN 을 만들 때 각 GAN 의 loss 의 합으로, 이 GAN 들은 hidden layer 를 공유하기 때문에 연산량의 증가를 거의 가져오지 않는다. 또한 reconstruction loss 를 단순화시켜 연산량을 줄인 simplified content loss 를 제안한다. StarGAN 의 reconstruction loss 는 generator 를 2 번 통과하지만 simplified content loss 는 1 번만 통과하기 때문에 연산량이 줄어든다. 또한 이미지 Framing 을 통해 배경의 왜곡을 방지하고, 양방향 성장을 통해 학습 속도를 향상시킨 아키텍쳐를 제안한다.
-
최근 CNN 등 인공신경망은 최근 이미지 분류, 객체 인식, 자연어 처리 등 다양한 분야에서 뛰어난 성능을 보이고 있다. 그러나, 대부분의 분야에서 보다 더 높은 성능을 얻기 위해 사용한 인공신경망 모델들은 파라미터 수 및 연산량 등이 방대하여, 모바일 및 IoT 디바이스 같은 연산량이나 메모리가 제한된 환경에서 추론하기에는 제한적이다. 따라서 연산량 및 모델 파라미터 수를 압축하기 위한 딥러닝 경량화 알고리즘이 연구되고 있다. 본 논문에서는 임베디트 보드에서의 압축된 CNN 모델의 성능을 검증한다. 인공지능 지원 맞춤형 칩인 QCS605 를 내장한 임베디드 보드에서 카메라로 입력한 영상에 대해서 원 CNN 모델과 압축된 CNN 모델의 분류 성능과 동작속도 비교 분석한다. 본 논문의 실험에서는 CNN 모델로 MobileNetV2, VGG16 을 사용했으며, 주어진 모델에서 가지치기(pruning) 기법, 양자화, 행렬 분해 등의 인공신경망 압축 기술을 적용하였을 때 원래의 모델 대비 추론 시간 및 분류의 정확도 성능을 분석하고 인공신경망 압축 기술의 유용성을 확인하였다.
-
본 논문에서는 구역을 나눔으로써 상황에 따라 강조하고 싶은 부분을 부각시키는 방법을 활용하여 히스토그램을 처리하는 기법을 제안한다. 기존의 히스토그램 스케일링과 평활화 방법은 간단한 알고리듬으로 사용이 편하지만 쓸 수 없는 상황이 존재한다. 먼저 히스토그램 스케일링에서는 사진이 갖고 있는 명암 최댓값과 최솟값을 늘리는 방법이지만, 범위를 늘릴 수 없는 경우에는 이 방법이 제한된다. 히스토그램 평활화는 사진이 갖고 있는 명암의 히스토그램 누적분포함수 (CDF)가 일정한 기울기를 갖게 변환하는 방법이다. 이 방법에서는 밝기 변화가 거의 없었던 부분에서 품질이 낮아지는 단점이 있다. 제안하는 알고리듬은 영상에서 강조하고 싶은 부분을 설정한 뒤, 구역을 나눔으로써 기존의 히스토그램 스케일링과 히스토그램 평활화의 단점을 개선했다. 제안한 알고리듬을 평가하기 위해서 주관적인 지표로 20명을 대상으로 설문을 진행하였다. 블라인드 테스트로 원본과, 기존의 히스토그램 처리 기법을 이용한 영상, 제안된 히스토그램 처리 기법을 이용한 영상을 비교하였다. 실험 결과를 통해 제안된 알고리듬이 기존의 알고리듬보다 영상의 화질을 개선했음을 확인했다.
-
본 논문에서는 도메인 어댑테이션을 이용하여 폰트 변화에 강인한 한글 분류기를 학습하는 방법을 제안한다. 제안하는 네트워크 모델은 총 7 개로 이루어져 있으며 각각 이미지로부터 폰트에 무관한 정보를 추출하는 인코더, 추출된 정보의 유효성을 판단하기 위해 이미지 재합성에 사용되는 디코더, 재합성된 이미지의 글자 분류기, 폰트 분류기, 재합성된 글자의 정교함을 판단하는 판별기(discriminator), 그리고 인코더에서 추출된 정보에 대한 글자 분류기, 폰트 분류기이다. 본 논문에서는 적대적 생성 신경망의 학습법을 따르는 도메인 어댑테이션 기법을 이용하여 인코더의 추출 정보가 폰트 정보는 속이면서 글자 분류의 정확성은 높이도록 학습하였다. 학습 결과 인코더로부터 추출되는 정보들은 폰트에 무관한 성질을 지니면서 글자 분류에 높은 정확성을 띄었으며, 추가로 디코더에서 나오는 이미지들도 원본 폰트와 같은 이미지를 생성해 낼 수 있었다.
-
모바일 디바이스와 스마트 글래스의 확산/보급으로 다양한 AR/VR/MR 어플리케이션이 출시 되었으나, 사용자들이 일반적으로 가정에서 많이 사용하는 대형 Display인 TV에서 이용할 수 있는 AR/VR/MR 어플리케이션은 거의 없는 실정이다. TV 디바이스에서 이러한 영상처리 기법을 이용하려면 별도의 카메라나 CPU가 필요한데, 이를 이용하기 위해 사용자들이 별도의 투자를 하기 어렵기 때문이다. 본 논문에서는 사용자에게 가장 친숙한 모바일 디바이스와, 디지털 TV신호를 수신하기 위한 STB를 연동하여 다양한 AR/VR/MR 서비스를 이용할 수 있는 방법을 제안하고 실제 시스템 구현과 실험을 통해 제안된 방법의 품질 및 실시간성 향상을 검증한다.
-
Double JPEG compression detection is one of the most important ways of exposing the integrity of the JPEG image in image forensics. Several methods have been proposed for discriminating against the double JPEG image. In this paper, we propose a new method for restoring the JPEG compressed image and making the detector confused by introducing a Generative Adversarial Network (GAN). First, a generator network is designed for restoring the JPEG compressed image and analyzed the quality. Then, the restored image is tested with the double compression detector for evaluating the robustness of the proposed GAN model. The detection accuracy reduces from 98% to 58%.
-
최근 자원 효율성을 증대하기 위하여 차세대 유무선 통신시스템에서 동일대역 전이중 방식(In-band full-duplex, FDX)을 채택하고 있다. 하지만 전이중 방식은 송수신이 동시에 이루어지기 때문에 하향신호와 상향신호가 더해져 수신된다. 따라서 원하는 신호를 수신하기 위해 자기간섭(SI: self-interference)으로 존재하는 하향 신호를 제거하는 기술이 요구된다. 본 논문에서는 DOCSIS 3.1 기반 케이블 방송시스템에서 2차 구조의 자기간섭신호 제거(SIC: SI cancellation)기술을 제안하고 실시간 성능을 분석한다.
-
가상현실과 증강현실의 대중화로 사람의 동작을 실시간 3D 애니메이션으로 구현하는 연구가 활발히 진행 중이다. 특히 Microsoft에서 키넥트 (Kinect)를 개발함에 따라 저렴한 가격에 부가적인 장치 필요 없이 간단한 조작만으로도 3D 모션 정보 취득이 가능해졌다. 하지만 키넥트 카메라는 마커 기반 모션 캡쳐 시스템에 비해 관절 정보의 추정 성능이 뒤떨어져 낮은 정확도를 보이는 단점을 지니고 있다. 이에 본 논문에서는 키넥트 카메라를 이용해 사람의 관절 정보를 취득하고 이것에 관절 가동 범위 (Range of Motion, ROM)를 적용하여 비정상적인 동작을 보정하는 시스템을 제안한다. ROM을 구하는 방법으로는 수행자가 모든 관절에 대해 회전 운동을 수행한 뒤 관절들의 회전 운동 정보를 취득, 분석하여 정상적인 ROM을 설정하고 실험으로부터 사람의 동작이 개선되는 것을 확인하였다.
-
머신러닝을 활용한 이미지 분류는 단순 사물을 넘어서 사람의 감성과 같은 추상적이고 주관적인 개념에도 적용되고 있다. 이 중에서도 합성곱 신경망을 통한 이미지의 감정 분류 연구가 더욱 활성화되고 있다. 그럼에도 다양한 멀티미디어들을 머신러닝 알고리즘으로 분석하고 이를 의미있는 결과로 재생성하기는 매우 복잡하고 까다롭다. 본 연구에서는 기존 연구를 개선시켜 음악 데이터를 다층퍼셉트론 모델을 통해 분류된 이미지와 결합한 동영상을 파이썬의 다양한 라이브러리를 통해 자동으로 생성하였다. 이를 통해 특정 분위기로 분류된 이미지들과 이에 어울리는 음악을 매칭시켜 유의미한 새로운 멀티미디어를 자동으로 생성할 수 있었다.
-
본 논문에서는 토지 정보를 분류하는 연구를 수행하기 위한 이미지 데이터 셋을 개발하는데 필요한 반자동 annotation 도구를 제안한다. 논문에서 제안하는 도구는 합성개구레이더 영상을 입력으로 하고, 물/경작지/숲/건물을 구분하는 시스템을 개발하기 위해서 만들어진 것이나, 다른 목적을 가지는 토지 관련 이미지 분석 시스템의 개발에 사용될 수 있다. 제안하는 도구는 합성개구레이더 영상이 GPS 정보와 같이 입력되었을 때, GPS 정보에 기반하여 토지지목정보를 불러오고, 이를 재정리하여 1차 레이블링 결과를 자동적으로 생성한다. 국가에서 관리하는 토지지목정보는 개발하고자 하는 시스템의 분류 기준에 많은 부분 도움이 되긴 하지만, 일부분 차이점이 있기 때문에 이를 다시 수동으로 수정하는 도구을 동작하여 annotation이 완료된 이미지 데이터를 구축한다.
-
Shin, Won-Jae;Kwon, Eunjung;Park, Hyunho;Jung, Eui-Suk;Byon, Sungwon;Jang, Dong-Man;Lee, Yong-Tae 71
최근 공공안전 분야에서는 국민의 위험상황을 분석하여 선제적으로 예측을 하여 국민의 안전을 보장하기 위한 요구사항이 대두대고 있다. 또한 스마트폰 및 스마트워치와 같은 고성능 모바일 단말 기기들의 대중화로 인해 해당 기기들에 부착된 다양한 센서 데이터들을 융복합하여 분석할 경우, 수집한 센서 데이터의 잠재적 가치를 안전보장 측면에서 사용할 수 있는 장점이 있다. 본 논문에서는 대인, 대물, 장소에 해당하는 로그 데이터들을 융복합 분석하여 보호대상자의 안전을 지원하는 다중로그 플랫폼 기반 이동경로 분석 기법을 제안한다. 다중로그 플랫폼에서 수집하는 보호대상자의 이동 경로 궤적을 활용하여 과거에 축적된 이동경로 패턴과 비교를 통해 현재 경로가 평소에 이용하던 경로와의 유사도를 추천하게 된다. 해당 이동 경로 분석 시스템은 위치기반 멀티모달 센서 데이터를 융복합 하여 보호대상자의 안전을 보장하는데 기여 할 것으로 예상된다. -
360°VR 영상은 카메라에서 촬영된 여러 영상들을 이어 붙이는 작업인 스티칭(Stitching)을 통하여 만들 수 있다. 스티칭은 영상들을 이어 붙이기 위해 각 영상의 특징점을 추출하는 특징점 추출, 특징점간 유사도를 비교하여 유사한 특징점끼리 매칭시키는 특징점 매칭, 특징점 매칭 과정에서 획득한 호모그래피 매트릭스를 이용한 이미지 와핑, 각 영상 간의 부자연스러운 경계선을 제거하는 블렌딩 과정을 거친다. 고품질의 360°VR 영상을 획득하기 위해서는 영상의 개수를 증가시킬 필요가 있고, 이로 인해 스티칭 과정에서 소요되는 시간이 증가한다. 본 논문에서는 카메라 센서 정보를 이용해 유사한 영상끼리 클러스터링하여, 한번에 스티칭이 진행되는 영상의 수를 감소시키고, 멀티 스레드를 이용하여 각 그룹의 스티칭을 병렬적으로 진행한 뒤, 최종적으로 스티칭하여 최종 360°VR 영상을 획득하는 과정을 제안한다.
-
합성곱 신경망의 성능이 증가하면서 다양한 영상 처리 문제를 해결하기 위해 합성곱 신경망을 적용한 시도들이 증가하고 있다. 고해상도 복원 문제도 그 중 하나였으며, 보다 높은 성능을 얻기 위해 주로 신경망의 깊이를 깊게 하는 시도들이 있었다. 본 논문에서는 고해상도 복원 작업을 위한 합성곱 신경망의 성능 향상을 위해 깊이를 증가시키는 접근법이 아닌 수용영역을 확장시키는 접근법을 시도하였다. 논문에서 제시한 모델은 신경망 내부에 두 개의 브랜치를 두어, 하나의 브랜치는 Dilated Convolution 을 이용해 수용영역을 확장하는데 사용되며, 다른 하나는 이 브랜치를 통해 나온 feature 를 가공하는데 사용된다. 기본 모델은 EDSR 을 사용하였으며, 최종적으로 4.79M 의 파라미터로 평균 32.46dB 의 PSNR 을 보여주었다. 하지만 모델의 구조가 복잡하여 깊이를 늘이는 접근법을 적용하기 어렵다는 한계점이 있다.
-
드론은 좁은 장소나, 도로 위에서도 자유롭게 운용할 수 있다는 등의 장점으로 인해 점차 교통 모니터링 분야에 서도 널리 쓰이고 있다. 교통 모니터링을 통해 교통관제가 가능하며, 교통혼잡 해소에 활용할 수 있다. 교통량 확인을 위하여 기존에는 hand-crafted 기반의 방법들이 사용되었는데, 이러한 방법들은 조명이나 촬영위치에 취약하다. 따라서 이러한 문제를 해결하기 위해 본 논문에서는 딥러닝 기반의 교통량 확인 알고리즘을 제안하였다. 본 논문에서는 드론의 촬영 환경과 비슷한 환경의 도로 데이터를 수집하였다. 정확도를 좀 더 높이기 위해, 데이터 augmentation 을 하였다. 생성된 데이터를 이용하여 학습을 진행하였고, 학습 결과 97%의 정확도가 나옴을 확인하였다. 테스트 데이터에 대한 정확도 측정은 [250 pixel 이상] X [250 pixel 이상] 크기의 객체에 대해서 IOU 0.3 기준으로 측정되었다.
-
도시화 과정에서 도시의 생활폐기물 문제가 빠르게 증가되고 있고, 효과적이지 못한 생활폐기물 관리는 도시의 오염을 악화시키고 물리적인 환경오염과 경제적인 부분에서 극심한 문제들을 야기시킬 수 있다. 게다가 부피가 커서 관리하기 힘든 대형 생활폐기물들이 증가하여 도시 발전에도 방해가 된다. 생활폐기물을 처리하는데 있어 대형 생활폐기물 품목에 대해서는 요금을 청구하여 처리한다. 다양한 유형의 대형 생활폐기물을 수동으로 분류하는 것은 시간과 비용이 많이 든다. 그 결과 대형 생활폐기물을 자동으로 분류하는 시스템을 도입하는 것이 중요하다. 본 논문에서는 대형 생활폐기물 분류를 위한 시스템을 제안하며, 이 논문의 4 가지로 분류된다. 1) 높은 정확도와 강 분류(roust classification) 수행에 적합한 Convolution Neural Network(CNN) 모델 중 VGG-19, Inception-V3, ResNet50 의 정확도와 속도를 비교한다. 제안된 20 개의 클래스의 대형 생활폐기물의 데이터 셋(data set)에 대해 가장 높은 분류의 정확도는 86.19%이다. 2) 불균형 데이터 문제를 처리하기 Class Weight VGG-19(CW-VGG-19)와 Extreme Gradient Boosting VGG-19 두 가지 방법을 사용하였다. 3) 20 개의 클래스를 포함하는 데이터 셋을 수동으로 수집 및 검증하였으며 각 클래스의 컬러 이미지 수는 500 개 이상이다. 4) 딥 러닝(Deep Learning) 기반 모바일 애플리케이션을 개발하였다.
-
최근 기계학습 기술의 급속한 발전에 힘입어 자율주행을 위한 객체 인식 및 처리 기술 역시 비약적으로 발전하고 있다. 그러나 이러한 기계학습의 성능은 모델의 구조와 학습용 데이터의 품질에 영향을 받는다. 특히 주행환경을 잘 표현하는 학습데이터가 중요한데 전혀 새로운 도로, 주행환경, 장애물, 정적 혹은 동적 객체 등을 마주하면 정확도와 안정성에서 부정적인 영향을 받을 수 있는 것이다. 해외의 주행 데이터들에 크게 의존하고 있는 우리나라의 현실에 비춰 볼 때 국내 환경에 맞는 학습데이터를 쉽고 효율적으로 확보/관리/분석할 수 있게 하는 환경의 구축이 시급하다. 따라서 본 논문에서는 자율주행을 위한 기계학습 데이터를 효과적으로 관리하고 분석하기 위한 소프트웨어를 설계하고 개발하였다. 구체적으로는 수집된 영상들을 관리하는 기능, 영상에 존재하는 노이즈 제거 및 화질 개선 처리 기능, 학습 및 검증을 위한 메타 정보 태깅 기능, 태깅 정보의 통계적 분석 기능들을 포함한다. 개발한 소프트웨어는 우리나라에서 자체 촬영한 자율주행 학습 영상들에 대해 딥러닝 모델들을 학습하고 검증하는데 활용할 예정이다.
-
본 논문에서는, 에너지 인터넷에서 정밀한 수요반응을 위한 인공지능 알고리즘 모델을 제안한다. 제안하는 인공지능 모델은 시계열 전력사용량 데이터 처리를 위해 딥러닝 기반 long-short term memory (LSTM) 네트워크를 사용한다. 시뮬레이션 결과를 통해 제안한 시스템 모델의 전력사용량 예측 정확도를 확인하였다.
-
이 논문은 에너지인터넷의 실시간 가격 수요 반응 시스템에서 금전적 이익 극대화를 위해 두 명의 플레이어가 있는 Stackelberg 게임 기반 진화 게임을 연구한다. 우리는 두 명의 플레이어인 발전자와 에너지 사용자의 통일된 이익을 극대화하는 대신 발전자와 에너지 사용자의 이익을 극대화하는 에너지 전략을 적용한다. 실시간 가격 수요 반응 시스템에서 적용한 에너지 전략을 시뮬레이션하였고 시뮬레이션 결과, 적용된 에너지 전략이 기존의 방식에 비해 발전자의 수익을 45 %까지 효과적으로 개선하고 에너지 사용자의 전기 요금을 평균 15.6 % 줄일 수 있음을 보여준다. 또한, 제안한 에너지 전략이 수요반응의 목표 중 하나인 피크 대 평균 비율 감소의 안정화에 기여할 수 있음을 확인했다.
-
최근 에너지 효율에 따른 에너지 관련 통신기술의 스마트화 및 융복합화가 진행되고 있다. 또한 기존에 인터넷망만을 이용한 통신기술 외에 유사시 상황을 위한 전력선 통신 기술 개발이 진행되고 있다. 현재 전력선통신은 변복조 모뎀을 전력선 양단에 연결한 뒤 기존에 사용되는 무선통신기술을 변환하는 형태로 사용되고 있다. 이는 낮은 주파수와 높은 전력을 가지는 전력선 특성에 맞지 않아 전력선 통신에 알맞은 통신기술 개발이 필요하다. 이에 본 논문은 전력의 부하에 따라 최적의 에너지 효율을 검색하고 이에 따라 통신 방식을 변경하는 방식을 연구하였다. 이를 위하여 전력선 통신에서 규격별 잡음 모델링을 연구하고 이에 따른 통신방식을 연구하였다.
-
본 논문에서는 에너지인터넷의 한 분야인 전력선 통신 기반 전기 자동차 충전 시스템 구축에서 발생하는 임펄스 노이즈 동기화 문제를 해결하기 위해 OFDM에서 사용하는 프레임 동기화 방식을 제안한다. Kasami sequence를 통한 동기화 방식으로 전력선 통신의 임펄스 노이즈 동기화 결과를 확인한다.
-
본 논문에서는 다중 사용자 Rayleigh fading 채널 환경에서 RF 에너지하비스팅 네트워크의 에너지 효율 개선방안으로 DRF-EHN(Decoupled RF Energy Harvesting Network)을 제안한다. 시뮬레이션 결과를 통해 기존 RF-EHN 모델보다 에너지 효율이 31% 높아진 것을 확인하였다.
-
Kim, Jihoon;Kim, Eunwoo;Koh, Woojong;Lee, Seungho;Lim, Uikyo;Choi, Minyeong;Eun, Tacki;Song, Sangkeon;Kim, Dohyung;Kwon, Youngbu 98
KBS는 지역 시청자를 위하여 18개 지역(총)국에서 TV, 라디오 로컬 방송을 제작/송출하고 있다. 본 논문은 이중 지역(총)국의 라디오 매체에 대하여 2017년 개발 완료된 KBS 표준형 오디오파일시스템의 개발 및 적용 목적, 개발 내용과 2018년, 2019년 12개 지역(총)국에 적용한 사례에 대하여 소개한다. -
본 논문에서는 심층 신경망 검색 방법을 사용하여 이미지 고해상도화를 위한 심층 신경망을 설계하는 방법을 구현하였다. 일반적으로 이미지 고해상도화, 잡음 제거 및 번짐 제거를 위한 심층신경망 구조는 사람이 설계하였다. 최근에는 이미지 분류 등 다른 영상처리 기법에서 사용하는 심층 신경망 구조를 검색하기 위한 방법이 연구되었다. 본 논문에서는 강화학습을 사용하여 이미지 고해상도화를 위한 심층 신경망 구조를 검색하는 방법을 제안하였다. 제안된 방법은 policy gradient 방법의 일종인 REINFORCE 알고리즘을 사용하여 심층 신경망 구조를 출력하여 주는 제어용 RNN(recurrent neural network)을 학습하고, 최종적으로 이미지 고해상도화를 잘 실현할 수 있는 심층 신경망 구조를 검색하여 설계하였다. 제안된 심층 신경망 구조를 사용하여 이미지 고해상도화를 구현하였고, 약 36.54dB 의 피크 신호 대비 잡음 비율(PSNR)을 가지는 것을 확인할 수 있었다.
-
최근 Convolutional Neural Network (CNN)에 영상이 아닌 비학습적 알고리즘으로부터 도출된 특징맵을 입력함으로써 영상처리 성능 및 계산자원 효율성 향상을 이룬 보고가 늘어나고 있다. 본 논문에서는 이러한 점을 바탕으로 가보웨이블릿 특징맵을 입력으로 하는 CNN 기반 영상잡음제거기를 제안하고 그 성능 및 특징을 고찰하였다. 즉 기존의 CNN 에서는 일반적인 영상을 입력하는 반면에 본 논문에서는 영상으로부터 추출한 웨이블릿 계수들을 입력하였고, 이를 통하여 기존의 방법에 비하여 성능을 유지하면서 계산량을 줄일 수 있는 가능성을 확인하였다.
-
본 논문에서는 임베디드 시스템에서의 양자화 기계학습을 수행할 경우 발생하는 양자화 오차를 효과적으로 보상하기 위한 방법론을 제안한다. 경사 도함수(Gradient)를 사용하는 기계학습이나 비선형 신호처리 알고리즘에서 양자화 오차는 경사 도함수의 조기 소산(Early Vanishing Gradient)을 야기하여 전체적인 알고리즘의 성능 하락을 가져온다. 이를 보상하기 위하여 경사 도함수의 최대 성분에 대하여 직교하는 방향의 보상 탐색 벡터를 유도하여 양자화 오차로 인한 성능 하락을 보상하도록 한다. 또한, 기존의 고정 학습률 대신, 내부 순환(Inner Loop) 없는 비선형 최적화 알고리즘에 기반한 적응형 학습률 결정 알고리즘을 제안한다. 실험결과 제안한 방식의 알고리즘을 비선형 최적화 문제에 적용할 시 양자화 오차로 인한 성능 하락을 최소화시킬 수 있음을 확인하였다.
-
지구 온난화의 영향 등으로 해외 및 국내의 재난 재해 발생빈도가 증가하고 있으며, 그와 비례하여 인명 및 재산 피해 규모도 높아지고 있다. 재난방송은 예상되는 재난 등의 위험을 미리 알림으로써 재난 등에 적극적으로 대비하여, 생명과 재산을 재난으로부터 지키게 하므로 그 중요성이 더욱 증가하고 있다. KBS는 재난방송 주관방송사로 신속하고 정확한 재난보도를 전달하기 위하여 노력하고 있으며, 그 일환으로 재난을 실시간으로 통보할 수 있는 재난자막 자동화 송출 시스템을 구축하여 운용하고 있다.
-
부가적 백색 잡음 모델(additive white Gaussian noise, AWGN에서 학습된 깊은 신경만 (deep neural networks)을 이용한 잡음 제거기는 제거하려는 잡음이 AWGN인 경우에는 뛰어난 성능을 보이지만 실제 카메라 잡음에 대해서 잡음 제거를 시도하였을 때는 성능이 크게 저하된다. 본 논문은 U-Net 구조의 깊은 인공신경망 모델에 residual block을 결합함으로서 실제 카메라 영상에서 기존 알고리즘보다 뛰어난 성능을 지니는 신경망을 제안하다. 제안한 방법을 통해 Darmstadt Noise Dataset에서 PSNR과 SSIM 모두 CBDNet 대비 향상됨을 확인하였다.
-
본 논문에서는 GAN(Generative Adversarial Network)을 이용한 디지털 워터마크 삽입 및 추출 방법을 제안한다. 호스트 영상의 데이터 셋은 128×128 크기의 흑백 영상인 BOssBase 데이터 셋을 사용하고, 워터마크 영상은 8×8 크기의 이진 영상을 사용한다. 네트워크는 호스트 영상에 워터마크를 삽입하는 삽입기와 워터마크가 삽입된 영상에서 워터마크를 추출하는 추출기로 구성된다. 강인성을 위해 삽입기가 생성한 영상에 공격 시뮬레이션을 수행한 다음에 워터마크를 추출한다. 그 결과, PSNR은 31.47dB가 나왔고, 공격에 강인한 워터마크를 추출할 수 있다.
-
본 논문에서는 단일 이미지의 관심 영역에 기반한 저심도 후처리 방법을 제안한다. 저심도 이미지란 사진에서 초점이 선명하게 포착되는 깊이의 범위가 좁은 이미지를 말한다. 기존의 광학적 특성을 이용한 저심도 이미지를 만드는 과정은 물리적인 구조 설계비용 문제가 존재한다. 또한, 이미지의 후처리 보정을 통한 방법은 이미지상의 사물 깊이 정보를 알기 어렵기 때문에 이미지의 심도를 후처리하기 어려웠다. 이에 따라 본 논문에서는 슈퍼 픽셀 군집화 방법을 통해 관심 영역을 찾고, 이에 기반하여 관심 영역이 부각될 수 있는 저심도 후처리 방법을 제안한다. 제안하는 후처리 방법은 슈퍼픽셀 군집화 방법을 통해 관심영역을 설정하여 배경 영역을 분리하고 블러 과정을 수행한다. 관심 영역을 제외한 부분을 확장 한 뒤 배경 블러를 거치기 때문에 후광효과가 현저히 줄어든 저심도 효과가 적용된 이미지를 얻을 수 있었고 MSRA-1000 데이터 셋 이미지에서 우수한 주관적 화질 결과를 보였다.
-
최근 딥러닝의 급격한 발전과 함께 얼굴표정 인식(facial expression recognition) 기술이 상당한 진보를 이루었다. 얼굴표정 인식은 컴퓨터 비전 분야에서 지속적으로 관심을 받고 있으며, 인포테인먼트 시스템(Infotainment system), 인간-로봇 상호작용(human-robot interaction) 등 다양한 분야에서 활용되고 있다. 그럼에도 불구하고 얼굴표정 인식 분야는 학습 데이터의 부족, 얼굴 각도의 변화 또는 occlusion 등과 같은 많은 문제들이 존재한다. 본 논문은 얼굴표정 인식 분야에서의 위와 같은 고유한 문제들을 다룬 기술들을 포함하여 고전적인 기법부터 최신 기법에 대한 연구 동향을 제시한다.
-
감정인식 기술은 인간과 인공지능이 감정적인 상호작용을 위하여 매우 중요한 기술이다. 얼굴영상 기반의 감정인식 연구는 가장 널리 진행되어 왔으나 우리는 표정에서 드러나지 않는 내면의 감정을 인식하기 위하여 뇌전도를 이용한 감정인식 기법을 제안한다. 먼저 2 초 구간의 뇌전도 신호에 대하여 time, frequency, time-frequency 영역에서 특징점을 추출하고 이를 3 개의 fully connected layer 로 구성되어 있는 regressor 를 이용하여 valence 정보를 추정한다. MAHNOB-HCI 데이터세트에 대한 실험결과에서 제안기법은 종래기법보다 낮은 오차를 보이며 감정의 변화를 실시간으로 인식하는 결과를 보인다.
-
본 논문에서는 사람의 내면상태 인식을 위한 상호작용 체계 구축을 위하여 사람의 감정 데이터를 효과적으로 수집하기 위한 프로토콜을 제안하고, 프로토콜에 따라 수집된 데이터에 대한 분석 및 결과를 제시한다. 감정 데이터 수집 프로토콜의 개발은 기존 문헌과 시스템 리뷰를 통한 감정분류체계 수립, 분류체계에 따른 감정 유발 영상 수집 및 신뢰도 확보, 감정 데이터 수집을 위한 인간 대상 실험 절차 구축 및 타당도 확보의 단계로 이루어졌다. 수집된 사람의 실시간 감정 데이터는 기계학습을 통한 감정 분류 연구의 기준으로 활용이 가능하다.
-
본 논문은 다양한 음성 특징과 텍스트를 이용한 멀티 모드 순환신경망 네트워크를 사용하여 음성을 통한 범주형(categorical) 분류 방법과 Arousal-Valence(AV) 도메인에서의 분류방법을 통해 감정인식 결과를 제시한다. 본 연구에서는 음성 특징으로는 MFCC, Energy, Velocity, Acceleration, Prosody 및 Mel Spectrogram 등의 다양한 특징들의 조합을 이용하였고 이에 해당하는 텍스트 정보를 순환신경망 기반 네트워크를 통해 융합하여 범주형 분류 방법과 과 AV 도메인에서의 분류 방법을 이용해 감정을 이산적으로 분류하였다. 실험 결과, 음성 특징의 조합으로 MFCC Energy, Velocity, Acceleration 각 13 차원과 35 차원의 Prosody 의 조합을 사용하였을 때 범주형 분류 방법에서는 75%로 다른 특징 조합들 보다 높은 결과를 보였고 AV 도메인 에서도 같은 음성 특징의 조합이 Arousal 55.3%, Valence 53.1%로 각각 가장 높은 결과를 보였다.
-
이 연구에서는 재난문자에서의 외국어 제공 현황에 대해 알아보았다. 우선, 뉴스를 분석한 결과, 외국인들은 국내 재난문자의 문제점으로 한국어라는 언어 제공 한정을 꼽았다. 다음으로, 미국은 WEA 규정에 따라 영어 외에 스페인어로 된 경고 메시지를 지원해야 하는 것으로 나타났다. WEA에서의 다국어 제공을 위한 다양한 노력도 하고 있었다. 마지막으로, 일본은 이동통신사 차원에서 다국어 재난문자를 지원하고 있는 것으로 나타났다. NTT DOCOMO는 외국인을 위해 일본어 재난문자를 영어, 중국어, 한국어로 번역해 주는 기능을 제공하고 있었다. KDDI도 NTT DOCOMO가 제공하는 언어 외에 포르투칼어, 스페인어도 제공하고 있었다.
-
자율 주행 차량의 상용화를 위해서는 차량의 정교한 위치 추정이 필수적이다 특히 실내공간의 경우 다중 경로 등 복잡한 경로를 주행 중인 차량의 위치를 추적해야 한다. 이 경우 정밀한 위치 추정을 위해 이동체가 주행하는 경로를 정확히 판별하는 것이 필수적이다. 본 논문에서는 다중 경로가 존재하는 복잡한 실내공간을 주행하는 이동체의 경로 추정을 위해 딥러닝 기법을 이용한다. 특히 딥러닝 기법이 주행 차량의 영상 정보를 활용하는 방식을 기술한다. 본 논문에서 딥러닝 방식은 주행 차량의 영상 정보를 이용하여 이동체가 주행하게 될 경로를 예측한다. 모의실험은 적용된 딥러닝 방식이 이동체의 주행 경로를 정확하게 예측함을 보인다.
-
현 재난문자 서비스는 텍스트 기반의 재난경보 서비스 이다. 이 경우 한글에 익숙하지 않은 외국인 들은 제공받은 문자 메시지를 정확히 이해하기가 불가능하다. 이에 이미지 등 멀티미디어 정보를 제공함으로써 효과적인 재난경보 서비스를 실현할 수가 있다. 그러나 현 재난문사 서비스 방식은 멀티미디어 정보 전송에 적합하지 않다. 본 논문에서는 이러한 단점을 극복하고자 단말기에서 재난 이미지 표출을 위한 펌웨어 기반의 재난문자 서비스 방식을 제안한다. 이 방식을 위한 단말기는 재난 종류에 대응하는 이미지들을 미리 저장하고 있어야 한다. 또한 재난문자 메시지는 이미지 표출을 알려주는 특수문자를 사용한다. 이 방식은 신형 단말기에 장착되는 새로운 펌웨어를 이용하여 구현될 수 있다. 또한 본 논문은 이러한 방식이 기존 단말기와 충돌이 없음을 보여준다.
-
이 연구에서는 현 재난 경보에서 재난 약자가 가질 수 있는 취약성에 대해 알아보았다. 그리고 해당 취약성에 대한 해결 방안과 해결을 위해 적용할 수 있는 기술적 요구사항도 함께 알아보았다. 재난 약자는 경보 수신 공백, 맞춤형 서비스 부족, 단독 대응 불가 등과 같은 공통적 재난 경보 취약성과 함께 어린이, 노인, 외국인, 장애인 집단 별로 차별적 취약성을 가지는 것으로 나타났다. 이를 보완하기 위해서는 단말기에 이동통신 수신 모듈과 ATSC 3.0 수신 모듈 모두 탑재, ATSC 3.0 방송망을 통해 재난 약자 유형에 맞춘 복수의 메시지 전송, 단말기의 수신자 프로파일 설정에 의한 메시지 표출, 기존의 AEAT 개선 등이 공통적으로 필요하다. 그리고 어린이, 노인, 외국인, 장애인 집단 별로 차별적 취약성을 보완할 수 있는 차별적 기술도 필요하다.
-
Park, Seungkeun;Lee, Jaekwon;Koh, Woojong;Jang, Hojin;Park, Minho;Jeong, Jongwan;Jung, Jeagab;Jun, Sungsang;Kim, Jaeman;Kim, Huengsug;Kim, Jaekyung 151
국내 지상파 방송 3사는 세계최초로 2017년에 지상파 UHD 본방송 서비스를 시작하였다. 지상파 UHD 방송은 ATSC 3.0 표준 기반으로 단일주파수로 방송망을 구축할 수 있으므로 각 송신소별 커버리지 중첩지역에서 방송망을 효율적으로 설계하는 것이 필요하다. 또한, ATSC 3.0 송신 장비를 실 방송환경에서 운용하기 위해서는 H/S 와 같은 안정적인 형태로 장비가 구축되어야 한다. 본 논문에서는 2017년 수도권 UHDTV 본방송이 진행된 이후, KBS에 구축한 수도권 UHD-TVR 구축 과정과 수도권 UHDTV 방송망 분석을 위한 필드테스트 결과에 대해 살펴보고자 한다. -
본 논문에서는 기존의 DERS, VSRS를 이용한 가상시점 합성이 가지고 있는 문제점을 해결하기 위해 비지도 학습 방식의 학습 모델을 이용하여 가상시점 합성에 적용하는 방식을 제안한다. 제안한 방식에서는 기존의 DERS와 달리 Disparity의 탐색범위를 지정하지 않고 Depth의 예측이 가능하며 단안의 영상에서 Depth를 예측하기 때문에 가상시점 합성 시 더 넓은 시점을 합성 할 수 있다. 또한 기존 방식은 Depth와 합성 영상을 각각 처리해야하지만 제안하는 방식은 한 번에 작업이 이루어지며, GPU를 기반으로 구현하였기 때문에 기존의 합성 방식 보다 처리 속도가 우수하다.
-
정보를 전달하는 데에는 여러 수단이 있다. 그 중 가장 많은 양의 정보를 가장 직관적으로 전달하는 수단은 영상이다. 그렇기 때문에 사람들은 예로부터 공연과 연극을 통해 시각적인 형태로 내용과 분위기 등 다양한 정보들을 전달해왔고, 오늘날에는 영화 필름의 형태로 전달하기도 한다. 현대에는 기술이 점점 발전하고 한 매체가 담을 수 있는 용량이 커지면서 통용되는 데이터량이 늘어나고 있고, 또한 개개인의 삶이 하나의 컨텐츠가 되면서 사회 전체적으로 유통되는 데이터량이 급증하고 있는 추세이다. 이러한 사회적 추이를 따라 영상을 효과적으로 운용하는 중요성이 대두되고 있고, 이를 위해 그 데이터량을 효과적으로 관리하는 다양한 압축 기술에 대한 연구가 이루어지고 있다. 최근 국내에서 5G 통신 기술이 상용화되는 것을 보면서도 알 수 있듯이 기술이 발전함에 따라 처리해야하는 데이터량이 많이졌고 많은 데이터량을 처리하는 속도도 발전하였지만 많은 데이터량을 효율적으로 줄이는 방법도 매우 중요해졌다. 이점에 착안하여 본 논문은 JPEG 인코더를 구현해봄으로써 영상의 효율적인 압축에 대한 이해도를 높이고 압축 자체에 대한 개념을 깊이 있게 함양하기 위해 본 연구 주제를 선정하였다.
-
본 논문에서는 물체인식 딥러닝 모델 생성에 필요한 라벨링(Labeling)과정에서 사용자가 다양한 기능을 활용하여 효과적인 학습 데이터를 구성할 수 있는 GUI 프로그램을 구현했다. 프로그램의 인터페이스는 파이썬 기반의 GUI 모듈인 Tkinter 를 활용하여, 실시간으로 이미지 데이터를 수집할 수 있는 크롤링(Crawling)기능과 미리 학습된 Retinanet 을 통해 이미지 데이터를 인식함으로써 자동으로 주석(Annotation) 과정을 수행할 수 있는 기능을 구성했다. 또한, 수집한 이미지 데이터를 다양한 효과와 노이즈, 변형 등으로 Augmentation 기능을 추가함으로써, 사용자가 모델을 학습하기 위한 데이터 전처리 단계를 하나의 GUI 프로그램에서 수행할 수 있도록 했다. 또한 사용자가 직접 학습한 모델을 추정 모델(Inference Model)로 변환하여 프로그램에 입력할 수 있도록 설계한다.
-
The advancement in technology has led to the enormous use of multimedia applications. The video/image recorded by such applications provides critical information that can be used as a visual evidence. However, owing to the adequacy in using different editing tools, it is susceptible to malicious alterations. Thus, the reliability or the integrity of the visual information should be verified before using it as an evidence. In this paper, we propose an integrity verification method for the surveillance system using randomized hashing. The integrity value of the surveillance data is generated using the randomized hashing and elliptic curve cryptography (ECC), which is used later for the validation. The experimental results obtained from the embedded accident data recorder (ADR) system shows that the proposed method is very efficient and provides a high level of security.
-
This paper proposes an algorithm to detect persons in bitstream domain by skipping a reconstruction picture process in HEVC decoding. A new 3-channel feature extraction map is introduced in this paper by modelling the relationship between bits per CU density, average PU shape in CU, and total transform coefficients in CU from syntax elements. A state-of-the-art of YOLOv3 detection algorithm is used to detect and localize person on extracted feature maps. Based on the experimental results, the proposed person detection framework can achieve mAP of 0.68 and be able to find persons on feature maps. In addition, the proposed person detection can save decoding time about 60% by removing reconstruction picture process.
-
Cha, Eunyoung;Seol, Kwon;Lee, Jong Hyun;Kim, Gyeol;Ahn, Haesung;Kwon, Hyuk In;Kim, Hyeongseok;Kim, Jeongchang 172
본 논문에서는 사용자가 자신의 움직임 및 심장 박동 상태를 모니터링 하기 위한 생체 인터넷 (Internet of Biometry: IoB) 기반의 HW/SW (hardware/software) 플랫폼 (platform)을 제안한다. 제안하는 시스템은 모션 센서 (motion sensor) 또는 심박 (heart rate) 센서와 같이 사용자의 생체 정보를 수집할 수 있는 센서를 사용한다. 또한, 마이크로프로세서 (microprocessor)를 사용하여 센서로부터 수집된 데이터를 사용자에게 필요한 생체 정보로 변환하고, 블루투스 (Bluetooth) 통신을 이용하여 사용자의 스마트폰 앱 (smartphone application)으로 변환한 생체 정보를 전달한다. 스마트폰 앱은 수신한 생체 정보를 디스플레이 (display)함으로써, 사용자가 자신의 상태를 모니터링 (monitoring) 할 수 있다. 제안한 시스템을 사용하여 해양 레포츠 (leisure sports) 등과 같은 활동을 하는 사람들이 자신의 몸 상태를 스스로 확인할 수 있고, 사고 예방의 효과를 얻을 수 있다. -
보안 시스템의 중요성이 늘어남에 따라 열악한 CCTV 영상 환경에서의 범죄 예방 및 검거의 중요성이 늘어나고 있다. 본 논문은 CCTV의 제약 환경에 맞는 데이터 취득, 근적외선 및 가시영역 혼합 영상의 분리 및 복원 방법을 제안한다. 데이터 취득 및 학습시킨 데이터의 성능은 PSNR 방법을 이용해 비교하였고, 저조도 영역의 근적외선과 가시영역의 분리 성능은 34dB 이상이 나왔다. 색 복원은 PSNR 측면에서는 22.5dB가 나왔고, 저조도 영역의 분리 성능과 비교하여 낮은 성능을 기록하다. 색복원의 평가 정도는 원본 영상과 주관적 평가방법을 사용하여 비교하였다.
-
이미지 스티칭 기술은 360 VR 영상을 제작하기 위한 기술들 중 가장 중요한 기술 중 하나이며 활발하게 연구되고 있는 분야이다. 이렇게 제작된 VR 영상에서 발생하는 이질감은 이미지를 합성하는 스티칭 과정에서 오류에 의해 전체적인 품질이 저하되기 때문이다. 본 논문에서는 스티칭 과정에서 발생하는 다양한 오류 중 다양한 시점으로의 촬영으로 인해 발생하는 밝기 차에 의해 발생하는 이질감을 감소시키고 명암 대비를 높임으로써 후처리 과정에서 발생 가능한 오류를 사전에 감소시킬 수 있는 밝기 보상 알고리즘을 제안한다.
-
This paper proposes a rate control algorithm for intra coding frame in HEVC encoder using a deep learning approach. The proposed algorithm is designed for CTU level bit allocation in intra frame by considering visual features spatially and temporally. Our features are generated using visual geometry group (VGG-16) with deep convolutional layers, then it is used for bit allocation per each CTU within an intra frame. According to our experiments, the proposed algorithm can achieve -2.04% Luma component BD-rate gain with minimal bit accuracy loss against the HM-16.20 rate control model.
-
본 논문은 이동형 프로젝션 디스플레이 구현을 위해 드론에 빔 프모젝터를 탑재한 드론 탐재형 프로젝터 시스템을 제인한다. 드론 탑재형 프로젝터 시스템의 주된 문제점은 드론의 모터에서 발생하는 흔들림이 그대로 프로젝터에 전달되기 때문에 프로젝션 영상에 왜곡이 발생하게 된다는 것이다. 이러한 왜곡현상은 드론의 움직임에 따라 파동현상 (Fluctuation), 축 이동, 축 회전으로 구분할 수 있다. 본 논문에서는 드론 탑재형 프로젝터에서 자주 발생하는 파동현상을 초음파센서를 이용하여 안정화 하는 방법을 제안한다.
-
본 논문에서는 영상에서 발생하는 주기적 잡음을 제거하기 위해 다양한 필터들을 이용하여 성능 비교 실험을 수행한다. 영상의 주파수 도메인에서 지역적으로 잡음이 발생하면 영상의 공간 도메인에서 주기적인 잡음이 발생한다. 우선, 영상을 주파수 도메인에서 잡음을 야기시키는 영역을 분석하여 해당 영역에 지역적으로 노치 필터를 적용한다. 이를 통해 영상의 원신호를 유지하면서 영상에서 발생했던 주기적 잡음을 제거함으로써 영상의 화질이 개선됨을 실험을 통해 검증했다. 또한 객관적 지표 비교를 통해 3 가지의 지역적인 노치 필터들의 성능을 비교하고 최적의 필터를 제시한다.
-
Long-term global motion compensation (LT-GMC) was designed to compensate camera motion effectively. The LT-GMC warps a reference picture according to an estimated affine/homography model and stores it in its decoded picture buffer for long-term reference. Most previous works on LT-GMC have focused on improving quality of the warped picture, however, there has been only little consideration on the overhead of its motion coding. In this paper, we address this problem and propose a method, namely Scaling Predictor, to reduce the motion coding overhead for LT-GMC. Our experiment has shown BD-Rate reduction of 1.40% over conventional LT-GMC scheme by applying the proposed method.
-
ISO/IEC JTC1 WG11 Moving Picture Expers Group 과 ITU-T SC16 은 Joint Video Experts Team 을 구성하여 차세대 비디오 부호화 표준으로서 Versatile Video Coding(VVC)를 표준화 중이다. VVC 는 현재 블록의 화면내 예측 모드일 가능성이 높은 모드의 집합인 Most Probable Mode(MPM) 리스트를 유도하고, MPM 을 이용하여 효율적으로 화면내 예측 모드를 부호화한다. VVC 참조 소프트웨어는 주변 블록의 화면내 예측 모드가 일치하는지 여부에 따라 1 개 또는 2 개의 모드를 최종 후보 선택을 위한 과정인 Rate-Distortion Optimization(RDO) 과정에 추가한다. 하지만 현재 MPM 은 항상 첫 번째 후보로 Planar 모드가 위치하며 이로 인하여, 주변 블록의 화면내 예측 모드가 RDO 에 추가되지 않는 경우가 존재한다. 따라서 본 논문은 VVC 의 부호화기에서 주변 블록의 화면내 예측 모드가 고려되지 않는 경우가 존재하는 문제를 해결하기 위한 방법을 제안한다. 제안 방법은 MPM 유도 과정에서 RDO 에 포함할 후보의 개수를 수정하여 RDO 과정에 항상 주변 블록의 화면내 예측 모드가 추가되도록 한다. 본 논문은 실험을 통해 제안 방법이 약 0.04%의 부호화 효율을 향상시켰음을 보인다.
-
In this paper, we propose a frequency location adaptive hard-decision quantization (HDQ) scheme for video coding. A threshold for zero quantized level is adaptively applied to unquantized transform coefficients based on its frequency location in the transform domain. The proposed method achieves an average of 1.13%, 1.57%, and 1.53% of bit-rate reduction in BDBR sense compared to the conventional HDQ scheme respectively in Y, Cb, and Cr under the all intra encoding configuration.
-
다양한 워터마킹 방식 중 m-sequence 기반 방식은 일반적으로 상관 관계를 이용한 다른 시퀀스 기반 방식에 비해 노이즈에 취약하고, 블러링에 안정성이 떨어진다는 문제점이 있다. 본 논문에서는 이를 해결하기 위해 블러링과 gaussian noise 에 안정성을 가지는 watermark 인코더와 디코더의 알고리듬을 제안한다. 인코더에는 히스토그램 평활화 과정을 추가하고 디코더에는 샤프닝 필터를 추가하여 실험을 진행했고, 결과적으로 워터마크의 복원율이 개선되었다.
-
영상처리 분야에서 이미지 샤프닝 기법은 주관적 화질 향상에 큰 역할을 하고 있다. 본 논문에서는 모폴로지 기법을 이용한 향상된 이미지 샤프닝 알고리듬을 제안한다. 기존의 Sobel이나 Laplacian 연산자는 에지 검출에 있어서 잡음에 취약하다는 단점이 있다. 이를 해결하기 위해 잡음에 상대적으로 민감하지 않은 모폴로지 기법을 이용했다. 우선, 침식 연산을 수행한 이미지와 원본 이미지와의 차를 통해 에지를 얻는다. 이 에지는 원본 이미지의 히스토그램의 표준 편자 값을 기반으로 원본 이미지와 가중합을 통해 에지를 중점적으로 선명하게 만든다. 실험을 통해 제안하는 알고리듬은 기존의 Sobel이나 Laplacian 연산자 보다 우수한 성능을 보임을 알 수 있었다.
-
영상 보안 시스템에 사용되는 일반적인 CCTV 로 획득한 영상에서의 움직이는 피사체의 화질은 좋지 않다. 본 논문에서는 주변광을 정의하고 이를 통해 외부조명 조건하에 획득한 영상의 모션 디블러링을 위한 PSF 패턴을 최적화하여 영상의 화질을 개선하는 방법을 제안한다. 제안하는 알고리즘은 외부조명 동작 패턴에 주변광을 분석한 패턴을 더하여 영상복원을 수행하기 위한 PSF 패턴을 생성한다. 제안한 방법으로 최적화된 PSF 패턴을 사용하여 영상을 복원한 결과 기존에 사용된 방법에 비해 주관적 화질이 향상됨을 확인할 수 있다.
-
MPEG 에서는 최대 6 자유도(6DoF)를 가지는 몰입형 미디어의 압축 표준화를 진행하고 있다. 360 비디오에 움직임 시차(parallax)를 추가한 것으로 정의되는 3DoF+의 가상 공간에서, 원하는 위치의 장면을 제공하려면 다른 위치에서 찍은 여러 비디오를 사용하여 임의의 원하는 시점의 뷰(view)를 렌더링 해야 한다. MPEG-I Visual 그룹에서는 이러한 3DoF+ 비디오의 효율적인 부호화 및 전송을 위한 표준화가 진행되고 있으며, 최근 시험모델(TMIV)을 개발하고 있다. 본 논문은 TMIV 에서 패치(patch)를 아틀라스(atlas)에 효율적으로 패킹하여 부호화 성능을 향상시킬 수 있는 패치 패킹 방법을 제안한다. 제안 방식은 패킹되는 패치들 간에 보호 대역(Guard Band)를 적용하여 패치간의 거리를 둠으로써 부호화로 인해 발생할 수 있는 아티팩트(artifact)를 줄여 최종 복원 뷰의 화질을 향상시킨다.
-
저해상도의 홀로그램을 Bilinear및 Bicubic 등의 알고리즘을 이용하여 업 스케일링을 하는 방법도 있다. 하지만, 홀로그램 데이터의 손실이 매우 크게 발생하며, 이로 인한 화질 저하가 발생하게 된다. 본 논문에서는 기존에 요구되던 파라미터와 연산량, 메모리를 대폭 감소시키면서도 준수한 성능을 보이는 RCI 구조를 제안한다. 제안한 네트워크 구조는 준수한 성능을 보이면서도 기존 2D 이미지에 대한 SISR 네트워크보다 더 빠르고 더 적은 메모리를 사용하였다.
-
본 논문에서는 CNN을 이용하여 전방위 영상에 대해 워터마크를 추출하는 방법을 제안한다. 네트워크의 입력은 전방위 영상에서 SIFT 특징점을 기준으로 잘라낸 영역들이며, 네트워크를 통해 전방위 영상 생성 과정에서의 왜곡을 보정하고 워터마크를 분류한다. 또한 네트워크의 훈련 집합에는 원본 영상 외에 JPEG 압축, 가우시안 노이즈, 가우시안 블러링, 샤프닝 공격을 가한 영상들도 포함시켜서 학습을 통해 공격에 대한 강인성을 가지도록 한다. 이에 대해 훈련된 네트워크로 추출한 워터마크와 알고리즘으로 추출한 워터마크를 비교하여 제안하는 방법의 유효성을 확인한다.
-
영상 잡음 제거 알고리즘은 잡음으로 오염된 영상으로부터 잡음이 제거된 깨끗한 영상을 추정하여 복원하는 연구이다. 기존의 모델 기반 방법의 영상 잡음 제거 알고리즘은 영상을 복원하는 과정에서 최적화 문제를 풀어야 한다는 단점과 매개변수를 직접 선택을 해주어야 한다는 단점을 가진다. 본 논문에서는 딥러닝을 이용한 학습기반 방법의 영상 잡음 제거 연구를 소개한다. 먼저, 신경망의 구축을 위하여 신경망의 구성 요소는 Instance Normalization 과 컨볼루션 신경망을 이용한 모델을 제안하였고, 여러 연구 분야에서 좋은 성능을 보이는 U-Net 구조를 전체적인 구조로 차용하였다. 신경망의 학습을 위하여 DnCNN 에서 제안한 잡음을 학습하는 잔여 학습 기법을 채택하였고, 기존의 영상 잡음 제거 알고리즘의 단점인 결과 영상이 흐릿해지는 현상을 보완하기 위하여 생성적 적대 신경망 학습 방법을 적용하였다. 본 논문에서 제안한 신경망을 이용한 잡음 제거 영상의 결과가 기존의 연구 방법들 보다 인지적인 측면에서 좋은 결과를 보임을 확인하였다.
-
홀로그램을 재생하기 위한 SLM(Spaital Light Modulator)에서 홀로그램의 실수 정보 혹은 위상 정보를 사용한다. 본 논문에서는 홀로그램의 위상 정보를 효율적으로 압축하기 위한 방식을 제안한다. 홀로그램 압축 표준 코덱 개발에서는 표준 코덱을 기점으로 전후처리를 이용하여 압축효율의 개선 시키는 연구를 진행 중이다. 위상 정보는 -𝜋에서 +𝜋의 제한된 동적 범위를 가진다. 이는 위상 정보 사이의 공간적인 상관도를 낮추며 압축효율을 크게 떨어뜨리는 요인이 된다. 위상 펼침 기법을 이용하여 위상 정보 간의 공간적인 상관도를 확보한다. 공간적인 상관도가 확보된 위상 정보에 JPEG2000 표준 코덱의 입력을 고려하여 양자화한 뒤 압축 후 복원하고 효율을 분석한다.
-
본 논문에서는 특징점 기반의 포인트 클라우드 정합 알고리즘을 제안한다. 컴퓨터 비전 분야에서 각각 다른 카메라에서 획득한 데이터를 하나의 통합된 데이터로 정합하는 문제에 많은 관심을 두고 있다. 기존의 방법들은 큰 오차를 가지고 있거나 많은 카메라 대수나 고가의 RGB-D 카메라를 필요로 한다. 본 논문에서는 깊이 카메라에서 얻은 깊이 영상과 색상 영상을 이용하고 함수 최적화 알고리즘을 적용해 저가의 RGB-D 카메라 8대를 이용하여 오차가 적은 포인트 클라우드 정합 방법을 제안한다.
-
본 논문에서는 딥 러닝을 기반으로 홀로그램을 생성하는 방법을 제안한다. 컴퓨터를 이용하여 홀로그램을 생성하기 위해서는 방대한 양의 계산이 필요하다. 따라서 이를 줄여 빠른 속도를 얻고자 Point source 에 대한 간섭무늬를 모델링한 수식과 같은 출력을 내는 딥 러닝 모델을 학습시키고자한다. 딥 러닝 모델 중 생성 모델인 GAN을 학습시켜 이의 유효성을 보인다.
-
TV홈쇼핑 Full-HD(High Definition)로 제작, 송출되어 시청자가 시청하게 된다. 대부분의 장비들은 Coaxial Cable로 각 장비 간의 신호를 전달하며 제작, 송출되어 진다. 현재 IP기반의 제작 형태가 나오기 시작하며 UHD(Ulitra-HD) 제작 시스템에서는 IP 시스템 방식에 대해 이슈화가 되고 있다. 본 논문에서는 홈쇼핑 Full HD 생방송 제작에서 네트워크 케이블인 UTP(Unshielded Twisted Pair) 케이블을 이용하여 생방송 방송시스템 설계에 관한 것이다. 네트워크를 이용하여 다양한 확장성 및 생방송 방송시스템에 활용된 네트워크 시스템을 제시하고자 한다.
-
최근 다양한 개인방송 플랫폼에 의해 엄청난 양의 콘텐츠가 업로드 되고 있으며 그 중 축구와 야구와 같은 스포츠 영상이 차지하는 비율이 상당하다. 방송사에서는 시청자들이 편의를 위해 경기 영상 중 흥미를 끌거나 또는 중요한 장면을 모아 하이라이트 영상을 만들어 제공하는데, 이는 시간과 비용이 많이 소요되는 문제가 있다. 이에 본 논문에서는 스포츠 영상에서 자동으로 하이라이트를 예측하는 모델을 제안하다. 우리의 모델은 오디오와 이미지 정보를 함께 사용하며, 영상의 단기적 전후관계와 중장기적 흐름을 동시에 파악하는 모델을 제시한다. 또한 좋은 특징벡터를 추출하기 위해 GAN을 결합하는 방법을 설명한다. 제안하는 모델들을 야구 경기 영상을 이용하여 평가한다.
-
Digital refocusing and perspective change are the most expected applications of light field (LF) images. As LF image has a large amount of data, its compression is very essential. The fidelity of LF image after compression needs to be evaluated differently depending on a specific application such as perspective change or refocusing. In this paper, we investigate the fidelity of images after perspective change and refocusing. Several state-of-the-art objective quality metrics are compared. Our experiment shows that IWPSNR is the most reliable metric for both perspective and focus changes, but it does not outperform the popular metrics such as PSNR and SSIM.
-
최근 360 미디어 콘텐츠의 수요가 높아지면서 360 영상을 효율적으로 전송하기 위한 다양한 압축 및 전송 기법들이 연구되고 있다. 360 영상의 스트리밍 기법 중 하나인 타일 기반 적응적 스트리밍 기법은 360 비디오를 타일 그리드로 나누어 부호화 하고, 뷰포트(Viewport)에 해당하는 타일만 스트리밍 할 수 있도록 한다. 기존의 타일 기반 스트리밍 기법은 뷰포트가 전환될 때 서버에 새로운 인트라 프레임을 요구하고, 지연 시간을 줄이기 위해 빈번한 RAP(Random Access Point)가 요구된다는 단점이 있다. 본 논문은 기존의 타일 기반 스트리밍 방법에서 인트라 프레임의 공유를 통해 비트율의 효율을 높이는 IFS(Intra Frame Sharing) 알고리즘을 제안한다. 제안된 IFS 방법은 낮은 화질의 인트라 프레임을 높은 화질의 인트라 프레임 부호화 시 공유하여, 뷰포트 스위칭 시점에서 다른 화질 간의 뷰포트 전환 작업이 필요 없어 비트율의 증가를 최소화한다. 실험에서, IFS 방법은 기존의 MCTS 기반의 적응적 스트리밍 방식과 비교했을 때 BD-rate(%)가 약 13% 절감되었다.
-
We propose a novel algorithm for detecting ship wake trails in optical images of the maritime environment. The proposed algorithm first removes the sky region by localizing the horizon to prevent false wake trails detection. Then, a feature map is computed by employing brightness distortion and chromatic distortion. The feature map is thresholded to obtain a rough estimate of wake trails. Finally, the wake map is refined using the shape prior information. Experimental results show that the proposed algorithm can effectively detect wake trails in images.
-
본 논문에서는 초해상도, 압축 열화 제거 등 영상 화질 복원 연구에서 영상의 다운샘플링에 딥러닝을 적용한 연구들에 대해 소개한다. 첫 번째 연구는 두 개의 컨볼루셔널 신경망과 영상 압축 코덱을 이용하여 압축 영상의 화질을 향상시켰다. 두 번째 연구는 초해상도 문제를 해결함에 있어 다운샘플링 역시 딥러닝을 통해 학습하여 복원 영상의 화질을 향상시켰다. 두 연구를 통해 영상 화질 개선 문제 해결에 있어 적절한 딥러닝 학습 방법을 영상 다운샘플링에 적용하여 좋은 결과를 얻을 수 있다는 것을 확인할 수 있다.
-
최근 인터넷 영상 매체가 발전하고 대중화되며 이를 통한 광고 효과가 커지고 있다. 이들 영상에 관련된 광고를 자동으로 연결할 수 있다면 효과적일 것이다. 본 논문은 딥러닝 검출 툴을 적용한 영상 카테고리 분류 기법을 제안한다. 이 기법은 주어진 영상을 몇 가지 카테고리로 분류하고, 분류 정보를 바탕으로 관련성이 높은 광고를 연결지어, 결과적으로 영상 시청자에게 맞춤형 광고를 제시한다.
-
최근 객체 추적 분야에서의 딥러닝 활용도가 증가하고 있다. 대표적인 딥러닝 기반 객체 추적 시스템은 객체 검출 알고리즘과 추적 알고리즘의 연쇄된 형태로 구성된 형태이다. 따라서 추적 시스템의 성능은 객체 검출기의 성능에 매우 의전적이라는 한계점이 존재한다. 본 논문에서는 위와 같은 검출-추적의 직관적인 구조로 구성된 시스템에서 딥러닝 기반 검출기에 대한 의존성을 낮추고 또한 추적기의 동작 속도를 증가시키는 방법을 제안한다.
-
실제 인간의 눈이 가장 어두운 물체와 가장 밝은 물체 사이의 차이를 인식하는 동적 영역의 범위는 1014(cd/㎡)이다. 이를 디지털 영상으로 가능한 최대로 표현하기 위해 HDR 영상을 생성하는 다양한 기술이 개발되었다. 하지만, 기존 디스플레이 장치의 동적 영역은 103(cd/㎡)로 사람의 동적 영역에 비해 상대적으로 작은 동적 영역을 가진다. 따라서, HDR 영상을 LDR 디스플레이에 효과적으로 표현하기 위해서는 HDR 영상과 시각적으로 유사한 영상을 생성하는 방법인 톤 매핑 기법 (Tone Mapping Operator: TMO)이 필수적이다. 본 논문에서는 HDR 영상을 LDR 디스플레이에 표현하기 위해 개발된 톤 매핑 기법과 톤 매핑 기법의 품질을 평가하는 방법을 소개하고, 각각의 톤 매핑 기법의 품질 점수를 비교한다.
-
In the ongoing standardization of Versatile Video Coding (VVC), DCT-2, DST-7 and DCT-8 are accounted as the vital transform kernels. While storing all of those transform kernels, ROM memory storage is considered as the major problem. So, to deal with this scenario, a common sparse unified matrix concept is introduced in this paper. From the proposed matrix, any point transform kernels (DCT-2, DST-7, DCT-8, DST-4 and DCT-4) can be achieved after some mathematical computation. DCT-2, DST-7 and DCT-8 are the used major transform kernel in this paper.
-
In the ongoing standardization of Versatile Video Coding (VVC), DCT-2, DST-7 and DCT-8 are designated as the vital primary transform kernels. Due to the effectiveness of DST-4 and DCT-4 in smaller resolution sequences, DST-4 and DCT-4 transform kernel can also be used as the replacement of the DST-7 and DCT-8 transform kernel respectively. While storing all of those transform kernels, ROM memory storage is considered as the major issue. So, to deal with this scenario, a unified DST-3 based transform kernel derivation method is proposed in this paper. The transform kernels used in this paper is DCT-2, DST-4 and DCT-4 transform kernels. The proposed ROM memory required to store the matrix elements is 1368 bytes each of 8-bit precision.
-
본 논문에서 Equirectangular projection(ERP) 영상을 행동 인식 모델에 입력하기전 제안하는 전처리를 통하여 성능을 향상시키는 것을 보인다. ERP 영상의 특성상 행동 인식을 하는데 불필요한 영역이 일반적인 2D 카메라로 촬영한 영상보다 많다. 또한 행동 인식은 사람이 Object of Interest(OOI)이다. 따라서 객체 인식모델로 인간 객체를 인식한 후 Region of Interest(ROI)를 추출하여 불필요한 영역을 없애고, 왜곡 또한 줄어든다. 본 논문에서 제안하는 기법으로 전처리 후 CNN-LSTM 모델로 성능을 테스트했다. 제안하는 방법으로 전처리를 한 데이터와 하지 않은 데이터로 행동 인식을 한 정확도로 비교하였으며 제안하는 기법으로 전처리 한 데이터로 행동 인식을 한 경우 데이터의 특성에 따라 다르지만, 최대 61%까지 성능향상을 보였다.
-
최근 MPEG-Immersive 표준화 그룹에서는 여러 위치에 존재하는 다수의 360 영상을 취득하고 처리하여 사용자에게 제한적인 화면 전환 이동에 따른 운동 시차(motion parallex)를 제공하는 3 degrees of freedom plus (3DoF+) 기술에 관한 표준화가 진행되고 있다. 이러한 3DoF+ 표준화 기술에서의 압축은 기존의 HEVC 코덱을 사용하나, 현재 존재하는 360 영상 사용자 시점 기반 스트리밍 기법을 3DoF+ 스트리밍에 적용하기 위해서는 기존의 360 영상과 다르게 영상 서로 간의 참조과정으로 인한 의존성으로 문제가 존재한다. 본 논문에서는 해당 문제점을 서술하고, MCTS(Motion-Constrained Tile Set)를 사용하여 보다 적은 디코더와 사용자 시점에 맞게 효율적으로 영상을 전송할 수 있는 MCTS 기반 타일 그룹 분할 방법을 제안한다.
-
MPEG-I Visual group is actively working on enhancing immersive experiences with up to six degree of freedom (6DoF). In virtual space of 3DoF+, which is defined as an extension of 360 video with limited changes of the view position in a sitting position, looking at the scene from another viewpoint (another position in space) requires rendering additional viewpoints using multiple videos taken at the different locations at the same time. In the MPEG-I Visual workgroup, methods of efficient coding and transmission of 3DoF+ video are being studied, and they released Test Model for Immersive Media (TMIV) recently. This paper presents the enhanced clustering method which can pack the patches into atlas efficiently in TMIV. The experimental results show that the proposed method achieves significant BD-rate reduction in terms of various end-to-end evaluation methods.