Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
The Korean Institute of Broadcast and Media Engineers
- Semi Annual
Domain
- Media/Communication/Library&Information > Media/Consumers
2018.11a
-
최근 포스트휴머니즘은 오늘날 북아메리카와 서유럽을 비롯하여 동아시아 학문 공동체에서 가장 뜨거운 화두가 되고 있다. 포스트휴머니즘은 4차 산업혁명의 핵심인 NBIC기술의 융합으로 사유와 논의가 가능해진 개념이다. 포스트휴머니즘는 기존의 휴머니즘 그리고 트랜스 휴머니즘과 밀접한 관계를 맺는다. 서구 휴머니즘 전통의 핵심은 17세기 합리주의 정신에 이르러 하나의 절정을 이룬다. 논자는 오늘날 뜨거운 화두인 포스트휴먼 논의의 발단은 서구 모더니티로부터 비롯된다고 본다. 기술의 융합적 발전이 인간, 인간의 본질, 인간의 정의를 변화시키고 있다는 점에 주목한다. NBIC으로 대표되는 과학기술융합은 인간을 변화시키고 있음은 분명하다. 우리는 그것을 트랜스휴머니즘으로 정의한 바 있다. 이제 인류문명은 트랜스휴머니즘을 넘어서 각종 보철술이 인간의 몸을 대신하는 포스트휴먼으로 진화 가능한 단계로 접어들었다. 기술의 급진적인 발전으로 기존의 근대적 재현과 표상, 상징체계가 바뀌는 것이다. 미셀 푸코는 '이를 두고 '근대적 인간의 소멸'을 예견한 바 있다. (1) 우리는 이 시점에서 이러한 급진적이고도 근본적인 변화를 촉발하는 '기술혁명' 시대에 '인간은 무엇인가', 인간적인 적인 것은 무엇인가'에 관한 이른바 인간학적 지평에 대환 논의가 긴급하다고 판단한다.
-
4차 산업혁명 대비 방송미디어 교육학습 역량을 강화하기 위해서는 현장중심의 교육 모델을 개발하여 활성화 할 필요가 있다. 본 논문은 특성화 대학의 방송미디어 교육 품질을 향상시키는데 기여하기 위해 방송채널을 운영하며 이를 활용하여 방송미디어 교육과 접목시킨 연구 결과에 대해 기술하였다. 이론교육과 단순한 실습으로 종합예술분야인 방송제작 역량을 키우는 데는 한계가 있다. 따라서 실제 현장직무를 수행하는 전국방송채널을 개국하여 축적된 방송미디어 인프라를 활용하고 방송국을 중심으로 한 현장중심의 교육체계를 구축, 운영함으로써 교육의 질을 향상시켰다. 그 결과, 서로 다른 전공의 학생들이 콘텐츠 제작 교육에 함께 참여함으로써 직무능력 향상 및 취업의 확대는 물론이고 대학의 비즈니스모델 창출로 산학협력도 강화되는 계기를 마련하였다.
-
인터넷과 스트리밍 기술의 발달로 온라인 방송서비스가 출연하면서 디지털 온라인 콘텐츠 서비스 사업은 기존 오프라인 방송인 지상파 케이블 위성 IPTV 방송에 콘텐츠 제작과 수익면에서 상당한 영향을 미치고 있다. 지금까지 보편적 대중에 전달하던 일반적인 콘텐츠 제작 및 보급이 전통적 방송의 역할이었던 반면, 디지털 온라인 방송은 특정한 분야별 그룹과 연령별 그룹에 맞춤형 콘텐츠를 제작하고 이를 방송하면서 개성있는 ?춤형 방송을 진행하며 레가시 미디어(legacy media)를 위협하고 있는 것이 현실이다. 이제 기존의 방송국들은 더 이상 전통적 방송 제작의 특성을 고수하기 어렵게 되었고 새로운 미디어 세계에서 살아남기 위해 디지털 온라인과 오프라인의 경계를 허물고 융합해야 하는 것이다. 왜냐하면 기존 방송국들은 TV플랫폼만 의존하던 시청자들이 온라인 채널로 이동으로 시청률 하락과 광고 및 부가서비스 수입의 위축으로 경영의 어려움이 현실화 되고 있기 ?문이다. 본 논문은 디지털 온라인 방송환경이 기존의 오프라인 방송국에 미치는 영향을 분석하고 기존 방송국의 위기를 타개하기 위한 대응전략을 연구하였다.
-
실내공간에서 사람 검출 및 인식은 지능영상정보 시스템에서 중요한 기능중의 하나이다. 실내공간에서 사람검출을 위한 트랙킹 과정에서 발생하는 표류(drifting)는 성능 저하의 큰 원인을 제공한다. 표류로 인한 비사람의 트랙킹을 방지하기 위해서 사람여부를 결정하는 것이 필요하다. 이를 위해서 합성곱 신경망을 적용한 결과 80%의 사람 인식율을 얻었다.
-
The aim of this study is to rectify the misclassified image features and enhance the performance of image classification tasks by incorporating a channel- coding technique, widely used in telecommunication. Specifically, the proposed algorithm employs the error - correcting mechanism of convolutional coding combined with the convolutional neural networks (CNNs) that are the state - of- the- arts image classifier s. We develop an encoder and a decoder to employ the error - correcting capability of the convolutional coding. In the encoder, the label values of the image data are converted to convolutional codes that are used as target outputs of the CNN, and the network is trained to minimize the Euclidean distance between the target output codes and the actual output codes. In order to correct misclassified features, the outputs of the network are decoded through the trellis structure with Viterbi algorithm before determining the final prediction. This paper demonstrates that the proposed architecture advances the performance of the neural networks compared to the traditional one- hot encoding method.
-
VVC(Versatile Video Coding)는 입력된 영상을 CTU(Coding Tree Unit) 단위로 분할하여 코딩하며, 이를 다시 QTBTT(Quadtree plus binary tree and triple tree)로 분할하고, TU(Transform Unit)도 이와 같은 단위로 분할된다. 따라서 TU의 크기는
$4{\times}4$ ,$4{\times}8$ ,$4{\times}16$ ,$4{\times}32$ ,$8{\times}4$ ,$16{\times}4$ ,$32{\times}4$ ,$8{\times}8$ ,$8{\times}16$ ,$8{\times}32$ ,$16{\times}8$ ,$32{\times}8$ ,$16{\times}16$ ,$16{\times}32$ ,$32{\times}16$ ,$32{\times}32$ ,$64{\times}64$ 의 17가지 종류가 있다. 기존의 VVC 참조 Software인 VTM에서는 디블록킹필터와 SAO(Sample Adaptive Offset)로 이루어진 인루프필터를 이용하여 에러를 복원하는데, 본 논문은 TU 크기에 따라서 원본블록과 복원블록의 차이(에러)가 통계적으로 다름을 이용하여 서로 다른 CNN(Convolution Neural Network)을 구축하고 에러를 복원하는 방법으로 VTM의 인루프 필터를 대체한다. 복원영상의 에러를 감소시키기 위하여 TU 블록크기에 따라 DenseNet의 Dense Block기반 CNN을 구성하고, Hyper Parameter와 복잡도의 감소를 위해 네트워크 간에 일부 가중치를 공유하는 모양의 Network를 구성하였다. -
최근 시청자에게 실재적인 몰입감을 제공하는 실감미디어가 발전하고 있다. 이러한 실감미디어 중 가장 접근성이 뛰어난 것은 VR으로, 현재 다양한 서비스에 응용되고 있는 상황이다. 하지만 360VR은 높은 비트 전송률과 고해상도의 특성을 지니고 있기 때문에 대역폭 비용 및 시청자의 QoE 보장의 불확실성 등의 다양한 문제가 있다. 이러한 문제를 개선시키기 위해 HTTP 기반의 적응적 스트리밍 기법이 발전해나가고 있으며 이 기술의 표준으로 MPEG-DASH가 채택되었다. MPEG-DASH는 TCP 기반의 전송 프로토콜을 사용하고 있지만 현재 TCP는 고용량의 데이터가 전송되는 웹 기반에서 HTTP의 병목현상을 일으켜 대역폭 효율성을 떨어뜨리는 하나의 원인으로 나타나고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 UDP 기반의 QUIC 프로토콜을 MPEG-DASH에 적용하는 시스템을 고안하고 이를 QUIC-DASH라 칭한다. 고해상도의 360VR 송출 실험으로 QUIC-DASH 시스템과 기존의 MPEG-DASH 시스템을 비교 분석한 결과로 대역폭의 절감이 이루어진 것을 확인하였다.
-
MPEG-I Visual group is actively working on enhancing immersive experiences with up to six degree of freedom (6DoF). In virtual space of omnidirectional 6DoF, which is defined as a case of degree of freedom providing 6DoF in a restricted area, looking at the scene from another viewpoint (another position in space) requires rendering additional viewpoints called virtual omnidirectional viewpoints. This paper presents the performance analysis on view synthesis, which is done as the exploration experiment (EE) in MPEG-I, from a set of 360 videos providing omnidirectional 6DoF in various ways with different distances, directions, and number of input views. In addition, we compared the subjective quality between synthesized images with one input view and two input views.
-
본 논문은 비콘 기반의 실내 길안내(Indoor Navigation)기술에 증강현실을 적용하는 방법을 제안한다. 실내 길안내를 위하여 비콘으로 사용자의 위치를 확인하고 경로를 구성하는 방법에 대하여 설명한다. 또한 비콘을 통해 얻은 정보를 바탕으로 목적지까지의 경로 및 정보를 증강현실로 구현한다. 증강현실로 구현된 3차원 가상 이미지들의 역할을 통해 기존 실내 길안내와의 차별성과 필요성을 제시한다.
-
본 논문에서는 IR-UWB(Impulse-Radio Ultra Wideband) 레이더와 서보 모터를 이용한 실내 환경의 물체 위치(거리, 각도) 탐지 방법을 제안한다. 기존의 카메라나 적외선을 사용한 기술은 비용이 비싸고 장애물이 있을 시 측정이 어려워 정확도가 떨어지는 단점을 가지고 있다. 반면 IR-UWB 레이더는 저 전력, 저 가격, 소형으로 구현이 가능하고 광대역을 사용하여 투과성이 좋다는 장점을 가져 실내 환경의 물체 움직임 탐지에 적합하다. 하지만 IR-UWB 레이더를 이용한 물체 탐지 시 각도 측정 없이 거리만을 측정하기 때문에 물체의 정확한 위치를 탐지할 수 없다. 이러한 점을 보완하고자 레이더를 모터 위에 설치하고 모터를 180 도 회전시키는 방법을 사용함으로써 넓은 측정 범위를 가짐과 동시에 물체의 위치를 보다 정확히 탐지해내는 결과를 보였다.
-
기존의 사람간의 유사성 측정 시스템은 적외선 빔이나 열 감지 영상 장치를 통해 측정하였다. 하지만 이와 같은 방법으로 측정하면 2명 이상의 객체를 분류해내는 기술은 제공하지 않는다. 이에 본 논문은 고정된 카메라를 이용하여 각 사람의 피부색과 옷차림 등의 RGB 정보를 이용한 사람 유사성 측정 기법을 제안한다. RGB카메라 영상을 통하여 객체의 RGB 히스토그램을 얻은 후 각 객체에 대해 Bhattacharyya metric, Cosine similarity, Jensen difference, Euclidean distance로 histogram similarity를 계산하여 객체 추적 및 유사성 측정을 통해 객체를 분류한다. 제안된 시스템은 C/C++를 기반으로 구현하여, 유사성 측정 성능을 평가하였다.
-
본 논문에서는 프로젝터와 카메라를 이용하여 다수의 평면이 결합된 형태의 사물스크린 공간에 디지털 사이니지 서비스를 제공하기 위한 기술을 개발하였다. 연구개발한 기술은 OpenGL 기반의 렌더링 소프트웨어 기반 위에 콘텐츠와 사물스크린 상호간의 기하학적 매핑, 스크린 색상과 주변 조명을 고려한 색상 보정 기능들이 적용되었다. 단순한 객체의 매핑 기능은 사각형과 같은 폴리곤 객체, 복잡한 사물공간 구조는 격자형 매쉬를 이용하여 보정하도록 지원한다. 색상 보정은 스크린으로 활용할 영역이 균일한 색상 특성을 가진 경우에 대응하여 관심 스크린 영역의 영상을 취득하여 컬러 혼합 행렬을 계산하고 이를 보정 S/W와 연동하여 처리되도록 개발했다. 본 연구개발 내용을 통해 향후 임의의 평면을 디지털 사이니지용 디스플레이 공간으로 쉽고 빠르게 활용하기 위한 요소 기술로 활용되기를 기대한다.
-
본 논문은 본인이 제작한
라는 인터랙티브 미디어 아트 작품에 관련한 글이다. 발전하는 디지털 기술 안에서 아날로그 감성을 이끌어내기 위한 작품 제작 방법으로 손으로 그린 나뭇잎을 입자로 사용한 파티클 시스템을 이용하였다. 그리고 NUI 인터페이스인 립모션 센서를 사용해 자연스러운 손 동작 인식을 하여 파티클 시스템과 연동하였다. 관람자는 바람을 일으키는 손 동작을 하며 가을 풍경과 같은 나뭇잎 파티클의 변화를 느끼게 되고, 계속되는 손동작에 따라 나타난 새로운 동영상을 감상하며 잃어버린 감성을 느끼게 된다. 아날로그 컨텐츠와 디지털 기술의 융합은 관람자에게 친근한 접근과 감성을 자극함으로써 인터렉티브 미디어 아트의 새로운 확장의 가능성을 보여준다. -
국내 디지털 방송 프로그램은 2016년 방송법 개정 이후, ITU-R / EBU에서 제안한 측정 방식을 활용하여 채널 및 프로그램 간의 음량을 맞추어 제공되고 있다. 일반적으로 뉴스나 중계와 같이 실시간으로 음량을 맞춰야 하는 분야를 제외하고는 평균 음량을 규정에 맞춰 송출하고 있다. 본 논문에서는 일괄적으로 평균 음량을 맞출 경우 발생하는 저음량의 명료도를 높이기 위한 기술을 제안한다. 즉, 방송 음량을 조절하는 기술 중의 하나로 오디오 콘텐츠를 분석하여 구간별 음량 조절 정도를 달리함으로써 저음량에서의 음성은 상대적으로 높은 음량을 가지고 배경음악 등을 상대적으로 낮음 음량을 가지도록 생성함으로써 명료도를 높이는 방식을 제안한다. 제안한 방식의 성능을 확인하기 위해 오디오 콘텐츠 분석 정확도 측정과 오디오 파형 분석을 실시하였으며 이를 통해 기존의 음량 제어 기술과 비교하여 음성 구간에 대해 음량을 증폭시키는 것을 확인하였다.
-
본 논문은 감마 보정 기반의 저조도 영상의 대조비 향상을 위한 최적의 계수 추정 기법을 제안한다. 제안하는 기법은 먼저 입력 영상의 휘도 정보를 로그 함수를 이용하여 정규화 한 후, 입력 영상을 밝은 부분과 어두운 부분으로 나눈다. 그런 다음 각각의 영역에서 통계적 특성을 고려한 비용 함수를 정의하고, 컨벡스 최적화 이론을 이용하여 최적의 감마보정 계수를 얻는다. 마지막으로 과포화 현상이 발생을 억제할 수 있는 색상 복원 기법을 적용한다. 컴퓨터 모의실험을 통해 제안하는 기법이 기존 기법에 비해서 낮은 계산 복잡도를 보이면서도 향상된 대조비를 보임을 확인한다.
-
최근 수 년간 뉴럴 네트워크 기반 이미지 분류 기법의 성능이 눈에 띄게 향상되었다. 특히 CNN 은 딥 러닝기법을 도입하면서 이미지 분류 정확도가 향상되었으며, 이는 의학 분야 등 다른 분야에도 영향을 주게 되었다. 의학용 이미지의 분류 시스템의 경우, 오분류가 치명적인 결과를 초래할 수 있기 때문에 높은 정확도의 이미지 분류 시스템을 필요로 하게 된다. 본 논문에서는 CNN 기반 암세포 현미경 이미지 분류 기법에 대해 제안한다. 사전에 훈련된 뉴럴 네트워크의 가중치의 일부를 다시 계산하고, 재계산을 통해 얻은 가중치를 기반으로 암세포 현미경 이미지를 분류하며, 분류결과 높은 정확도로 이미지를 분류하는 것을 확인할 수 있다.
-
Ha, JongJin;Lee, DonIl;Ku, Jahoon;Um, YoungSik;Park, Seok-Gi;Song, JaeHo;Jang, JinHee;Jeon, SeongGyu 49
KBS를 비롯한 지상파방송 3사는 실시간 UHD방송과 VOD 온라인 동영상 서비스가 결합된 세계 최초의 지상파 양방향 UHD 플랫폼인 Tiviva(이하 티비바) 서비스를 2017년 11월 오픈하였다. 티비바는 별도의 셋톱박스 없이 UHD TV에 직접수신 안테나와 인터넷을 연결하여 지상파 방송사의 실시간 방송 채널 외에 다양한 UHD VOD와 클립을 이용할 수 있고, 스포츠와 드라마, 종편(JTBC, MBN), 영화 등 50여 개의 IP채널을 추가로 볼 수 있는 서비스이다. 이후 2018년 1월에는 이용자 편리성과 자동추천 기능 등 UI/UX를 크게 개선한 티비바 2.0을 업데이트 하였고, 평창올림픽 기간에는 전 경기 실시간 스트리밍 및 올림픽특별관을 운영하였다. 2018년 6월 러시아 월드컵 기간에는 축구 경기 UHD HDR 방송 중계와 함께 티비바를 통한 HDR VOD를 최초로 서비스하여 스포츠 경기를 즐기는 또다른 즐거움을 선사하였다. 본 논문에서는 러시아 월드컵 HDR VOD 서비스를 준비하고 시행하기 위한 시스템 설계 및 진행과정, 기술 이슈 등에 대해서 기술하려고 한다. -
주어진 영상으로부터의 3 차원 얼굴 모델링은 얼굴 분석, 애니메이션, 생체 인식 등의 많은 컴퓨터비전 및 그래픽스 응용분야에서 중요한 역할을 하고 있다. 그 중에서도 헤어 영역은 얼굴에 비해 모양의 다양성과 모델의 복잡도가 현저히 높다. 기존의 연구는 주로 얼굴 영역에 한정한 3 차원 얼굴 모델링을 중심으로 이루어졌지만 헤어 모델링은 중요하게 다루지 않고 있는 경우가 많다. 본 논문에서는 심층인공신경망의 일종인 FCN (fully connected network)을 이용하여 인물 영상에서 헤어 부분을 영역화하고 그와 가장 유사한 3D 헤어 모델을 데이터베이스에서 검색하여 3 차원 얼굴 모델에 증강함으로써 완전한 얼굴 모델링을 수행하는 방법을 제안한다. 이는 FCN 을 이용하여 다양한 인물 영상에 대하여 네트워크 학습을 수행하는 과정과 3D 헤어 데이터베이스의 구축 과정을 포함한다. 실험 결과 적절한 수준의 헤어 모델이 3 차원 얼굴 모델링 결과물에 증강됨을 확인하였다.
-
본 논문에서는 가이디드 영상 필터를 (guided image filter) 이용하여 컨볼루션 신경망 (convolutional neural network) 을 이용한 역 톤 매핑 (inver tone - mapping; iTMO) 기법의 결과를 향상 시킬 수 있는 알고리듬을 제안한다. 기존 low dynamic range (LDR ) 영상을 high dynamic range (HDR ) 디스플레이에서 표현할 수 있는 역 톤 매핑 기법이 과거부터 계속 제안되어 왔다. 최근에 컨볼루션 신경망을 이용하여 단일 LDR 영상만으로 넓은 동적 범위 (dynamic range) 를 가진 HDR 영상으로 변환하는 알고리듬이 많이 연구되었다. 기존의 알고리듬 중 포화 영역 (saturated region) 으로 인해 잃어버린 화소 정보를 학습된 컨볼루션 신경망을 이용해서 복원하는 알고리듬은 그 효과가 좋지만 포화 영역이 아닌 부분의 잡음을 제거하지 못하며 포화 영역의 디테일을 복원하지 못한다. 제안한 알고리듬은 입력 영상에 가중치 기반 가이디드 영상 필터를 사용해서 비포화 영역의 잡음을 제거하고 포화 영역의 디테일을 복원시킨 다음 컨볼루션 신경망에 인가하여 결과 영상의 품질을 개선하였다. 제안하는 알고리듬은 실험을 통해서 기존의 알고리듬에 비해 높은 정량적 화질 평가 지수를 나타내었고, 기존의 알고리듬에 비해 세부 사항을 효과적으로 복원할 수 있음을 확인할 수 있었다.
-
Highly compressed images typically not only have low resolution, but are also affected by compression artifacts. Performing image super-resolution (SR) directly on highly compressed image would simultaneously magnify the blocking artifacts. In this paper, a SR method based on deep learning is proposed. The method is an end-to-end trainable deep convolutional neural network which performs SR on compressed images so as to reduce compression artifacts and improve image resolution. The proposed network is divided into compression artifacts removal (CAR) part and SR reconstruction part, and the network is trained by three-step training method to optimize training procedure. Experiments on JPEG compressed images with quality factors of 10, 20, and 30 demonstrate the effectiveness of the proposed method on commonly used test images and image sets.
-
신경망은 깊어질수록 gradient vanishing/exploding과 같은 네트워크가 불안정해지는 문제가 발생 한다. 잔차 블록을 이용하여 이러한 문제를 해결 할 수 있다. 본 논문에서는 영상 인식 분야에서 훌륭한 성능을 보여준 잔차 블록 기반의 깊은 합성곱 신경망을 통한 단일 영상 초해상도 복원 기법을 제안 한다. 제안한 알고리듬은 EDSR에 사용된 잔차 블록을 다양한 크기의 합성곱 연산을 통해 영상의 특징들을 다르게 분석하도록 수정하고 VDSR과 비슷한 수준의 복잡도로 구성하여 향상된 성능을 얻었다. 실험 결과, VDSR에 비해 PSNR이 최대 0.1dB까지 증가했다.
-
본 논문에서는 비디오로부터 추출된 프레임에서 3D 인체 모델의 복원하고 이를 부드럽게 재생될 수 있도록 보정하는 기법을 제안한다. 매개변수 기반의 모델을 사용하여 자세 및 체형을 복원하도록 접근하고 있다. 매개변수 기반의 인체 모델은 다양한 인체 데이터의 학습을 통해 만들어지며 입력 영상으로부터 최적의 자세와 체형 매개변수 값을 찾아 복원하게 된다. 자세 복원은 CNN 을 사용하여 영상으로부터 인체의 관절 위치를 추정하고 3D 모델로부터 2D 로 투영을 통해 관절 간의 거리가 최소화되는 매개변수 값을 찾아 복원한다. 형상 복원은 2D 영상으로부터 취득된 사람의 윤곽 데이터와 3D 모델의 윤곽 데이터 간의 매칭을 통해 복원된다. 이러한 단일 입력 영상에서 비디오와 같은 다중 입력 영상으로 확장하여 칼만 필터를 적용하여 오류 프레임을 검출하고 이전, 이후 프레임의 매개변수와의 보간을 통해 보다 자연스럽고 정확한 모델을 생성한다.
-
본 논문은 Multiscale Gradients (MSG)를 기반으로 한 Color Filter Array Interpolation을 토대로 개선된 필터와 보간 과정의 알고리듬을 제안한다. MSG는 초록색 채널 보간, 초록색 채널 갱신, 빨간색 및 파란색 채널 보간 과정으로 이루어진다. 이때, 더욱 정교한 보간을 위해 필터의 크기를 증가시키고, 보간 과정에 이용되는 주변 픽셀의 개수를 늘렸다. 이러한 실험을 통해 높은 스펙트럼 상관관계, 낮은 채도, 낮은 색 경사도를 가진 Kodak dataset과 자연 영상과 유사한 특성을 갖는 McMaster dataset 모두의 경우에서 Color Peak Signal to Noise Ratio (CPSNR)이 향상되는 것을 확인하였다.
-
A Gaussian noise is caused by surrounding environment or channel interference when transmitting image. The noise reduces not only image quality degradation but also high-level image processing performance. The Non-Local Means (NLM) filter finds similarity in the neighboring sets of pixels to remove noise and assigns weights according to similarity. The weighted average is calculated based on the weight. The NLM filter method shows low noise cancellation performance and high complexity in the process of finding the similarity using weight allocation and neighbor set. In order to solve these problems, we propose an algorithm that shows an excellent noise reduction performance by using Summed Square Image (SSI) to reduce the complexity and applying the weighting function based on a cosine Gaussian kernel function. Experimental results demonstrate the effectiveness of the proposed algorithm.
-
360 VR 콘텐츠는 기존의 선형적인 일반 영상에 비해 사용자에게 더 많은 정보와 높은 몰입감을 제공할 수 있어 의학, 군사, 교육, 게임 등 다양한 분야에서 활용되고 있다. 최근에는 모바일 기기의 성능 향상과 통신기술의 발달에 힘입어 모바일 네트워크를 사용한 360 VR 콘텐츠 소비가 증가하는 추세이다. 모바일 네트워크는 대역폭이 한정적이고 가변적인 특성이 있어 이를 통해 용량이 큰 360 VR 콘텐츠 전송 시 초기 접속 지연 및 재생 끊김이 발생하여 사용자의 만족도를 감소시킬 수 있다. 이에 본 논문은 위에 언급한 문제를 해결하기 위해 360 VR 콘텐츠 전송 시 전체 요구대역폭을 감소시키고 사용자 초기 접속 속도를 향상시키는 것을 목표로, 360 VR 콘텐츠의 지오메트리 값과 사용자의 요(i.e. yaw)값을 활용하여 각도 기반으로 사용자의 현재 시점에 해당하는 타일을 확인하고 해당 타일에 높은 비트율을 할당하는 방법 및 웹 기반 전송에 대해 연구 개발하였다. 이를 위하여 웹 기반 3D 렌더링 API 인 WebVR API, HTTP Adaptive Streaming 기술의 표준 MPEG-DASH의 dash.js API를 활용하여 개발하고, 성능 확인 실험을 통해 요구대역폭 감소, 클라이언트 접속 속도 향상을 제시한다.
-
Fully Convolutional Network(FCN)은 기존의 방법보다 뛰어난 성능을 보였지만, FCN은 RGB 정보만을 사용하기 때문에 세밀한 예측이 필요한 장면에서는 다소 부족한 성능을 보였다. 이를 해결하기 위해 인코더-디코더 구조를 이용하여 RGB와 깊이의 멀티 모달을 활용하기 위한 FuseNet이 제안되었다. 하지만, FuseNet에서는 RGB와 깊이 브랜치 사이의 융합은 있지만, 인코더와 디코더 사이의 특징 지도를 융합하지 않는다. 본 논문에서는 FCN의 디코더 부분의 업샘플링 과정에서 이전 계층의 결과와 2배 업샘플링한 결과를 융합하는 스킵 레이어를 적용하여 FuseNet의 모달리티를 잘 활용하여 성능을 개선했다. 본 실험에서는 NYUDv2와 SUNRGBD 데이터 셋을 사용했으며, 전체 정확도는 각각 77%, 65%이고, 평균 IoU는 47.4%, 26.9%, 평균 정확도는 67.7%, 41%의 성능을 보였다.
-
요즘 자율주행과 같은 최신 기술의 발전과 더불어 촬영된 영상 장면에 대한 깊이있는 이해가 필요하게 되었다. 특히, 기계학습 기술이 발전하면서 카메라로 찍은 영상에 대한 의미론적 분할 기술에 대한 연구도 활발히 진행되고 있다. FuseNet은 인코더-디코더 구조를 이용하여 장면 내에 있는 객체에 대한 의미론적 분할 기술을 적용할 수 있는 신경망 모델이다. FuseNet은 오직 RGB 입력을 받는 기존의 FCN보다 깊이정보까지 활용하여 RGB 정보를 기반으로 추출한 특징지도와의 요소합 연산을 통해 멀티 모달 구조를 구현했다. 의미론적 분할 연구에서는 객체의 전역 컨텍스트가 고려되는 것이 중요한데, 이를 위해 여러 계층을 깊게 쌓으면 연산량이 많아지는 단점이 있다. 이를 극복하기 위해서 기존의 합성곱 방식을 벗어나 새롭게 제안된 팽창 합성곱 연산(Dilated Convolution)을 이용하면 객체의 수용 영역이 효과적으로 넓어지고 연산량이 적어질 수 있다. 본 논문에서는 컨볼루션 연산의 새로운 방법론적 접근 중 하나인 팽창된 합성곱 연산을 이용해 의미론적 분할 연구에서 새로운 멀티 모달 네트워크의 성능 향상 방법을 적용하여 계층을 더 깊게 쌓지 않더라도 파라미터의 증가 없이 해상도를 유지하면서 네트워크의 전체 성능을 향상할 수 있는 최적화된 방법을 제안한다.
-
We proposed an improved reliable SVD-based watermarking scheme resistant to geometric attacks while having high fidelity with no false-positive problem. Principal components of a watermark image are embedded into singular values of LL, LH, HL, and HH sub-bands of a transformed cover image by RDWT(redundant discrete wavelet transform) with optimal scale factors. Each scale factor is generated by trading-off fidelity and robustness using Differential Evolution (DE) algorithm. Zernike Moment (ZM) is used to estimate the geometric distortion and to correct the watermarked image before extracting watermark. The proposed scheme improves fidelity and robustness of existing reliable SVD based watermarking schemes while resisting to geometric attacks.
-
본 논문에서는 입력 영상을 카메라의 자세 정보에 따라 적절히 와핑한 후 이들을 심(Seam)을 따라 이어붙인 360VR 에서 갑작스런 객체 출현에 의해 중첩 영역에서 발생하는 왜곡 문제를 해결할 방법을 제안한다. 임의의 객체가 나타났을 때, 객체의 윤곽선을 반영하여 심(Seam)을 재설정함으로써 객체가 우그러지거나, 잘려나가는 등의 왜곡 문제를 해결한다. 이를 위해 본 논문에서는 가우시안(Gaussian) 혼합 모델 기반 전경/배경분리에 의한 움직이는 객체 추출, 객체 윤곽선 검출, 윤곽선에 기반한 심(Seam) 조정, 새로운 심(Seam) 기반 스티칭으로 왜곡을 없애는 방법을 제안하였다. 그리고 이를 실제 촬영 영상에 적용하여 왜곡 개선 효과를 보였다.
-
2017년 5월 31일 지상파 UHD 본 방송 서비스가 개시된 이후, 기존 HD 방송 대비 4배 이상 선명한 영상 제공을 통해 시청자는 현장감과 사실감을 체감할 수 있게 되었다. 또한, HD 방송과 차별화된 효과를 보다 더욱 극대화하기 위해 2018년 러시아 월드컵 기간 동안 고명암비와 광색역 기술을 적용한 지상파 UHD HDR 방송 서비스를 제공하였다. 이에 본 논문에서는 지상파 UHD HDR 방송 서비스 제공을 위한 관련 기술들을 연구하고 송출 시스템을 설계 및 구축하였다. 그리고 이를 검증하기 위해 2018 러시아 월드컵 기간 동안 UHD HDR 방송을 송출함으로써 수신단과의 정합성을 입증하였다.
-
최근 딥러닝 기술의 발전으로 영상 분류 및 영상 내 객체 검출뿐만 아니라 CNN 기반의 segmentation 기술도 개발되어 다른 요소까지 포함한 직사각형 영역의 검출 영역이 아닌 경계까지 고려한 분리가 가능하게 되었다. 더불어 사람 영역을 신체부위나 의류 부분과 같은 세부 영역으로 나누어 분리하는 human parsing 기술까지 연구되고 있다. Human parsing은 의류스타일 분석 및 검색, 사람의 행동 인식 및 추적과 같은 분야에도 응용될 수 있다. 본 논문에서는 Spatial pyramid pooling layer를 이용하여 영상 전체에 대한 공간적 분포 및 특성 정보를 고려한 human parsing 기법을 제안한다. Look into person(LIP) dataset을 이용하여 기존의 다른 segmentation 및 human parsing 기법과 제안하는 기법을 비교하여 제안하는 기법의 human parsing 결과가 보다 정교한 분리가 가능한 것을 확인하였다.
-
청각장애인을 위한 수화방송 서비스는 지상파 기준으로 100% 제공하는 자막방송 서비스와 달리 콘텐츠 제작비용과 시스템 운영비용 등으로 인해 5% 수준의 편성에 그치고 있다. 이러한 편성 비율조차도 명확한 편성기준과 검증기준이 없어서 실제 청각장애인이 실제 체감하는 수준은 훨씬 낮은 상황이다. 본 논문에서는 지상파 방송사업자의 장애인방송 편성비율을 검증하기 위해서 방송프로그램 안내정보와 방송 시그널링 정보를 기반으로 채널별로 방송스트림을 수집 및 관리하는 장애인방송 모니터링 서버를 활용하여 수화방송 모니터링 기술 고도화를 위한 자동화된 수화영역 검출 방법을 제안한다. 마지막으로, 자동화된 수화영역 검출 방법을 활용한 수화방송 모니터링 결과를 보여준다.
-
최근 자원 효율성을 증대하기 위하여 차세대 유무선 통신시스템에서 동일대역 전이중 방식(in band full-duplex, FDX)을 채택하고 있다. 하지만 전이중 방식은 송수신이 동시에 이루어지기 때문에 하향신호와 상향신호가 더해져 수신된다. 따라서 원하는 신호를 수신하기 위해 자기간섭(SI: self-interference)으로 존재하는 하향 신호를 제거하는 기술이 요구된다. 본 논문에서는 주파수영역에서 자기간섭신호 제거(SIC: SI cancellation)하는 방법에 대해서 제안하고 실제 RF를 통과한 신호에 적용하여 성능을 분석한다.
-
최근 촬영 기기의 기술발전으로 인해 디지털 영상의 해상도가 증가함에 따라 선명한 디지털 영상에 대한 요구가 증가하고 있다. 이러한 요구에도 불구하고 디지털 영상 내 가우시안 잡음 (gaussian noise)은 촬영기기를 통해 영상 획득 및 처리 과정에서 발생하여 화질을 열화 시킨다. 디지털 이미지에서 발생하는 가우시안 잡음을 제거하기 위해서 기존의 저대역 통과 필터 (low-pass filter: LPF)를 사용하면 잡음은 제거되지만, 블러링 현상 (blurring phenomenon)이 나타난다. 이러한 문제점을 개선하기 위해 소벨 연산자 (sobel operator)를 사용하여 영상 내 에지 맵 (edge-map)을 생성하여 에지 영역과 동질 영역을 구분한다. 에지영역에서는 약한 저역 필터 (weak low-pass filter)를 사용하고, 그 외의 이미지 영역에서는 강한 저역 필터 (strong low-pass filter)를 사용하는 알고리듬을 제안하였다. 그리고 다양한 이미지에 대하여 기존 알고리듬과 제안한 알고리듬의 적용한 결과를 통해 주관적 화질 비교하였고 객관적 지표로 최대 신호 대 잡음비 (peak signal-to noise ratio: PSNR)와 구조 유사성 (structural similarity: SSIM)을 사용하여 성능을 평가하였다. 실험결과를 통해 제안된 알고리듬이 잡음 제거 및 외곽선 보존의 우수함을 확인하였다.
-
저조도 영상의 개선에 관한 연구는 대부분 대비 개선을 목적으로 한다. 저저도 영상에서 밝기 개선, 대조 개선, 및 조명 성분 감쇠 등의 다양한 연구가 진행됐다. 최근에 인공신경망으로 상기 방법들을 대체하는 연구가 진행 중이다. 본 논문에서는 Retinex 이론에 기반하여 조명 광원이 존재하는 저저도 영상으로부터 조명 성분을 감쇠하고, 반사 성분만을 생성하는 기법을 심층신경망으로 대체하는 방법을 제안한다.
-
최근 인터넷 미디어 스트리밍 수요의 증가로 인해 CDN(Content Delivery Network) 서버 비용이 크게 증가하였으며 이를 절감하기 위한 방안의 필요성이 날로 증가하고 있다. 이러한 상황에 맞춰 최근 CDN 서버 비용을 절감할 수 있는 WebRTC(Web Real-Time Communication) 표준 기반의 P2P(Peer-to-Peer) 통신을 병용하는 DASH(Dynamic Adaptive Streaming over HTTP) 기술이 등장하였다. 본 논문에서는 이 기술의 CDN 서버 부하 절감 효과를 크게 개선할 수 있는 알고리듬을 제안한다. 또한 실제 모바일 네트워크 환경과 유사하게 실험 조건을 설정한 후, 이 알고리듬을 구현하여 그 성능을 측정한 결과, 기존과 비교하여 더 높은 절감 효과를 달성할 수 있음을 실험실 내 실험을 통해 보인다.
-
본 논문에서는 빔-호핑 위성 전송 시스템을 위한 카운터를 기반의 연속적인 beam allocation time schedule (BATS) 변경 기법을 제안한다. 제안하는 기법은 BATS 를 처음 변경할 때, 카운터를 기반으로 gateway (GW)와 space craft (SC) 양단에서 BATS 변경 시점을 동기화 시킨다. 이 후, BATS를 계속 변경하더라도 전송 데이터 손실 없이 BATS 를 변경할 수 있다.
-
본 논문에서는 작은 객체를 검출하기 위한 수정 된 YOLOv3-tiny 를 제안한다. 컴퓨터 비전에서 작은 객체 검출은 제한된 해상도와 정보로 검출하기 어렵다. 이 문제를 해결하기 위해 기존 방법의 대부분은 높은 정확도 향상을 위해 속도를 희생한다. 본 논문은 정확도와 속도가 균형적인 성능을 통해 빠른 속도로 작은 객체를 검출하는 것을 목표로 한다. 실험은 WIDER FACE 와 자체 수집한 데이터베이스에서 기존 YOLOv3-tiny 보다 높은 87.48% mAP 를 얻었으며, 속도는 각각 100.5FPS 로 YOLOv3-tiny 보다는 느리지만 높은 정확도와 YOLOv3 보다는 빠르지만 낮은 정확도를 통해 균형적인 성능을 얻을 수 있다.
-
최근 자연어 처리 기술의 발전과 서비스 산업에서의 챗봇에 대한 수요가 증가함에 따라 챗봇을 활용한 서비스가 증가하고 있다. 본 논문은 챗봇을 이용한 소셜 매거진 생성 및 배포 시스템에 관한 것으로, 챗봇이 사용자들의 대화를 수집 및 분석하여 대화 주제와 키워드를 찾은 뒤, 크롤링 된 콘텐츠로부터 소셜 매거진을 생성 및 배포하는 서비스에 관한 것이다. 본 논문에서 제안한 시스템에 대한 성능은 실험을 통하여 검증하였다.
-
본 논문에서는 옥타브(sacle vector, octave)를 0, 시그마(sigma)는 1.6, 간격(intervals)은 3으로 설정하여 검출한 RobHess SIFT 특징들로 데이터 셋을 만들어 딥 러닝 모델인 VGG-16을 기반으로 SIFT 이미지 특징을 검출하는 방법을 제안한다. DIV2K 데이터 셋을
$33{\times}33$ 크기로 잘라서 데이터 셋을 구성하였고, 흑백 영상으로 판별하는 SIFT와는 달리 RGB 영상을 사용 하였다. 영상을 좌 우 반전, 밝기, 회전, 크기를 조절하여 원본 영상을 변형시켜 네트워크 학습 및 평가를 진행하였다. 네트워크는 영상의 가운데에 위치한 픽셀이 특징점인지 아닌지를 판별한다. 검증 데이터의 결과 98.207%의 정확도를 얻었다. -
넓은 동적 영역 (High Dynamic Range: HDR) 이미지는 주관적 화질 측면에서 우수하지만 대부분의 디스플레이는 좁은 동적 영역 (Low Dynamic Rang e: LDR) 만 지원이 가능하다. 본 논문에서는 이를 해결하기 위해서 톤 매핑 기법 (Tone Mapping Operator: TMO) 을 사용하여 넓은 동적 영역을 압축하여 수행한다. 기존의 지역 에지 보존 (Local Edge Preserving: LEP) 필터를 적용한 이미지결과는 에지를 보존하지만, 스케일의 분해 과정 중 디테일의 손실이 발생되었다. 본 논문에서는 이미지 변화도를 기반으로 디테일을 보존하는 알고리듬을 제안한다. LEP 필터가 적용되기 전에 이미지의 변화도와 동적 영역이 압축된 후의 이미지에 대한 변화도의 차이만큼 가중하여 디테일을 보존함으로써 주관적 화질을 향상시켰다.
-
이 논문은 3D 입체 음향에 대한 좌표 취득 및 표출 방법을 제안한다. 3차원 좌표를 추정하기 위해 다시점 영상의 색상 영상을 통해 중간 시점의 깊이 영상을 생성한다. 깊이 영상 내에서 객체에 대한 이미지 좌표와 깊이 정보를 이용하여 3차원 좌표를 취득한다. 실험 결과를 통해 깊이 영상에서 도출된 객체의 좌표를 음원의 좌표로 설정하여 3D 입체 음향 표출의 효율을 높일 수 있음을 확인한다.
-
비디오 스티칭은 카메라 간 변환 관계인 호모그래피를 이용하여 스티칭하는 것이 일반적이다. 본 논문은 호모그래피를 이용한 고정형 비디오 스티칭에서 조도 변화, 노이즈 등으로 일관되지 않는 특징점 추출과 유니폼한 입력 영상으로 적은 특징점이 추출되는 경우에 대하여 정확도 높은 호모그래피 추출이 가능한 특징점 누적 기반 고정형 비디오 스티칭 방법을 제안한다. 실험을 통해 단일 프레임 특징점을 이용한 결과 영상에 비해 특징점 누적을 이용하는 경우 영상 내 부정합 영역 등의 왜곡이 크게 감소하였음을 확인하였다.
-
MPEG-NNR (Compressed Representation of Neural Networks) aims to define a compressed and interoperable representation of trained neural networks. In this paper, a compressed representation of NN and its evaluation performance along with use cases of image/video compression in MPEG-NNR are presented. In the compression of NN, a CNN to replace the in-loop filter in VVC (Versatile Video Coding) intra coding is compressed by applying uniform quantization to reduce the trained weights, and the compressed CNN is evaluated in terms of compression ratio and coding efficiency compared to the original CNN. Evaluation results show that CNN could be compressed to about quarter with negligible coding loss by applying simple quantization to the trained weights.
-
최근 개인방송은 시청자가 언제 어디서나 원하는 장소, 시간에 시청할 수 있을 정도로 보편적이고 대중화 되어 있다. 일반적으로 시청자는 방송을 시청할 때 영상의 구간별로 진행되는 콘텐츠를 처음부터 시청하면서 확인하거나 댓글을 확인하기 전까지는 확인할 수 있는 방법이 없다. 이에 본 논문은 행동 패턴을 분석하여 해당 영상의 콘텐츠를 파악하여 시청자에게 방송진행자가 무엇을 하고 있는지를 제공할 수 있다. 따라서 시청자가 영상의 구간별 콘텐츠를 확인하여 영상에서 원하는 구간을 선택하여 시청이 가능하게 되면서 시청자에게 영상을 시청하는데 편리성을 줄 수 있는 기대효과를 가진다.
-
본 논문에서는 해경, 경찰 소방의 임무 상황 등에서 신속하고 능동적으로 대처할 수 있는 드론(Drone) 영상 종합정보처리 및 분석용 시스템을 제안한다. 제안하는 시스템은 드론에서 획득한 영상을 RTP/RTSP 프로토콜을 통해 수신하여 서버에 저장하고, 다양한 시나리오에 따른 영상 처리 및 분석을 수행한다. 실험을 통해 교통량 측정, 용의자 및 차량 추적, 조난자 식별 및 해상 초계 임무에 적용할 수 있음을 확인한다. 드론 운용자가 임무에 따른 필요 기능을 선택하고 신속하게 대처할 수 있는 시스템을 구현하였다.
-
본 논문에서는 스포츠 현장이나 문화공연 무대의 현장감을 전달하기 위해 개발된
$12K{\times}2K$ UWV 중계시스템에 추가적인 VR 전송시스템을 구현하여, 기존의 UWV 시스템으로$12K{\times}2K$ 고화질 영상을 서비스함과 동시에 개인 단말 사용자도 UWV 콘텐츠를 360VR 형태로 소비할 수 있도록 한 UWV 기반 360VR 전송시스템을 제안한다. 제안한 시스템의 스트리밍 플랫폼으로 유튜브를 사용하였으므로, PC 나 휴대폰과 같은 개인형 단말에서 유튜브 플랫폼을 통해 UWV 콘텐츠를 360VR 형태로 소비할 수 있음을 확인할 수 있었다. -
360 비디오는 VR 미디어의 확산과 함께 몰입형 미디어로 주목 받고 있으며, JVET(Joint Video Experts Team)에서는 post-HEVC 로 진행중인 VVC(Versatile Video Coding) 표준화에 360 비디오 부호화도 함께 포함하고 있다. 현재 JVET 에서는 360 비디오를 부호화 하기 위한 다양한 구(sphere) 영상의 2D 투영기법이 고려되고 있다. 이러한 2D 투영에서는 구 영상의 화소 샘플이 2D 영상에 비 균일하게 매핑되는 변환 왜곡이 발생하며, 이는 360 비디오의 부호화 효율을 저하시키는 원인이 된다. 본 논문에서는 CMP 의 개선된 투영기법인 기존의 EAC(Equi-Angular Cubemap)와 HEC(Hybrid Equiangular Cubemap)를 소개하고, 이를 바탕으로 HEC 의 확장 변환 기법을 제시하여 객관적/주관적 부호화 성능을 확인한다.
-
360 비디오는 VR 응용의 확산과 함께 몰입형 미디어로 주목 받고 있으며, JVET(Joint Video Experts Team)에서 post-HEVC 로 진행중인 VVC(Versatile Video Coding)에 360 비디오 부호화도 함께 고려하고 있다. 360 비디오 부호화를 위하여 변환된 2D 영상은 투영 면(face) 간의 불연속성과 비활성 영역이 존재할 수 있으며 이는 부호화 효율을 저하시키는 원인이 된다. 본 논문에서는 SSP(Segmented Projection)에서의 이러한 불연속성과 비활성 영역을 줄이는 효율적인 기하학적 패딩(padding) 기법을 제시한다. 실험결과 제안 기법은 복사에 의한 패딩을 사용하는 기존 SSP 대비 주관적 화질이 향상된 것을 확인 할 수 있었다.
-
다수의 일반 카메라로 촬영한 영상들로 360도 영상을 제작하는 경우 다수의 영상 간 동일한 영역을 찾고 기하학 보정을 위한 영상 스티칭 기술이 필요하다. 영상 스티칭 기술은 여러 영상에서 추출한 특징점들의 유사도를 비교하여 영상들을 이어 붙여 큰 하나의 영상으로 만드는 것이다. 본 논문에서는 비콘이 부착된 공연장을 가정하여, 비콘을 통해서 촬영자의 위치를 대략적으로 파악하고, 사용자가 어플리케이션을 통하여 전송한 영상과 영상의 방위각, FOV(Field Of View)들을 이용하여 실내에서 촬영된 영상들을 스티칭 대상 영상들로 필터링하는 방법을 제안한다.
-
카메라 기술의 발달로 나노 단위의 유해물질 영상을 간단한 광학장치를 장착한 휴대폰을 사용해 손쉽게 획득할 수 있게 되었다. 하지만, 유해물질 영상 관찰을 위하여 실제 사용되는 현미경에 비하여는 영상 전역에 원치 않는 잡음이 현저하게 발생한다. 특히 대중적인 저가의 광학계를 사용할 경우, 광량이 불균등하게 조사됨에 따라 얻어진 유해물질 영상에 왜곡이 발생할 수 있는데 이로 인해 기존의 유해물질 농도 검출 알고리즘을 적용하는 경우 좋지 못한 결과를 얻을 수 있다. 따라서 영상 전체에 조사되는 불균형한 조명에 의한 영향을 최소화할 필요가 있으며, 이에 착안하여 본 논문에서는 가우시안 모델에 기반한 조명 정규화 방법을 제안한다. 이는 영상 전역에 발생한 불균형 조명에 대한 영향을 최소화하여 찾고자 하는 유해물질 영역의 경계 특성을 더욱 명확하게 할 수 있는 효과가 있다.
-
본 논문에서는 포털 사이트에 게재된 뉴스 기사 집합에서 이슈가 된 키워드들을 자동으로 추출하는 시스템을 소개한다. 포털 사이트에서 사용하는 기존의 키워드 추출 시스템은 검색 횟수를 기반으로 하고 있으며, 뉴스 기사에서 단어 간의 상대적 중요성을 반영하지 못하고, 외부로부터 영향을 받아 순위 조작과 같은 문제점을 수반할 수 있다. 제안하는 시스템에선 TF-IDF 모델을 사용하여 단어 간의 상대적인 중요성에 기반하고, 추출된 키워드들의 시각적 변화를 반영하여 이슈 키워드를 추출한다. 제안한 시스템의 효용성 확인을 위해 58,996 개의 정치 뉴스 기사를 수집하였으며, TF-IDF 기반의 제안 방식과 TF 기반의 기존 방식을 비교하였다. 제안한 시스템이 기존 방식보다 시간에 따른 정치 뉴스의 이슈 변화를 분석하는 데 효과적인 것을 확인하였다.
-
정확한 영상 검색을 지원하기 위해 다양한 데이터와 방법들을 통한 메타데이터 생성 연구들이 이루어지고 있다. 자막 데이터를 기존의 키워드 기반의 메타데이터 생성 방법을 이용했을 경우, 구어체, 불완전 문장의 특징을 가진 특징을 반영하는데 어려움이 있었다. 또한, 단순히 키워드 매칭에 의존하기 때문에 문장에 중의적 단어가 포함되어 있을 경우에 검색 정확도가 떨어진다는 한계점이 있다. 따라서, 본 논문에서는 이러한 문제를 해결하기 위해 문장 전체를 특정 단위로 표현한 메타데이터를 생성한다. 이를 위해 비지도 학습인 RNN-LSTM 기반 네트워크를 이용하여 자막을 인코딩하고 장면 지식으로 생성하는 방법을 제안한다. 실험에서는 본 시스템을 통해 임의의 자막을 입력하고 유사도 기반의 결과 비교를 통해 자막 메타데이터의 정성적 평가를 수행하였다.
-
본 논문에서 제안하는 기술은 무인기 획득 영상에 dense optical flow 기술을 적용하여, 이미지 내에서 급격히 움직이는 사물을 추출하는 기술이다. 제안 기술을 활용하여 사람, 사물 장소에 해당하는 시간에 따른 데이터인 다중로그 데이터로 융합 분석하여 낙석, 산사태, 비탈면 붕괴등을 감지 할 수 있게 되어 보행자의 안전을 보장 하고자 한다. 본 논문에서는 해당 기술을 구현하기 위한 무인기 및 탑재 장비와 데이터 처리를 위한 서버들간의 인터페이스 및 분석 알고리즘을 소개한다.
-
정보 통신 기술이 발전함에 따라, 적절한 검증을 거치지 않은 미디어 콘텐츠가 공급되고 소비되는 미디어 소비 환경이 형성되고 있다. 이러한 환경에서는 적절치 않은 미디어 콘텐츠의 유통을 제어 하기 위해 기존의 보안 및 인증 기술을 적용하는데 한계가 있기에 새로운 접근 방법의 고민이 필요하다. 본 연구에서는, 건전한 미디어 콘텐츠 소비환경 조성을 위한 미디어 트러스트(Trust)의 개념을 정립하고, 이를 위한 미디어 트러스트에 영향을 주는 4 가지 트러스트 요소들을 제안한다. 그리고, 제안된 요소들의 유효성을 검증하기 위한 YouTube 데이터의 활용 방안에 대해 기술한다. 이러한 접근 방법을 통해 미디어 소비환경에서의 트러스트 개념에 대한 연구 및 기술개발을 활성화 시키고자 한다.
-
본 논문에서는 압축 영역에서 열 영상을 이용한 딥러닝 기반의 객체 검출 방법을 제안한다. 비디오 압축 표준인 High Efficiency Video Coding(HEVC)를 이용하여 부보화된 비트스트림으로부터 Intra Prediction Mode(IPM), Prediction Unit Size(PUS), Transform Unit Size(TUS)를 추출하고 3 채널 영상으로 변환하고 객체 검출 네트워크인 YOLO 에 입력으로 넣어주어 최종적으로 객체의 위치 및 객체의 종류를 예측한다. 실험결과로써 복원된 열 영상과 검출된 결과를 주관적으로 보여줌으로써 압축영역에서 열영상을 이용한 객체 검출이 가능함을 보인다.
-
본 논문에서는 양방향 예측 모드에서 LIC(Local Illuminance Compensation)의 복잡도 감소를 위한 방법을 제안한다. 제안하는 방법은 현재 CU 가 양방향 예측 모드일 경우 움직임 보상 단계에서 예측 블록 두 개를 가중 평균을 낸 뒤 LIC 를 수행함으로써 양방향 예측모드에서 LIC 를 한번만 수행하여 기존 LIC 대비 낮은 복잡도를 보인다. 제안하는 방법의 성능 평가를 위하여 RA(Random Access) 조건에서 MPEG 표준 실험 영상의 B, C, D 클래스를 이용하여 BD-rate 를 VTM-2.0.1 과 비교한다. 실험결과로서 본 논문에서 제안하는 방법이 VTM2.0.1 대비 BD-rate 성능 관점에서 Y, U, V 각각에 대하여 평균 0.17, 0.17, 0.23 의 성능 향상을 보인다.
-
Park, Juntaek;Lee, Jongseok;Choi, Hansol;Park, Seanae;Oh, Seoungjun;Sim, Donggyu;Bang, Gun;Kim, Huiyong 165
본 논문에서는 LIC(Local Illumination Compensation) 방법의 pipeline 문제를 완화하고 계산 복잡도를 줄이는 방법을 제안한다. LIC 는 현재 코딩하는 블록과 해당 블록의 참조블록의 주변에 존재하는 복원 샘플을 이용하여 선형 모델을 구한다. 따라서, 주변 샘플의 복원이 완료되기 전까지 LIC 를 수행할 수 없다는 pipeline 문제가 발생한다. 본 논문에서는 복원이 완료된 주변 샘플을 사용하지 않고, 차분 신호를 사용하여 LIC를 수행하는 방법을 제안한다. 본 논문에서 제안하는 방법의 성능을 평가하기 위하여 VTM 2.0.1 과 BD-rate 비교를 한다. 실험 결과로써 VTM 2.0.1 대비 Y 성분에 대해 평균 0.13%, U 성분에 대해 평균 -0.08%, V 성분에 대해 평균 -0.09%의 BD-rate 이득을 보인다. -
2016 한국 전력 통계에 따르면 약 900 만개의 지지물과 130 만 킬로미터의 전력 분배용 전력선이 있으며 많은 인적 자원과 엄청난 양의 송전선에 대한 유지보수가 필요하다. 현재 전선 늘어짐에 대한 고장진단 기법 중 하나로 이동 중인 자동차에 부착된 비전 시스템을 이용한 방법이 있다. 이 방법에서 사용된 송전선 탐지 방법을 보완하여 송전선을 이미지상에서 추출한다. 본 논문에서는 인공지능을 사용하여 지지물 을 탐지하고, 지지물 사이의 거리가 멀다는 점을 극복하기 위하여 공통 특징점들이 있는 이미지들을 하나의 이미지로 붙이는 파노라마 기술을 사용하여 지지물 사이의 거리를 극복하며, 제안하는 방법으로 송전선을 탐지하고 늘어짐을 판단하는 시스템을 제안한다.
-
최근 360 비디오를 지원하는 가상현실 시스템에 대한 수요가 높아지면서, 사용자의 편의를 위해 다양한 방법이 제안되고 있다. Moving Picture Experts Group (MPEG) 에서는 제한적인 사용자 경험을 제공하는 3DoF 를 넘어 3DoF+, 6DoF 표준을 진행하고 있고, 이에 따른 많은 연구도 활발히 진행되고 있다. 사용자가 앉아있는 상태에서 머리의 움직임에 따라 제한적인 자유도를 제공하는 3DoF+ 시스템은 여러 고해상도의 360 비디오 전송을 요구하여 네트워크 대역폭에 상당한 부담을 준다. 본 논문은 3DoF+ 360 비디오 전송 시 대역폭의 효율적 사용을 위한 비트레이트 절감 방안을 제안한다. 이를 위해, 본 논문은 360 비디오의 프로젝션을 변경하여 해상도를 줄이면서도 정보 손실을 최소화할 수 있는 방법을 제시하고 결과를 설명한다. 프로젝션 변경을 위해 360 라이브러리를 사용하였고, 인코딩과 디코딩 시 효율 측정을 위해 HEVC Test Model (HM)을 사용하였다. 최종적으로 구현된 시스템은 360 비디오를 최적의 프로젝션으로 변환 후 인코딩, 디코딩을 거치고 다시 360 비디오로 변환하는 과정을 지원한다.
-
본 논문에서는 직사각형 영상에서의 객체 좌표를 회전축과의 각도로 표현하는 방법을 적용한 자동화된 객체추적 알고리즘을 제안한다. 직사각형 영상을 구형으로 맵핑했을 때 객체의 정확한 좌표를 알아내기 위해 비례식을 사용하였다. 실제 영상이 구형 영상으로 맵핑되었을 때, 화면에 보이는 중앙점을 기반으로 실제 영상의 좌측상단 좌표를 구하였다. 앞서 구한 좌표를 이용하여 실제 영상의 좌측상단에서 객체의 이동 거리를 더하면 구형 영상에서 객체의 실제 좌표를 구할 수 있다. 제안한 방법을 통해서 관심 객체의 움직임을 효과적으로 추적하였다.
-
기존 산업평가 방법은 산업별로 분류된 기업의 재무, 비재무 관련 정형 데이터를 기반으로 통계적 기법을 이용하여 각 산업을 평가하고 있다. 이러한 정형 데이터 기반의 산업 평가 방법은 산업별 재무 정보의 집계 및 통계에 오랜 시간이 소요된다. 따라서, 현재 시장 상황을 반영하기 어려운 현실이다. 최근에는 빠르게 변화하는 산업 환경을 반영하기 위해 뉴스 기사와 같은 비정형 데이터를 통해 산업 트랜드를 분석하기 위한 연구가 이루어 지고 있다. 이에, 본 논문에서는 실시간으로 변화하는 산업 트렌드를 반영하여 적시에 산업 분석 정보를 제공하기 위해 정형/비정형 데이터 기반의 산업평가 정보 분석 엔진을 구현하고, 산업별로 분석된 산업평가 정보를 활용하여 사용자가 직관적인 판단을 할 수 있도록 산업평가 정보 시각화 서비스를 제안한다.
-
최근 빠르게 변화하는 산업 환경에서 뉴스 기사와 같은 비정형 데이터를 기반으로 산업 트랜드를 분석하기 위한 연구가 진행되고 있다. 뉴스와 같은 비정형 데이터를 기반으로 산업별 트랜드를 분석하기 위해서는 분석 대상 산업에 대한 많은 양의 시계열 데이터가 요구된다. 하지만, 수집된 비정형 데이터를 분류하면 산업별/기간별 일정하지 않은 데이터 분포를 보이거나, 특정 산업에 대해서는 특정 기간에 데이터가 존재하지 않은 경우가 발생하여 산업별 시계열 분석이 어려운 경우가 발생할 수 있다. 이에, 본 논문에서는 산업별/기간별 균일하지 못한 비정형 데이터의 분포를 보정하기 위한 방법으로 비정형 데이터 기반 산업간 유사도를 분석 기법을 제안한다. 산업별 유사도 분석을 위해 각 산업별 주요 키워드를 도출하고 토픽 모델링 기법을 이용하여 산업간 유사도 분석을 통해 산업별/기간별 비정형 데이터 부족현상을 보완하는 방법을 제시한다.
-
방송제작을 위해 이제 필수 항목이 된 가상스튜디오는 비용이나 운용면에서 일반 스튜디오보다 어려운 점이많다. 따라서 HD 가상스튜디오를 구축할 때 저비용으로 시설을 변경하여 UHD 제작을 할 수 있는 가상스튜디오 환경을 고려하여 구축할 필요가 있다. 이를 위해 UHD 포맷까지 겸용 가능한 장비들로 가상스튜디오를 구축하였다. 또한 카메라의 움직임 트래킹 센서가 환경변화에도 정확한 위치 추적을 할 수 있는 광학적인 센서를 도입하였다. 즉, 천장에 원형 모양의 빛 반사 스티커를 랜덤하게 달아 한번 셋업하면 가상스튜디오 카메라를 어려움 없이 사용할 수 있도록 하였다. 또한 카메라 콘트롤러와 비디오 스위처 등도 하드웨어 대신에 PC기반의 운용소프트웨어를 설치하여 편리하게 운용할 수 있도록 하였다.
-
Shin, Jongseob;Koh, Ujong;Lee, SeungHo;Kim, Chulhwan;Kim, Bongseong;Choi, Mugyeong;Song, Jaeho;Ko, Yongseok;Lee, Donil;Choi, Minyeong;Lee, Jaegwan;Choi, Jongcheol;Hwang, Inju;Cho, Seungwan;Kim, Byeongu;Park, Hocheol;Woo, Deokjun;Park, Insu;Kim, Jinhong;Hong, Seokmyeong;Kim, Seongtae;Kim, Haejung;Cho, Hyeongjun;Shin, Hyeonuk;Yu, Gyeongho;Lee, Munsik;Ham, Jeongwan 186
KBS는 차세대 방식인 IP전송 기술을 UHD방송에 적용하기로 결정하고 2017년 9월부터 2018년 3월까지 약 7개월에 걸쳐 ALL-IP UHD부조정실 구축을 완료했다. 이후 약 3개월간의 시뮬레이션 기간을 거쳐, 현재 KBS 1TV '아침마당'과 '무엇이든 물어보세요' 를 생방송으로 제작하고 있고 KBS 2TV '그녀들의 여유만만'을 녹화 제작하고 있다. 본 논문은 UHD비디오신호와 오디오신호를 ALL-IP로 전송하기 위해 참조한 표준기술과 각 파트별 구축 세부내용을 소개한다. 또한 향후 지속적으로 발전할 IP제작 시스템에 대해 효율적인 계획과 대응을 할 수 있도록 구축사례에 대한 경험을 결론으로 논한다. -
Song, Sangkeon;Kim, Jihoon;Kim, Dohyung;Kwon, Youngbu;Lee, Seungho;Kim, Cheolhwan;Eun, Takgi;Cho, Hyeongjun;Kim, Hogi;Cho, Injun 190
통신 기술의 발달 등에 따라 소비자에게 스마트폰은 일상화되었고, 이는 미디어 생태계에 큰 영향을 끼쳤다. 본 논문에서는 급변하는 미디어 시장에서 새로운 플랫폼과 N-스크린 서비스의 중요성과 한국방송공사에서 국내 최초로 설계하고 제작한 모바일-TV 동시 생방송 프로그램 시스템에 대해 소개한다. 특히 설계된 시스템이 실제 방송 환경에서 어떻게 적용되어 송출되었는지 소개하고 현재 방송 제작 여건의 한계와 해결방안에 대해 논한다. 마지막으로 N-스크린 서비스를 실제 방송기술에 적용하고 확장할 수 있는 방법과 향후 전망, 그리고 KBS가 급변하는 미디어 생태계 환경에서 생존하기 위해 연구, 개발하며 나아갈 방향에 대해 논한다. -
본 논문은 가상현실 음향 구현을 위한 심층신경망 기반 사운드 보간 방법에 관한 것으로서, 이를 통해 두 지점에서 취득한 음향 신호들을 사용하여 두 지점 사이의 음향을 생성한다. 산술평균이나 기하평균 같은 통계적 방법으로 사운드 보간을 수행할 수 있지만 이는 실제 비선형 음향 특성을 반영하기에 미흡하다. 이러한 문제를 해결하기 위해서 본 연구에서는 두 지점들과 목표 지점의 음향신호를 기반으로 심층신경망을 훈련하여 사운드 보간을 시도하였으며, 실험결과 통계적 방법에 비해 심층신경망 기반 사운드 보간 방법의 성능이 우수함을 보였다.
-
본 논문에서는 미디어사물인터넷의 기본적인 기능인 미디어사물을 발견하고 연결하는 과정에 필요한 API 및 프로세스에 대해 설명한다. 또한 미디어사물의 기능, 자원, 데이터를 사용하기 위해 필요한 미디어사물거래 API 와 이의 프로세스를 설명한다. 기본적인 순서로 가장 먼저 미디어사물을 발견할 때, 기능을 기반으로 발견하고 연결하여 해당 기능에 대한 사용권을 선점한다. 미디어사물이 연결된 후에 해당 기능을 사용하는데 필요한 비용에 따라 해당 미디어 토큰을 지불하고, 지불한 만큼의 시간 동안 기능을 사용하는 과정을 시퀀스 다이어그램을 통해 설명하고 각각 필요한 API 를 설명한다.