통합 검색 | Korea Science

딥러닝 기반의 회전에 강인한 텍스트 검출 기법 (Rotation-robust text localization technique using deep learning)

최인규;김제우;송혁;유지상
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2019년도 하계학술대회
- /
- pp.80-81
- /
- 2019
본 논문에서는 자연스러운 장면 영상에서 임의의 방향성을 가진 텍스트를 검출하기 위한 기법을 제안한다. 텍스트 검출을 위한 기본적인 프레임 워크는 Faster R-CNN[1]을 기반으로 한다. 먼저 RPN(Region Proposal Network)을 통해 다른 방향성을 가진 텍스트를 포함하는 bounding box를 생성한다. 이어서 RPN에서 생성한 각각의 bounding box에 대해 세 가지의 서로 다른 크기로 pooling된 특징지도를 추출하고 병합한다. 병합한 특징지도에서 텍스트와 텍스트가 아닌 대상에 대한 score, 정렬된 bounding box 좌표, 기울어진 bounding box 좌표를 모두 예측한다. 마지막으로 NMS(Non-Maximum Suppression)을 이용하여 검출 결과를 획득한다. COCO Text 2017 dataset[2]을 이용하여 학습 및 테스트를 진행하였으며 주관적으로 평가한 결과 기울어진 텍스트에 적합하게 회전된 영역을 얻을 수 있음을 확인하였다.
PDF

제한된 계산량으로 가정내 음향 상황을 검출하는 사운드 이벤트 검출 시스템 개발 (Development of Sound Event Detection for Home with Limited Computation Power)

장달원;이재원;이종설
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2019년도 하계학술대회
- /
- pp.257-258
- /
- 2019
이 논문에서는 가정내 음향 상황에 대한 사운드 이벤트 검출을 수행하는 시스템을 개발하는 내용을 담고 있다. 사운드 이벤트 검출 시스템은 마이크로폰 입력에 대해서 입력신호로부터 특징을 추출하고, 특징으로부터 이벤트가 있었는지 아닌지를 분류하는 형태를 가지고 있다. 본 연구에서는 독립형 디바이스가 가정내 위치한 상황을 가정하여 개발을 진행하였다. 가정내에서 일어날 수 있는 음향 상황을 가정하고 데이터셋 녹음을 진행하였다. 데이터셋을 기반으로 특징과 분류기를 개발하였으며, 적은 계산량으로 결과를 출력해야 하는 독립형 디바이스에 활용하기 위해서 특징셋을 간소화하는 과정을 거쳤다. 개발결과는 가정의 거실환경에서 녹음된 소리를 스피커로 출력하여 테스트하였으며, 다양한 음향 상황에 대한 개발이 추가적으로 필요하다.
PDF

컨벌루션 신경망 기반 비디오 디인터레이스 기법 (Video Deinterlace based on Convolutional Neural Network)

정진우;안하은;김제우
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2019년도 하계학술대회
- /
- pp.73-75
- /
- 2019
인터레이스 영상은 지난 수 십 년간 방송 및 비디오 레코딩 등에 광범위하게 사용되고 있으며 디인터레이스의 성능을 향상 시키기 위한 많은 연구가 이루어졌다. 이를 위한 것으로써 본 논문에서는 컨볼루션 신경망을 이용한 비디오 디인터레이스 기법을 제안한다. 제안한 방법은 SKIP 연결을 사용하여 낮은 수준 특징 정보를 뒷 단의 레이어까지 전달함으로써 성능 향상을 달성하였다. 실험 결과는 FFMPEG 에서 제공하는 디인터레이스 기법에 비해 전 영상에 걸쳐 우수한 성능을 제공하며, 특히 복잡한 영상에서 기존 알고리즘 대비 큰 폭의 성능향상을 보인다.
PDF

딥러닝을 이용한 오디오 콘텐츠 분석 기반의 자동 음량 제어 기술 개발 (Development of Automative Loudness Control Technique based on Audio Contents Analysis using Deep Learning)

이영한;조충상;김제우
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2018년도 추계학술대회
- /
- pp.42-43
- /
- 2018
국내 디지털 방송 프로그램은 2016년 방송법 개정 이후, ITU-R / EBU에서 제안한 측정 방식을 활용하여 채널 및 프로그램 간의 음량을 맞추어 제공되고 있다. 일반적으로 뉴스나 중계와 같이 실시간으로 음량을 맞춰야 하는 분야를 제외하고는 평균 음량을 규정에 맞춰 송출하고 있다. 본 논문에서는 일괄적으로 평균 음량을 맞출 경우 발생하는 저음량의 명료도를 높이기 위한 기술을 제안한다. 즉, 방송 음량을 조절하는 기술 중의 하나로 오디오 콘텐츠를 분석하여 구간별 음량 조절 정도를 달리함으로써 저음량에서의 음성은 상대적으로 높은 음량을 가지고 배경음악 등을 상대적으로 낮음 음량을 가지도록 생성함으로써 명료도를 높이는 방식을 제안한다. 제안한 방식의 성능을 확인하기 위해 오디오 콘텐츠 분석 정확도 측정과 오디오 파형 분석을 실시하였으며 이를 통해 기존의 음량 제어 기술과 비교하여 음성 구간에 대해 음량을 증폭시키는 것을 확인하였다.
PDF

정형/비정형 데이터 기반 산업 평가 정보 분석 및 시각화 서비스 구현 (Development of Structured/Unstructured data-based Industry Evaluation Information Analysis and Visualization Service)

김경원;정승경;조대근;윤경로
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2018년도 추계학술대회
- /
- pp.177-179
- /
- 2018
기존 산업평가 방법은 산업별로 분류된 기업의 재무, 비재무 관련 정형 데이터를 기반으로 통계적 기법을 이용하여 각 산업을 평가하고 있다. 이러한 정형 데이터 기반의 산업 평가 방법은 산업별 재무 정보의 집계 및 통계에 오랜 시간이 소요된다. 따라서, 현재 시장 상황을 반영하기 어려운 현실이다. 최근에는 빠르게 변화하는 산업 환경을 반영하기 위해 뉴스 기사와 같은 비정형 데이터를 통해 산업 트랜드를 분석하기 위한 연구가 이루어 지고 있다. 이에, 본 논문에서는 실시간으로 변화하는 산업 트렌드를 반영하여 적시에 산업 분석 정보를 제공하기 위해 정형/비정형 데이터 기반의 산업평가 정보 분석 엔진을 구현하고, 산업별로 분석된 산업평가 정보를 활용하여 사용자가 직관적인 판단을 할 수 있도록 산업평가 정보 시각화 서비스를 제안한다.
PDF

Metric learning과 IoU 비교를 통한 객체추적 기법 (Object Tracking Technique with Metric Learning and IoU Comparison)

최인규;고민수;송혁;유지상
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2018년도 하계학술대회
- /
- pp.329-331
- /
- 2018
지속적인 딥러닝 기반의 영상처리 기술의 발전으로 객체분류나 객체검출 문제에 대해서 뛰어난 성능 보이고 있다. 하지만 객체추적 문제에서는 성능이 좋은 추적기는 실시간 동작이 불가능하고 딥러닝 기반의 객체추적도 단일 객체에만 고려한 기법이 많기 때문에 개선할 필요가 있다. 전처리로 검출된 객체영역과 kalman filter를 통해 예측된 추적영역 간의 embedding feature 비교를 통해 동일인물인지 판단하여 고유 ID를 부여하고 추적한다. 객체끼리 교차하거나 가려지는 상황에서 추적을 실패하게 되는데 이 후에 지속적인 추적을 위해 IoU 비교를 통해 후보 추적기로 남겨두는 과정을 거친다. 실험 결과 실시간 동작여부와 객체끼리 교차하거나 프레임 밖으로 나갔다가 다시 나타나는 경우에도 추적이 가능함을 확인하였다.
PDF

효율적인 작은 객체 검출을 위한 균형적인 성능의 YOLOv3-tiny (Balanced performance for Efficient Small Object Detection YOLOv3-tiny)

이경민;송혁;김제우;인치호
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2018년도 추계학술대회
- /
- pp.117-118
- /
- 2018
본 논문에서는 작은 객체를 검출하기 위한 수정 된 YOLOv3-tiny 를 제안한다. 컴퓨터 비전에서 작은 객체 검출은 제한된 해상도와 정보로 검출하기 어렵다. 이 문제를 해결하기 위해 기존 방법의 대부분은 높은 정확도 향상을 위해 속도를 희생한다. 본 논문은 정확도와 속도가 균형적인 성능을 통해 빠른 속도로 작은 객체를 검출하는 것을 목표로 한다. 실험은 WIDER FACE 와 자체 수집한 데이터베이스에서 기존 YOLOv3-tiny 보다 높은 87.48% mAP 를 얻었으며, 속도는 각각 100.5FPS 로 YOLOv3-tiny 보다는 느리지만 높은 정확도와 YOLOv3 보다는 빠르지만 낮은 정확도를 통해 균형적인 성능을 얻을 수 있다.
PDF

토픽 모델링을 이용한 비정형 데이터 기반 산업간 유사도 분석 (Analysis of similarity between industries based on unstructured data using topic modeling)

김경원;박종빈;정종진;윤경로
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2018년도 추계학술대회
- /
- pp.180-182
- /
- 2018
최근 빠르게 변화하는 산업 환경에서 뉴스 기사와 같은 비정형 데이터를 기반으로 산업 트랜드를 분석하기 위한 연구가 진행되고 있다. 뉴스와 같은 비정형 데이터를 기반으로 산업별 트랜드를 분석하기 위해서는 분석 대상 산업에 대한 많은 양의 시계열 데이터가 요구된다. 하지만, 수집된 비정형 데이터를 분류하면 산업별/기간별 일정하지 않은 데이터 분포를 보이거나, 특정 산업에 대해서는 특정 기간에 데이터가 존재하지 않은 경우가 발생하여 산업별 시계열 분석이 어려운 경우가 발생할 수 있다. 이에, 본 논문에서는 산업별/기간별 균일하지 못한 비정형 데이터의 분포를 보정하기 위한 방법으로 비정형 데이터 기반 산업간 유사도를 분석 기법을 제안한다. 산업별 유사도 분석을 위해 각 산업별 주요 키워드를 도출하고 토픽 모델링 기법을 이용하여 산업간 유사도 분석을 통해 산업별/기간별 비정형 데이터 부족현상을 보완하는 방법을 제시한다.
PDF

청각 특성을 고려한 적응적인 오디오 음량 자동 제어 기술 개발 (Development of Adaptive Audio Loudness Control Technology based on Human Acoustic Characteristics)

이영한;조충상;김제우
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2018년도 하계학술대회
- /
- pp.125-127
- /
- 2018
2016년 이후 방송법 개정을 통해 디지털 방송의 음량을 ITU-R / EBU에서 제안한 측정 방식을 활용하여 채널 및 프로그램 사이의 방송 음량을 맞추어 제공하고 있다. 본 논문에서는 방송 음량을 조절하는 기술 중의 하나로 ITU-R 1770-3 측정 방식을 기반으로 하여 청각적 특성을 고려한 적응적 오디오 음량 자동 제어 기술을 제안한다. 오디오 음량 자동 제어 기술은 프로그램의 음량을 기준치에 맞추는 동시에 오디오 데이터의 왜곡을 최소화해야 한다. 제안한 기술은 음량을 기준인 -24 LKFS에 맞추는 동시에 왜곡의 최소화하면서 명료도를 높이는 것을 목표로 개발되었다. 이를 위해, 가청/비가청 구간에 따라 적응적으로 이득을 조절할 수 있는 구조를 개발하였다. 제안한 방식의 성능을 확인하기 위해 주관적 음질 평가 방식을 실시하였으며 이를 통해 기존의 음량 제어 기술과 비교하여 음질이 향상됨을 확인하였다.
PDF

Pyramid pooling을 이용한 CNN 기반의 Human Parsing 기법 (CNN-based Human Parsing Technique Using Pyramid Pooling)

최인규;고민수;송혁
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2018년도 추계학술대회
- /
- pp.97-98
- /
- 2018
최근 딥러닝 기술의 발전으로 영상 분류 및 영상 내 객체 검출뿐만 아니라 CNN 기반의 segmentation 기술도 개발되어 다른 요소까지 포함한 직사각형 영역의 검출 영역이 아닌 경계까지 고려한 분리가 가능하게 되었다. 더불어 사람 영역을 신체부위나 의류 부분과 같은 세부 영역으로 나누어 분리하는 human parsing 기술까지 연구되고 있다. Human parsing은 의류스타일 분석 및 검색, 사람의 행동 인식 및 추적과 같은 분야에도 응용될 수 있다. 본 논문에서는 Spatial pyramid pooling layer를 이용하여 영상 전체에 대한 공간적 분포 및 특성 정보를 고려한 human parsing 기법을 제안한다. Look into person(LIP) dataset을 이용하여 기존의 다른 segmentation 및 human parsing 기법과 제안하는 기법을 비교하여 제안하는 기법의 human parsing 결과가 보다 정교한 분리가 가능한 것을 확인하였다.
PDF

검색결과 378건 처리시간 0.02초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)