• 제목/요약/키워드: Deep-learning Neural Network

검색결과 1,662건 처리시간 0.028초

음향 장면 분류를 위한 경량화 모형 연구 (Light weight architecture for acoustic scene classification)

  • 임소영;곽일엽
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.979-993
    • /
    • 2021
  • 음향 장면 분류는 오디오 파일이 녹음된 환경이 어디인지 분류하는 문제이다. 이는 음향 장면 분류와 관련한 대회인 DCASE 대회에서 꾸준하게 연구되었던 분야이다. 실제 응용 분야에 음향 장면 분류 문제를 적용할 때, 모델의 복잡도를 고려하여야 한다. 특히 경량 기기에 적용하기 위해서는 경량 딥러닝 모델이 필요하다. 우리는 경량 기술이 적용된 여러 모델을 비교하였다. 먼저 log mel-spectrogram, deltas, delta-deltas 피쳐를 사용한 합성곱 신경망(CNN) 기반의 기본 모델을 제안하였다. 그리고 원래의 합성곱 층을 depthwise separable convolution block, linear bottleneck inverted residual block과 같은 효율적인 합성곱 블록으로 대체하고, 각 모델에 대하여 Quantization를 적용하여 경량 모델을 제안하였다. 경량화 기술을 고려한 모델은 기본 모델에 대비하여 성능이 비슷하거나 조금 낮은 성능을 보였지만, 모델 사이즈는 503KB에서 42.76KB로 작아진 것을 확인하였다.

효과적인 역 톤 매핑을 위한 필터링 기법 (Image Filtering Method for an Effective Inverse Tone-mapping)

  • 강라훈;박범준;정제창
    • 방송공학회논문지
    • /
    • 제24권2호
    • /
    • pp.217-226
    • /
    • 2019
  • 본 논문에서는 가이디드 영상 필터 (guided image filter: GIF)를 이용하여 컨볼루션 신경망 (convolutional neural network; CNN)을 이용한 역 톤 매핑 (inverse tone-mapping) 기법의 결과를 향상시킬 수 있는 필터링 기법을 제안한다. 저동적범위 (low dynamic range; LDR) 영상을 고동적범위 (high dynamic range; HDR) 디스플레이에서 표현할 수 있도록 변환하는 역 톤 매핑 기법은 지속적으로 제안되어왔다. 최근 들어 컨볼루션 신경망을 이용하여 단일 LDR 영상을 HDR 영상으로 변환하는 알고리듬이 많이 연구되었다. 그 중엔 제한된 동적범위 (dynamic range)로 인해 화소가 포화되어 기존 화소 정보가 손실되는데 이를 학습된 컨볼루션 신경망을 이용해서 복원하는 알고리듬이 존재한다. 해당 알고리듬은 비포화 영역의 잡음까지는 억제하지 못하며 포화 영역의 디테일까지는 복원하지 못한다. 제안한 알고리듬은 입력 영상에 가중된 가이디드 영상 필터 (weighted guided image filter; WGIF)를 사용해서 비포화 영역의 잡음을 억제하고 포화 영역의 디테일을 복원시킨 다음 컨볼루션 신경망에 인가하여 최종 결과 영상의 품질을 개선하였다. 제안하는 알고리듬은 HDR 정량적 화질평가 지표를 측정하였을 때 기존의 알고리듬에 비해 높은 화질평가 지수를 나타내었다.

Mask R-CNN을 이용한 항공 영상에서의 도로 균열 검출 (Crack Detection on the Road in Aerial Image using Mask R-CNN)

  • 이민혜;남광우;이창우
    • 한국산업정보학회논문지
    • /
    • 제24권3호
    • /
    • pp.23-29
    • /
    • 2019
  • 기존의 균열 검출 방법은 많은 인력과 시간, 비용이 소모되는 문제점이 있다. 이러한 문제를 해결하고자 차량이나 드론을 이용하여 취득한 영상에서 균열 정보를 파악하고 정보화하는 자동검출시스템이 요구되고 있다. 본 논문에서는 드론으로 촬영한 도로 영상에서의 균열 검출 연구를 진행한다. 획득한 항공영상은 전처리와 라벨링(Labeling) 작업을 통해 균열의 형태정보 데이터셋(data set)을 생성한다. 생성한 데이터셋을 Mask R-CNN(regions with convolution neural network) 딥러닝(deep learning) 모델에 적용하여 다양한 균열 정보가 학습된 새로운 모델을 획득하였다. 획득 모델을 이용한 실험 결과, 제시된 항공 영상에서 균열을 평균 73.5%의 정확도로 검출하였으며 특정 형태의 균열 영역도 예측하는 것을 확인할 수 있었다.

시멘틱 세그멘테이션을 활용한 이미지 오브젝트의 효율적인 영역 추론 (Efficient Inference of Image Objects using Semantic Segmentation)

  • 임헌영;이유림;지민규;고명현;김학동;김원일
    • 방송공학회논문지
    • /
    • 제24권1호
    • /
    • pp.67-76
    • /
    • 2019
  • 본 연구에서는 다중 라벨링이 되어 있는 이미지 데이터를 대상으로 시멘틱 세그멘테이션을 활용한 효율적인 오브젝트별 영역 분류 기법을 연구한다. 이미지 데이터에 포함된 색상 정보, 윤곽선, 명암, 채도 등 다양한 픽셀 단위 정보와 프로세싱 기법뿐만 아니라 각 오브젝트들이 위치한 세부 영역을 의미 있는 단위로 추출하여 추론 결과에 반영하는 실험을 진행하고 그 결과에 대해 논의한다. 이미지 분류에서 훌륭한 성능을 검증받은 뉴럴 네트워크를 활용하여 비정형성이 심하고 다양한 클래스 오브젝트가 포함된 이미지 데이터를 대상으로 어떤 오브젝트가 어디에 위치하였는지 파악하는 작업을 진행한다. 이러한 연구를 기반으로 향후 다양한 오브젝트가 포함된 복잡한 이미지의 실시간 세부 영역 분류를 진행하는 인공지능 서비스 제공을 목표로 한다.

CNN 기반 독성 식물 판별 시스템 (CNN-Based Toxic Plant Identification System)

  • 박성현;임병연;정회경
    • 한국정보통신학회논문지
    • /
    • 제24권8호
    • /
    • pp.993-998
    • /
    • 2020
  • 현재 인테리어의 기술은 세계적으로 발전하고 있다. 다양한 연구가 진행됨에 따라 가정 인테리어도 환경 조성을 위해 식물을 활용하는 경우가 증가하고 있다. 그러나 활용되는 식물들의 증가에 비해 해당 식물들의 성질을 제대로 인지하지 못하여 예상치 못한 사고가 발생하고 있다. 이에 따라 특정 식물들의 위험성에 대해 다양한 매체를 통해 알리고 있지만 사고가 지속적으로 발생하고 있다. 이에 본 논문에서는 우리 주변에서 흔하게 접할 수 있는 대중적인 독성 식물을 판별하는 합성곱 신경망 모델 기반의 독성 식물 판별 시스템을 제안하였다. 이를 위해 독성 식물 판별을 진행하기 앞서 네 종류의 모델을 구축하였고 각 모델들을 비교 분석하였다. 분석한 모델들에 대해 높은 정확성을 갖는 합성곱 신경망 모델을 제안하였다. 이를 통하여 독성 식물들을 판별할 수 있으며, 독성 식물로 인한 안전사고를 줄일 수 있다고 사료된다.

자동 잔향 편집을 위한 컬러 및 깊이 정보 기반 실내 장면 분류 (Indoor Scene Classification based on Color and Depth Images for Automated Reverberation Sound Editing)

  • 정민혁;유용현;박성준;황승준;백중환
    • 한국정보통신학회논문지
    • /
    • 제24권3호
    • /
    • pp.384-390
    • /
    • 2020
  • 영화나 VR 콘텐츠 제작 시 음향에 잔향 효과를 주는 것은 현장감과 생동감을 느끼게 하는데 매우 중요한 요소이다. 공간에 따른 음향의 잔향 시간은 RT60(Reverberation Time 60dB)이라는 표준에서 권고된다. 본 논문에서는 음향 편집 시 자동 잔향 편집을 위한 장면 인식 기법을 제안한다. 이를 위해 컬러 이미지와 예측된 깊이 이미지를 동일한 모델에 독립적으로 학습하는 분류 모델을 설계하였다. 실내 장면 분류는 내부 구조가 유사한 클래스가 존재하여 컬러 정보 학습만으로는 인식률의 한계가 존재한다. 공간의 깊이 정보를 사용하기 위해 딥러닝 기반의 깊이 정보 추출 기술을 사용하였다. RT60을 기반으로 총 10개의 장면 클래스를 구성하고 모델 학습 및 평가를 진행하였다. 최종적으로 제안하는 SCR+DNet(Scene Classification for Reverb+Depth Net) 분류기는 92.4%의 정확도로 기존의 CNN 분류기들보다 더 높은 성능을 달성하였다.

YOLO 기반 개체 검출과 Node.js 서버를 이용한 반려견 행동 분류 시스템 구현 (Implementation of a Classification System for Dog Behaviors using YOLI-based Object Detection and a Node.js Server)

  • 조용화;이혁재;김영훈
    • 융합신호처리학회논문지
    • /
    • 제21권1호
    • /
    • pp.29-37
    • /
    • 2020
  • 본 논문은 실시간 영상 분석을 통해서 반려견에 대한 객체를 추출해 내고, 추출된 이미지로부터 반려견 행동을 분류하는 방법을 구현한다. 반려견 객체 탐지를 위해서 Darknet YOLO를 사용하였으며, 추출된 이미지로부터 행동 패턴 분류는 구글에서 제공하고 있는 Teachable Machine을 이용하였다. 학습된 Teachable Machine은 구글 드라이브에 저장되어 node.js 서버 상에서 ml5.js로 구현하여 사용할 수 있다. 분류된 행동 패턴 결과는 사용자의 스마트 폰 또는 PC로 실시간 전송되며, 언제 어디서든 확인 가능할 수 있게 node.js 서버에서 socket.io 모듈을 사용해서 상호반응 웹 서버를 구현하였다.

멀티로터 UAV 환경에서의 CNN 기반 복소 스펙트로그램 향상 기법 (CNN based Complex Spectrogram Enhancement in Multi-Rotor UAV Environments)

  • 김영진;김은경
    • 한국정보통신학회논문지
    • /
    • 제24권4호
    • /
    • pp.459-466
    • /
    • 2020
  • 멀티로터 UAV(Unmanned Aerial Vehicle)를 이용해서 수집한 음향 데이터는 모터나 프로펠러에서 발생하는 자체 소음이나 비행 중 발생하는 바람 소리 등으로 인해 음향 품질이 크게 손상되는 문제가 발생한다. 멀티로터 UAV 환경에서는 목표 음향의 크기뿐만 아니라 위상도 크게 손상되기 때문에 크기와 위상을 모두 고려해서 음향을 향상시킬 필요가 있다. 하지만 위상은 크기와 달리 구조적인 특징이 잘 나타나지 않으므로 향상시키는 것이 쉽지 않다. 따라서 본 연구에서는 크기와 위상을 모두 표현할 수 있는 복소 스펙트로그램을 기초로 잡음을 제거해서 목표 음향의 품질을 향상시키는 CNN 기반 복소 스펙트로그램 향상 방법을 제안한다.

반려동물 모니터링을 위한 YOLO 기반의 이동식 시스템 설계 (Design of YOLO-based Removable System for Pet Monitoring)

  • 이민혜;강준영;임순자
    • 한국정보통신학회논문지
    • /
    • 제24권1호
    • /
    • pp.22-27
    • /
    • 2020
  • 최근 1인 가구의 증가로 반려동물을 키우는 가구가 많아짐에 따라, 주인의 부재 시에도 반려동물의 상태나 행동을 모니터링하는 시스템에 대한 필요성이 요구되고 있다. 가정용 CCTV를 이용한 반려동물의 모니터링에는 지역적 한계가 있어, 다수의 CCTV를 필요로 하거나 반려동물의 행동반경을 제한하는 방법을 사용하게 된다. 본 논문에서는 반려동물 모니터링의 지역적 한계를 해결하고자 딥러닝을 이용하여 고양이를 검출하고 추적하는 이동식 시스템을 제안한다. 객체 검출 신경망 모델의 하나인 YOLO(You Look Only Once)를 이용하여 데이터셋을 학습하고, 이를 기반으로 라즈베리파이에 적용하여 영상에서 검출된 객체를 추적한다. 라즈베리파이와 노트북을 무선 랜으로 연결하고 고양이의 움직임과 상태를 실시간으로 확인이 가능한 이동식 모니터링 시스템을 설계하였다.

End-to-end 비자기회귀식 가속 음성합성기 (End-to-end non-autoregressive fast text-to-speech)

  • 김위백;남호성
    • 말소리와 음성과학
    • /
    • 제13권4호
    • /
    • pp.47-53
    • /
    • 2021
  • Autoregressive한 TTS 모델은 불안정성과 속도 저하라는 본질적인 문제를 안고 있다. 모델이 time step t의 데이터를 잘못 예측했을 때, 그 뒤의 데이터도 모두 잘못 예측하는 것이 불안정성 문제이다. 음성 출력 속도 저하 문제는 모델이 time step t의 데이터를 예측하려면 time step 1부터 t-1까지의 예측이 선행해야 한다는 조건에서 발생한다. 본 연구는 autoregression이 야기하는 문제의 대안으로 end-to-end non-autoregressive 가속 TTS 모델을 제안한다. 본 연구의 모델은 Tacotron 2 - WaveNet 모델과 근사한 MOS, 더 높은 안정성 및 출력 속도를 보였다. 본 연구는 제안한 모델을 토대로 non-autoregressive한 TTS 모델 개선에 시사점을 제공하고자 한다.