• 제목/요약/키워드: 합성 데이터 셋

검색결과 135건 처리시간 0.023초

합성곱 신경망 기반 맨하탄 좌표계 추정 (Estimation of Manhattan Coordinate System using Convolutional Neural Network)

  • 이진우;이현준;김준호
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제23권3호
    • /
    • pp.31-38
    • /
    • 2017
  • 본 논문에서는 도심 영상에 대해 맨하탄 좌표계를 추정하는 합성곱 신경망(Convolutional Neural Network) 기반의 시스템을 제안한다. 도심 영상에서 맨하탄 좌표계를 추정하는 것은 영상 조정, 3차원 장면 복원 등 컴퓨터 그래픽스 및 비전 문제 해결의 기본이 된다. 제안하는 합성곱 신경망은 GoogLeNet[1]을 기반으로 구성한다. 합성곱 신경망을 훈련하기 위해 구글 스트리트 뷰 API로 영상을 수집하고 기존 캘리브레이션 방법으로 맨하탄 좌표계를 계산하여 데이터셋을 생성한다. 장면마다 새롭게 합성곱 신경망을 학습해야하는 PoseNet[2]과 달리, 본 논문에서 제안하는 시스템은 장면의 구조를 학습하여 맨하탄 좌표계를 추정하기 때문에 학습되지 않은 새로운 장면에 대해서도 맨하탄 좌표계를 추정한다. 제안하는 방법은 학습에 참여하지 않은 구글 스트리트 뷰 영상을 검증 데이터로 테스트하였을 때 $3.157^{\circ}$의 중간 오차로 맨하탄 좌표계를 추정하였다. 또한, 동일 검증 데이터에 대해 제안하는 방법이 기존 맨하탄 좌표계 추정 알고리즘[3]보다 더 낮은 중간 오차를 보이는 것을 확인하였다.

고밀도 그리드 모델과 앵커모델을 이용한 동적 객체검지 향상에 관한 연구 (A Study on Improvement of Dynamic Object Detection using Dense Grid Model and Anchor Model)

  • 윤보른;이선우;최경호;이상민;권장우
    • 한국ITS학회 논문지
    • /
    • 제17권3호
    • /
    • pp.98-110
    • /
    • 2018
  • 본 논문은, 동적인 객체의 인식률 향상을 위해 고밀도 그리드 모델과 앵커 모델을 제안하였다. 두 가지 실험은 수행하여 제안하는 CNN 모델들을 제안하였다. 첫 번째 실험에 있어서, YOLO-v2모델을 KITTI 데이터 셋에 적용시켜 보았고, 고밀도 그리드 모델과 앵커 모델을 기존 YOLO-v2와 비교하였다. 실험에 있어서, 본 논문에서 제안하는 두 가지 모델은 기존의 YOLO-v2모델에 비하여 '어려움' 난이도의 자동차 검지에 있어서 6.26%에서 10.99%까지 우수한 성능을 나타낸 것을 확인하였다. 두 번째 실험에 있어서는 새로운 데이터 셋을 학습하였고, 두 가지 모델은 기존의 YOLO-v2모델보다 22.4%까지 '어려움' 난이도의 자동차 인식률 향상이 있음을 확인할 수 있었다.

합성곱 신경망을 적용한 Optical Camera Communication 시스템 성능 분석 (Performance Analysis of Optical Camera Communication with Applied Convolutional Neural Network)

  • 김종인;박현선;김정현
    • 스마트미디어저널
    • /
    • 제12권3호
    • /
    • pp.49-59
    • /
    • 2023
  • 차세대 무선 통신기술로 알려져 있는 Optical Camera Communication(OCC)은 많은 연구가 진행 되고 있다. 이러한 OCC 기술은 통신 환경에 의해 성능이 좌우되며 이를 개선하기 위해 다양한 전략이 연구되고 있다. 그중 가장 두각을 나타내고 있는 방법은 딥러닝 기술을 사용하여 OCC의 수신기에 CNN을 적용하는 방법이다. 하지만 대부분의 연구에서는 CNN을 단순히 송신기를 검출하는데 사용하고 있다. 본 논문에서는 CNN을 송신기 검출 뿐만 아니라 Rx 복조 시스템에 적용하여 실험한다. 그리고 OCC 시스템의 데이터 이미지는 다른 이미지 데이터셋과는 다르게 비교적 분류가 간단하기 때문에 대부분의 CNN 모델에서 높은 정확도의 결과가 나타날 것이라는 가설을 세웠다. 가설을 증명하기 위해 OCC 시스템을 설계 및 구현하여 데이터를 수집하였고 12가지의 다양한 CNN 모델에 적용하여 실험했다. 실험 결과 파라미터수가 많은 고성능의 CNN 모델 뿐만 아니라 경량화 CNN 모델에서도 99% 이상의 정확도를 달성하였고 이를 통해 스마트폰과 같은 저성능 계산 장치에 OCC 시스템 적용이 가능함을 확인했다.

균형적인 신체활동을 위한 맞춤형 AI 운동 추천 서비스 (Customized AI Exercise Recommendation Service for the Balanced Physical Activity)

  • 김창민;이우범
    • 융합신호처리학회논문지
    • /
    • 제23권4호
    • /
    • pp.234-240
    • /
    • 2022
  • 본 논문은 직종별 근무 환경에 따른 상대적 운동량을 고려한 맞춤형 AI 운동 추천 서비스 방법을 제안한다. 가속도 및 자이로 센서를 활용하여 수집된 데이터를 18가지 일상생활의 신체활동으로 분류한 WISDM 데이터베이스를 기반으로 전신, 하체, 상체의 3가지 활동으로 분류한 후 인식된 활동 지표를 통해 적절한 운동을 추천한다. 본 논문에서 신체활동 분류를 위해서 사용하는 1차원 합성곱 신경망(1D CNN; 1 Dimensional Convolutional Neural Network) 모델은 커널 크기가 다른 다수의 1D 컨볼루션(Convolution) 계층을 병렬적으로 연결한 컨볼루션 블록을 사용한다. 컨볼루션 블록은 하나의 입력 데이터에 다층 1D 컨볼루션을 적용함으로써 심층 신경망 모델로 추출할 수 있는 입력 패턴의 세부 지역 특징을 보다 얇은 계층으로도 효과적으로 추출 할 수 있다. 제안한 신경망 모델의 성능 평가를 위해서 기존 순환 신경망(RNN; Recurrent Neural Network) 모델과 비교 실험한 결과 98.4%의 현저한 정확도를 보였다.

An Automatic Data Construction Approach for Korean Speech Command Recognition

  • Lim, Yeonsoo;Seo, Deokjin;Park, Jeong-sik;Jung, Yuchul
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권12호
    • /
    • pp.17-24
    • /
    • 2019
  • 최근 화두가 되고 있는 AI분야에서 가장 큰 문제점은 학습데이터의 부족 문제를 꼽을 수 있다. 수동 데이터 구축에는 많은 시간과 노력이 소요되기에 개인이 손쉽게 필요 데이터를 구축하기는 매우 어렵다. 반면, 수동 데이터 구축에 비해 자동으로 구축하는 것은 높은 품질을 유지하는 것이 관건이다. 본 논문에서는 한국어 음성 명령어 인식기 개발에 필요한 데이터를 웹에서 자동으로 추출하고, 학습데이터로 사용할 수 있는 데이터를 자동으로 선별하는 방법을 소개한다. 특히, 자동 구축된 한국어 음성 데이터를 대상으로 우수한 성능을 보이는 ResNet기반의 수정 모델을 기반으로, 건강 및 일상생활도메인의 명령어 셋을 대상으로 적용가능성을 보이기 위한 실험을 진행하였다. 자동으로 구축된 데이터만을 사용한 일련의 실험에서 건강도메인은 ResNet15에서 89.5%, 일상생활도메인에서는 ResNet8에서 82%의 정확도를 보임으로써, 자동 수집 데이터의 활용 가능성을 검증하였다.

인공지능 기반 영상 화질 개선 최신 기술 동향

  • 김원준
    • 방송과미디어
    • /
    • 제25권1호
    • /
    • pp.20-27
    • /
    • 2020
  • 최근 모바일 기기를 위한 카메라 관련 기술이 발전하면서 취득할 수 있는 영상의 화질 또한 크게 향상되고 있다. 그러나, 일상 생활에서 빈번히 발생하는 다양한 실내외 불규칙한 조명 조건 및 저조도 환경은 여전히 영상 화질 저하를 야기한다. 본 고에서는 이러한 문제를 해결하기 위해 최근 널리 연구되고 있는 심층신경망 기반 영상 화질 개선 연구의 최신 동향을 소개하고자 한다. 먼저, 다양한 최적화 기법을 바탕으로 영상 내 조명 성분을 추정하고, 이를 개선하는 방법들에 대해 간략히 설명한다. 또한, 영상 인식, 객체 검출 등에서 뛰어난 성능을 입증한 합성곱 신경망 구조를 기반으로 영상의 잠재적 특징을 효과적으로 검출한 후 이를 바탕으로 개선된 영상을 생성하는 방법에 대해 설명한다. 다양한 데이터셋에 대한 실험 결과를 통해 인공지능 기반 영상 화질 개선의 우수성을 보인다.

SSD 기반의 잔차 학습 신경망을 이용한 얼굴 검출 (SSD Based Face Detection using Residual Connections)

  • 이석희;장영균;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.252-254
    • /
    • 2019
  • 본 논문은 합성곱 기반의 Single Shot Multibox Detector(SSD) [1] 의 구조를 이용하여 다양한 스케일의 얼굴들을 잘 검출하도록 하였다. 얼굴 검출은 물체 검출과는 다르게 얼굴의 높이와 너비의 비율이 다소 일정하고 크기가 작은 경우가 많은데, 이에 맞게 얼굴 검출이 용이하도록 anchor의 스케일, 비율, 크기를 변경하였다. 특징점 추출 네트워크는 깊은 네트워크의 최적화를 용이하게 하는 skip connection을 이용한 ResNet-50 [2] 기반을 사용하였다. 다양한 크기, 조명, 환경, 각도의 얼굴들을 포함하는 영상들로 이뤄진 Wider Face[3] 데이터 셋의 easy validation set으로 실험한 결과 0.782과 hard validation set에서 0.611의 average precision을 보였다.

  • PDF

객체 검출을 위한 트랜스포머와 공간 피라미드 풀링 기반의 YOLO 네트워크 (Transformer and Spatial Pyramid Pooling based YOLO network for Object Detection)

  • 권오준;정제창
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.113-116
    • /
    • 2021
  • 일반적으로 딥러닝 기반의 객체 검출(Object Detection)기법은 합성곱 신경망(Convolutional Neural Network, CNN)을 통해 입력된 영상의 특징(Feature)을 추출하여 이를 통해 객체 검출을 수행한다. 최근 자연어 처리 분야에서 획기적인 성능을 보인 트랜스포머(Transformer)가 영상 분류, 객체 검출과 같은 컴퓨터 비전 작업을 수행하는데 있어 경쟁력이 있음이 드러나고 있다. 본 논문에서는 YOLOv4-CSP의 CSP 블록을 개선한 one-stage 방식의 객체 검출 네트워크를 제안한다. 개선된 CSP 블록은 트랜스포머(Transformer)의 멀티 헤드 어텐션(Multi-Head Attention)과 CSP 형태의 공간 피라미드 풀링(Spatial Pyramid Pooling, SPP) 연산을 기반으로 네트워크의 Backbone과 Neck에서의 feature 학습을 돕는다. 본 실험은 MSCOCO test-dev2017 데이터 셋으로 평가하였으며 제안하는 네트워크는 YOLOv4-CSP의 경량화 모델인 YOLOv4s-mish에 대하여 평균 정밀도(Average Precision, AP)기준 2.7% 향상된 검출 정확도를 보인다.

  • PDF

양방향 특징 결합을 이용한 효율적 문자 탐지 모델 (An Efficient Text Detection Model using Bidirectional Feature Fusion)

  • 임성택;최회련;이홍철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.67-68
    • /
    • 2021
  • 기존 객체탐지는 경계 상자 회귀방식을 적용하였지만, 문자는 왜곡과 변형이 심한 특성을 가진 객체로 U-net 구조의 이미지 분할 방식을 사용하는 경우가 많다. 따라서 최근 문자 탐지는 통계적 모델에 비해 높은 정확도를 보이는 심층 신경망 기반의 모델 연구가 많이 진행되고 있다. 본 연구에서는 이미지 분할을 통한 양방향 특징 결합 기법을 사용한 문자 탐지 모델을 제안한다. 이미지 분할 방식은 메모리의 효율이 떨어지기 때문에 이를 극복하고자 특징 추출 단계에서 경량화된 네트워크를 적용하였다. 또한, 객체 탐지에서 큰 성과를 보인 양방향 특징 결합 모듈을 U-net 구조에 추가하여 추출된 특징이 효과적으로 결합 되는 결과를 얻었다. 제안하는 모델의 문자 탐지 성능은 합성 문자 데이터셋을 이용한 실험을 통해 기존의 U-net 구조의 이미지 분할 방식보다 향상되었음을 확인하였다.

  • PDF

L1 목적 함수와 채널 프루닝을 이용한 얼굴 검출기 경량화 (Compression and Acceleration of Face Detector using L1 Loss and Channel Pruning)

  • 이석희;장영균;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.40-42
    • /
    • 2020
  • 본 논문에서는 합성곱 기반의 얼굴 검출기 Dual Shot Face Detector (DSFD)에 대하여, 특징점 맵의 희소화와 채널 프루닝 목적 함수를 사용하여 네트웍 경량화를 수행하였다. 특징점 맵을 희소화하기 위해 L1 목적 함수를 사용했고, 특징점 맵의 채널 프루닝을 하기 위해 채널 최대값이 가장 낮은 채널들의 합을 최소화 시키는 목적함수를 적용했다. 기존의 신경망은 특징점 맵 희소화 비율이 45%였고 두 목적 함수를 적용했을 때 69.67% 로 희소화 비율이 높아진 것을 확인했다. 얼굴 검출 성능을 다양한 조명, 크기, 환경, 각도, 표정의 얼굴들을 포함하는 영상들로 이뤄진 Wider Face 데이터 셋으로 실험한 결과, average precision은 하락 했고 easy validation set에서 0.9257, hard validation set에서 0.8363 였다.

  • PDF