• 제목/요약/키워드: learning through the image

검색결과 925건 처리시간 0.026초

깊은 신경망을 사용한 HEVC의 루프 내 필터링 (In-Loop Filtering with a Deep Network in HEVC)

  • 김동신;이소윤;양윤모;오병태
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.145-147
    • /
    • 2020
  • 딥러닝 기술이 발전함에 따라 High-Efficiency-Video-Coding(HEVC)와 같은 비디오 코덱을 딥러닝 기술을 사용해 발전시키는 방법이 많아 시도되었다. 가장 많이 연구된 분야 중 하나에는 코덱 내부의 필터들을 영상 복원 기술을 통해 개선시키는 연구가 있다. 본 논문에서는 그 중 Sample adaptive offset(SAO) 필터링 기법을 깊은 신경망으로 대체하는 방식을 제안한다. SAO는 주변 정보들을 통해 에러의 형태를 결정하고 그를 상쇄하는 값을 전송하는 형태를 가진다. 이 때 찾은 보상 값이 최적의 값이 아니기 때문에 제안 기법에서는 깊은 신경망을 통해서 그 값을 찾는다. 제안하는 네트워크는 최적의 보상 값을 찾는 부분과 에러의 형태를 찾는 부분으로 이루어져 있으며, 두 네트워크를 통해 비선형적이고 복잡한 형태의 에러를 제거할 수 있다. 실험 결과 제안하는 방식은 저지연 P 모드와 임의접근 모드에서 기존 HEVC 보다 좋은 성능을 낸 것을 확인할 수 있다.

  • PDF

GPGPU와 Combined Layer를 이용한 필기체 숫자인식 CNN구조 구현 (Implementation of handwritten digit recognition CNN structure using GPGPU and Combined Layer)

  • 이상일;남기훈;정준모
    • 문화기술의 융합
    • /
    • 제3권4호
    • /
    • pp.165-169
    • /
    • 2017
  • CNN(Convolutional Nerual Network)는 기계학습 알고리즘 중에서도 이미지의 인식과 분류에 뛰어난 성능을 보이는 알고리즘 중 하나이다. CNN의 경우 간단하지만 많은 연산량을 가지고 있어 많은 시간이 소요된다. 따라서 본 논문에서는 CNN 수행과정에서 많은 처리시간이 소모되는 convolution layer와 pooling layer, fully connected layer의 연산수행을 SIMT(Single Instruction Multiple Thread)구조의 GPGPU(General-Purpose computing on Graphics Processing Units)를 통하여 병렬로 연산처리를 수행했다. 또한 convolution layer의 출력을 저장하지 않고 pooling layer의 입력으로 바로 사용함으로 메모리 접근횟수를 줄여 성능 향상을 기대했다. 본 논문에서는 이 실험검증을 위하여 MNIST 데이터 셋을 사용하였고 이를 통하여 제안하는 CNN 구조가 기존의 구조보다 12.38% 더 좋은 성능을 보임을 확인했다.

Study on driver's distraction research trend and deep learning based behavior recognition model

  • Han, Sangkon;Choi, Jung-In
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.173-182
    • /
    • 2021
  • 본 논문에서는 운전자의 주의산만을 유발하는 운전자, 탑승자의 동작을 분석하고 핸드폰과 관련된 운전자의 행동 10가지를 인식하였다. 먼저 주의산만을 유발하는 동작을 환경 및 요인으로 분류하고 관련 최근 논문을 분석하였다. 분석된 논문을 기반으로 주의산만을 유발하는 주요 원인인 핸드폰과 관련된 10가지 운전자의 행동을 인식하였다. 약 10만 개의 이미지 데이터를 기반으로 실험을 진행하였다. SURF를 통해 특징을 추출하고 3가지 모델(CNN, ResNet-101, 개선된 ResNet-101)로 실험하였다. 개선된 ResNet-101 모델은 CNN보다 학습 오류와 검증 오류가 8.2배, 44.6배가량 줄어들었으며 평균적인 정밀도와 f1-score는 0.98로 높은 수준을 유지하였다. 또한 CAM(class activation maps)을 활용하여 딥러닝 모델이 운전자의 주의 분산 행동을 판단할 때, 핸드폰 객체와 위치를 결정적 원인으로 활용했는지 검토하였다.

CCTV 영상과 합성곱 신경망을 활용한 해무 탐지 기법 연구 (Study on Detection Technique for Sea Fog by using CCTV Images and Convolutional Neural Network)

  • 김나경;박수호;정민지;황도현;앵흐자리갈 운자야;박미소;김보람;윤홍주
    • 한국전자통신학회논문지
    • /
    • 제15권6호
    • /
    • pp.1081-1088
    • /
    • 2020
  • 본 논문에서는 합성곱 신경망을 기반으로 CCTV 이미지를 통한 해무 탐지 방법을 제안한다. 학습에 필요한 자료로 시정 1km 기준으로 총 11개의 항만 또는 해수욕장(부산항, 부산신항, 평택항, 인천항, 군산항, 대산항, 목포항, 여수광양항, 울산항, 포항항, 해운대해수욕장)에서 수집된 해무와 해무가 아닌 이미지 10004장을 랜덤 추출하였다. 전체 10004장의 데이터셋 중에 80%를 추출하여 합성곱 신경망 모델 학습에 사용하였다. 사용된 모델은 16개의 합성곱층과 3개의 완전 연결층을 가지고 있으며, 마지막 완전 연결층에서 Softmax 분류를 수행하는 합성곱 신경망을 활용하였다. 나머지 20%를 이용하여 모델 정확도 평가를 수행하였고 정확도 평가 결과 약 96%의 분류 정확도를 보였다.

실시간 미니드론 카메라 영상을 기반으로 한 얼굴 인식 시스템 개발 (Development of Face Recognition System based on Real-time Mini Drone Camera Images)

  • 김성호
    • 융합정보논문지
    • /
    • 제9권12호
    • /
    • pp.17-23
    • /
    • 2019
  • 본 논문에서는 미니 드론을 조종하면서 드론에 부착된 카메라가 촬영하는 영상을 실시간으로 받아들여 특정인의 얼굴을 인식하여 확인시켜주는 시스템 개발 방법론을 제안한다. 본 시스템의 개발을 위해서는 OpenCV, Python 관련 라이브러리 및 드론 SDK 등을 사용한다. 실시간 드론 영상으로부터 특정인의 얼굴 인식 비율을 높이기 위해서는 딥러닝 기반의 얼굴 인식 알고리즘을 사용하며 특히 Triples 원리를 활용한다. 시스템의 성능을 확인하기 위해 저자 얼굴을 기준으로 30회 동안 얼굴 인식 실험을 수행한 결과 약 95% 이상의 인식률을 보여주었다. 본 논문의 연구 결과물은 관광지, 축제 행사장 등에서 특정인을 드론으로 빠르게 찾기 위한 목적으로 사용할 수 있을 것으로 판단된다.

YOLOv5와 모션벡터를 활용한 트램-보행자 충돌 예측 방법 연구 (A Study of Tram-Pedestrian Collision Prediction Method Using YOLOv5 and Motion Vector)

  • 김영민;안현욱;전희균;김진평;장규진;황현철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권12호
    • /
    • pp.561-568
    • /
    • 2021
  • 최근 자율주행에 관한 기술은 고부가가치 신기술로서 주목받고 있으며 활발히 연구가 진행되고 있는 분야이다. 상용화 가능한 자율주행을 위해서는 실시간으로 정확하게 진입하는 객체를 탐지하고 이동속도를 추정해야 한다. CNN(Convolutional Neural Network) 기반 딥러닝 알고리즘과 밀집광학흐름(Dense Optical Flow)을 사용하는 기존 방식은 실행 속도가 느려 실시간으로 객체를 탐지하고 이동속도를 추정하기에는 한계가 존재한다. 본 논문에서는 트램에 설치된 카메라를 통해 획득된 주행영상에서 딥러닝 알고리즘인 YOLOv5 알고리즘을 활용하여 실시간으로 객체를 탐지를 수행하고, 탐지된 객체영역에서 기존의 밀집광학흐름(Dense Optical Flow) 대신 연산량을 개선한 부분 밀집광학흐름(Local Dense Optical Flow)을 사용하여 객체의 진행 방향과 속력을 빠르게 추정하는 방식을 제안한다. 이를 바탕으로 충돌 시간과 충돌 지점을 예측할 수 있는 모델을 설계하였으며, 이를 통해 트램(Tram)의 주행 중 전방 충돌사고를 방지할 수 있는 시스템에 적용하고자 한다.

HS 코드 분류를 위한 CNN 기반의 추천 모델 개발 (CNN-based Recommendation Model for Classifying HS Code)

  • 이동주;김건우;최근호
    • 경영과정보연구
    • /
    • 제39권3호
    • /
    • pp.1-16
    • /
    • 2020
  • 현재 운영되고 있는 관세신고납부제도는 납세의무자가 세액 산정을 스스로하고 그 세액을 본인 책임으로 납부하도록 하는 제도이다. 다시 말해, 관세법상 신고 납부제도는 납세액을 정확히 계산해서 납부할 의무와 책임이 온전히 납세의무자에게 무한정으로 부과하는 것을 원칙으로 하고 있다. 따라서, 만일 납세의무자가 그 의무와 책임을 제대로 행하지 못했을 경우에는 부족한 만큼의 세액 추징과 그에 대한 제제로 가산세를 부과하고 있다. 이러한 이유로 세액 산정의 기본이 되는 품목분류는 관세평가와 함께 가장 어려운 부분이며 잘못 분류하게 되면 기업에게도 큰 리스크가 될 수도 있다. 이러한 이유로 관세전문가인 관세사에게 상당한 수수료를 지불하면서 수입신고를 위탁하여 처리하고 있는 실정이다. 이에 본 연구에서는 수입신고 시 신고하려는 품목이 어떤 것인지 HS 코드 분류를 하여 수입신고 시 기재해야 할 HS 코드를 추천해 주는데 목적이 있다. HS 코드 분류를 위해 관세청 품목분류 결정 사례를 바탕으로 사례에 첨부된 이미지를 활용하여 HS 코드 분류를 하였다. 이미지 분류를 위해 이미지 인식에 많이 사용되는 딥러닝 알고리즘인 CNN을 사용하였는데, 세부적으로 CNN 모델 중 VggNet(Vgg16, Vgg19), ResNet50, Inception-V3 모델을 사용하였다. 분류 정확도를 높이기 위해 3개의 dataset을 만들어 실험을 진행하였다. Dataset 1은 HS 코드 이미지가 가장 많은 5종을 선정하였고 Dataset 2와 Dataset 3은 HS 코드 2단위 중 가장 데이터 샘플의 수가 많은 87류를 대상으로 하였으며, 이 중 샘플 수가 많은 5종으로 분류 범위를 좁혀 분석하였다. 이 중 dataset 3로 학습시켜 HS 코드 분류를 수행하였을 때 Vgg16 모델에서 분류 정확도가 73.12%로 가장 높았다. 본 연구는 HS 코드 이미지를 이용해 딥러닝에 기반한 HS 코드 분류를 최초로 시도하였다는 점에서 의의가 있다. 또한, 수출입 업무를 하고 있는 기업이나 개인사업자들이 본 연구에서 제안한 모델을 참조하여 활용할 수 있다면 수출입 신고 시 HS 코드 작성에 도움될 것으로 기대된다.

드론영상과 인공지능 기반 교통량 추정을 위한 데이터 구축 가이드라인 도출 연구 (Guidelines for Data Construction when Estimating Traffic Volume based on Artificial Intelligence using Drone Images)

  • 한동권;김두표;김성보
    • 한국측량학회지
    • /
    • 제40권3호
    • /
    • pp.147-157
    • /
    • 2022
  • 최근 CCTV (Closed Circuit TeleVision)나 드론영상을 활용하여 인공지능 기반 예측 모델을 통해 차량을 분류하는 객체인식이나 교통량 분석을 하는 많은 연구들이 수행되고 있다. 정확한 교통량 추정을 위한 객체인식 딥러닝 모델을 개발하기 위해서는 체계적인 데이터 구축이 요구되는데 이와 관련된 표준화된 가이드라인은 미흡한 실정이다. 본 연구에서는 드론영상을 활용한 인공지능 기반 교통량 추정 학습데이터 구축 가이드라인 도출을 위하여 선행연구를 분석하고 사업보고서나 기존 인공지능 학습용 데이터 구축 및 품질관리 가이드라인을 참고하였다. 데이터 구축 가이드라인은 크게 데이터 획득, 가공, 검증으로 분류되며, 항목 별 유의사항 및 평가지표 가이드라인을 제시하였다. 본 연구의 결과물인 데이터 구축 가이드라인은 드론 영상 인공지능 기반 도로교통량 추정 분석을 하는데 강건하고 일반화된 인공지능 모델 개발에 도움을 제공하고자 한다.

Prediction of Doodle Images Using Neural Networks

  • Hae-Chan Lee;Kyu-Cheol Cho
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.29-38
    • /
    • 2023
  • 낙서는 대부분 불규칙한 형태와 패턴을 갖추고 있기에, 인공지능이 불규칙한 낙서를 기계적으로 패턴을 인식하고 예측하기란 매우 어렵다. 만약 그려진 원이 완벽한 동그라미가 아니거나, 직선도 완전히 일직선이 아닐 경우, 인간은 별도의 학습 과정 없이도 낙서를 인식하고 예측할 수 있다. 이에 반해, 인공지능은 주어진 학습 데이터로 패턴을 학습해야만 낙서를 인식하고 예측한다. 본 논문은 국적, 문화, 왼손잡이 또는 오른손잡이 등 관계없이 다양한 사람들의 낙서 이미지 데이터셋을 활용한다. 그리고 두 가지의 신경망 학습을 거친 뒤, 어느 신경망이 더 높은 정확도를 제공하는지, 낙서 이미지 예측에 더 적합한지 대한 여부를 결정한다. 인공지능을 통한 낙서 이미지 예측을 하는 이유는 신경망을 활용함으로써, 인간의 표현과 의도에 대한 독특한 관점을 제공할 수 있기 때문이다. 가령, 인간이 그린 낙서에 대해 인공지능이 제공하는 다양한 이미지를 활용하여 예술적인 표현의 다양성을 촉진하고 창작 영역을 넓히는 데 기여할 것으로 기대한다.

증강현실 캐릭터 구현을 위한 AI기반 객체인식 연구 (AI-Based Object Recognition Research for Augmented Reality Character Implementation)

  • 이석환;이정금;심현
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1321-1330
    • /
    • 2023
  • 본 연구는 증강현실에서 적용할 캐릭터 생성에서 단일 이미지를 통해 여러 객체에 대한 3D 자세 추정 문제를 연구한다. 기존 top-down 방식에서는 이미지 내의 모든 객체를 먼저 감지하고, 그 후에 각각의 객체를 독립적으로 재구성한다. 문제는 이렇게 재구성된 객체들 사이의 중첩이나 깊이 순서가 불일치 하는 일관성 없는 결과가 발생할 수 있다. 본 연구의 목적은 이러한 문제점을 해결하고, 장면 내의 모든 객체에 대한 일관된 3D 재구성을 제공하는 단일 네트워크를 개발하는 것이다. SMPL 매개변수체를 기반으로 한 인체 모델을 top-down 프레임워크에 통합이 중요한 선택이 되었으며, 이를 통해 거리 필드 기반의 충돌 손실과 깊이 순서를 고려하는 손실 두 가지를 도입하였다. 첫 번째 손실은 재구성된 사람들 사이의 중첩을 방지하며, 두 번째 손실은 가림막 추론과 주석이 달린 인스턴스 분할을 일관되게 렌더링하기 위해 객체들의 깊이 순서를 조정한다. 이러한 방법은 네트워크에 이미지의 명시적인 3D 주석 없이도 깊이 정보를 제공하게 한다. 실험 결과, 기존의 Interpenetration loss 방법은 MuPoTS-3D가 114, PoseTrack이 654에 비해서 본 연구의 방법론인 Lp 손실로 네트워크를 훈련시킬 때 MuPoTS-3D가 34, PoseTrack이 202로 충돌수가 크게 감소하는 것으로 나타났다. 본 연구 방법은 표준 3D 자세벤치마크에서 기존 방법보다 더 나은 성능을 보여주었고, 제안된 손실들은 자연 이미지에서 더욱 일관된 재구성을 실현하게 하였다.