• 제목/요약/키워드: Coco

검색결과 100건 처리시간 0.028초

딥러닝 기반의 회전에 강인한 텍스트 검출 기법 (Rotation-robust text localization technique using deep learning)

  • 최인규;김제우;송혁;유지상
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.80-81
    • /
    • 2019
  • 본 논문에서는 자연스러운 장면 영상에서 임의의 방향성을 가진 텍스트를 검출하기 위한 기법을 제안한다. 텍스트 검출을 위한 기본적인 프레임 워크는 Faster R-CNN[1]을 기반으로 한다. 먼저 RPN(Region Proposal Network)을 통해 다른 방향성을 가진 텍스트를 포함하는 bounding box를 생성한다. 이어서 RPN에서 생성한 각각의 bounding box에 대해 세 가지의 서로 다른 크기로 pooling된 특징지도를 추출하고 병합한다. 병합한 특징지도에서 텍스트와 텍스트가 아닌 대상에 대한 score, 정렬된 bounding box 좌표, 기울어진 bounding box 좌표를 모두 예측한다. 마지막으로 NMS(Non-Maximum Suppression)을 이용하여 검출 결과를 획득한다. COCO Text 2017 dataset[2]을 이용하여 학습 및 테스트를 진행하였으며 주관적으로 평가한 결과 기울어진 텍스트에 적합하게 회전된 영역을 얻을 수 있음을 확인하였다.

  • PDF

객체 탐지 및 빔 서치를 이용한 영상 주석 환각 해결 (Removing object hallucination through a reviewing mechanism)

  • 고지은;정승준;김창익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.243-245
    • /
    • 2019
  • 영상 주석 생성 기술은 주어진 영상에 대하여 최대한 자세히 묘사하는 문장을 생성하는 것을 목표로 한다. 따라서, 이 분야에서는 생성된 주석과 입력 영상 간의 연관성이 가장 중요하다. 영상 주석 생성과 관련된 최근 연구들은 영상 내에서 집중해야 될 후보 영역들을 먼저 추출한 뒤, 이들을 LSTM 디코더 등에 입력하여 주석을 생성한다. 비록, 최근에 제안된 방법들이 입력 영상과 매우 연관성 높은 주석들을 생성하지만, 아직 영상 안에 존재하지 않는 물체가 종종 생성된 주석에 포함되는 환각(Hallucination) 문제가 발생하고 있다. 본 논문에서는 이를 해결하기 위하여 Beam search를 이용하여 기존 방법들보다 더 정확한 여러 주석 후보 군을 생성한 뒤, 각각의 주석을 객체 검출기에서 나온 객체 후보군과 비교하는 방법을 제안한다. 우리는 제안한 방법을 최근에 제안된 주석 생성 기술에 접목한 결과, 환각 문제가 효과적으로 제거되는 것을 확인할 수 있었다. 또한, MS COCO 온라인 서버 제출을 통하여 주석 생성기술의 성능이 향상되는 것을 확인하였다.

  • PDF

Parallel Dense Merging Network with Dilated Convolutions for Semantic Segmentation of Sports Movement Scene

  • Huang, Dongya;Zhang, Li
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권11호
    • /
    • pp.3493-3506
    • /
    • 2022
  • In the field of scene segmentation, the precise segmentation of object boundaries in sports movement scene images is a great challenge. The geometric information and spatial information of the image are very important, but in many models, they are usually easy to be lost, which has a big influence on the performance of the model. To alleviate this problem, a parallel dense dilated convolution merging Network (termed PDDCM-Net) was proposed. The proposed PDDCMNet consists of a feature extractor, parallel dilated convolutions, and dense dilated convolutions merged with different dilation rates. We utilize different combinations of dilated convolutions that expand the receptive field of the model with fewer parameters than other advanced methods. Importantly, PDDCM-Net fuses both low-level and high-level information, in effect alleviating the problem of accurately segmenting the edge of the object and positioning the object position accurately. Experimental results validate that the proposed PDDCM-Net achieves a great improvement compared to several representative models on the COCO-Stuff data set.

데카르트 좌표계 기반 노드 압축을 이용한 효율적인 2차원 연기 합성 (Efficient 2D Smoke Synthesis with Cartesian Coordinates System Based Node Compression)

  • 김동희;김종현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.659-660
    • /
    • 2021
  • 본 논문에서는 데카르트 좌표계 기반으로 노드를 압축함으로써 SR(Super-resolution) 기반 연기 합성을 효율적으로 처리할 수 있는 방법을 제안한다. 제안하는 방법은 다운 스케일링과 이진화를 통하여 연기 시뮬레이션의 계산 공간을 효율적으로 줄이고, 데카르트 좌표계 축을 기준으로 쿼드트리의 말단 노드를 압축함으로써 네트워크의 입력으로 전달하는 데이터 개수를 줄인다. 학습에 사용된 데이터는 COCO 2017 데이터셋이며, 인공신경망은 VGG19 기반 네트워크를 사용한다. 컨볼루션 계층을 거칠 때 데이터의 손실을 막기 위해 잔차(Residual)방식과 유사하게 이전 계층의 출력 값을 더해주며 학습한다. 결과적으로 제안하는 방법은 이전 결과에 비해 네트워크로 전달해야 하는 데이터가 압축되어 개수가 줄어드는 결과를 얻었으며, 그로 인해 네트워크 단계에서 필요한 I/O 과정을 효율적으로 처리할 수 있게 되었다.

  • PDF

이미지 피라미드를 이용한 큰 객체 실시간 탐지 (Real-Time Detection of Large Objects using Image Pyramid)

  • 주권일;손승욱;안한세;정용화;박대희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.709-712
    • /
    • 2020
  • 영상 처리 응용을 위해 개발된 대부분의 CNN 기반 객체 탐지 기법은 mAP 를 올리기 위해 작은 객체 탐지에 더 주력하는 경향이 있다. 본 연구에서는 이미지 피라미드를 통한 서로 다른 해상도의 탐지 결과를 앙상블을 하여 작은 객체의 탐지 성능은 유지하면서 큰 객체의 탐지 성능을 향상시키고자 한다. 또한, 기존 NMS 방식의 문제점을 파악하고 새로운 NMS 방식인 G-NMS 를 제안한다. COCO 데이터로 실험 결과 서로 다른 해상도의 탐지 결과 앙상블을 통하여 30fps 이상의 실시간 탐지를 만족하면서 큰 객체에 대한 AP 가 0.5~1.5% 상승되었음을 확인하였다. 제안한 G-NMS 방식 적용시 큰 객체에 대한 AR 이 2.6~3.8% 상승되었으며, 작은 객체를 포함한 전체 mAP 가 0.7~0.9% 상승되었음을 확인하였다.

아파트 건설 현장 작업자 특징 추출 및 다중 객체 추적 방법 제안 (A Suggestion for Worker Feature Extraction and Multiple-Object Tracking Method in Apartment Construction Sites)

  • 강경수;조영운;류한국
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2021년도 봄 학술논문 발표대회
    • /
    • pp.40-41
    • /
    • 2021
  • The construction industry has the highest occupational accidents/injuries among all industries. Korean government installed surveillance camera systems at construction sites to reduce occupational accident rates. Construction safety managers are monitoring potential hazards at the sites through surveillance system; however, the human capability of monitoring surveillance system with their own eyes has critical issues. Therefore, this study proposed to build a deep learning-based safety monitoring system that can obtain information on the recognition, location, identification of workers and heavy equipment in the construction sites by applying multiple-object tracking with instance segmentation. To evaluate the system's performance, we utilized the MS COCO and MOT challenge metrics. These results present that it is optimal for efficiently automating monitoring surveillance system task at construction sites.

  • PDF

최적화된 쿼드트리를 이용한 2차원 연기 데이터의 효율적인 슈퍼 해상도 기법 (Efficient Super-Resolution of 2D Smoke Data with Optimized Quadtree)

  • 최유연;김동희;김종현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.261-264
    • /
    • 2021
  • 본 논문에서는 SR(Super-Resolution)을 계산하는데 필요한 데이터를 효율적으로 분류하고 분할하여 빠르게 SR연산을 가능하게 하는 쿼드트리 기반 최적화 기법을 제안한다. 제안하는 방법은 입력 데이터로 사용하는 연기 데이터를 다운스케일링(Downscaling)하여 쿼드트리 연산 소요 시간을 감소시키며, 이때 연기의 밀도를 이진화함으로써, 다운스케일링 과정에서 밀도가 손실되는 문제를 피한다. 학습에 사용된 데이터는 COCO 2017 Dataset이며, 인공신경망은 VGG19 기반 네트워크를 사용한다. 컨볼루션 계층을 거칠 때 데이터의 손실을 막기 위해 잔차(Residual)방식과 유사하게 이전 계층의 출력 값을 더해주며 학습한다. 결과적으로 제안하는 방법은 이전 결과 기법에 비해 약15~18배 정도의 속도향상을 얻었다.

  • PDF

AI 학습을 위한 탑 인식 방법에 대한 연구 (A Study on Tower Recognition Method for AI Learning)

  • 강은수;고병국;이조순;최하진;김준오;이병권
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.339-342
    • /
    • 2020
  • 본 논문에서는 AI 학습을 위한 데이터 수집을 위해 윈도우 환경에서 YOLO 시스템을 사용한 객체 인식에 대한 방법을 제안한다. 이 방법은 아나콘다, 리눅스 등의 가상환경을 요구하지 않기 때문에 실사용 이전 사전 환경설정 작업 시간을 최소화한다. 또한 이 방법은 Visual Studio, OpenCV, CUDA 등 익숙한 플랫폼 및 라이브러리를 요구하기 때문에 다른 사람들에게 편안한 작업환경 제공한다. 또한 기존의 COCO 데이터 셋을 사용한 YOLOv3가 아닌 추가 학습 방법을 제안함으로써 보다 보편적인 객체 인식이 가능하다. 따라서 빠른 시간 내에 자신이 원하는 객체를 인식할 수 있는 시스템을 구축하는 방법을 제안한다.

  • PDF

태권도 초심자를 위한 AI의 DataSet 구축 (Dataset Construction of Taekwondo Beginner AI)

  • 조규철;김주연
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.249-252
    • /
    • 2022
  • 세계 태권도 연맹은 국제 축구 연맹의 가입국과 동일한 수의 가입국을 보유할 만큼 태권도는 점점 더 세계적으로 나아가고 있다. 하지만 태권도의 교육방법은 예전과 다르지 않다. 도장의 관장이나 사범이 직접 자세를 눈으로 보고 판단하여 지도해야 한다. 본 연구는 기술이 발전하고 변화함에 따라 태권도를 조금 더 다양하고 흥미롭게 배울 수 있는 방법을 개발하고자 진행하였다. 본 논문에서는 피사체 모델을 촬영하여 이미지를 추출하고 이미지에서 사람의 관절 KeyPoint를 라벨링 한 후 이를 바탕으로 COCO 형식의 DataSet을 만들어낸다. 이후 이 DataSet을 기계에 학습을 시킨다면 초심자를 위한 교육용 태권도 AI가 만들어질 수 있다. 또한, 기계학습 이후 이 AI를 실제 교육현장에 적용하여 교육과정에 직접 사용할 수 있으며 이 AI를 바탕으로 교육용 게임 개발 등 다양한 방면으로 활용할 수 있을 것이라고 기대한다.

  • PDF

임베디드 보드 환경에서 실시간 객체 탐지를 위한 필터 프루닝 연구 (A Study on Filter Pruning for Real-Time Object Detection in Embedded Board Environments)

  • 서종웅;안한세;손승욱;정용화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.536-539
    • /
    • 2023
  • 딥러닝 기술은 더 많은 분야와 과제에 적용되기 위해서 네트워크는 더 복잡하고 거대한 형태로 발전해왔다. YOLOv7-tiny과 같은 객체탐지 네트워크는 다양한 객체와 환경에서 활용하기 위해 COCO 데이터 세트를 대상으로 발전해왔다. 그러나 본 논문에서 적용할 모델은 임베디드 보드 환경에서 실시간으로 1개의 Class를 대상으로 객체를 탐지하는 네트워크 모델이 찾고자 프루닝을 적용하였다. 모델의 프루닝을 할 필터를 찾기 위해 본 논문에서는 클러스터링을 통한 필터 프루닝 방법을 제안한다. 본 논문의 제안 방법을 적용했을 때 기준 모델보다 정확도가 7.6% 감소하였으나, 파라미터가 1% 미만으로 남고, 속도는 2.1배 증가함을 확인하였다.