• 제목/요약/키워드: Region-based Convolutional Neural Network

검색결과 66건 처리시간 0.028초

관심 문자열 인식 기술을 이용한 가스계량기 자동 검침 시스템 (Automatic gasometer reading system using selective optical character recognition)

  • 이교혁;김태연;김우주
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.1-25
    • /
    • 2020
  • 본 연구에서는 모바일 기기를 이용하여 획득한 가스계량기 사진을 서버로 전송하고, 이를 분석하여 가스 사용량 및 계량기 기물 번호를 인식함으로써 가스 사용량에 대한 과금을 자동으로 처리할 수 있는 응용 시스템 구조를 제안하고자 한다. 모바일 기기는 일반인들이 사용하는 스마트 폰에 준하는 기기를 사용하였으며, 획득한 이미지는 가스 공급사의 사설 LTE 망을 통해 서버로 전송된다. 서버에서는 전송받은 이미지를 분석하여 가스계량기 기물 번호 및 가스 사용량 정보를 추출하고, 사설 LTE 망을 통해 분석 결과를 모바일 기기로 회신한다. 일반적으로 이미지 내에는 많은 종류의 문자 정보가 포함되어 있으나, 본 연구의 응용분야인 가스계량기 자동 검침과 같이 많은 종류의 문자 정보 중 특정 형태의 문자 정보만이 유용한 분야가 존재한다. 본 연구의 응용분야 적용을 위해서는 가스계량기 사진 내의 많은 문자 정보 중에서 관심 대상인 기물 번호 및 가스 사용량 정보만을 선별적으로 검출하고 인식하는 관심 문자열 인식 기술이 필요하다. 관심 문자열 인식을 위해 CNN (Convolutional Neural Network) 심층 신경망 기반의 객체 검출 기술을 적용하여 이미지 내에서 가스 사용량 및 계량기 기물번호의 영역 정보를 추출하고, 추출된 문자열 영역 각각에 CRNN (Convolutional Recurrent Neural Network) 심층 신경망 기술을 적용하여 문자열 전체를 한 번에 인식하였다. 본 연구에서 제안하는 관심문자열 기술 구조는 총 3개의 심층 신경망으로 구성되어 있다. 첫 번째는 관심 문자열 영역을 검출하는 합성곱신경망이고, 두 번째는 관심 문자열 영역 내의 문자열 인식을 위해 영역 내의 이미지를 세로 열 별로 특징 추출하는 합성곱 신경망이며, 마지막 세 번째는 세로 열 별로 추출된 특징 벡터 나열을 문자열로 변환하는 시계열 분석 신경망이다. 관심 문자열은 12자리 기물번호 및 4 ~ 5 자리 사용량이며, 인식 정확도는 각각 0.960, 0.864 이다. 전체 시스템은 Amazon Web Service 에서 제공하는 클라우드 환경에서 구현하였으며 인텔 제온 E5-2686 v4 CPU 및 Nvidia TESLA V100 GPU를 사용하였다. 1일 70만 건의 검침 요청을 고속 병렬 처리하기 위해 마스터-슬레이브 처리 구조를 채용하였다. 마스터 프로세스는 CPU 에서 구동되며, 모바일 기기로 부터의 검침 요청을 입력 큐에 저장한다. 슬레이브 프로세스는 문자열 인식을 수행하는 심층 신경망으로써, GPU에서 구동된다. 슬레이브 프로세스는 입력 큐에 저장된 이미지를 기물번호 문자열, 기물번호 위치, 사용량 문자열, 사용량 위치 등으로 변환하여 출력 큐에 저장한다. 마스터 프로세스는 출력 큐에 저장된 검침 정보를 모바일 기기로 전달한다.

중기 염색체 객체 검출을 위한 Faster R-CNN 모델의 최적화기 성능 비교 (Performance Comparison of the Optimizers in a Faster R-CNN Model for Object Detection of Metaphase Chromosomes)

  • 정원석;이병수;서정욱
    • 한국정보통신학회논문지
    • /
    • 제23권11호
    • /
    • pp.1357-1363
    • /
    • 2019
  • 본 논문은 사람의 중기 염색체로 이루어진 디지털 이미지에서 Faster Region-based Convolutional Neural Network(R-CNN) 모델로 염색체 객체를 검출할 때 필요한 경사 하강 최적화기의 성능을 비교한다. Faster R-CNN의 경사 하강 최적화기는 Region Proposal Network(RPN) 모듈과 분류 점수 및 바운딩 박스 예측 블록의 목적 함수를 최소화하기 위해 사용된다. 실험에서는 이러한 네 가지 경사 하강 최적화기의 성능을 비교하였으며 VGG16이 기본 네트워크인 Faster R-CNN 모델은 Adamax 최적화기가 약 52%의 Mean Average Precision(mAP)를 달성하였고 ResNet50이 기본 네트워크인 Faster R-CNN 모델은 Adadelta 최적화기가 약 58%의 mAP를 달성하였다.

Image Retrieval Based on the Weighted and Regional Integration of CNN Features

  • Liao, Kaiyang;Fan, Bing;Zheng, Yuanlin;Lin, Guangfeng;Cao, Congjun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권3호
    • /
    • pp.894-907
    • /
    • 2022
  • The features extracted by convolutional neural networks are more descriptive of images than traditional features, and their convolutional layers are more suitable for retrieving images than are fully connected layers. The convolutional layer features will consume considerable time and memory if used directly to match an image. Therefore, this paper proposes a feature weighting and region integration method for convolutional layer features to form global feature vectors and subsequently use them for image matching. First, the 3D feature of the last convolutional layer is extracted, and the convolutional feature is subsequently weighted again to highlight the edge information and position information of the image. Next, we integrate several regional eigenvectors that are processed by sliding windows into a global eigenvector. Finally, the initial ranking of the retrieval is obtained by measuring the similarity of the query image and the test image using the cosine distance, and the final mean Average Precision (mAP) is obtained by using the extended query method for rearrangement. We conduct experiments using the Oxford5k and Paris6k datasets and their extended datasets, Paris106k and Oxford105k. These experimental results indicate that the global feature extracted by the new method can better describe an image.

Fast R-CNN을 이용한 객체 인식 기반의 도로 노면 파손 탐지 기법 (Road Surface Damage Detection based on Object Recognition using Fast R-CNN)

  • 심승보;전찬준;류승기
    • 한국ITS학회 논문지
    • /
    • 제18권2호
    • /
    • pp.104-113
    • /
    • 2019
  • 도로 관리 주체는 도로 파손을 보수하기 위해 적지 않은 비용을 투입한다. 이러한 파손은 자연 요인과 노후화로 인하여 필연적으로 발생을 하는데, 효율적인 보수를 위한 유지보수 기술이 필요하다. 이런 수요에 대응하기 위해 여러 가지 기술들이 개발되고 적용되고 있지만, 최근 들어서는 차량용 블랙박스 형태로 수집한 영상 정보를 바탕으로 도로 노면 파손 유지 보수기술이 개발되고 있다. 이 파손 영역을 추출하는 방법에는 여러 가지가 있지만, 본 논문에서는 최근 활발히 연구되고 있는 심층 신경망 구조의 영상인식 기술에 대해 논하고자 한다. 특히 영역 기반의 합성곱 알고리즘을 이용하여 영상 내에서 도로 파손 유무와 그 영역을 추정할 수 있는 새로운 심층 신경망을 소개한다. 이를 개발하기 위해 실제 주행을 통해서 600여장의 영상 데이터를 수집하였고, 이를 활용하여 학습을 수행하였다. 그 결과 기존 모델과 성능을 비교하여 10.67% 향상된 신경망을 개발하였다.

딥러닝을 위한 영역기반 합성곱 신경망에 의한 항공영상에서 건물탐지 평가 (Evaluation of Building Detection from Aerial Images Using Region-based Convolutional Neural Network for Deep Learning)

  • 이대건;조은지;이동천
    • 한국측량학회지
    • /
    • 제36권6호
    • /
    • pp.469-481
    • /
    • 2018
  • 딥러닝은 인간의 학습 및 인지능력을 닮은 인공지능을 실현하기 위해 여러 분야에서 활용하고 있으며, 높은 사양의 컴퓨팅 파워가 요구되고 연산 시간이 많이 소요되는 복잡한 구조의 인공신경망에 의한 딥러닝은 컴퓨터 사양이 향상됨에 따라 성능이 개선된 다양한 딥러닝 모델이 개발되고 있다. 본 논문의 주요 목적은 영상의 딥러닝을 위한 합성곱 신경망 중에서 최근에 FAIR (Facebook AI Research)에서 개발한 Mask R-CNN을 이용하여 항공영상에서 건물을 탐지하고 성능을 평가하는 것이다. Mask R-CNN은 영역기반의 합성곱 신경망으로서 픽셀 정확도까지 객체를 의미적으로 분할하기 위한 딥러닝 모델로서 성능이 가장 우수한 것으로 평가받고 있다. 딥러닝 모델의 성능은 신경망 구조뿐 아니라 학습 능력에 의해 결정된다. 이를 위해 본 논문에서는 모델의 학습에 이용한 영상에 다양한 변화를 주어 학습 능력을 분석하였으며, 딥러닝의 궁극적 목표인 범용화의 가능성을 평가하였다. 향후 연구방안으로는 영상에만 의존하지 않고 다양한 공간정보 데이터를 복합적으로 딥러닝 모델의 학습에 이용하여 딥러닝의 신뢰성과 범용화가 향상될 것으로 판단된다.

Siame-FPN기반 객체 특징 추적 알고리즘 (Object Feature Tracking Algorithm based on Siame-FPN)

  • 김종찬;임수창
    • 한국멀티미디어학회논문지
    • /
    • 제25권2호
    • /
    • pp.247-256
    • /
    • 2022
  • Visual tracking of selected target objects is fundamental challenging problems in computer vision. Object tracking localize the region of target object with bounding box in the video. We propose a Siam-FPN based custom fully CNN to solve visual tracking problems by regressing the target area in an end-to-end manner. A method of preserving the feature information flow using a feature map connection structure was applied. In this way, information is preserved and emphasized across the network. To regress object region and to classify object, the region proposal network was connected with the Siamese network. The performance of the tracking algorithm was evaluated using the OTB-100 dataset. Success Plot and Precision Plot were used as evaluation matrix. As a result of the experiment, 0.621 in Success Plot and 0.838 in Precision Plot were achieved.

합성곱 신경망 기반 선체 표면 유동 속도의 픽셀 수준 예측 (Pixel-level prediction of velocity vectors on hull surface based on convolutional neural network)

  • 서정범;김다연;이인원
    • 한국가시화정보학회지
    • /
    • 제21권1호
    • /
    • pp.18-25
    • /
    • 2023
  • In these days, high dimensional data prediction technology based on neural network shows compelling results in many different kind of field including engineering. Especially, a lot of variants of convolution neural network are widely utilized to develop pixel level prediction model for high dimensional data such as picture, or physical field value from the sensors. In this study, velocity vector field of ideal flow on ship surface is estimated on pixel level by Unet. First, potential flow analysis was conducted for the set of hull form data which are generated by hull form transformation method. Thereafter, four different neural network with a U-shape structure were conFig.d to train velocity vectors at the node position of pre-processed hull form data. As a result, for the test hull forms, it was confirmed that the network with short skip-connection gives the most accurate prediction results of streamlines and velocity magnitude. And the results also have a good agreement with potential flow analysis results. However, in some cases which don't have nothing in common with training data in terms of speed or shape, the network has relatively high error at the region of large curvature.

Skin Lesion Image Segmentation Based on Adversarial Networks

  • Wang, Ning;Peng, Yanjun;Wang, Yuanhong;Wang, Meiling
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권6호
    • /
    • pp.2826-2840
    • /
    • 2018
  • Traditional methods based active contours or region merging are powerless in processing images with blurring border or hair occlusion. In this paper, a structure based convolutional neural networks is proposed to solve segmentation of skin lesion image. The structure mainly consists of two networks which are segmentation net and discrimination net. The segmentation net is designed based U-net that used to generate the mask of lesion, while the discrimination net is designed with only convolutional layers that used to determine whether input image is from ground truth labels or generated images. Images were obtained from "Skin Lesion Analysis Toward Melanoma Detection" challenge which was hosted by ISBI 2016 conference. We achieved segmentation average accuracy of 0.97, dice coefficient of 0.94 and Jaccard index of 0.89 which outperform the other existed state-of-the-art segmentation networks, including winner of ISBI 2016 challenge for skin melanoma segmentation.

Deep Window Detection in Street Scenes

  • Ma, Wenguang;Ma, Wei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권2호
    • /
    • pp.855-870
    • /
    • 2020
  • Windows are key components of building facades. Detecting windows, crucial to 3D semantic reconstruction and scene parsing, is a challenging task in computer vision. Early methods try to solve window detection by using hand-crafted features and traditional classifiers. However, these methods are unable to handle the diversity of window instances in real scenes and suffer from heavy computational costs. Recently, convolutional neural networks based object detection algorithms attract much attention due to their good performances. Unfortunately, directly training them for challenging window detection cannot achieve satisfying results. In this paper, we propose an approach for window detection. It involves an improved Faster R-CNN architecture for window detection, featuring in a window region proposal network, an RoI feature fusion and a context enhancement module. Besides, a post optimization process is designed by the regular distribution of windows to refine detection results obtained by the improved deep architecture. Furthermore, we present a newly collected dataset which is the largest one for window detection in real street scenes to date. Experimental results on both existing datasets and the new dataset show that the proposed method has outstanding performance.

Image-based Soft Drink Type Classification and Dietary Assessment System Using Deep Convolutional Neural Network with Transfer Learning

  • Rubaiya Hafiz;Mohammad Reduanul Haque;Aniruddha Rakshit;Amina khatun;Mohammad Shorif Uddin
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.158-168
    • /
    • 2024
  • There is hardly any person in modern times who has not taken soft drinks instead of drinking water. The rate of people taking soft drinks being surprisingly high, researchers around the world have cautioned from time to time that these drinks lead to weight gain, raise the risk of non-communicable diseases and so on. Therefore, in this work an image-based tool is developed to monitor the nutritional information of soft drinks by using deep convolutional neural network with transfer learning. At first, visual saliency, mean shift segmentation, thresholding and noise reduction technique, collectively known as 'pre-processing' are adopted to extract the location of drinks region. After removing backgrounds and segment out only the desired area from image, we impose Discrete Wavelength Transform (DWT) based resolution enhancement technique is applied to improve the quality of image. After that, transfer learning model is employed for the classification of drinks. Finally, nutrition value of each drink is estimated using Bag-of-Feature (BoF) based classification and Euclidean distance-based ratio calculation technique. To achieve this, a dataset is built with ten most consumed soft drinks in Bangladesh. These images were collected from imageNet dataset as well as internet and proposed method confirms that it has the ability to detect and recognize different types of drinks with an accuracy of 98.51%.