• 제목/요약/키워드: Combined segmentation network

검색결과 17건 처리시간 0.019초

개방형 다중 데이터셋을 활용한 Combined Segmentation Network 기반 드론 영상의 의미론적 분할 (Semantic Segmentation of Drone Images Based on Combined Segmentation Network Using Multiple Open Datasets)

  • 송아람
    • 대한원격탐사학회지
    • /
    • 제39권5_3호
    • /
    • pp.967-978
    • /
    • 2023
  • 본 연구에서는 다양한 드론 영상 데이터셋을 효과적으로 학습하여 의미론적 분할의 정확도를 향상시키기 위한 combined segmentation network (CSN)를 제안하고 검증하였다. CSN은 세 가지 드론 데이터셋의 다양성을 고려하기 위하여 인코딩 영역의 전체를 공유하며, 디코딩 영역은 독립적으로 학습된다. CSN의 경우, 학습 시 모든 데이터셋에 대한 손실값을 고려하기 때문에 U-Net 및 pyramid scene parsing network (PSPNet)으로 단일 데이터셋을 학습할 때보다 학습 효율이 떨어졌다. 그러나 국내 자율주행 드론 영상에 CSN을 적용한 결과, CSN이 PSPNet에 비해 초기 학습 없이도 영상 내 화소를 적절한 클래스로 분류할 수 있는 것을 확인하였다. 본 연구를 통하여 CSN이 다양한 드론 영상 데이터셋을 효과적으로 학습하고 새로운 지역에 대한 객체 인식 정확성을 향상시키는 데 중요한 도구로써 활용될 수 있을 것으로 기대할 수 있다.

Semantic Segmentation of Heterogeneous Unmanned Aerial Vehicle Datasets Using Combined Segmentation Network

  • Ahram, Song
    • 대한원격탐사학회지
    • /
    • 제39권1호
    • /
    • pp.87-97
    • /
    • 2023
  • Unmanned aerial vehicles (UAVs) can capture high-resolution imagery from a variety of viewing angles and altitudes; they are generally limited to collecting images of small scenes from larger regions. To improve the utility of UAV-appropriated datasetsfor use with deep learning applications, multiple datasets created from variousregions under different conditions are needed. To demonstrate a powerful new method for integrating heterogeneous UAV datasets, this paper applies a combined segmentation network (CSN) to share UAVid and semantic drone dataset encoding blocks to learn their general features, whereas its decoding blocks are trained separately on each dataset. Experimental results show that our CSN improves the accuracy of specific classes (e.g., cars), which currently comprise a low ratio in both datasets. From this result, it is expected that the range of UAV dataset utilization will increase.

영상수준과 픽셀수준 분류를 결합한 영상 의미분할 (Semantic Image Segmentation Combining Image-level and Pixel-level Classification)

  • 김선국;이칠우
    • 한국멀티미디어학회논문지
    • /
    • 제21권12호
    • /
    • pp.1425-1430
    • /
    • 2018
  • In this paper, we propose a CNN based deep learning algorithm for semantic segmentation of images. In order to improve the accuracy of semantic segmentation, we combined pixel level object classification and image level object classification. The image level object classification is used to accurately detect the characteristics of an image, and the pixel level object classification is used to indicate which object area is included in each pixel. The proposed network structure consists of three parts in total. A part for extracting the features of the image, a part for outputting the final result in the resolution size of the original image, and a part for performing the image level object classification. Loss functions exist for image level and pixel level classification, respectively. Image-level object classification uses KL-Divergence and pixel level object classification uses cross-entropy. In addition, it combines the layer of the resolution of the network extracting the features and the network of the resolution to secure the position information of the lost feature and the information of the boundary of the object due to the pooling operation.

딥 컨볼루셔널 인코더-디코더 네트워크를 이용한 망막 OCT 영상의 층 분할 (Layer Segmentation of Retinal OCT Images using Deep Convolutional Encoder-Decoder Network)

  • 권오흠;송민규;송하주;권기룡
    • 한국멀티미디어학회논문지
    • /
    • 제22권11호
    • /
    • pp.1269-1279
    • /
    • 2019
  • In medical image analysis, segmentation is considered as a vital process since it partitions an image into coherent parts and extracts interesting objects from the image. In this paper, we consider automatic segmentations of OCT retinal images to find six layer boundaries using convolutional neural networks. Segmenting retinal images by layer boundaries is very important in diagnosing and predicting progress of eye diseases including diabetic retinopathy, glaucoma, and AMD (age-related macular degeneration). We applied well-known CNN architecture for general image segmentation, called Segnet, U-net, and CNN-S into this problem. We also proposed a shortest path-based algorithm for finding the layer boundaries from the outputs of Segnet and U-net. We analysed their performance on public OCT image data set. The experimental results show that the Segnet combined with the proposed shortest path-based boundary finding algorithm outperforms other two networks.

결합 신경망을 이용한 여권 MRZ 정보 인식 (Recognition of Passport MRZ Information Using Combined Neural Networks)

  • 김진호
    • 디지털산업정보학회논문지
    • /
    • 제15권4호
    • /
    • pp.149-157
    • /
    • 2019
  • In case of reading passport using a smart phone in contrast with a dedicated passport reading system, MRZ(Machine Readable Zone) character recognition can be hard when the character strokes were broken, touched or blurred according to the lighting condition, and the position and size of MRZ character lines were varied due to the camera distance and angle. In this paper, the effective recognition algorithm of the passport MRZ information using a combined neural network recognizer of CNN(Convolutional Neural Network) and ANN( Artificial Neural Network), is proposed under the various sized and skewed passport images. The MRZ line detection using connected component analysis algorithm and the skew correction using perspective transform algorithm are also designed in order to achieve effective character segmentation results. Each of the MRZ field recognition results is verified by using five check digits for deciding whether retrying the recognition process of passport MRZ information or not. After we implement the proposed recognition algorithm of passport MRZ information, the excellent recognition performance of the passport MRZ information was obtained in the experimental results for PC off-line mode and smart phone on-line mode.

지역적 패치기반 보정기법을 활용한 2D X-ray 영상에서의 강인한 관상동맥 재연결 기법 (Robust Coronary Artery Segmentation in 2D X-ray Images using Local Patch-based Re-connection Methods)

  • 한경훈;전병환;김세근;장영걸;정성희;심학준;장혁재
    • 방송공학회논문지
    • /
    • 제24권4호
    • /
    • pp.592-601
    • /
    • 2019
  • 관상동맥 시술을 위해 혈관 조영 X-선 영상은 시술 진단 및 보조에 유용하게 활용된다. 삼차원의 복잡한 구조를 가진 관상동맥을 이차원 X-선 영상에서 기존의 단일기법만을 사용하여 정확히 분할하는 것에 어려움이 있으며, 특히 혈관이 중간에 끊어지거나 말단부위혈관이 유실되는 현상으로부터 오차가 크게 발생하는 경향이 있었다. 이러한 문제를 해결하기 위하여 기존 단일기법으로 초기분할 단계를 거친 후, 초기분할결과를 기반으로 정교한 보정영역을 설정하는 단계, 보정영역을 대상으로 패치기반 지역보정을 수행하는 단계가 수행된다. 본 연구를 통해 끊긴 혈관을 보완한 분할 결과를 구할 수 있을 뿐만 아니라 미세혈관까지 포함하지 못한 참 값의 한계점을 해결할 수 있다. 또한, 존재하는 기존 관상동맥 분할방법들에 융합하여 추가적인 성능개선을 얻어낼 수 있다. 본 논문에서는 Fully convolutional network 기반 깊은 신경망 네트워크인 U-net을 활용하였으며, 제안된 보정방법을 융합하여 기존 U-net 단일 모델 대비 성능이 상당히 개선된다는 것을 실제 여러 환자들의 데이터 셋을 통하여 증명하였다.

Masked Face Recognition via a Combined SIFT and DLBP Features Trained in CNN Model

  • Aljarallah, Nahla Fahad;Uliyan, Diaa Mohammed
    • International Journal of Computer Science & Network Security
    • /
    • 제22권6호
    • /
    • pp.319-331
    • /
    • 2022
  • The latest global COVID-19 pandemic has made the use of facial masks an important aspect of our lives. People are advised to cover their faces in public spaces to discourage illness from spreading. Using these face masks posed a significant concern about the exactness of the face identification method used to search and unlock telephones at the school/office. Many companies have already built the requisite data in-house to incorporate such a scheme, using face recognition as an authentication. Unfortunately, veiled faces hinder the detection and acknowledgment of these facial identity schemes and seek to invalidate the internal data collection. Biometric systems that use the face as authentication cause problems with detection or recognition (face or persons). In this research, a novel model has been developed to detect and recognize faces and persons for authentication using scale invariant features (SIFT) for the whole segmented face with an efficient local binary texture features (DLBP) in region of eyes in the masked face. The Fuzzy C means is utilized to segment the image. These mixed features are trained significantly in a convolution neural network (CNN) model. The main advantage of this model is that can detect and recognizing faces by assigning weights to the selected features aimed to grant or provoke permissions with high accuracy.

딥러닝 기반 임의적 스케일 초해상도 모듈을 이용한 Mask-RCNN 성능 향상 (Improvement of Mask-RCNN Performance Using Deep-Learning-Based Arbitrary-Scale Super-Resolution Module)

  • 안영필;박현준
    • 한국정보통신학회논문지
    • /
    • 제26권3호
    • /
    • pp.381-388
    • /
    • 2022
  • 인스턴스 분할에서 Mask-RCNN은 베이스 모델로 자주 사용된다. Mask-RCNN의 성능을 높이는 것은 파생된 모델에 영향을 미치기에 의미가 있다. Mask-RCNN에는 입력 이미지 크기를 배치 크기로 통일시키는 변환 모듈(transform module)이 있다. 이 논문에서는 Mask-RCNN의 성능 향상을 위해 변환 모듈의 크기 조정 부분에 딥러닝 기반 ASSR(Arbitrary-Scale Super-Resolution)을 적용하고, 스케일 정보를 모델의 IM(Integration Module)을 이용하여 주입한다. 제안하는 방법을 COCO 데이터세트에 적용하였을 때 인스턴스 분할 성능이 Mask-RCNN 성능보다 2.5 AP 높았다. 그리고 제안하는 IM 위치 최적화를 위한 실험에서는 FPN(Feature Pyramid Network)과 백본(backbone)이 결합하기 전의 'Top' 위치에 배치했을 때 가장 좋은 성능을 보였다. 따라서 제안하는 방법은 Mask-RCNN을 베이스 모델로 사용하는 모델들의 성능을 향상시킬 수 있다.

Consumer Associative Network Analysis on Device and Service Convergence

  • Han, Sangman;Lee, Janghyuk;Park, Sun-Young;Jo, Woonghyeon
    • Asia Marketing Journal
    • /
    • 제15권3호
    • /
    • pp.1-14
    • /
    • 2013
  • Our research brings managerial insights for developing new digital convergence of devices and services. To explain the phenomenon of device and service convergence, we combine two different approaches from separate research fields: a perceptual mapping technique generally used for segmentation in marketing and associative network analysis mobilized to understanding network structure of core and peripheral as well as the information mediating role of nodes in network science. By combining these two approaches, we provide an in-depth analysis of the associations among devices and services by assessing the centrality of device and service nodes in an associative network. This is done by examining the connections between these services and devices as well as investigating the role of mediation in the combined device-service associative network. Our results based on bi-partite network analysis of survey responses from 250 Internet Protocol (IP) television viewers show which device and which service will play the major role in future device and service convergence as well as which characteristics and functionalities have to be incorporated into future convergence. Among the devices, the mobile handset with the betweenness centrality of 0.26 appears to be the device that would lead future device convergence. Among the services, wireless broadband with the betweenness centrality of 0.276 appears to be the service on which future service convergence needs to be developed. This result is quite unexpected, since wireless broadband has a lower penetration rate than other services, such as fixed broadband and cable TV. In addition, we indicate the possibility of converging devices, such as personal digital assistant (PDA) and mobile handset, and services, such as IPTV and mobile Internet, into wireless broadband services in the future.

  • PDF

2단계 신경망과 계층적 프레임 탐색 방법을 이용한 MPEG 비디오 분할 (MPEG Video Segmentation using Two-stage Neural Networks and Hierarchical Frame Search)

  • 김주민;최영우;정규식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권1_2호
    • /
    • pp.114-125
    • /
    • 2002
  • 본 논문에서는 MPEG 비디오 데이터의 컷(cut)과 디졸브(dissolve)를 검출하여 샷(shot) 단위로 분할하고 각 샷의 카메라 동작 또는 객체 움직임의 형태를 분류하는 방법을 제안하고자 한다. 정확한 샷의 위치와 카메라, 객체의 세분화된 동작을 구별하기 위한 전단계의 연구에서[1] 우선 MPEG 데이터의 I(Intra) 프레임의 DC(Direct Current) 계수를 분석하여 픽처 그룹을 Shot(장면이 바뀐 경우), Move(카메라 동작 또는 객체가 움직인 경우), Static(영상의 변화가 거의 없는 경우)으로 세분화하여 분류하였다. 이 과정에서 2단계 구조의 신경망을 구성하고 여러 종류의 특징을 서로 다른 해상도에서 추출하여 결합시키는 방법을 제안하였다. 다음 단계로 Shot 또는 Move로 분류된 픽처 그룹의 P(Predicted), B(Bi-directional) 프레임을 선별적, 계층적으로 탐색하여 컷의 정확한 발생 위치와 카메라 동작 또는 객체 움직임의 종류를 결정하는 방법을 제안한다. P, B 프레임의 매크로 블록의 종류별 분포를 통계적으로 이용하여 컷의 발생 위치를 검출하여, P, B 프레임의 매크로 블록 종류와 움직임 벡터를 동시에 사용하는 신경망을 구성하여 디졸브, 카메라 동작, 객체 움직임의 종류를 검출한다. 본 논문에서 제안하는 방법은 MPEG 데이터의 압축을 풀지 않은 상태에서 I 프레임의 DC 계수만을 사용하여 픽처 그룹을 분류하며, 분류된 픽처 그룹 내에서 일부의 P, B 프레임만을 계층적으로 선택하여 탐색함으로서 처리 시간을 감소시키고자 하였다. 세 종류의 서로 다른 비디오 데이터를 사용한 실험에서 93.9-100.0%로 픽처 그룹을, 96.1-100.0%로 컷을 검출하였다. 또한 두 종류의 비디오 데이터를 사용한 실험에서 90.13% 및 89.28%의 정확성으로 카메라 동작 또는 객체 움직임을 분류하였다.