• 제목/요약/키워드: Deep Learning based System

검색결과 1,194건 처리시간 0.026초

실내 문화시설 안전을 위한 딥러닝 기반 방문객 검출 및 동선 추적에 관한 연구 (Deep Learning-based Approach for Visitor Detection and Path Tracking to Enhance Safety in Indoor Cultural Facilities)

  • 신원섭;노승민
    • Journal of Platform Technology
    • /
    • 제11권4호
    • /
    • pp.3-12
    • /
    • 2023
  • 포스트-코로나 시대에는 방역 조치의 중요성이 크게 강조되고 있으며, 이에 맞춰 딥러닝을 이용한 마스크 착용 상태 검출 및 다른 전염병 예방에 관련된 연구가 진행되고 있다. 그러나 질병 확산 방지를 위한 문화시설 관람객 탐지 및 추적 연구도 마찬가지로 중요하므로 이에 대한 연구가 진행되어야 한다. 본 논문에서는 사전 수집된 데이터 셋을 이용하여 컨볼루션 신경망 기반 객체 탐지 모델을 전이 학습시키고, 학습된 탐지 모델의 가중치를 다중 객체 추적 모델에 적용하여 방문객을 모니터링 한다. 방문객 탐지 모델은 Precision 96.3%, Recall 85.2% F1-Score 90.4%의 결과를 보여주었다. 추적 모델의 정량적 결과로 MOTA 65.6%, IDF1 68.3%. HOTA 57.2%의 결과를 보여주었으며, 본 논문의 모델과 다른 다중 객체 추적 모델 간의 정성적 비교에서 우수한 결과를 보여주었다. 본 논문의 연구는 포스트-코로나 시대의 문화시설 내 방역 시스템에 적용될 수 있을 것이다.

  • PDF

Estimation of Heading Date of Paddy Rice from Slanted View Images Using Deep Learning Classification Model

  • Hyeokjin Bak;Hoyoung Ban;SeongryulChang;Dongwon Gwon;Jae-Kyeong Baek;Jeong-Il Cho;Wan-Gyu Sang
    • 한국작물학회:학술대회논문집
    • /
    • 한국작물학회 2022년도 추계학술대회
    • /
    • pp.80-80
    • /
    • 2022
  • Estimation of heading date of paddy rice is laborious and time consuming. Therefore, automatic estimation of heading date of paddy rice is highly essential. In this experiment, deep learning classification models were used to classify two difference categories of rice (vegetative and reproductive stage) based on the panicle initiation of paddy field. Specifically, the dataset includes 444 slanted view images belonging to two categories and was then expanded to include 1,497 images via IMGAUG data augmentation technique. We adopt two transfer learning strategies: (First, used transferring model weights already trained on ImageNet to six classification network models: VGGNet, ResNet, DenseNet, InceptionV3, Xception and MobileNet, Second, fine-tuned some layers of the network according to our dataset). After training the CNN model, we used several evaluation metrics commonly used for classification tasks, including Accuracy, Precision, Recall, and F1-score. In addition, GradCAM was used to generate visual explanations for each image patch. Experimental results showed that the InceptionV3 is the best performing model in terms of the accuracy, average recall, precision, and F1-score. The fine-tuned InceptionV3 model achieved an overall classification accuracy of 0.95 with a high F1-score of 0.95. Our CNN model also represented the change of rice heading date under different date of transplanting. This study demonstrated that image based deep learning model can reliably be used as an automatic monitoring system to detect the heading date of rice crops using CCTV camera.

  • PDF

딥러닝 기반 작물 질병 탐지 및 분류 시스템 (Deep Learning-based system for plant disease detection and classification)

  • 고유진;이현준;정희자;위리;김남호
    • 스마트미디어저널
    • /
    • 제12권7호
    • /
    • pp.9-17
    • /
    • 2023
  • 작물의 병충해는 다양한 작물의 성장에 영향을 미치기 때문에 초기에 병충해를 식별하는 것이 매우 중요하다. 이미 많은 머신러닝(ML) 모델이 작물 병충해의 검사와 분류에 사용되었지만, 머신러닝의 부분 집합인 딥러닝(DL)이 발전을 이루면서 이 연구 분야에서 많은 진보가 있었다. 본 연구에서는 YOLOX 검출기와 MobileNet 분류기를 사용하여 비정상 작물의 병충해 검사 및 정상 작물에 대해서는 성숙도 분류를 진행하였다. 이 방법을 통해 다양한 작물 병충해 특징을 효과적으로 추출할 수 있으며, 실험을 위해 딸기, 고추, 토마토와 관련된 다양한 해상도의 이미지 데이터 셋을 준비하여 작물 병충해 분류에 사용하였다. 실험 결과에 따르면 복잡한 배경 조건을 가진 영상에서 평균 테스트 정확도가 84%, 성숙도 분류 정확도가 83.91% 임을 확인할 수 있었다. 이 모델은 자연 상태에서 3가지 작물에 대한 6가지 질병 검출 및 각 작물의 성숙도 분류를 효과적으로 진행할 수 있었다.

동영상 안정화를 위한 옵티컬 플로우의 비지도 학습 방법 (Deep Video Stabilization via Optical Flow in Unstable Scenes)

  • 이보희;김광수
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.115-127
    • /
    • 2023
  • 동영상 안정화 기술은 최근 1인 미디어 시장이 거대화됨에 따라 그 중요성이 점점 커지고 있는 카메라 기술 중 하나이다. 딥러닝 기반의 기존 방법들에서는 안정화 전/후 동영상 데이터 쌍을 사용하였으나 동영상의 특성상 동기화된 안정화 전/후 데이터를 만드는 것은 많은 시간과 노력이 필요하다. 최근 이러한 문제를 완화하기 위하여 안정화 전 데이터만을 사용하는 비지도 학습 방법이 제시되고 있다. 본 논문에서는 비지도 학습 방법의 하나인 Convolutional Autoencoder 구조를 사용하여 안정화 전/후 동영상 데이터 쌍 없이 안정화 전 영상만으로 안정화 궤적을 학습하는 네트워크 구조를 제안한다. 네트워크 입력 및 출력으로 옵티컬 플로우를 사용하고 네트워크 경량화 및 노이즈 최소화를 위해 옵티컬 플로우를 Grid 단위로 맵핑하여 사용했다. 또한 비지도 학습 방법으로 안정화된 궤적을 생성하기 위해 옵티컬 플로우를 부드럽게 만드는 손실함수를 정의하였고 결과 비교를 통해 손실함수의 의도대로 부드러운 궤적을 생성하도록 네트워크가 학습되었음을 확인했다.

보안 감시를 위한 심층학습 기반 다채널 영상 분석 (Multi-channel Video Analysis Based on Deep Learning for Video Surveillance)

  • 박장식;마르셀 위라네가라;손금영
    • 한국전자통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.1263-1268
    • /
    • 2018
  • 본 논문에서는 영상 보안 감시를 위한 심층학습 객체 검출과 다중 객체 추적을 위한 확률적 데이터연관 필터를 연계한 영상분석 기법을 제안하고, GPU를 이용하여 구현하는 방안을 제시한다. 제안하는 영상분석 기법은 객체 검출과 추적으로 순차적으로 수행한다. 객체 검출을 위한 심층학습은 ResNet을 이용하고, 다중 객체 추적을 위하여 확률적 데이터 연관 필터를 적용한다. 제안하는 영상분석 기법은 임의의 영역으로 불법으로 침입하는 사람을 검출하거나 특정 공간에 출입하는 사람을 계수하는데 응용할 수 있다. 시뮬레이션을 통하여 약 25fps의 속도로 48채널의 영상을 분석할 수 있음을 보이고, RTSP 프로토콜을 통하여 실시간 영상분석이 가능함을 보인다.

Deep Learning Research on Vessel Trajectory Prediction Based on AIS Data with Interpolation Techniques

  • Won-Hee Lee;Seung-Won Yoon;Da-Hyun Jang;Kyu-Chul Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.1-10
    • /
    • 2024
  • 해상 운송의 대부분을 차지하고 있는 선박의 경로를 예측하는 연구는 해상의 위험을 사전에 탐지하여 사고를 예방할 수 있다. 도로와 달리 해상에는 신호체계가 따로 존재하지 않고, 교통 관리가 어렵기에 해상 안정성을 위해 선박 경로 예측은 필수적이다. 그러나 선박의 경로 데이터셋의 시간 간격은 통신 장애로 인해 불규칙하다. 본 연구는 이 문제를 해결하기 위해 선박 경로 예측에 적합한 보간법을 사용하여 데이터의 시간 간격을 조정하는 방법을 제시한다. 또한, 선박의 경로를 예측하기 위한 선박 경로 예측 딥러닝 모델을 개발하였다. 본 연구의 모델은 선박의 실시간 경로 정보를 담고 있는 AIS 데이터를 통해 선박의 이동패턴을 파악하여 이후에 위치할 선박의 GPS 좌표를 예측하는 LSTM 모델이다. 본 논문은 선형 보간법을 사용한 데이터 전처리 방법과 선박 경로 예측에 적합한 딥러닝 모델을 제시하고, 실험을 통해 MSE 0.0131, Accuracy 0.9467로 본 논문에서 제시하는 방법의 예측 성능이 우수함을 나타낸다.

Voxceleb과 한국어를 결합한 새로운 데이터셋으로 학습된 ECAPA-TDNN을 활용한 화자 검증 (Speaker verification with ECAPA-TDNN trained on new dataset combined with Voxceleb and Korean)

  • 윤금재;박소영
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.209-224
    • /
    • 2024
  • 화자검증(speaker verification)이란 두개의 음성 데이터로부터 같은 화자의 목소리 인지 아닌지를 판단하는것을 말한다. 범죄현장에서 범인의 목소리만이 증거로 남는경우, 두개의 목소리를 객관적이고 정확하게 비교할 수 있는 화자 검증 시스템 또는 화자 매칭 시스템의 구축이 시급하다. 본 연구에서는 한국어에 대한 화자검증 딥러닝 모형을 새롭게 구축하고, 학습에 필요한 적절한 형태의 학습데이터셋에 대해 연구한다. 음성데이터는 고차원이면서 백그라운드 노이즈를 포함하는 등의 변동성이 큰 특징이 있다. 따라서 화자 검증 시스템을 구축하기위해 딥러닝 기반의 방법 선택하는경우가 많다. 본 연구에서는 ECAPA-TDNN 모형을 선택하여 화자 매칭 알고리즘을 구축하였다. 구축한 모형을 학습시키는데 사용한 Voxceleb은 대용량의 목소리 데이터로 다양한 국적을 가진 사람들로부터 음성데이터를 포함하지만 한국어에 대한 정보는 포함하지 않는 다. 본 연구에서는 한국어 음성데이터를 학습에 포함시켰을때와 포함시키지 않았을때 학습 데이터 내 해당언어의 존재 유무가 모델의 성능에 미치는 영향에 대해 파악하였다. Voxceleb으로만 학습한 모델과 언어와 화자의 다양성을 최대로 하기 위해 Voxceleb과 한국어 데이터셋을 결합한 데이터셋으로 학습한 모델을 비교하였을 때, 모든 테스트 셋에 대해 한국어를 포함한 학습데이터의 성능이 개선됨을 보인다.

AI 기반 이동통신 물리계층 기술 동향과 전망 (Physical-Layer Technology Trend and Prospect for AI-based Mobile Communication)

  • 장갑석;고영조;김일규
    • 전자통신동향분석
    • /
    • 제35권5호
    • /
    • pp.14-29
    • /
    • 2020
  • The 6G mobile communication system will become a backbone infrastructure around 2030 for the future digital world by providing distinctive services such as five-sense holograms, ultra-high reliability/low-latency, ultra-high-precision positioning, ultra-massive connectivity, and gigabit-per-second data rate for aerial and maritime terminals. The recent remarkable advances in machine learning (ML) technology have recognized its efficiency in wireless networking fields such as resource management and cell-configuration optimization. Further innovation in ML is expected to play an important role in solving new problems arising from 6G network management and service delivery. In contrast, an approach to apply ML to a physical-layer (PHY) target tackles the basic problems in radio links, such as overcoming signal distortion and interference. This paper reviews the methodologies of ML-based PHY, relevant industrial trends, and candiate technologies, including future research directions and standardization impacts.

실외에서 로봇의 인간 탐지 및 행위 학습을 위한 멀티모달센서 시스템 및 데이터베이스 구축 (Multi-modal Sensor System and Database for Human Detection and Activity Learning of Robot in Outdoor)

  • 엄태영;박정우;이종득;배기덕;최영호
    • 한국멀티미디어학회논문지
    • /
    • 제21권12호
    • /
    • pp.1459-1466
    • /
    • 2018
  • Robots which detect human and recognize action are important factors for human interaction, and many researches have been conducted. Recently, deep learning technology has developed and learning based robot's technology is a major research area. These studies require a database to learn and evaluate for intelligent human perception. In this paper, we propose a multi-modal sensor-based image database condition considering the security task by analyzing the image database to detect the person in the outdoor environment and to recognize the behavior during the running of the robot.

다중 융합 기반 심층 교차 도메인 추천 (Multiple Fusion-based Deep Cross-domain Recommendation)

  • 홍민성;이원진
    • 한국멀티미디어학회논문지
    • /
    • 제25권6호
    • /
    • pp.819-832
    • /
    • 2022
  • Cross-domain recommender system transfers knowledge across different domains to improve the recommendation performance in a target domain that has a relatively sparse model. However, they suffer from the "negative transfer" in which transferred knowledge operates as noise. This paper proposes a novel Multiple Fusion-based Deep Cross-Domain Recommendation named MFDCR. We exploit Doc2Vec, one of the famous word embedding techniques, to fuse data user-wise and transfer knowledge across multi-domains. It alleviates the "negative transfer" problem. Additionally, we introduce a simple multi-layer perception to learn the user-item interactions and predict the possibility of preferring items by users. Extensive experiments with three domain datasets from one of the most famous services Amazon demonstrate that MFDCR outperforms recent single and cross-domain recommendation algorithms. Furthermore, experimental results show that MFDCR can address the problem of "negative transfer" and improve recommendation performance for multiple domains simultaneously. In addition, we show that our approach is efficient in extending toward more domains.