• 제목/요약/키워드: learning through the image

검색결과 951건 처리시간 0.024초

영상 처리와 딥러닝을 이용한 악보 코드 변환 프로그램 (Conversion Program of Music Score Chord using OpenCV and Deep Learning)

  • 문지수;김민지;임영규;공기석
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.69-77
    • /
    • 2021
  • 본 논문은 사용자가 입력한 PDF 악보를 사용자가 원하는 조(chord)의 MIDI 파일로 제공하는 앱의 개발을 다룬다. 이 앱은 사용자가 PDF 악보 파일과 바꾸고자 하는 조를 입력하면 조 변환을 위해 PDF 파일을 PNG 파일로 변환한다. 이를 영상 처리 알고리즘을 통해 악보의 음계를 인식하여 구분하고, 딥러닝을 통해 악보 음표의 박자를 인식하여 구분한다. 이를 통해 사용자가 원하는 조와 기존 악보의 MIDI 파일을 제공한다. 개발한 영상 처리 알고리즘과 딥러닝은 2, 4, 8, 16분 음표, 2, 4, 8, 16분 쉼표, 잇단 음표, 화음 음표가 인식 가능하다. 실험결과 악보의 음표 인식률 100%, 딥러닝 모델을 통한 박자 인식률은 90% 이상인 것을 확인하였다.

Classification of Alzheimer's Disease with Stacked Convolutional Autoencoder

  • Baydargil, Husnu Baris;Park, Jang Sik;Kang, Do Young
    • 한국멀티미디어학회논문지
    • /
    • 제23권2호
    • /
    • pp.216-226
    • /
    • 2020
  • In this paper, a stacked convolutional autoencoder model is proposed in order to classify Alzheimer's disease with high accuracy in PET/CT images. The proposed model makes use of the latent space representation - which is also called the bottleneck, of the encoder-decoder architecture: The input image is sent through the pipeline and the encoder part, using stacked convolutional filters, extracts the most useful information. This information is in the bottleneck, which then uses Softmax classification operation to classify between Alzheimer's disease, Mild Cognitive Impairment, and Normal Control. Using the data from Dong-A University, the model performs classification in detecting Alzheimer's disease up to 98.54% accuracy.

REVIEW OF DIFFUSION MODELS: THEORY AND APPLICATIONS

  • HYUNGJIN CHUNG;HYELIN NAM;JONG CHUL YE
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제28권1호
    • /
    • pp.1-21
    • /
    • 2024
  • This review comprehensively explores the evolution, theoretical underpinnings, variations, and applications of diffusion models. Originating as a generative framework, diffusion models have rapidly ascended to the forefront of machine learning research, owing to their exceptional capability, stability, and versatility. We dissect the core principles driving diffusion processes, elucidating their mathematical foundations and the mechanisms by which they iteratively refine noise into structured data. We highlight pivotal advancements and the integration of auxiliary techniques that have significantly enhanced their efficiency and stability. Variants such as bridges that broaden the applicability of diffusion models to wider domains are introduced. We put special emphasis on the ability of diffusion models as a crucial foundation model, with modalities ranging from image, 3D assets, and video. The role of diffusion models as a general foundation model leads to its versatility in many of the downstream tasks such as solving inverse problems and image editing. Through this review, we aim to provide a thorough and accessible compendium for both newcomers and seasoned researchers in the field.

Manchu Script Letters Dataset Creation and Labeling

  • Aaron Daniel Snowberger;Choong Ho Lee
    • Journal of information and communication convergence engineering
    • /
    • 제22권1호
    • /
    • pp.80-87
    • /
    • 2024
  • The Manchu language holds historical significance, but a complete dataset of Manchu script letters for training optical character recognition machine-learning models is currently unavailable. Therefore, this paper describes the process of creating a robust dataset of extracted Manchu script letters. Rather than performing automatic letter segmentation based on whitespace or the thickness of the central word stem, an image of the Manchu script was manually inspected, and one copy of the desired letter was selected as a region of interest. This selected region of interest was used as a template to match all other occurrences of the same letter within the Manchu script image. Although the dataset in this study contained only 4,000 images of five Manchu script letters, these letters were collected from twenty-eight writing styles. A full dataset of Manchu letters is expected to be obtained through this process. The collected dataset was normalized and trained using a simple convolutional neural network to verify its effectiveness.

딥러닝을 이용한 범용적 스테그아날리시스 (Generalized Steganalysis using Deep Learning)

  • 김현재;이재구;김규완;윤성로
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권4호
    • /
    • pp.244-249
    • /
    • 2017
  • 스테그아날리시스(Steganalysis)란 이미지 등 일반적인 자료에 암호화된 정보를 은닉하는 스테가노그래피(Steganography)에 대한 검출 및 분석 방법으로, 기계학습 기반 방법론을 포함한다. 기존 기계학습 기반 스테그아날리시스는 영상(Image)의 특징(Feature) 추출 및 모델링에 기반하며, 최근 딥러닝(Deep Learning)의 적용으로 검출 정확도가 큰 폭으로 향상되었다. 하지만 현존하는 스테그아날리시스 모델은 단일 스테가노그래피 기법에 대해 국한되어 있어 학습에 사용되지 않은 스테고(Stego) 이미지의 경우 검출이 불가능한 결정적 한계를 가진다. 본 연구에서는 다양한 스테가노그래피 기법으로 생성된 스테고 이미지에 딥러닝을 적용하여 스테그아날리시스를 학습하는 범용적 모델을 제안한다. 다양한 실험을 통해 제안 기법의 효용성 및 가능성을 확인하고, 범용적 스테그아날리시스 모델이 각각에 특화된 검출 기법과 유사한 정확도로 스테고 이미지를 검출할 수 있음을 보인다.

무인이동체와 딥러닝 기반 이미지 분석 기술을 활용한 철도교량 자동 손상 분석 방법 연구 (A Study of Railway Bridge Automatic Damage Analysis Method Using Unmanned Aerial Vehicle and Deep Learning-based Image Analysis Technology)

  • 나용현;박미연
    • 한국재난정보학회 논문집
    • /
    • 제17권3호
    • /
    • pp.556-567
    • /
    • 2021
  • 연구목적: 본 연구에서는 무인이동체를 활용한 철도교량의 외관조사 점검을 보다 효율적이고 신뢰성 있게 점검을 위하여 무인이동체를 통해 촬영된 이미지를 바탕으로 다양한 방식의 딥러닝 기반 자동 손상 분석기술을 검토하였다. 연구방법: 취득된 이미지를 바탕으로 손상항목을 정의하고 학습데이터로 추출하여 딥러닝 분석 모델을 생성하였다. 그리고 철도교량의 외관 손상 중 균열, 콘크리트 박리·박락, 누수, 철근노출에 대한 손상 이미지를 학습한 모델을 적용하여 자동 손상 분석 결과로 테스트하였다. 연구결과: 분석 결과 평균 95%이상 검측 재현율을 도출하는 분석 기법을 검토할 수 있었다. 이와 같은 분석 기술은 기존 육안점검 결과 대비 보다 객관적이고 정밀한 손상 검측이 가능하다. 결론: 본 연구를 통해 개발된 기술을 통해 철도 유지관리 분야에서 무인이동체를 활용한 정기점검 시 자동손상분석을 통한 객관적인 결과도출과 기존 대비 소요시간, 비용저감이 가능할 것으로 기대된다.

Image Recognition by Learning Multi-Valued Logic Neural Network

  • Kim, Doo-Ywan;Chung, Hwan-Mook
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제2권3호
    • /
    • pp.215-220
    • /
    • 2002
  • This paper proposes a method to apply the Backpropagation(BP) algorithm of MVL(Multi-Valued Logic) Neural Network to pattern recognition. It extracts the property of an object density about an original pattern necessary for pattern processing and makes the property of the object density mapped to MVL. In addition, because it team the pattern by using multiple valued logic, it can reduce time f3r pattern and space fer memory to a minimum. There is, however, a demerit that existed MVL cannot adapt the change of circumstance. Through changing input into MVL function, not direct input of an existed Multiple pattern, and making it each variable loam by neural network after calculating each variable into liter function. Error has been reduced and convergence speed has become fast.

열처리 장비의 Safety를 위한 딥러닝 기반 영상처리 시스템 (Image Processing System based on Deep Learning for Safety of Heat Treatment Equipment)

  • 이정훈;이로운;홍승택;김영곤
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.77-83
    • /
    • 2020
  • 열처리 시설은 뿌리산업 중에서 고열에 의한 열악한 환경과 긴 근로시간 등으로 원격 IOT 시스템의 적용 범위가 확대되는 상황이다. 이러한 열처리 공정 환경에서 IOT 미들웨어는 사물인터넷 기기(센서 등)의 데이터 정보를 해석하고 관리하며 제어할 수 있는 중추적 역할이 요구된다. 그간 열처리 원격에서 제어하는 시스템은 현장 상황에 대한 전반적 감시 없이 작업자의 일괄 시스템 명령으로 운영되었다. 하지만 열처리 시설의 안전성과 정밀한 제어를 위해서는 다양한 센서 컨트롤과 주변 작업환경 인지가 필요하다. 본 논문에서 제시한 열처리 안전지원 시스템은 그에 대한 해결책으로 열화상 감지를 통해 열처리로의 작업인력 접근을 파악하고 원격에서 작업 가동 시 열처리 장비의 Safety를 위한 지원시스템을 제안하였다. 또한 일반적인 고정된 열점 감시 기반 열화상 분석보다 더욱 빠르고 정확한 인식을 위해 DNN 딥러닝 네트워크를 활용한 OPEN CV 기반 열화상 분석 시스템을 구성하였다. 이를 통해 열처리 산업에 특성화된 안전관리 지원과 향후 열처리 환경에서 범용적으로 활용 할 수 있는 시스템을 제안하고자 한다.

Atrous Convolution과 Grad-CAM을 통한 손 끝 탐지 (Fingertip Detection through Atrous Convolution and Grad-CAM)

  • 노대철;김태영
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제25권5호
    • /
    • pp.11-20
    • /
    • 2019
  • 딥러닝 기술의 발전으로 가상 현실이나 증강 현실 응용에서 사용하기 적절한 사용자 친화적 인터페이스에 관한 연구가 활발히 이뤄지고 있다. 본 논문은 사용자의 손을 이용한 인터페이스를 지원하기 위하여 손 끝 좌표를 추적하여 가상의 객체를 선택하거나, 공중에 글씨나 그림을 작성하는 행위가 가능하도록 딥러닝 기반 손 끝 객체 탐지 방법을 제안한다. 입력 영상에서 Grad-CAM으로 해당 손 끝 객체의 대략적인 부분을 잘라낸 후, 잘라낸 영상에 대하여 Atrous Convolution을 이용한 합성곱 신경망을 수행하여 손 끝의 위치를 찾는다. 본 방법은 객체의 주석 전처리 과정을 별도로 요구하지 않으면서 기존 객체 탐지 알고리즘 보다 간단하고 구현하기에 쉽다. 본 방법을 검증하기 위하여 Air-Writing 응용을 구현한 결과 평균 81%의 인식률과 76 ms 속도로 허공에서 지연 시간 없이 부드럽게 글씨 작성이 가능하여 실시간으로 활용 가능함을 알 수 있었다.

저조도 야간 감시 시스템을 위한 열영상 기반 객체 검출 알고리즘 (Thermal Imagery-based Object Detection Algorithm for Low-Light Level Nighttime Surveillance System)

  • 장정욱;인치호
    • 한국ITS학회 논문지
    • /
    • 제19권3호
    • /
    • pp.129-136
    • /
    • 2020
  • 본 논문에서는 저조도 야간 감시 시스템을 위한 열영상 기반의 객체 검출 알고리즘을 제안한다. 기존 Adaboost를 이용한 Haar 특징점 선택 알고리즘은 학습 샘플에 대한 유사하거나 중복되는 특징점의 선택 문제와 잡음에 취약한 경우가 많았다. 또한 저조도 야간 환경의 감시 영상에서 얻어지는 잡음을 특징점 세트에서 제거하고 빠르고 효율적인 실시간 특징점 선택이 이루어질 수 있게 가벼운 확장형 Haar 특징점과 Adaboost 학습 알고리즘을 사용하여 구현하였다. 야간 저조도 환경에서 움직임이 있는 비예측 객체를 인식하기 위하여 열영상으로 촬영된 이미지에 확장 Haar 특징점을 사용하여 객체를 인식한다. 비디오 프레임 800*600 크기의 열영상 이미지를 입력으로 하는 Adaboost 학습 알고리즘을 CUDA 9.0 플랫폼으로 구현하여 시뮬레이션을 시행한다. 그 결과 객체 검출 결과는 성공률이 약 90% 이상임을 확인하였고, 이는 일반영상에 히스토그램 이퀄라이징 연산을 거쳐 얻어진 연산 결과보다 약 30% 더 빠른 처리 속도를 얻을 수 있었다.