• 제목/요약/키워드: train dataset

검색결과 155건 처리시간 0.023초

Collaborative Secure Decision Tree Training for Heart Disease Diagnosis in Internet of Medical Things

  • Gang Cheng;Hanlin Zhang;Jie Lin;Fanyu Kong;Leyun Yu
    • Journal of Information Processing Systems
    • /
    • 제20권4호
    • /
    • pp.514-523
    • /
    • 2024
  • In the Internet of Medical Things, due to the sensitivity of medical information, data typically need to be retained locally. The training model of heart disease data can predict patients' physical health status effectively, thereby providing reliable disease information. It is crucial to make full use of multiple data sources in the Internet of Medical Things applications to improve model accuracy. As network communication speeds and computational capabilities continue to evolve, parties are storing data locally, and using privacy protection technology to exchange data in the communication process to construct models is receiving increasing attention. This shift toward secure and efficient data collaboration is expected to revolutionize computer modeling in the healthcare field by ensuring accuracy and privacy in the analysis of critical medical information. In this paper, we train and test a multiparty decision tree model for the Internet of Medical Things on a heart disease dataset to address the challenges associated with developing a practical and usable model while ensuring the protection of heart disease data. Experimental results demonstrate that the accuracy of our privacy protection method is as high as 93.24%, representing a difference of only 0.3% compared with a conventional plaintext algorithm.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.

LSTM 모델 기반 주행 모드 인식을 통한 자율 주행에 관한 연구 (Automated Vehicle Research by Recognizing Maneuvering Modes using LSTM Model)

  • 김은희;오혜연
    • 한국ITS학회 논문지
    • /
    • 제16권4호
    • /
    • pp.153-163
    • /
    • 2017
  • 본 연구에서는 운전자 별로 생활 중에 이동하는 주행 도로의 특징 및 교통상황이 서로 다르며 운전습관이 상이함을 고려하여, 운전자 혹은 운전자 그룹별 기계학습모형을 구성하고, 학습된 모델을 분석하여 운전자의 주행모드 별 특징을 탐색하여 자율 주행 자동차를 시뮬레이션 하였다. 운전지식을 활용하여 주행조작 전후 센서의 동작 상황에 따라 8종류의 종방향 모드와 4종류 회전모드로 구분하고, 종방향 모드와 회전모드를 결합한 21개의 결합형 주행모드로 세분화 하였다. 주행모드가 레이블 된 시계열 데이터에 대해 딥러닝 지도학습 모델인 RNN (Recurrent Neural Network), LSTM (Long Short-Term Memory), Bi-LSTM 모델을 활용하여서 운전자 별 혹은 운전자 그룹별 주행데이터를 학습하고, 학습된 모델을 테스트 데이터 셋에서 주행 모드인식률을 검증하였다. 실험 데이터는 미국 VTTI 기관에서 수집된 22명의 운전자의 1,500개의 실생활 주행 데이터가 사용되었다. 주행 모드 인식에 있어, 데이터 셋에 대해 Bi-LSTM 모델이 RNN, LSTM 모델에 비해 향상된 성능을 보였으며, 최대 93.41%의 주행모드 인식률을 확인하였다.

미분진화 기반의 초단기 호우예측을 위한 특징 선택 (Feature Selection to Predict Very Short-term Heavy Rainfall Based on Differential Evolution)

  • 서재현;이용희;김용혁
    • 한국지능시스템학회논문지
    • /
    • 제22권6호
    • /
    • pp.706-714
    • /
    • 2012
  • 본 논문에서는 대한민국의 국립기상연구소에서 제공한 최근 4년간의 데이터를 훈련 데이터, 검증 데이터 및 테스트 데이터로 나누어 초단기 호우 예측을 하고자 한다. 우리는 데이터 셋을 훈련 데이터, 검증 데이터와 테스트 데이터 세 부분으로 나눴다. 데이터의 차원이 커짐에 따라 해 공간의 크기가 지수적으로 증가하여 실험의 속도가 현저히 떨어지는 문제를 피하기 위하여 72개의 특징들 중에서 주요한 특징들만을 선택하게 되었다. 예측의 정확도를 높이기 위해 미분진화 알고리즘을 사용하였고, 진화연산의 적합도 함수로 두 개의 분류기를 선택하였는데, 일반적으로 우수한 성능을 보이는 서포트 벡터 머신(SVM)과 분류 속도가 빠른 최근린법(k-NN)을 사용하였다. 또한, 실험에 사용할 데이터 가공을 위해 언더샘플링과 정규화를 하였다. 진화연산의 적합도 함수로 SVM 분류기를 사용하였을 때 실험 결과가 대체로 우수하였는데, 미분진화 알고리즘 실험은 모든 특징을 선택한 실험보다 약 5 배 정도 우수한 성능을 보였고, 유전 알고리즘을 사용한 실험보다 약 1.36 배 정도 더 우수한 성능을 보였다. 실험 속도 면에서는 미분진화 알고리즘을 사용한 실험이 유전 알고리즘을 사용한 실험보다 약 20배 이상 실험 시간이 단축되었다.

3차원 탄성파자료의 층서구분을 위한 패치기반 기계학습 방법의 개선 (Improvements in Patch-Based Machine Learning for Analyzing Three-Dimensional Seismic Sequence Data)

  • 이동욱;문혜진;김충호;문성훈;이수환;주형태
    • 지구물리와물리탐사
    • /
    • 제25권2호
    • /
    • pp.59-70
    • /
    • 2022
  • 최근의 연구들을 통해 기계학습은 탄성파 해석 분야에 그 적용 범위를 확장하고 있으며, 탄성파 해석에서 중요한 탄성파 층서 구분을 수행하는 합성곱 신경망들의 개발도 수행되었다. 하지만 지도 학습의 경우 대량의 학습 자료가 필요하며, 비용과 시간의 한계로 탄성파 층서구분의 지도학습은 학습 자료의 부족이 문제가 될 수 있다. 이번 연구에서는 자료 부족 문제를 보완하기위해 탄성파 단면에 패치 분할과 자료증강을 적용하였다. 또한 패치 분할로 손실될 수 있는 공간정보를 제공하기 위해 깊이를 고려할 수 있는 인공 채널을 생성하여 추가하였다. 실험을 위한 학습 모델로 U-Net을 사용하였으며, 층서 구분을 위한 학습 자료가 제공되는 F3 block 자료를 이용하여 학습과 예측 결과에 대한 평가를 수행하였다. 분석 결과 자료증강과 인공 채널의 추가로 패치 기반의 층서 구분 학습 모델을 개선할 수 있음을 확인하였다.

저선량 흉부 CT를 이용한 VGGNet 폐기종 검출 유용성 평가 (Effectiveness of the Detection of Pulmonary Emphysema using VGGNet with Low-dose Chest Computed Tomography Images)

  • 김두빈;박영준;홍주완
    • 한국방사선학회논문지
    • /
    • 제16권4호
    • /
    • pp.411-417
    • /
    • 2022
  • 본 연구에서는 저선량 흉부 CT 영상을 이용하여 VGGNet을 학습시키고 폐기종 검출 모델을 구현하고 성능을 확인하고자 한다. 연구에 사용된 저선량 흉부 CT 영상은 정상 진단 8000장, 폐기종 진단 3189장이며, 모델 학습을 위해 정상 데이터와 폐기종 데이터를 train, validation, test dataset으로 각각 60%, 24%, 16%로 무작위 추출하여 구분하였다. 학습을 위한 인공신경망은 VGGNet 중 VGG16과 VGG19를 사용하였으며, 학습이 완료된 모델 평가를 위해 정확도, 손실율, 오차 행렬, 정밀도, 재현율, 특이도, F1-score의 평가지표를 사용하였다. 폐기종 검출 정확도와 손실율은 VGG16과 VGG19 각각 92.35%, 95.88%, 0.21%, 0.09%, 정밀도는 91.60%, 96.55%, 재현율은 98.36%, 97.39%, 특이도는 77.08%, 92.72%, F1-score는 94.86%, 96.97%였다. 위의 평가지표를 통해 VGG19 모델의 폐기종 검출 성능이 VGG16 모델에 비해 우수하다고 판단된다. 본 연구를 통해 VGGNet과 인공신경망을 이용한 폐기종 검출 모델 연구에 기초자료로 사용할 수 있을 것으로 사료된다.

영상장치를 이용한 차세대 스마트 LED 전광판의 불량픽셀 검출을 위한 딥러닝 구조 개발 (Development of Deep Learning Structure for Defective Pixel Detection of Next-Generation Smart LED Display Board using Imaging Device)

  • 이선구;이태윤;이승호
    • 전기전자학회논문지
    • /
    • 제27권3호
    • /
    • pp.345-349
    • /
    • 2023
  • 본 논문은 영상장치를 이용한 차세대 스마트 LED 전광판의 불량픽셀 검출을 위한 딥러닝 구조 개발에 관한 연구를 제안한다. 이 연구에서는 영상장치를 활용하여 딥러닝을 통해 실외 LED 전광판의 결함을 자동으로 검출하는 기법을 제안한다. 이를 통해 LED 전광판의 효율적인 관리와 발생할 수 있는 다양한 오류와 문제를 해결하고자 한다. 연구 과정은 3단계를 거쳐 이루어진다. 첫 번째로, 평면화된 전광판 이미지 데이터를 calibration을 통해 배경을 완전히 제거하고 필요한 전처리 과정을 거쳐 학습 데이터셋을 생성한다. 두 번째로, 생성된 데이터셋은 객체 인식 네트워크를 학습을 시키는 데 활용된다. 네트워크는 Backbone과 Head로 구성된다. Backbone에서는 CSP-Darknet을 활용하여 특징 맵을 추출하고, Head에서는 추출된 Feature Map을 기반으로 물체를 검출한다. 이 과정에서 네트워크는 Confidence score와 IoU가 일치하도록 오차를 수정하며 지속적으로 학습된다. 세 번째에서는 생성된 모델을 활용하여 실제 실외 LED 전광판에서 불량픽셀을 자동으로 검출한다. 본 논문에서 제안하는 방법을 적용하여 LED 전광판의 불량픽셀 검출에 대한 공인 측정 실험 결과로는 실제 LED 전광판에서 불량픽셀을 100% 검출한 결과를 얻을 수 있었다. 이를 통해 LED 전광판의 불량 관리와 유지보수의 효율성이 향상되었음을 확인할 수 있다. 이러한 연구 결과는 LED 전광판 관리의 획기적인 개선을 이룰 것으로 기대된다.

제조업 노동자 근골격계 부담요인 데이터셋 클래스 분류와 유효성 검증 (Class Classification and Validation of a Musculoskeletal Risk Factor Dataset for Manufacturing Workers)

  • 강영진;노태경;김기환;정석찬
    • 한국빅데이터학회지
    • /
    • 제8권1호
    • /
    • pp.49-59
    • /
    • 2023
  • 제조업의 안전보건 기준은 다양한 항목이 존재하지만, 질병 재해자 기준에서 업무상 질병과 근골격계 질환으로 나눌 수 있다. 이 중 근골격계 질환은 제조업에서 가장 많이 발생하며, 나아가서 제조 현장의 노동생산성감소 및 경쟁력 약화까지 유발할 수 있어서 이를 사전에 확인할 수 있는 시스템이 필요한 실정이다. 본 논문에서는 제조업 노동자의 근골격계 유해 요인을 검출하기 위하여 근골격계 부담작업 요인 분석 데이터 속성, 유해 요인 작업자세, 관절 키포인트를 정의하고 인공지능 학습용 데이터를 구축하였다. 구축한 데이터의 유효성을 판단하기 위해서 YOLO, Dite-HRNet, EfficientNet 등의 AI 알고리즘을 활용하여 학습하고 검증하였다. 실험 결과 사람 탐지 정확도는 99%, 탐지된 사람의 관절 위치 추론 정확도는 @AP0.5 88%, 추론된 관절 위치를 종합하여 자세를 평가한 정확도는 LEGS 72.2%, NECT 85.7%, TRUNK 81.9%, UPPERARM 79.8%, LOWERARM 92.7%를 도출하였으며, 추가로 딥러닝 기반의 근골격계 질병을 예방할 수 있는 연구에 필요한 요소를 고찰하였다.

딥러닝을 활용한 한국어 스피치 애니메이션 생성에 관한 고찰 (A Study on Korean Speech Animation Generation Employing Deep Learning)

  • 강석찬;김동주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권10호
    • /
    • pp.461-470
    • /
    • 2023
  • 딥러닝을 활용한 스피치 애니메이션 생성은 영어를 중심으로 활발하게 연구되어왔지만, 한국어에 관해서는 사례가 없었다. 이에, 본 논문은 최초로 지도 학습 딥러닝을 한국어 스피치 애니메이션 생성에 활용해 본다. 이 과정에서, 딥러닝이 스피치 애니메이션 연구를 그 지배적 기술인 음성 인식 연구로 귀결시킬 수 있는 중요한 효과를 발견하게 되어, 이 효과를 한국어 스피치 애니메이션 생성에 최대한 활용하는 방법을 고찰한다. 이 효과는 연구의 최우선 목표를 명확하게 하여, 근래에 들어 활발하지 않은 한국어 스피치 애니메이션 연구를 효과적이고 효율적으로 재활성화하는데 기여할 수 있다. 본 논문은 다음 과정들을 수행한다: (i) 블렌드쉐입 애니메이션 기술을 선택하며, (ii) 딥러닝 모델을 음성 인식 모듈과 표정 코딩 모듈의 주종 관계 파이프라인으로 구현하고, (iii) 한국어 스피치 모션 캡처 dataset을 제작하며, (iv) 두 대조용 딥러닝 모델들을 준비하고 (한 모델은 영어 음성 인식 모듈을 채택하고, 다른 모델은 한국어 음성 인식 모듈을 채택하며, 두 모델이 동일한 기본 구조의 표정 코딩 모듈을 채택한다), (v) 두 모델의 표정 코딩 모듈을 음성 인식 모듈에 종속되게 학습시킨다. 유저 스터디 결과는, 한국어 음성 인식 모듈을 채택하여 표정 코딩 모듈을 종속적으로 학습시킨 모델 (4.2/5.0 점 획득)이, 영어 음성 인식 모듈을 채택하여 표정 코딩 모듈을 종속적으로 학습시킨 모델 (2.7/5.0 점 획득)에 비해 결정적으로 더 자연스러운 한국어 스피치 애니메이션을 생성함을 보여 주었다. 이 결과는 한국어 스피치 애니메이션의 품질이 한국어 음성 인식의 정확성으로 귀결됨을 보여 줌으로써 상기의 효과를 확인해준다.

Random Forest 기법을 이용한 도심지 MT 시계열 자료의 차량 잡음 분류 (Classification of Transport Vehicle Noise Events in Magnetotelluric Time Series Data in an Urban area Using Random Forest Techniques)

  • 권형석;류경호;심익현;이춘기;오석훈
    • 지구물리와물리탐사
    • /
    • 제23권4호
    • /
    • pp.230-242
    • /
    • 2020
  • 201 6년 9월에 발생한 경주지진원 구역에 대한 정밀 지질구조 규명을 위해 MT 탐사를 적용하였다. 경주지역의 MT 측정자료는 조사지역 인근의 지하철, 전력선, 공장, 주택, 농경지에서 발생된 전기적 잡음과 철도, 도로에서의 차량잡음 등으로 인해 측정자료 왜곡이 심하게 발생되었다. 이 연구에서는 고속철도 및 고속도로와 인접한 4개소의 MT 탐사자료에 기계학습 기법을 적용하여 차량잡음이 포함된 시계열을 분류하였다. 고속열차 잡음이 포함된 시계열에 대해서는 확률적 경사 하강법, 서포트 벡터 머신과 랜덤 포레스트 3가지의 분류모델을 적용하여 그 결과를 비교하였다. 대형트럭 잡음이 포함된 시계열 자료에 대해서는 Hx 성분, Hy 성분과 Hx & Hy 합성성분 크기에 대한 3가지의 샘플 자료를 준비하였으며 랜덤 포레스트 분류모델을 구성하여 그 성능을 평가하였다. 마지막으로 차량잡음 제거 효과 분석을 위하여 차량잡음 제거 전후의 시계열, 진폭 스펙트럼과 겉보기비저항 곡선을 비교하였으며, 이를 통해 차량잡음이 영향을 미치는 주파수 대역과 차량잡음 제거 시 발생될 수 있는 문제점에 대해 고찰하였다.