• 제목/요약/키워드: MNIST

검색결과 98건 처리시간 0.02초

파라메트릭 활성함수를 이용한 기울기 소실 문제의 완화 (Alleviation of Vanishing Gradient Problem Using Parametric Activation Functions)

  • 고영민;고선우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권10호
    • /
    • pp.407-420
    • /
    • 2021
  • 심층신경망은 다양한 문제를 해결하는데 널리 사용되고 있다. 하지만 은닉층이 깊은 심층신경망을 학습하는 동안 빈번히 발생하는 기울기 소실 또는 폭주 문제는 심층신경망 학습의 큰 걸림돌이 되고 있다. 본 연구에서는 기울기 소실이 발생하는 원인 중 비선형활성함수에 의해 발생할 수 있는 기울기 소실 문제를 완화하기 위해 파라메트릭 활성함수를 제안한다. 제안된 파라메트릭 활성함수는 입력 데이터의 특성에 따라 활성함수의 크기 및 위치를 변환시킬 수 있는 파라미터를 적용하여 얻을 수 있으며 역전파과정을 통해 활성함수의 미분 크기에 제한이 없는 손실함수를 최소화되도록 학습시킬 수 있다. 은닉층 수가 10개인 XOR문제와 은닉층 수가 8개인 MNIST 분류문제를 통하여 기존 비선형활성함수와 파라메트릭활성함수의 성능을 비교하였고 제안한 파라메트릭 활성함수가 기울기 소실 완화에 우월한 성능을 가짐을 확인하였다.

가변 람다값을 이용한 EWC에서의 치명적 망각현상 개선 (Improvement of Catastrophic Forgetting using variable Lambda value in EWC)

  • 박성현;강석훈
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.27-35
    • /
    • 2021
  • 본 논문에서는 인공 신경망이 과거 학습 데이터의 정보를 망각하는 치명적 망각(Catastrophic Forgetting) 현상을 개선하기 위해, 학습할 데이터에 따라서 가변적으로 정규화 강도를 조절하는 방법을 제안한다. 이를 위하여 과거에 학습된 데이터와 현재 학습할 데이터들의 관계를 측정하는 방법을 사용하였다. 성능 평가를 위해 MNIST, EMNIST 데이터를 사용하였다. 3가지 시나리오에서 실험한 결과, 같은 도메인을 갖는 데이터의 경우, 이전 태스크의 정확도가 0.1~3%, 다른 도메인을 갖는 데이터의 경우 이전 태스크(Task)의 정확도가 10~13% 향상 시킬 수 있었다. 이는 본 논문의 방법으로, 도메인이 다른 경우, 망각률이 줄어든 것을 의미한다. 다양한 도메인을 가진 데이터를 연속적으로 학습할 경우, 이전 태스크들의 정확도가 모두 50% 이상을 달성하였고 평균 정확도가 약 7% 향상되었다.

딥러닝 학습에서 최적의 알고리즘과 뉴론수 탐색 (Optimal Algorithm and Number of Neurons in Deep Learning)

  • 장하영;유은경;김혁진
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.389-396
    • /
    • 2022
  • 딥러닝(Deep Learning)은 퍼셉트론을 기반으로 하고 있으며 현재에는 이미지 인식, 음성 인식, 객체 검출 및 약물 개발 등과 같은 다양한 영역에서 사용되고 있다. 이에 따라 학습 알고리즘이 다양하게 제안되었고 신경망을 구성하는 뉴런수도 연구자마다 많은 차이를 보이고 있다. 본 연구는 현재 대표적으로 사용되고 있는 확률적 경사하강법(SGD), 모멘텀법(Momentum), AdaGrad, RMSProp 및 Adam법의 뉴런수에 따른 학습 특성을 분석하였다. 이를 위하여 1개의 입력층, 3개의 은닉층, 1개의 출력층으로 신경망을 구성하였고 활성화함수는 ReLU, 손실 함수는 교차 엔트로피 오차(CEE)를 적용하였고 실험 데이터셋은 MNIST를 사용하였다. 그 결과 뉴런수는 100~300개, 알고리즘은 Adam, 학습횟수(iteraction)는 200회가 딥러닝 학습에서 가장 효율적일 것으로 결론을 내렸다. 이러한 연구는 향후 새로운 학습 데이터가 주어졌을 경우 개발될 알고리즘과 뉴런수의 기준치에 함의를 제공할 것이다.

Deep Compression의 프루닝 문턱값 동적 조정 (Dynamic Adjustment of the Pruning Threshold in Deep Compression)

  • 이여진;박한훈
    • 융합신호처리학회논문지
    • /
    • 제22권3호
    • /
    • pp.99-103
    • /
    • 2021
  • 최근 CNN(Convolutional Neural Network)이 다양한 컴퓨터 비전 분야에서 우수한 성능으로 널리 사용되고 있다. 그러나 CNN은 계산 집약적이고 많은 메모리가 요구되어 한정적인 하드웨어 자원을 가지는 모바일이나 IoT(Internet of Things) 기기에 적용하기 어렵다. 이런 한계를 해결하기 위해, 기존의 학습된 모델의 성능을 최대한 유지하며 네트워크의 크기를 줄이는 인공신경망 경량화 연구가 진행되고 있다. 본 논문은 신경망 압축 기술 중 하나인 프루닝(Pruning)의 문턱값을 동적으로 조정하는 CNN 압축 기법을 제안한다. 프루닝될 가중치를 결정하는 문턱값을 실험적, 경험적으로 정하는 기존의 기술과 달리 정확도의 저하를 방지하는 최적의 문턱값을 동적으로 찾을 수 있으며, 경량화된 신경망을 얻는 시간을 단축할 수 있다. 제안 기법의 성능 검증을 위해 MNIST 데이터 셋을 사용하여 LeNet을 훈련시켰으며, 정확도 손실 없이 약 1.3 ~ 3배의 시간을 단축하여 경량화된 LeNet을 얻을 수 있었다.

Unification of Deep Learning Model trained by Parallel Learning in Security environment

  • Lee, Jong-Lark
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권12호
    • /
    • pp.69-75
    • /
    • 2021
  • 최근 인공지능 분야에서 가장 많이 사용하는 딥러닝은 그 구조가 점차 크고 복잡해지고 있다. 딥러닝 모델이 커질수록 이를 학습시키기 위해서는 대용량의 데이터가 필요하지만 데이터가 여러 소유 주체별로 분산되어 있고 보안 문제로 인해 이를 통합하여 학습시키기 어려운 경우가 발생한다. 우리는 동일한 딥러닝 모형이 필요하지만 보안 문제로 인해 데이터가 여러곳에 분산되어 처리될 수 밖에 없는 상황에서 데이터를 소유하고 있는 주체별로 분산 학습을 수행한 후 이를 통합하는 방법을 연구하였다. 이를 위해 보안 상황을 V-환경과 H-환경으로 가정하여 소유 주체별로 분산학습을 수행했으며 Average, Max, AbsMax를 사용하여 분산학습된 결과를 통합하였다. mnist-fashion 데이터에 이를 적용해 본 결과 V-환경에서는 정확도 면에서 데이터를 통합시켜 학습한 결과와 큰 차이가 없음을 확인할 수 있었으며, H-환경에서는 차이는 존재하지만 의미있는 결과를 얻을 수 있었다.

Centralized Machine Learning Versus Federated Averaging: A Comparison using MNIST Dataset

  • Peng, Sony;Yang, Yixuan;Mao, Makara;Park, Doo-Soon
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권2호
    • /
    • pp.742-756
    • /
    • 2022
  • A flood of information has occurred with the rise of the internet and digital devices in the fourth industrial revolution era. Every millisecond, massive amounts of structured and unstructured data are generated; smartphones, wearable devices, sensors, and self-driving cars are just a few examples of devices that currently generate massive amounts of data in our daily. Machine learning has been considered an approach to support and recognize patterns in data in many areas to provide a convenient way to other sectors, including the healthcare sector, government sector, banks, military sector, and more. However, the conventional machine learning model requires the data owner to upload their information to train the model in one central location to perform the model training. This classical model has caused data owners to worry about the risks of transferring private information because traditional machine learning is required to push their data to the cloud to process the model training. Furthermore, the training of machine learning and deep learning models requires massive computing resources. Thus, many researchers have jumped to a new model known as "Federated Learning". Federated learning is emerging to train Artificial Intelligence models over distributed clients, and it provides secure privacy information to the data owner. Hence, this paper implements Federated Averaging with a Deep Neural Network to classify the handwriting image and protect the sensitive data. Moreover, we compare the centralized machine learning model with federated averaging. The result shows the centralized machine learning model outperforms federated learning in terms of accuracy, but this classical model produces another risk, like privacy concern, due to the data being stored in the data center. The MNIST dataset was used in this experiment.

Design of weighted federated learning framework based on local model validation

  • Kim, Jung-Jun;Kang, Jeon Seong;Chung, Hyun-Joon;Park, Byung-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.13-18
    • /
    • 2022
  • 본 논문에서는 학습에 참여하는 각 디바이스의 모델들로부터 성능검증에 따라 가중치를 두어 글로벌 모델을 업데이트하는 VW-FedAVG(Validation based Weighted FedAVG)를 두 가지 방식으로 제안 한다. 첫 번째 방식은 서버 검증(Server side Validation) 구조로 글로벌 모델을 업데이트 하기 전에 각 로컬 클라이언트 모델을 하나의 전체 검증 데이터셋을 통해 검증하도록 설계 했다. 두 번째는 클라이언트 검증(Client side Validation) 구조로 검증 데이터셋을 각 클라이언트에 고르게 분배하여 검증을 한 후 글로벌 모델을 업데이트 하는 방식으로 설계 했다. 전체 실험에 적용한 데이터셋은 MNIST, CIFAR-10으로 이미지 분류에 대해 IID, Non-IID 분포에서 기존 연구 대비 더 높은 정확도를 얻을 수 있었다.

블랙 박스 모델의 출력값을 이용한 AI 모델 종류 추론 공격 (Model Type Inference Attack Using Output of Black-Box AI Model)

  • 안윤수;최대선
    • 정보보호학회논문지
    • /
    • 제32권5호
    • /
    • pp.817-826
    • /
    • 2022
  • AI 기술이 여러 분야에 성공적으로 도입되는 추세이며, 서비스로 환경에 배포된 모델들은 지적 재산권과 데이터를 보호하기 위해 모델의 정보를 노출시키지 않는 블랙 박스 상태로 배포된다. 블랙 박스 환경에서 공격자들은 모델 출력을 이용해 학습에 쓰인 데이터나 파라미터를 훔치려고 한다. 본 논문은 딥러닝 모델을 대상으로 모델 종류에 대한 정보를 추론하는 공격이 없다는 점에서 착안하여, 모델의 구성 레이어 정보를 직접 알아내기 위해 모델의 종류를 추론하는 공격 방법을 제안한다. MNIST 데이터셋으로 학습된 ResNet, VGGNet, AlexNet과 간단한 컨볼루션 신경망 모델까지 네 가지 모델의 그레이 박스 및 블랙 박스 환경에서의 출력값을 이용해 모델의 종류가 추론될 수 있다는 것을 보였다. 또한 본 논문이 제안하는 방식인 대소 관계 피쳐를 딥러닝 모델에 함께 학습시킨 경우 블랙 박스 환경에서 약 83%의 정확도로 모델의 종류를 추론했으며, 그 결과를 통해 공격자에게 확률 벡터가 아닌 제한된 정보만 제공되는 상황에서도 모델 종류가 추론될 수 있음을 보였다.

뉴로모픽 아키텍처 기반 자율형 IoT 응용 통합개발환경 응용 시나리오 (Application Scenario of Integrated Development Environment for Autonomous IoT Applications based on Neuromorphic Architecture)

  • 박지수;김서연;김회남;정재혁;김경수;정진만;윤영선
    • 스마트미디어저널
    • /
    • 제11권2호
    • /
    • pp.63-69
    • /
    • 2022
  • 다양한 IoT 디바이스 사용이 증가함에 따라 IoT 플랫폼의 중요성 또한 대두되고 있다. 최근에는 IoT 디바이스에 인공지능 기술이 결합되는 추세이며, 저전력으로 많은 연산 처리가 가능한 뉴로모픽 아키텍처를 적용하는 연구도 증가하고 있다. 본 논문에서는 GUI 형식의 뉴로모픽 아키텍처 기반 자율형 IoT 응용 통합개발환경(NA-IDE:Integrated Development Environment for Autonomic IoT Applications based on Neuromorphic Architecture)에서 IoT 디바이스와 뉴로모픽 아키텍처 FPGA 디바이스를 사용하여 NA-IDE의 가능성 및 유효성을 확인하기 위한 IoT 응용 시나리오를 제안한다. 제안된 시나리오는 IoT 디바이스에 카메라 모듈을 연결하여 실시간으로 MNIST 데이터셋 이미지를 수집하여 뉴로모픽 보드를 통해 수집된 이미지를 인식하고 다른 IoT 디바이스에 연결된 센서 모듈을 통해 인식 결과를 표시한다. 이와 같이 이기종 IoT 디바이스에 뉴로모픽 아키텍처를 적용하여 다양한 응용 서비스에 활용한다면 뉴로모픽 아키텍처 기반 자율형 IoT 응용 통합개발환경은 4차 산업혁명을 주도하는 핵심 기술로 부상할 것으로 전망한다.

픽셀값 변환 기법을 더한 데이터 복원공격에의한 연합학습의 프라이버시 침해 (Invasion of Pivacy of Federated Learning by Data Reconstruction Attack with Technique for Converting Pixel Value)

  • 오윤주;최대선
    • 정보보호학회논문지
    • /
    • 제33권1호
    • /
    • pp.63-74
    • /
    • 2023
  • 프라이버시 침해에 대한 안전성을 보장하기 위해 매개변수를 주고받아 학습하는 연합학습이 대두되고 있다. 하지만 최근 그래디언트를 이용하여 학습 데이터를 유출하는 논문이 발표되었다. 본 논문은 연합학습 환경에서 그래디언트를 이용하여 학습 데이터를 유출하는 실험을 구현하였으며, 학습 데이터를 유출하는 기존 공격을 개선하여 복원성능을 높이는 방법을 제안한다. 제안 방법에 대해 Yale face database B, MNIST dataset를 이용하여 실험한 결과, 연합학습 성능이 accuracy=99~100%로 높을 때 100개의 학습 데이터 중 최대 100개의 데이터를 식별 가능한 수준으로 복원하여, 연합학습이 프라이버시 침해로부터 안전하지 않다는 것을 보인다. 또한, 픽셀단위의 성능(MSE, PSNR, SSIM)과 Human Test에 의한 식별적인 성능을 비교함으로써 픽셀에 기반한 성능보다 식별적인 성능의 중요성을 강조하고자 한다.