• 제목/요약/키워드: Non-IID

검색결과 20건 처리시간 0.031초

NIST SP 800-90B 프레딕터를 이용한 잡음원의 엔트로피 추정량에 대한 실험적 분석 (An Experimental Analysis on Entropy Estimators for the Entropy Sources Using Predictors of NIST SP 800-90B)

  • 박호중;배민영;염용진;강주성
    • 한국통신학회논문지
    • /
    • 제41권12호
    • /
    • pp.1892-1902
    • /
    • 2016
  • 잡음원(Noise source)의 안전성 평가에 사용되는 대표적인 표준으로는 미국 NIST의 SP 800-90B가 있다. 최근 SP 800-90B가 2차 안(Second Draft)으로 개정되면서 Non-IID 트랙의 최소 엔트로피 추정에 프레딕터(predictor)를 이용한 추정 방법이 새롭게 추가되었다. 프레딕터는 잡음원의 주기적인 특성을 검출하기에 용이하다고 알려져 있지만, 그 특성에 대한 구체적인 언급은 하지 않고 있다. 이에 본 논문에서는 프레딕터가 검출해낼 수 있는 잡음원의 주기적 특성을 명확히 밝히기 위한 실험을 진행한다. 먼저 주기적 성질을 갖는 잡음원에 대하여 Non-IID 트랙의 추정을 실시했을 때, 잡음원의 최소 엔트로피가 대체적으로 프레딕터보다는 Non-IID 트랙의 다른 추정 방법에 의해서 결정되고 있음을 실험적으로 확인한다. 다음으로 프레딕터를 이용한 추정법이 검출해낼 수 있는 주기적 특성을 밝혀내기 위한 다양한 실험 결과를 제시함으로써, 프레딕터 추정 방법의 의미와 그 역할을 실험적으로 규명한다.

NoN-IID MNIST 데이터의 연합학습 연구 (A Study on Federated Learning of Non-IID MNIST Data)

  • 이주원;방준일;백종우;김화종
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.533-534
    • /
    • 2023
  • 본 논문에서는 불균형하게 분포된(Non-IID) 데이터를 소유하고 있는 데이터 소유자(클라이언트)들을 가정하고, 데이터 소유자들 간 원본 데이터의 직접적인 이동 없이도 딥러닝 학습이 가능하도록 연합학습을 적용하였다. 실험 환경 구성을 위하여 MNIST 손글씨 데이터 세트를 하나의 숫자만 다량 보유하도록 분할하고 각 클라이언트에게 배포하였다. 연합학습을 적용하여 손글씨 분류 모델을 학습하였을 때 정확도는 85.5%, 중앙집중식 학습모델의 정확도는 90.2%로 연합학습 모델이 중앙집중식 모델 대비 약 95% 수준의 성능을 보여 연합학습 시 성능 하락이 크지 않으며 특수한 상황에서 중앙집중식 학습을 대체할 수 있음을 보였다.

  • PDF

FedGCD: Federated Learning Algorithm with GNN based Community Detection for Heterogeneous Data

  • Wooseok Shin;Jitae Shin
    • 인터넷정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.1-11
    • /
    • 2023
  • Federated learning (FL) is a ground breaking machine learning paradigm that allow smultiple participants to collaboratively train models in a cloud environment, all while maintaining the privacy of their raw data. This approach is in valuable in applications involving sensitive or geographically distributed data. However, one of the challenges in FL is dealing with heterogeneous and non-independent and identically distributed (non-IID) data across participants, which can result in suboptimal model performance compared to traditionalmachine learning methods. To tackle this, we introduce FedGCD, a novel FL algorithm that employs Graph Neural Network (GNN)-based community detection to enhance model convergence in federated settings. In our experiments, FedGCD consistently outperformed existing FL algorithms in various scenarios: for instance, in a non-IID environment, it achieved an accuracy of 0.9113, a precision of 0.8798,and an F1-Score of 0.8972. In a semi-IID setting, it demonstrated the highest accuracy at 0.9315 and an impressive F1-Score of 0.9312. We also introduce a new metric, nonIIDness, to quantitatively measure the degree of data heterogeneity. Our results indicate that FedGCD not only addresses the challenges of data heterogeneity and non-IIDness but also sets new benchmarks for FL algorithms. The community detection approach adopted in FedGCD has broader implications, suggesting that it could be adapted for other distributed machine learning scenarios, thereby improving model performance and convergence across a range of applications.

NIST SP 800-90B의 최소 엔트로피 추정 알고리즘에 대한 고속 구현 및 효율적인 메모리 사용 기법 (High-Speed Implementation and Efficient Memory Usage of Min-Entropy Estimation Algorithms in NIST SP 800-90B)

  • 김원태;염용진;강주성
    • 정보보호학회논문지
    • /
    • 제28권1호
    • /
    • pp.25-39
    • /
    • 2018
  • 최근 NIST에서는 암호학적 난수발생기의 핵심 요소인 엔트로피 소스의 안전성을 평가하기 위한 방법을 다루고 있는 SP 800-90B 문서의 두 번째 수정안과 이를 Python으로 구현한 코드를 제공하였다. SP 800-90B에서의 엔트로피 소스에 대한 안전성 평가는 엔트로피 소스의 출력 표본 수열로부터 도출한 여러 가지 추정량(estimator)에 기반 하여 최소 엔트로피를 추정하는 과정이다. 최소 엔트로피 추정 과정은 IID 트랙과 non-IID 트랙으로 대별되어 진행된다. IID 트랙의 경우 MCV 추정량만을 사용하여 속도 측면에서 무리가 없다. 반면 non-IID 트랙에서는 MCV를 포함한 총 10 가지의 추정량을 적용해 최소 엔트로피를 추정하게 된다. NIST의 코드에서 non-IID 트랙의 1 회 구동 시간은 약 20 분이 소요되고, 사용되는 메모리는 5.5 GB를 넘긴다. 이는 다양한 잡음원으로 반복적인 평가를 수행해야 하는 평가 기관 또는 여러 환경에서 실험을 수행해야 하는 개발자나 연구자 입장에서는 NIST에서 제공한 Python 코드를 이용하는 것이 불편할 수 있으며, 환경에 따라 실행이 불가할 수도 있다. 본 논문에서는 SP 800-90B의 최소 엔트로피 추정 방법에 대한 고속 구현과 효율적인 메모리 사용 기법을 제시한다. 주요 연구 결과로 MultiMCW 추정 방법에 C++ 코드의 장점을 적용한 고속화 방법, MultiMMC 추정 방법의 데이터 저장 방식을 재구성하여 메모리 사용량을 현저하게 감소시킴과 동시에 고속화한 방법, LZ78Y 추정 방법에 데이터 저장 방식의 재구성을 통한 고속화 기법 등을 제안한다. 우리의 개선된 방법이 종합적으로 적용된 C++ 코드는 NIST에서 제공한 기존의 Python 코드와 비교할 때, 속도는 14 배 빠르고 메모리 사용량은 1/13로 감소하는 효과를 보인다.

연합학습 환경에서 클라이언트 선택의 최적화 기법

  • 박민정;손영진;채상미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.722-723
    • /
    • 2023
  • 연합학습은 중앙 서버에서 데이터를 수집하는 방식이 아닌 로컬 디바이스 또는 클라이언트에서 학습을 진행하고 중앙 서버로 모델 업데이트만 전송하는 분산 학습 기법으로 데이터 보안 및 개인정보보호를 강화하는 동시에 효율적인 분산 학습을 수행할 수 있다. 그러나, 연합학습 대부분의 시나리오는 클라이언트의 서로 다른 분포 형태인 non-IID 데이터를 대상으로 학습함에 따라 중앙집중식 모델에 비하여 낮은 성능을 보이게 된다. 이에 본 연구에서는 연합학습 모델의 성능을 개선하기 위하여 non-IID 의 환경에서 참여 후보자 중에서 적합한 클라이언트 선택의 최적화 기법을 분석한다.

K-비동기식 연합학습의 동적 윈도우 조절과 모델 안정성 향상 알고리즘 (Dynamic Window Adjustment and Model Stability Improvement Algorithm for K-Asynchronous Federated Learning)

  • 김효상;김태준
    • 한국산업정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.21-34
    • /
    • 2023
  • 연합학습은 동기식 연합학습과 비동기식 연합학습으로 구분된다. 그 중에서 비동기식 연합학습은 동기식 연합학습 보다 시간적인 이득이 있으나 좋은 모델 성능을 얻기 위한 도전 과제가 남아있다. 특히 non-IID 학습 데이터셋에서 성능열화 방지, 적절한 클라이언트 선택 및 오래된 그래디언트 정보 관리는 모델 성능 개선에 있어 중요하다. 본 논문에서는 K-비동기식 연합학습을 다루고 있으며 non-IID 데이터셋을 통해 학습한다. 또한 기존 방식이 선택할 클라이언트 수에 있어서 정적인 K개를 사용한 것과 달리 동적으로 K 값을 조절하는 알고리즘을 제안하여 학습 시간을 줄일 수 있었다. 추가적으로, 오래된 그래디언트를 다루는 방식을 활용해 모델 성능 개선을 이루었음을 보여준다. 마지막으로 강한 모델 안정성을 얻기 위해 모델 성능을 평가하는 방식을 활용하였다. 실험 결과를 통해 전체 알고리즘을 활용했을 때 학습 시간 단축, 모델 정확도 향상, 모델 안정성 향상의 이득을 얻을 수 있음을 보여준다.

설계파고 추정에 사용한 연 최대 자료의 독립 및 분포 동질 검정 (Independence and Homogeneity Tests of the Annual Maxima Data used to Estimate the Design Wave Height)

  • 조홍연;정원무;백종대
    • 한국해안·해양공학회논문집
    • /
    • 제32권1호
    • /
    • pp.26-38
    • /
    • 2020
  • 설계파고 추정에 사용한 AM 자료의 IID 가정에 대한 검정을 수행하였다. 검정은 독립 검정, 분포 차이 검정으로 구분하고, 각각의 검정은 태풍, 비태풍 조건에서의 연안 격자, 연안 내부격자 각각 210개, 310개 지점의 AM 자료 세트를 대상으로 수행하였다. 독립 검정 결과, 비태풍, 태풍 자료 세트에 대하여 각각 1.8~5.3%, 1.4~6.0% 범위의 기각 비율을 보여, 대부분의 자료가 독립 검정을 만족하는 것으로 파악되었다. 한편 태풍 자료와 비태풍 자료의 분포 차이 검정은 연안 격자와 연안 내부격자 모두 검정 방법에 따라 47~79% 범위로 동일분포 가설이 기각되는 것으로 파악되었다. 따라서 극치해석에 의한 설계파고 추정에서 두 자료를 구분하여 각각 설계파고를 추정하는 과정이 적절하다.

Empirical Bayes Pproblems with Dependent and Nonidentical Components

  • Inha Jung;Jee-Chang Hong;Kang Sup Lee
    • Communications for Statistical Applications and Methods
    • /
    • 제2권1호
    • /
    • pp.145-154
    • /
    • 1995
  • Empirical Bayes approach is applied to estimation of the binomial parameter when there is a cost for observations. Both the sample size and the decision rule for estimating the parameter are determined stochastically by the data, making the result more useful in applications. Our empirical Bayes problems with non-iid components are compared to the usual empirical Bayes problems with iid components. The asymptotic optimal procedure with a computer simulation is given.

  • PDF

Design of weighted federated learning framework based on local model validation

  • Kim, Jung-Jun;Kang, Jeon Seong;Chung, Hyun-Joon;Park, Byung-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.13-18
    • /
    • 2022
  • 본 논문에서는 학습에 참여하는 각 디바이스의 모델들로부터 성능검증에 따라 가중치를 두어 글로벌 모델을 업데이트하는 VW-FedAVG(Validation based Weighted FedAVG)를 두 가지 방식으로 제안 한다. 첫 번째 방식은 서버 검증(Server side Validation) 구조로 글로벌 모델을 업데이트 하기 전에 각 로컬 클라이언트 모델을 하나의 전체 검증 데이터셋을 통해 검증하도록 설계 했다. 두 번째는 클라이언트 검증(Client side Validation) 구조로 검증 데이터셋을 각 클라이언트에 고르게 분배하여 검증을 한 후 글로벌 모델을 업데이트 하는 방식으로 설계 했다. 전체 실험에 적용한 데이터셋은 MNIST, CIFAR-10으로 이미지 분류에 대해 IID, Non-IID 분포에서 기존 연구 대비 더 높은 정확도를 얻을 수 있었다.

시뮬레이션 출력분석을 위한 임계값 부트스트랩의 성능개선 (Improving the Performance of Threshold Bootstrap for Simulation Output Analysis)

  • 김윤배
    • 대한산업공학회지
    • /
    • 제23권4호
    • /
    • pp.755-767
    • /
    • 1997
  • Analyzing autocorrelated data set is still an open problem. Developing on easy and efficient method for severe positive correlated data set, which is common in simulation output, is vital for the simulation society. Bootstrap is on easy and powerful tool for constructing non-parametric inferential procedures in modern statistical data analysis. Conventional bootstrap algorithm requires iid assumption in the original data set. Proper choice of resampling units for generating replicates has much to do with the structure of the original data set, iid data or autocorrelated. In this paper, a new bootstrap resampling scheme is proposed to analyze the autocorrelated data set : the Threshold Bootstrap. A thorough literature search of bootstrap method focusing on the case of autocorrelated data set is also provided. Theoretical foundations of Threshold Bootstrap is studied and compared with other leading bootstrap sampling techniques for autocorrelated data sets. The performance of TB is reported using M/M/1 queueing model, else the comparison of other resampling techniques of ARMA data set is also reported.

  • PDF