• Title/Summary/Keyword: 학습 데이터

Search Result 6,263, Processing Time 0.047 seconds

연합학습을 위한 클라이언트 데이터 보안 연구 동향 조사

  • 손영진;박민정;채상미
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.347-350
    • /
    • 2023
  • 연합 학습(Federated Learning, FL)은 중앙 서버 없이 분산된 클라이언트들이 공동으로 모델을 훈련시키는 방식으로, 데이터를 로컬에서 학습시키기에 개인정보 보호의 이점을 제공한다. 그러나 연합 학습 환경에서도 여전히 데이터 보안을 위협하는 다양한 공격이 존재한다. 본 논문에서는 특히 개인 데이터 탈취와 관련된 개인 정보 보호, 보안을 주요 대상으로 공격기법과 대응 방안에 대한 연구를 소개하고 이를 통해 연합 학습에서 클라이언트 데이터 보호를 위한 지속적인 연구를 촉진하기 위한 기초를 제공한다.

Data Segmentation System using Greedy Algorithm (Greedy 알고리즘을 사용한 데이터 분할 시스템)

  • Kim, Min-Woo;Kim, Se-Jun;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.211-212
    • /
    • 2018
  • 머신 러닝 환경에서 많은 양의 데이터를 한꺼번에 학습하게 되면 데이터 트래픽이 증가함에 따라 흐름 정체가 발생하고 학습 품질이 저하되며 학습속도 지연 등의 문제가 발생한다. 본 연구는 머신러닝 환경에서 빅 데이터 학습 데이터 분할을 위한 핵심 목표인 Greedy 알고리즘에 대해 설명하고 간단한 Greedy 알고리즘을 사용하여 각각의 데이터 파티션을 생성하여 학습 속도의 효율성을 향상시키는 방법을 제안한다.

  • PDF

Constructing Korean Named Recognition Dataset for Financial Domain Using Active Learning (능동 학습 기법을 활용한 한국어 금융 도메인 개체명 인식 데이터 구축)

  • Jeong, Dong-Ho;Heo, Min-Kang;Kim, Hyung-Chul;Park, Sang-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.82-86
    • /
    • 2020
  • 딥러닝 모델의 성능은 데이터의 품질과 양에 의해 향상된다. 그러나 데이터 구축은 많은 비용과 시간을 요구한다. 특히 전문 도메인의 데이터를 구축할 경우 도메인 지식을 갖춘 작업자를 활용할 비용과 시간이 더욱 제약적이다. 능동 학습 기법은 최소한의 데이터 구축으로 모델의 성능을 효율적으로 상승시키기 위한 방법이다. 다양한 데이터셋이 능동 학습 기법으로 구축된 바 있으나, 아직 전문 도메인의 한국어 데이터를 구축하는 연구는 활발히 수행되지 못한 것이 현실이다. 본 논문에서는 능동학습기법을 통해 금융 도메인의 개체명 인식 코퍼스를 구축하였고, 이를 통해 다음의 기여가 있다: (1) 금융 도메인 개체명 인식 코퍼스 구축에 능동 학습 기법이 효과적임을 확인하였고, (2) 이를 통해 금융 도메인 개체명 인식기를 개발하였다. 본 논문이 제안하는 방법을 통해 8,043문장 데이터를 구축하였고, 개체명 인식기의 성능은 80.84%로 달성되었다. 또한 본 논문이 제안하는 방법을 통해 약 12~25%의 예산 절감 효과가 있음을 실험으로 보였다.

  • PDF

A Study of the Audio Data Split Learning Model to Protect User Privacy (사용자 개인정보보호를 위한 음성 데이터 분할 학습 모델 연구)

  • Hyung-beom Jang;Jihyeon Ryu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.168-169
    • /
    • 2023
  • 머신 러닝의 학습을 위한 데이터는 개인정보가 포함된 데이터인 경우가 존재한다. 특히 음성인식 모델을 학습시키기 위해서 사용자의 음성 데이터가 필요하며, 이는 개인의 민감한 정보가 포함될 수 있다. 인공지능 학습을 위해 수집한 음성 데이터에 대한 정보보호 침해 공격이 발생할 수 있고, 해당 데이터에 대한 보호 조치가 필요하다. 본 연구는 음성 데이터를 안전하게 관리하기 위해 분할학습을 이용한 음성 데이터 학습 모델을 제안한다.

Genetics-Based Machine Learning for Generating Classification Rule in Data Mining (데이터 마이닝의 분류 규칙 발견을 위한 유전자알고리즘 학습방법)

  • 김대희;박상호
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.11a
    • /
    • pp.429-434
    • /
    • 2001
  • 데이터(data)치 홍수와 정보의 빈곤이라는 환경에 처한 지금, 정보기술을 이용하여 데이터를 여과하고, 분석하며, 결과를 해석하는 자동화 된 데이터 분석 방안에 높은 관심을 가지게 되었으며, 데이터 마이닝(Data Mining))은 이러한 요구를 충족시키는 정보기술의 활용방법이다. 특히 데이터 마이닝(Data Mining)의 분류(Classification) 방법은 중요한 분야가 되고 있다. 분류 작업의 핵심은 어떻게 적당한 결정규칙(decision rule)을 정의하느냐에 달려 있는데 이를 위해 학습능력을 가지고 있는 알고리즘이 필요하다. 본 논문에서는 유전자 알고리즘(Genetic Algorithm)을 기반으로 하는 강건한 학습방법을 제시했으며, 이러한 학습을 통해 데이터 마이닝(Data Mining)의 분류시스템을 제안하였다.

  • PDF

A Study on the Data Collection and Analysis System for Learning Experiences in Learner-Centered Customized Education (학습자 중심의 맞춤형 교육을 위한 학습 경험 데이터 수집 및 분석 체계 연구)

  • Sang-woo Kim;Myung-suk Lee
    • Journal of Practical Engineering Education
    • /
    • v.16 no.2
    • /
    • pp.159-165
    • /
    • 2024
  • This study investigates the comprehensive system for collecting intelligent learning activity data tailored to learner-centered personalized education. We compared and analyzed the characteristics of xAPI, Caliper analytics, and cmi5, which are learning activity data collection standards, and established a system that allows not only standardized data but also non-standardized learning activity data to be stored as big data for artificial intelligence learning analysis. As a result, the system was structured into five stages: defining data types, standardizing learning data using xAPI, storing big data, conducting learning analysis (statistical and AI-based), and providing learner-tailored services. The aim was to establish a foundation for analyzing learning data using artificial intelligence technology. In future research, we will divide the entire system into three stages, implement and execute it, and correct and supplement any shortcomings in the design.

Batch mode Active learning in graph-based semi-supervised learning (그래프 기반 반감독 학습에서 배치모드 능동적 학습)

  • Park, Cheong-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.495-497
    • /
    • 2012
  • 클래스라벨에 대한 정보를 가진 데이터가 매우 적을 때 클래스라벨 정보가 없는 데이터로부터의 정보를 학습에 활용하는 반감독학습(semi-supervised learning) 방법들 중에서 데이터 샘플들 간의 유사도를 나타내는 그래프를 이용하는 방법이 잘 알려져 있다. 본 논문에서는 그래프 기반 반감독 학습에서 배치 모드 능동적 학습을 위한 방법을 제안하고 실제 데이터를 이용한 실험결과를 통해 제안된 방법의 성능을 입증한다.

Image Restoration using Enhanced Fuzzy Associative Memory (개선된 퍼지 연상 메모리를 이용한 영상 복원)

  • 조서영;민지희;김광백
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2004.05b
    • /
    • pp.133-135
    • /
    • 2004
  • 신경 회로망에서 연상 메모리(Associative Memory)는 주어진 자료에 대해 정보를 저장하고 복원하는 알고리즘이다. 본 논문에서는 학습된 영상의 정확한 분류와 왜곡된 영상의 복원 및 분류를 위해 기존의 퍼지 연상 메모리 알고리즘을 개선하였다. 기존의 퍼지 연상 메모리는 학습 데이터와 학습 원본과 같은 입력에 대해 우수한 복원 성능을 보이나 학습 데이터의 수가 증가할수록 그리고 왜곡된 입력에 대해 정확히 출력할 수 없고 복원 성능도 저하된다. 따라서 본 논문에서는 기존의 퍼지 연상 메모리 알고리즘을 개선하여 왜곡된 입력에 대해서도 원본 학습 데이터를 정확히 출력하고 복원하는 개선된 퍼지 연상 메모리 알고리즘을 제안하였다.

  • PDF

A study on the analysis of unstructured data for customized education of learners in small learning groups (소규모학습그룹의 학습자 맞춤형 교육을 위한 비정형데이터분석 연구)

  • Min, Youn-A;Lim, Dong-Kyun
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.20 no.5
    • /
    • pp.89-95
    • /
    • 2020
  • As the e-learning market expands, interest in customized education for learners based on artificial intelligence is increasing. Customized education for learners requires essential components such as a large amount of data and learning contents for learner analysis, and it requires time and cost efforts to collect such data. In this paper, to enable efficient learner-tailored learning even in small learning groups, unstructured learner data was analyzed using python modules, and a learning algorithm was presented based on this. Through the analysis of the unstructured learning data presented in this paper, it is possible to quantify and measure the unstructured data related to learning, and the accuracy of more than 80% was confirmed when analyzing keywords for providing customized education for learners.

Improving the Classification Accuracy Using Unlabeled Data: A Naive Bayesian Case (나이브 베이지안 환경에서 미분류 데이터를 이용한 성능향상)

  • Lee Chang-Hwan
    • The KIPS Transactions:PartB
    • /
    • v.13B no.4 s.107
    • /
    • pp.457-462
    • /
    • 2006
  • In many applications, an enormous amount of unlabeled data is available with little cost. Therefore, it is natural to ask whether we can take advantage of these unlabeled data in classification learning. In this paper, we analyzed the role of unlabeled data in the context of naive Bayesian learning. Experimental results show that including unlabeled data as part of training data can significantly improve the performance of classification accuracy. The effect of using unlabeled data is especially important in case labeled data are sparse.