• 제목/요약/키워드: 학습 데이터

검색결과 6,271건 처리시간 0.046초

연합학습을 위한 클라이언트 데이터 보안 연구 동향 조사

  • 손영진;박민정;채상미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.347-350
    • /
    • 2023
  • 연합 학습(Federated Learning, FL)은 중앙 서버 없이 분산된 클라이언트들이 공동으로 모델을 훈련시키는 방식으로, 데이터를 로컬에서 학습시키기에 개인정보 보호의 이점을 제공한다. 그러나 연합 학습 환경에서도 여전히 데이터 보안을 위협하는 다양한 공격이 존재한다. 본 논문에서는 특히 개인 데이터 탈취와 관련된 개인 정보 보호, 보안을 주요 대상으로 공격기법과 대응 방안에 대한 연구를 소개하고 이를 통해 연합 학습에서 클라이언트 데이터 보호를 위한 지속적인 연구를 촉진하기 위한 기초를 제공한다.

Greedy 알고리즘을 사용한 데이터 분할 시스템 (Data Segmentation System using Greedy Algorithm)

  • 김민우;김세준;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.211-212
    • /
    • 2018
  • 머신 러닝 환경에서 많은 양의 데이터를 한꺼번에 학습하게 되면 데이터 트래픽이 증가함에 따라 흐름 정체가 발생하고 학습 품질이 저하되며 학습속도 지연 등의 문제가 발생한다. 본 연구는 머신러닝 환경에서 빅 데이터 학습 데이터 분할을 위한 핵심 목표인 Greedy 알고리즘에 대해 설명하고 간단한 Greedy 알고리즘을 사용하여 각각의 데이터 파티션을 생성하여 학습 속도의 효율성을 향상시키는 방법을 제안한다.

  • PDF

능동 학습 기법을 활용한 한국어 금융 도메인 개체명 인식 데이터 구축 (Constructing Korean Named Recognition Dataset for Financial Domain Using Active Learning)

  • 정동호;허민강;김형철;박상원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.82-86
    • /
    • 2020
  • 딥러닝 모델의 성능은 데이터의 품질과 양에 의해 향상된다. 그러나 데이터 구축은 많은 비용과 시간을 요구한다. 특히 전문 도메인의 데이터를 구축할 경우 도메인 지식을 갖춘 작업자를 활용할 비용과 시간이 더욱 제약적이다. 능동 학습 기법은 최소한의 데이터 구축으로 모델의 성능을 효율적으로 상승시키기 위한 방법이다. 다양한 데이터셋이 능동 학습 기법으로 구축된 바 있으나, 아직 전문 도메인의 한국어 데이터를 구축하는 연구는 활발히 수행되지 못한 것이 현실이다. 본 논문에서는 능동학습기법을 통해 금융 도메인의 개체명 인식 코퍼스를 구축하였고, 이를 통해 다음의 기여가 있다: (1) 금융 도메인 개체명 인식 코퍼스 구축에 능동 학습 기법이 효과적임을 확인하였고, (2) 이를 통해 금융 도메인 개체명 인식기를 개발하였다. 본 논문이 제안하는 방법을 통해 8,043문장 데이터를 구축하였고, 개체명 인식기의 성능은 80.84%로 달성되었다. 또한 본 논문이 제안하는 방법을 통해 약 12~25%의 예산 절감 효과가 있음을 실험으로 보였다.

  • PDF

사용자 개인정보보호를 위한 음성 데이터 분할 학습 모델 연구 (A Study of the Audio Data Split Learning Model to Protect User Privacy)

  • 장형범;유지현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.168-169
    • /
    • 2023
  • 머신 러닝의 학습을 위한 데이터는 개인정보가 포함된 데이터인 경우가 존재한다. 특히 음성인식 모델을 학습시키기 위해서 사용자의 음성 데이터가 필요하며, 이는 개인의 민감한 정보가 포함될 수 있다. 인공지능 학습을 위해 수집한 음성 데이터에 대한 정보보호 침해 공격이 발생할 수 있고, 해당 데이터에 대한 보호 조치가 필요하다. 본 연구는 음성 데이터를 안전하게 관리하기 위해 분할학습을 이용한 음성 데이터 학습 모델을 제안한다.

데이터 마이닝의 분류 규칙 발견을 위한 유전자알고리즘 학습방법 (Genetics-Based Machine Learning for Generating Classification Rule in Data Mining)

  • 김대희;박상호
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.429-434
    • /
    • 2001
  • 데이터(data)치 홍수와 정보의 빈곤이라는 환경에 처한 지금, 정보기술을 이용하여 데이터를 여과하고, 분석하며, 결과를 해석하는 자동화 된 데이터 분석 방안에 높은 관심을 가지게 되었으며, 데이터 마이닝(Data Mining))은 이러한 요구를 충족시키는 정보기술의 활용방법이다. 특히 데이터 마이닝(Data Mining)의 분류(Classification) 방법은 중요한 분야가 되고 있다. 분류 작업의 핵심은 어떻게 적당한 결정규칙(decision rule)을 정의하느냐에 달려 있는데 이를 위해 학습능력을 가지고 있는 알고리즘이 필요하다. 본 논문에서는 유전자 알고리즘(Genetic Algorithm)을 기반으로 하는 강건한 학습방법을 제시했으며, 이러한 학습을 통해 데이터 마이닝(Data Mining)의 분류시스템을 제안하였다.

  • PDF

학습자 중심의 맞춤형 교육을 위한 학습 경험 데이터 수집 및 분석 체계 연구 (A Study on the Data Collection and Analysis System for Learning Experiences in Learner-Centered Customized Education)

  • 김상우;이명숙
    • 실천공학교육논문지
    • /
    • 제16권2호
    • /
    • pp.159-165
    • /
    • 2024
  • 본 연구는 학습자 중심의 맞춤형 교육을 위한 지능형 학습활동 데이터를 수집하기 위한 전체 체계를 연구하였다. 학습활동 데이터수집 표준인 xAPI, Caliper analytics, cmi5의 특징들을 비교 분석하였고, 이러한 표준화된 데이터뿐만 아니라 표준화되지 않은 학습활동 데이터도 모두 빅데이터로 저장되어 인공지능 학습분석을 할 수 있는 체계를 마련하였다. 그 결과 데이터 유형 정의, xAPI 적용한 학습데이터 표준화, 빅데이터 저장, 학습분석(통계 기반 및 AI 기반), 학습자 맞춤형 서비스인 5개의 단계로 구성하였다. 이를 통해 인공지능 기술을 적용한 학습데이터 분석을 위한 기반을 마련하고자 하였다. 향후 연구에서는 전체 체계를 3개의 단계로 나누어 구현하고 실행하면서 설계에서 부족한 부분을 수정·보완할 것이다.

그래프 기반 반감독 학습에서 배치모드 능동적 학습 (Batch mode Active learning in graph-based semi-supervised learning)

  • 박정희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.495-497
    • /
    • 2012
  • 클래스라벨에 대한 정보를 가진 데이터가 매우 적을 때 클래스라벨 정보가 없는 데이터로부터의 정보를 학습에 활용하는 반감독학습(semi-supervised learning) 방법들 중에서 데이터 샘플들 간의 유사도를 나타내는 그래프를 이용하는 방법이 잘 알려져 있다. 본 논문에서는 그래프 기반 반감독 학습에서 배치 모드 능동적 학습을 위한 방법을 제안하고 실제 데이터를 이용한 실험결과를 통해 제안된 방법의 성능을 입증한다.

개선된 퍼지 연상 메모리를 이용한 영상 복원 (Image Restoration using Enhanced Fuzzy Associative Memory)

  • 조서영;민지희;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2004년도 춘계종합학술대회
    • /
    • pp.133-135
    • /
    • 2004
  • 신경 회로망에서 연상 메모리(Associative Memory)는 주어진 자료에 대해 정보를 저장하고 복원하는 알고리즘이다. 본 논문에서는 학습된 영상의 정확한 분류와 왜곡된 영상의 복원 및 분류를 위해 기존의 퍼지 연상 메모리 알고리즘을 개선하였다. 기존의 퍼지 연상 메모리는 학습 데이터와 학습 원본과 같은 입력에 대해 우수한 복원 성능을 보이나 학습 데이터의 수가 증가할수록 그리고 왜곡된 입력에 대해 정확히 출력할 수 없고 복원 성능도 저하된다. 따라서 본 논문에서는 기존의 퍼지 연상 메모리 알고리즘을 개선하여 왜곡된 입력에 대해서도 원본 학습 데이터를 정확히 출력하고 복원하는 개선된 퍼지 연상 메모리 알고리즘을 제안하였다.

  • PDF

소규모학습그룹의 학습자 맞춤형 교육을 위한 비정형데이터분석 연구 (A study on the analysis of unstructured data for customized education of learners in small learning groups)

  • 민연아;임동균
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권5호
    • /
    • pp.89-95
    • /
    • 2020
  • 이러닝 시장이 확대됨에 따라 인공지능 기반의 학습자 맞춤형 교육에 대한 관심이 높아지고 있다. 학습자 맞춤형 교육은 학습자 분석을 위한 대량의 데이터 및 학습 콘텐츠 등의 필수 구성요소가 필요하며 이러한 데이터 수집을 위한 시간과 비용 측면의 노력이 필요하다. 본 논문에서는 소규모 학습그룹에서의 효율적으로 학습자 맞춤형 학습이 가능하도록, python 모듈들을 사용하여 비정형 학습자 데이터를 분석하였으며 이를 토대로 제시된 학습알고리즘을 통하여 학습자의 학습연속성을 유지하도록 하였다. 본 논문을 통하여 제시된 비정형 학습데이터분석을 통하여 학습관련 비정형 데이터를 정량화 하여 측정 가능하도록 하였으며 학습자 맞춤교육 제공을 위한 키워드 분석 시 90% 이상 데이터가 유의미함을 확인하였다.

나이브 베이지안 환경에서 미분류 데이터를 이용한 성능향상 (Improving the Classification Accuracy Using Unlabeled Data: A Naive Bayesian Case)

  • 이창환
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.457-462
    • /
    • 2006
  • 많은 경우에 분류데이터의 생성은 사람의 시간과 노력에 의존하기 때문에 많은 비용과 시간을 요구한다. 이에 반하여 미분류 데이터는 거의 비용을 들이지 않고 무제한의 데이터를 쉽게 획득할 수 있다. 따라서 기계학습에 있어서 이러한 미분류 데이터를 이용하여 분류학습의 성능을 향상시킬 수 있는 준감독자(semi-supervised)학습 방법이 최근 관심을 끌고 있다. 본 논문에서는 미분류 데이터가 분류학습의 성능향상에 마치는 영향을 분석하기 위하여 나이브 베이지안의 환경에서 미분류 데이터를 이용한 학습방법을 제시하고 이를 이용하여 미분류 데이터의 효용성을 실험적으로 조사하였다. 미분류 데이터는 나이브 베이지안의 환경에서 분류데이터의 숫자가 적을 때 특히 많은 효과를 보임을 알 수 있었다.