• Title/Summary/Keyword: 데이터 셋

Search Result 1,684, Processing Time 0.026 seconds

Location-based UCI Sensor time series data analysis (위치 기반의 UCI Sensor 시계열 데이터 분석)

  • Chang, Il-Sik;Park, Goo-man
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.7-8
    • /
    • 2021
  • 인공지능 기술과 서비스는 딥러닝을 중심으로 한 기계학습 기술의 급속한 발전에서 원인을 둔다. 딥러닝 발전 요인으로 GPU등 하드웨어 발전, 기술 공유, 대규모 학습데이터 구축 및 공개를 들 수 있다. 데이터 셋에 관련하여 센서를 이용한 데이터셋의 경우 단순히 많은 데이터셋의 확보뿐 아니라 적절한 위치 및 환경에 따른 고려가 필요하다. 본 논문에서는 UCI의 화학 가스의 데이터셋을 이용하여 위치별 시계열 데이터를 딥러닝을 이용하여 분석하고, 위치별 정확도와 손실을 계산한다. 또한 계산된 결과를 히트맵을 통하여 시각화하여 직관적인 이해를 높인다. 또한 위치별 정확도가 높은 상위 5개의 위치에서 앙상블 방법을 통한 성능의 향상을 확인 하였다.

  • PDF

Loss-adjusted Regularization based on Prediction for Improving Robustness in Less Reliable FAQ Datasets (신뢰성이 부족한 FAQ 데이터셋에서의 강건성 개선을 위한 모델의 예측 강도 기반 손실 조정 정규화)

  • Park, Yewon;Yang, Dongil;Kim, Soofeel;Lee, Kangwook
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.18-22
    • /
    • 2019
  • FAQ 분류는 자주 묻는 질문을 범주화하고 사용자 질의에 대해 가장 유사한 클래스를 추론하는 방식으로 진행된다. FAQ 데이터셋은 클래스가 다수 존재하기 때문에 클래스 간 포함 및 연관 관계가 존재하고 특정 데이터가 서로 다른 클래스에 동시에 속할 수 있다는 특징이 있다. 그러나 최근 FAQ 분류는 다중 클래스 분류 방법론을 적용하는 데 그쳤고 FAQ 데이터셋의 특징을 모델에 반영하는 연구는 미미했다. 현 분류 방법론은 이러한 FAQ 데이터셋의 특징을 고려하지 못하기 때문에 정답으로 해석될 수 있는 예측도 오답으로 여기는 경우가 발생한다. 본 논문에서는 신뢰성이 부족한 FAQ 데이터셋에서도 분류를 잘 하기 위해 손실 함수를 조정하는 정규화 기법을 소개한다. 이 정규화 기법은 클래스 간 포함 및 연관 관계를 반영할 수 있도록 오답을 예측한 경우에도 예측 강도에 비례하여 손실을 줄인다. 이는 오답을 높은 확률로 예측할수록 데이터의 신뢰성이 낮을 가능성이 크다고 판단하여 학습을 강하게 하지 않게 하기 위함이다. 실험을 위해서는 다중 클래스 분류에서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 비교 실험을 위한 정규화 방법으로는 통상적으로 사용되는 라벨 스무딩을 채택했다. 실험 결과, 본 연구에서 제안한 방법은 기존 방법보다 성능이 개선되고 보다 안정적으로 학습이 된다는 것을 확인했으며, 데이터의 신뢰성이 부족한 상황에서 효과적으로 분류를 수행함을 알 수 있었다.

  • PDF

Layer-wise Model Inversion Attack (계층별 모델 역추론 공격)

  • Hyun-Ho Kwon;Han-Jun Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.69-72
    • /
    • 2024
  • 모델 역추론 공격은 공격 대상 네트워크를 훈련하기 위해 사용되는 훈련 데이터셋 중 개인 데이터셋을 공개 데이터셋을 사용하여 개인 훈련 데이터셋을 복원하는 것이다. 모델 역추론 방법 중 적대적 생성 신경망을 사용하여 모델 역추론 공격을 하는 과거의 논문들은 딥러닝 모델 전체의 역추론에만 초점을 맞추기 때문에, 이를 통해 얻은 원본 이미지의 개인 데이터 정보는 제한적이다. 따라서, 본 연구는 대상 모델의 중간 출력을 사용하여 개인 데이터에 대한 더 품질 높은 정보를 얻는데 초점을 맞춘다. 본 논문에서는 적대적 생성 신경망 모델이 원본 이미지를 생성하기 위해 사용되는 계층별 역추론 공격 방법을 소개한다. MNIST 데이터셋으로 훈련된 적대적 생성 신경망 모델을 사용하여, 원본 이미지가 대상 모델의 계층을 통과하면서 얻은 중간 계층의 출력 데이터를 기반으로 원본 이미지를 재구성하고자 한다. GMI 의 공격 방식을 참고하여 공격 모델의 손실 함수를 구성한다. 손실 함수는 사전 손실 및 정체성 손실항을 포함하며, 역전파를 통해서 원본 이미지와 가장 유사하게 복원할 수 있는 표현 벡터 Z 를 찾는다. 원본 이미지와 공격 이미지 사이의 유사성을 분류 라벨의 정확도, SSIM, PSNR 값이라는 세 가지 지표를 사용하여 평가한다. 공격이 이루어지는 계층에서 복원한 이미지와 원본 이미지를 세 가지 지표를 가지고 평가한다. 실험 결과, 공격 이미지가 원본 이미지의 대상 분류 라벨을 정확하게 가지며 원본 이미지의 필체를 유사하게 복원하였음을 보여준다. 평가 지표 또한 원본 이미지와 유사하다는 것을 나타낸다.

Mining the Up-to-Moment Preference Model based on Partitioned Datasets for Real Time Recommendation (실시간 추천을 위한 분할셋 기반 Up-to-Moment 선호모델 탐색)

  • Han, Jeong-Hye;Byon, Lu-Na
    • Journal of Internet Computing and Services
    • /
    • v.8 no.2
    • /
    • pp.105-115
    • /
    • 2007
  • The up-to-moment dataset is built by combining the past dataset and the recent dataset. The proposal is to compute association rules in real time. This study proposed the model, $EM_{past'}$ and algorithm that is sensitive to time. It can be utilized in real time by applying partitioned combination law after dividing the past dataset into(k-1). Also, we suggested $EM^{ES}_{past}$ applying the exponential smoothing method to $EM^p_{past'}$ When the association rules of $EM_{past'}\;EM^w_{past'\;and\;EM^{ES}_{past}$ were compared, The simulation results showed that $EM^{ES}_{past}$ is most accurate for testing dataset than $EM_{past}$ and $EM^w_{past}$ in huge dataset.

  • PDF

Creating Level Set Trees Using One-Class Support Vector Machines (One-Class 서포트 벡터 머신을 이용한 레벨 셋 트리 생성)

  • Lee, Gyemin
    • Journal of KIISE
    • /
    • v.42 no.1
    • /
    • pp.86-92
    • /
    • 2015
  • A level set tree provides a useful representation of a multidimensional density function. Visualizing the data structure as a tree offers many advantages for data analysis and clustering. In this paper, we present a level set tree estimation algorithm for use with a set of data points. The proposed algorithm creates a level set tree from a family of level sets estimated over a whole range of levels from zero to infinity. Instead of estimating density function then thresholding, we directly estimate the density level sets using one-class support vector machines (OC-SVMs). The level set estimation is facilitated by the OC-SVM solution path algorithm. We demonstrate the proposed level set tree algorithm on benchmark data sets.

A Study on Insider Threat Dataset Sharing Using Blockchain (블록체인을 활용한 내부자 유출위협 데이터 공유 연구)

  • Wonseok Yoon;Hangbae Chang
    • Journal of Platform Technology
    • /
    • v.11 no.2
    • /
    • pp.15-25
    • /
    • 2023
  • This study analyzes the limitations of the insider threat datasets used for insider threat detection research and compares and analyzes the solution-based insider threat data with public insider threat data using a security solution to overcome this. Through this, we design a data format suitable for insider threat detection and implement a system that can safely share insider threat information between different institutions and companies using blockchain technology. Currently, there is no dataset collected based on actual events in the insider threat dataset that is revealed to researchers. Public datasets are virtual synthetic data randomly created for research, and when used as a learning model, there are many limitations in the real environment. In this study, to improve these limitations, a private blockchain was designed to secure information sharing between institutions of different affiliations, and a method was derived to increase reliability and maintain information integrity and consistency through agreement and verification among participants. The proposed method is expected to collect data through an outflow threat collector and collect quality data sets that posed a threat, not synthetic data, through a blockchain-based sharing system, to solve the current outflow threat dataset problem and contribute to the insider threat detection model in the future.

  • PDF

Study on the Improvement of Machine Learning Ability through Data Augmentation (데이터 증강을 통한 기계학습 능력 개선 방법 연구)

  • Kim, Tae-woo;Shin, Kwang-seong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.346-347
    • /
    • 2021
  • For pattern recognition for machine learning, the larger the amount of learning data, the better its performance. However, it is not always possible to secure a large amount of learning data with the types and information of patterns that must be detected in daily life. Therefore, it is necessary to significantly inflate a small data set for general machine learning. In this study, we study techniques to augment data so that machine learning can be performed. A representative method of performing machine learning using a small data set is the transfer learning technique. Transfer learning is a method of obtaining a result by performing basic learning with a general-purpose data set and then substituting the target data set into the final stage. In this study, a learning model trained with a general-purpose data set such as ImageNet is used as a feature extraction set using augmented data to detect a desired pattern.

  • PDF

Building-up and Feasibility Study of Image Dataset of Field Construction Equipments for AI Training (인공지능 학습용 토공 건설장비 영상 데이터셋 구축 및 타당성 검토)

  • Na, Jong Ho;Shin, Hyu Soun;Lee, Jae Kang;Yun, Il Dong
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.43 no.1
    • /
    • pp.99-107
    • /
    • 2023
  • Recently, the rate of death and safety accidents at construction sites is the highest among all kinds of industries. In order to apply artificial intelligence technology to construction sites, it is essential to secure a dataset which can be used as a basic training data. In this paper, a number of image data were collected through actual construction site, for which major construction equipment objects mainly operated in civil engineering sites were defined. The optimal training dataset construction was completed by annotation process of about 90,000 image dataset. Reliability of the dataset was verified with the mAP of over 90 % in use of YOLO, a representative model in the field of object detection. The construction equipment training dataset built in this study has been released which is currently available on the public data portal of the Ministry of Public Administration and Security. This dataset is expected to be freely used for any application of object detection technology on construction sites especially in the field of construction safety in the future.

News in a Nutshell: A Korean Headline-Style Summarization Dataset (요점만 남긴 신문 기사: 한국어 표제 형식 문서 요약 데이터셋)

  • Kwon, Hongseok;Go, Byunghyun;Park, Juhong;Lee, Myungjee;Oh, Jaeyoung;Heo, Dam;Lee, Jonghyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.47-53
    • /
    • 2020
  • 문서 요약은 주어진 문서에서 핵심 내용만을 남긴 간결한 요약문을 생성하는 일로 자연어처리의 주요 분야 중 하나이다. 최근 방대한 데이터로부터 심층 신경망 표상을 학습하는 기술의 발전으로 문서 요약 기술이 급진적으로 진화했다. 이러한 데이터 기반 접근 방식에는 모델의 학습을 위한 양질의 데이터가 필요하다. 그러나 한국어와 같이 잘 알려지지 않은 언어에 대해서는 데이터의 획득이 쉽지 않고, 이를 구축하는 것은 많은 시간과 비용을 필요로 한다. 본 논문에서는 한국어 문서 요약을 위한 대용량 데이터셋을 소개한다. 데이터셋은 206,822개의 기사-요약 쌍으로 구성되며, 요약은 표제 형식의 여러 문장으로 되어 있다. 우리는 구축한 학습 데이터의 적합성을 검증하기 위해 수동 평가 및 여러 주요 속성에 대해 분석하고, 기존 여러 문서 요약 시스템에 학습 및 평가하여 향후 문서 요약 벤치마크 데이터셋으로써 기준선을 제시한다. 데이터셋은 https://github.com/hong8e/KHS.git의 스크립트를 통해 내려받을 수 있다.

  • PDF

A Study on Impacts of De-identification on Machine Learning's Biased Knowledge (머신러닝 편향성 관점에서 비식별화의 영향분석에 대한 연구)

  • Soohyeon Ha;Jinsong Kim;Yeeun Son;Gaeun Won;Yujin Choi;Soyeon Park;Hyung-Jong Kim;Eunsung Kang
    • Journal of the Korea Society for Simulation
    • /
    • v.33 no.2
    • /
    • pp.27-35
    • /
    • 2024
  • We aimed to shed light on the issue of perpetuating societal disparities by analyzing the impact of inherent biases present in datasets used for training artificial intelligence models on the predictions generated by Artificial Intelligence(AI). Therefore, to examine the influence of data bias on AI models, we constructed an original dataset containing biases related to gender wage gaps and subsequently created a de-identified dataset. Additionally, by utilizing the decision tree algorithm, we compared the outputs of AI models trained on both the original and de-identified datasets, aiming to analyze how data de-identification affects the biases in the results produced by artificial intelligence models. Through this, our goal was to highlight the significant role of data de-identification not only in safeguarding individual privacy but also in addressing biases within the data.