• 제목/요약/키워드: Kaggle Dataset

검색결과 27건 처리시간 0.025초

레이블 매핑을 이용한 다중 이미지 분류 (Multiple image classification using label mapping)

  • 전승제;이동준;이동휘
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.367-369
    • /
    • 2022
  • 본 논문에서는 훈련된 모델이 분류에 실패한 이미지들에 대한 정확한 결과를 확인하기 위해 다중 클래스의 이미지 분류를 구현하면서 각각의 클래스에 맞게 레이블 매핑을 하여 예측 결과를 확인했다. Kaggle의 Intel Image Classification 데이터셋을 사용하여 CNN 모델을 구축하고 훈련을 진행하였으며, 테스트 데이터셋의 이미지들을 레이블 매핑을 통해 다중 클래스의 이미지들이 매핑된 레이블 값과 모델이 분류한 값을 비교하였다.

  • PDF

YouTube 인기 급상승 동영상 데이터셋의 국가별-카테고리별 분석 (Analysis of YouTube Trending Video Dataset by Country and Category)

  • 정지민;김승진;정성욱;이동윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.209-211
    • /
    • 2022
  • 전세계적으로 수많은 사람들이 이용하는 동영상 플랫폼 YouTube는 인기 급상승 동영상 서비스를 제공하고 있다. 본 연구는 공개 데이터셋 중 하나인 Kaggle 데이터셋을 이용하여 국가별 특징과 문화적 차이를 이해하고 공개 데이터셋의 유용성을 보이는 것을 목적으로 한다. 이를 위해 11개국, 15개 카테고리, 약 110만개의 인기 급상승 동영상 데이터를 분석 대상으로 한다. 데이터 분석을 위해 파이썬을 이용하여 카테고리 별 동영상의 개수와 인기 급상승 동영상 선정 기간, Unique 동영상 비율 등을 구하였으며, 이를 통해 국가별, 카테고리별 특징을 파악하고, 그 현상에 대한 배경을 추가 자료 조사를 통해 확인하였다. 향후 머신 러닝에 기반을 둔 인기 급상승 동영상 선정 가능성 및 선정 기간 예측을 통해 개별 동영상 진단 및 채널 운영 방안과 전략 수립에 도움을 주는 연구를 수행할 예정이다.

  • PDF

캐글 플랫폼 활용한 태양광 데이터셋 형태 구축: 머신 러닝의 적용 가능성 (On Building the Solar Dataset Form using the Kaggle Platform: The applicability of Machine Learning)

  • 고주원;박정진;박진우;오도희;김민철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.255-258
    • /
    • 2022
  • 최근 환경 오염이 지속되면서 신재생 에너지에 대한 사람들의 관심이 높아지고 있다. 제주 지역은 태양광, 태양열, 바이오, 풍력 발전 등 신재생 에너지 발전이 많이 이루어지고 있지만, 그에 비하여 관련 데이터의 개방과 분석 사례는 부족한 상황이다. 이에 본 연구에서는 전 세계 데이터 사이언티스트(Data Scientists)들이 활동하고 있는 캐글(Kaggle) 플랫폼을 활용하여 태양광 생산량과 관련된 변수를 추출하고, 데이터에 적용할 수 있는 머신러닝(Machine Learning) 기법을 탐구하여 머신 러닝 설계를 위한 제주 지역의 태양광 발전 데이터셋(Dataset) 형태(Form)를 제시하고자 한다. 구체적으로는 캐글 데이터 플랫폼을 활용하여 태양광 에너지 분석을 진행한 후 제주 지역 태양광 데이터 수집에 대한 보완점을 제안할 수 있다. 이러한 시도는 제주 지역의 태양광 산업의 발전을 위한 데이터 분석에 활용이 가능할 것으로 기대할 수 있다. 즉, 현재 개방되어 있는 제주 지역의 태양광 발전 데이터셋 형태를 인공지능(Artificial Intelligent) 분석을 위한 머신러닝에 적합한 형태로 구축이 될 수 있도록 제안할 수 있다. 이를 통하여 제주 지역 태양광 산업의 발전의 효율을 높이는 방안을 마련하는데 기반 연구가 될 것이다.

  • PDF

컨볼루션 신경망 기반 표정인식 스마트 미러 (Smart Mirror for Facial Expression Recognition Based on Convolution Neural Network)

  • 최성환;유윤섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.200-203
    • /
    • 2021
  • 본 논문은 여러 인공지능 기술 중 이미지 분류를 통한 사람의 얼굴 표정을 인식하는 프로그램을 통해 사람의 표정을 인식하여 거울에 나타내는 스마트미러 기술을 소개한다. 여러 사람의 5가지 표정이미지를 통하여 인공지능으로 학습하였고, 사람이 거울을 볼 때 거울이 그 표정을 인식하여 인식한 결과를 거울에 나타내는 방식이다. 여러 사람의 얼굴을 표정별로 구분되어있는 dataset을 kaggle에서 제공하는 fer2013을 이용하여 사용하였고, 이미지 데이터 분류를 위해 네트워크 구조는 컨볼루션 신경망 구조를 이용하여 학습하였다. 최종적으로 학습된 모델을 임베디드 보드인 라즈베리파이4를 통해서 얼굴을 인식하여 거울을 통해 디스플레이에 나타내는 구조이다.

  • PDF

동물 이미지를 위한 향상된 딥러닝 학습 (An Improved Deep Learning Method for Animal Images)

  • 왕광싱;신성윤;신광성;이현창
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.123-124
    • /
    • 2019
  • This paper proposes an improved deep learning method based on small data sets for animal image classification. Firstly, we use a CNN to build a training model for small data sets, and use data augmentation to expand the data samples of the training set. Secondly, using the pre-trained network on large-scale datasets, such as VGG16, the bottleneck features in the small dataset are extracted and to be stored in two NumPy files as new training datasets and test datasets. Finally, training a fully connected network with the new datasets. In this paper, we use Kaggle famous Dogs vs Cats dataset as the experimental dataset, which is a two-category classification dataset.

  • PDF

캐글 데이터셋을 이용한 머신러닝 악성코드 분류시스템에서 분류정확도 향상방법 (Improvement Method of Classification Rate in ML Antivirus systems using Kaggle Datasets)

  • 김경신
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.49-52
    • /
    • 2019
  • 머신러닝을 이용한 악성코드 분류 시스템의 대부분이 캐글 데이터셋 10,868건을 사용하여 분류의 정확도를 측정한다. 이 데이터셋에 포함된 바이러스 바이트코드에는 미확인(undefined)필드라는 부분이 과도하게 존재한다. 캐글 데이터셋 특정 Label의 미확인필드 포함도는 75%가 넘는 경우도 존재한다. 이 경우 미확인 필드를 어떻게 처리하느냐가 시스템의 성능에 가장 큰 영향을 끼친다. 본 연구에서는 이러한 캐글 데이터셋의 미확인필드 처리방법을 제시하고 그에 따른 분류 정확도를 연구하였다. 다양한 처리방법에 대한 정확도를 측정하여 제안한 방식의 타당성을 증명하였다.

  • PDF

Feature Selection and Hyper-Parameter Tuning for Optimizing Decision Tree Algorithm on Heart Disease Classification

  • Tsehay Admassu Assegie;Sushma S.J;Bhavya B.G;Padmashree S
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.150-154
    • /
    • 2024
  • In recent years, there are extensive researches on the applications of machine learning to the automation and decision support for medical experts during disease detection. However, the performance of machine learning still needs improvement so that machine learning model produces result that is more accurate and reliable for disease detection. Selecting the hyper-parameter that could produce the possible maximum classification accuracy on medical dataset is the most challenging task in developing decision support systems with machine learning algorithms for medical dataset classification. Moreover, selecting the features that best characterizes a disease is another challenge in developing machine-learning model with better classification accuracy. In this study, we have proposed an optimized decision tree model for heart disease classification by using heart disease dataset collected from kaggle data repository. The proposed model is evaluated and experimental test reveals that the performance of decision tree improves when an optimal number of features are used for training. Overall, the accuracy of the proposed decision tree model is 98.2% for heart disease classification.

Multi-type Image Noise Classification by Using Deep Learning

  • Waqar Ahmed;Zahid Hussain Khand;Sajid Khan;Ghulam Mujtaba;Muhammad Asif Khan;Ahmad Waqas
    • International Journal of Computer Science & Network Security
    • /
    • 제24권7호
    • /
    • pp.143-147
    • /
    • 2024
  • Image noise classification is a classical problem in the field of image processing, machine learning, deep learning and computer vision. In this paper, image noise classification is performed using deep learning. Keras deep learning library of TensorFlow is used for this purpose. 6900 images images are selected from the Kaggle database for the classification purpose. Dataset for labeled noisy images of multiple type was generated with the help of Matlab from a dataset of non-noisy images. Labeled dataset comprised of Salt & Pepper, Gaussian and Sinusoidal noise. Different training and tests sets were partitioned to train and test the model for image classification. In deep neural networks CNN (Convolutional Neural Network) is used due to its in-depth and hidden patterns and features learning in the images to be classified. This deep learning of features and patterns in images make CNN outperform the other classical methods in many classification problems.

COVID-19: Improving the accuracy using data augmentation and pre-trained DCNN Models

  • Saif Hassan;Abdul Ghafoor;Zahid Hussain Khand;Zafar Ali;Ghulam Mujtaba;Sajid Khan
    • International Journal of Computer Science & Network Security
    • /
    • 제24권7호
    • /
    • pp.170-176
    • /
    • 2024
  • Since the World Health Organization (WHO) has declared COVID-19 as pandemic, many researchers have started working on developing vaccine and developing AI systems to detect COVID-19 patient using Chest X-ray images. The purpose of this work is to improve the performance of pre-trained Deep convolution neural nets (DCNNs) on Chest X-ray images dataset specially COVID-19 which is developed by collecting from different sources such as GitHub, Kaggle. To improve the performance of Deep CNNs, data augmentation is used in this study. The COVID-19 dataset collected from GitHub was containing 257 images while the other two classes normal and pneumonia were having more than 500 images each class. There were two issues whike training DCNN model on this dataset, one is unbalanced and second is the data is very less. In order to handle these both issues, we performed data augmentation such as rotation, flipping to increase and balance the dataset. After data augmentation each class contains 510 images. Results show that augmentation on Chest X-ray images helps in improving accuracy. The accuracy before and after augmentation produced by our proposed architecture is 96.8% and 98.4% respectively.

RDNN: Rumor Detection Neural Network for Veracity Analysis in Social Media Text

  • SuthanthiraDevi, P;Karthika, S
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권12호
    • /
    • pp.3868-3888
    • /
    • 2022
  • A widely used social networking service like Twitter has the ability to disseminate information to large groups of people even during a pandemic. At the same time, it is a convenient medium to share irrelevant and unverified information online and poses a potential threat to society. In this research, conventional machine learning algorithms are analyzed to classify the data as either non-rumor data or rumor data. Machine learning techniques have limited tuning capability and make decisions based on their learning. To tackle this problem the authors propose a deep learning-based Rumor Detection Neural Network model to predict the rumor tweet in real-world events. This model comprises three layers, AttCNN layer is used to extract local and position invariant features from the data, AttBi-LSTM layer to extract important semantic or contextual information and HPOOL to combine the down sampling patches of the input feature maps from the average and maximum pooling layers. A dataset from Kaggle and ground dataset #gaja are used to train the proposed Rumor Detection Neural Network to determine the veracity of the rumor. The experimental results of the RDNN Classifier demonstrate an accuracy of 93.24% and 95.41% in identifying rumor tweets in real-time events.