• 제목/요약/키워드: datasets

검색결과 2,046건 처리시간 0.029초

Cross-Project Pooling of Defects for Handling Class Imbalance

  • Catherine, J.M.;Djodilatchoumy, S
    • International Journal of Computer Science & Network Security
    • /
    • 제22권10호
    • /
    • pp.11-16
    • /
    • 2022
  • Applying predictive analytics to predict software defects has improved the overall quality and decreased maintenance costs. Many supervised and unsupervised learning algorithms have been used for defect prediction on publicly available datasets. Most of these datasets suffer from an imbalance in the output classes. We study the impact of class imbalance in the defect datasets on the efficiency of the defect prediction model and propose a CPP method for handling imbalances in the dataset. The performance of the methods is evaluated using measures like Matthew's Correlation Coefficient (MCC), Recall, and Accuracy measures. The proposed sampling technique shows significant improvement in the efficiency of the classifier in predicting defects.

A Brief Survey into the Field of Automatic Image Dataset Generation through Web Scraping and Query Expansion

  • Bart Dikmans;Dongwann Kang
    • Journal of Information Processing Systems
    • /
    • 제19권5호
    • /
    • pp.602-613
    • /
    • 2023
  • High-quality image datasets are in high demand for various applications. With many online sources providing manually collected datasets, a persisting challenge is to fully automate the dataset collection process. In this study, we surveyed an automatic image dataset generation field through analyzing a collection of existing studies. Moreover, we examined fields that are closely related to automated dataset generation, such as query expansion, web scraping, and dataset quality. We assess how both noise and regional search engine differences can be addressed using an automated search query expansion focused on hypernyms, allowing for user-specific manual query expansion. Combining these aspects provides an outline of how a modern web scraping application can produce large-scale image datasets.

A Density Peak Clustering Algorithm Based on Information Bottleneck

  • Yongli Liu;Congcong Zhao;Hao Chao
    • Journal of Information Processing Systems
    • /
    • 제19권6호
    • /
    • pp.778-790
    • /
    • 2023
  • Although density peak clustering can often easily yield excellent results, there is still room for improvement when dealing with complex, high-dimensional datasets. One of the main limitations of this algorithm is its reliance on geometric distance as the sole similarity measurement. To address this limitation, we draw inspiration from the information bottleneck theory, and propose a novel density peak clustering algorithm that incorporates this theory as a similarity measure. Specifically, our algorithm utilizes the joint probability distribution between data objects and feature information, and employs the loss of mutual information as the measurement standard. This approach not only eliminates the potential for subjective error in selecting similarity method, but also enhances performance on datasets with multiple centers and high dimensionality. To evaluate the effectiveness of our algorithm, we conducted experiments using ten carefully selected datasets and compared the results with three other algorithms. The experimental results demonstrate that our information bottleneck-based density peaks clustering (IBDPC) algorithm consistently achieves high levels of accuracy, highlighting its potential as a valuable tool for data clustering tasks.

A Review of Public Datasets for Keystroke-based Behavior Analysis

  • Kolmogortseva Karina;Soo-Hyung Kim;Aera Kim
    • 스마트미디어저널
    • /
    • 제13권7호
    • /
    • pp.18-26
    • /
    • 2024
  • One of the newest trends in AI is emotion recognition utilizing keystroke dynamics, which leverages biometric data to identify users and assess emotional states. This work offers a comparison of four datasets that are frequently used to research keystroke dynamics: BB-MAS, Buffalo, Clarkson II, and CMU. The datasets contain different types of data, both behavioral and physiological biometric data that was gathered in a range of environments, from controlled labs to real work environments. Considering the benefits and drawbacks of each dataset, paying particular attention to how well it can be used for tasks like emotion recognition and behavioral analysis. Our findings demonstrate how user attributes, task circumstances, and ambient elements affect typing behavior. This comparative analysis aims to guide future research and development of applications for emotion detection and biometrics, emphasizing the importance of collecting diverse data and the possibility of integrating keystroke dynamics with other biometric measurements.

Soft Computing Optimized Models for Plant Leaf Classification Using Small Datasets

  • Priya;Jasmeen Gill
    • International Journal of Computer Science & Network Security
    • /
    • 제24권8호
    • /
    • pp.72-84
    • /
    • 2024
  • Plant leaf classification is an imperative task when their use in real world is considered either for medicinal purposes or in agricultural sector. Accurate identification of plants is, therefore, quite important, since there are numerous poisonous plants which if by mistake consumed or used by humans can prove fatal to their lives. Furthermore, in agriculture, detection of certain kinds of weeds can prove to be quite significant for saving crops against such unwanted plants. In general, Artificial Neural Networks (ANN) are a suitable candidate for classification of images when small datasets are available. However, these suffer from local minima problems which can be effectively resolved using some global optimization techniques. Considering this issue, the present research paper presents an automated plant leaf classification system using optimized soft computing models in which ANNs are optimized using Grasshopper Optimization algorithm (GOA). In addition, the proposed model outperformed the state-of-the-art techniques when compared with simple ANN and particle swarm optimization based ANN. Results show that proposed GOA-ANN based plant leaf classification system is a promising technique for small image datasets.

샴 네트워크를 사용하여 추적 레이블을 사용하지 않는 다중 객체 검출 및 추적기 학습에 관한 연구 (Training of a Siamese Network to Build a Tracker without Using Tracking Labels)

  • 강정규;송유승;민경욱;최정단
    • 한국ITS학회 논문지
    • /
    • 제21권5호
    • /
    • pp.274-286
    • /
    • 2022
  • 이동객체 추적은 컴퓨터 비전 분야에서 오랜 시간 동안 연구가 진행되어 온 분야로 자율주행이나 운전 보조 시스템 등의 시스템에서 아주 중요한 역할을 수행하고 있다. 이동객체 추적 기술은 일반적으로 객체를 검출하는 검출기와 검출된 객체를 추적하는 추적기의 결합으로 이루어져 있다. 검출기는 다양한 데이터셋이 공개되어 사용되고 있기 때문에 쉽게 좋은 모델을 학습할 수 있지만, 추적기의 경우 상대적으로 공개된 데이터셋도 적고 직접 데이터셋을 구성하는 것도 검출기 데이터셋에 비해 굉장히 오랜 시간을 소요한다. 이에 검출기를 따로 개발하고, 별도의 추적기를 학습 기반이 아닌 방식을 활용하여 개발하는 경우가 많은데 이런 경우 두 개의 시스템이 차례로 작동하게 되어 전체 시스템의 속도를 느리게 하고 앞단의 검출기의 성능이 변할 때마다 별도로 추적기 또한 조정해줘야 한다는 단점이 있다. 이에 본 연구는 검출용 데이터셋만을 사용하여 검출과 추적을 동시에 수행하는 모델을 구성하는 방법을 제안한다. 데이터 증강 기술과 샴 네트워크를 사용하여 단일 이미지에서 객체를 검출 및 추적하는 방법을 연구하였다. 공개 데이터셋에 실험을 진행하여 학습 결과 높은 속도로 작동하는 이동객체 검출 및 추적기를 학습할 수 있음을 검증하였다.

감성 분석을 위한 FinBERT 미세 조정: 데이터 세트와 하이퍼파라미터의 효과성 탐구 (FinBERT Fine-Tuning for Sentiment Analysis: Exploring the Effectiveness of Datasets and Hyperparameters)

  • 김재헌;정희도;장백철
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.127-135
    • /
    • 2023
  • 본 논문에서는 금융 뉴스 데이터로 추가적인 사전 학습이 진행된 BERT 기반 모델인 FinBERT 모델을 사용하여 금융 영역에서 감성 분석 시 학습시킬 데이터와 그에 맞는 하이퍼파라미터를 찾는 방법을 소개한다. 우리의 목표는 다양한 데이터 세트를 활용하고 하이퍼파라미터를 미세 조정하여 정확한 감성 분석을 위해 FinBERT 모델을 가장 잘 활용하는 방법에 대한 포괄적인 가이드를 제공하는 것이다. 이 연구에서는 제안된 FinBERT 모델 미세 조정 접근법의 아키텍처와 워크플로우를 개괄적으로 설명하고, 감성 분석 태스크를 위한 다양한 데이터 세트와 하이퍼파라미터의 성능을 강조한다. 또한, 감성 라벨링 작업에 GPT-3를 사용함으로써 GPT-3가 적절한 라벨러 역할을 하는지에 대한 신뢰성을 검증한다. 결과적으로 미세 조정된 FinBERT 모델이 다양한 데이터 세트에서 우수한 성능을 발휘 한다는 것을 보여주었고, 각 데이터 세트에 대해 전반적으로 우수한 성능을 보이는 학습률 5e-5와 배치 크기 64의 최적의 조합을 찾았다. 또 일반 도메인의 뉴스보다 일반 도메인의 트위터 데이터 세트에서 성능이 크게 향상됨을 기반으로 금융 뉴스 데이터만으로만 추가적으로 학습시키는 FinBERT 모델에 대한 의구심을 제시한다. 이를 통해 FinBERT 모델에 대한 최적의 접근 방식을 결정하는 복잡한 프로세스를 간소화하고 금융 분야 감성 분석 모델을 위한 추가적인 학습 데이터 세트와 미세 조정 시 하이퍼파라미터 선정에 대한 가이드라인을 제시한다.

SRTM과 NED를 이용한 식생수고 및 수령 추정 (Vegetation Height and Age Estimation using Shuttle Radar Topography Mission and National Elevation Datasets)

  • 김진우;허준;손홍규
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 춘계학술대회 논문집
    • /
    • pp.127-130
    • /
    • 2006
  • SRTM 데이터와 USGS의 NED (National Elevation Datasets) 데이터를 사용하였으며 두 데이터를 차분함으로써 식생수고도(vegetation height map)를 얻었다. 또한 차분값과 shape 파일에 포함된 식수년도의 비교를 통해 상관관계여부를 판단하고자 했다. 회귀분석을 통해 차분데이터와 식수년도 사이의 큰 상관관계가 존재함을 확인할 수 있었으며 결국 수령추정과 수령정보의 맵핑이 가능함을 보였다. 추가적으로 지역별 지형특성, 숲의 균일도 등에 의해 선형성이 영향을 받는지 관찰하였다.

  • PDF

상대적 위치를 이용한 지도통합 방법 : 랜드마크 선정을 중심으로 (Map Integration Method using Relative Location)

  • 김정옥;박재준;유기윤
    • 한국측량학회:학술대회논문집
    • /
    • 한국측량학회 2010년 춘계학술발표회 논문집
    • /
    • pp.3-4
    • /
    • 2010
  • Map integration usually involves matching the common spatial objects in different datasets. There have been recent studies on object matching using relative location as defined by spatial relationships between the object and its neighbor landmark. Therefore the landmark selection process is an important part of map integration using relative location. In this research, we describe an approach to determine landmarks automatically in different geospatial datasets.

  • PDF

Reconstructing the cosmic density field based on the generative adversarial network.

  • Shi, Feng
    • 천문학회보
    • /
    • 제45권1호
    • /
    • pp.50.1-50.1
    • /
    • 2020
  • In this topic, I will introduce a recent work on reconstructing the cosmic density field based on the GAN. I will show the performance of the GAN compared to the traditional Unet architecture. I'd also like to discuss a 3-channels-based 2D datasets for the training to recover the 3D density field. Finally, I will present some performance tests based on the test datasets.

  • PDF