• 제목/요약/키워드: Imbalance training

검색결과 115건 처리시간 0.021초

Focal Loss와 앙상블 학습을 이용한 야생조류 소리 분류 기법 (Wild Bird Sound Classification Scheme using Focal Loss and Ensemble Learning)

  • 이재승;유제혁
    • 한국산업정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.15-25
    • /
    • 2024
  • 효과적인 동물 생태계 분석을 위해서는 동물 서식 현황을 자동으로 파악할 수 있는 동물 관제 기술이 중요하다. 특히 울음소리로 종을 판별하는 동물 소리 분류 기술은 영상을 통한 판별이 어려운 환경에서 큰 주목을 받고 있다. 기존 연구들은 단일 딥러닝 모델을 사용하여 동물 소리를 분류하였으나, 야외 환경에서 수집된 동물 소리는 많은 배경 잡음을 포함하여 단일 모델의 판별력을 악화시키며, 종에 따른 데이터 불균형으로 인해 모델의 편향된 학습을 야기한다. 이에, 본 논문에서는 클래스의 데이터 수를 고려하여 페널티를 부여하는 Focal Loss를 사용한 여러 분류 모델의 예측결과를 앙상블을 통해 결합하여 잡음이 많은 동물 소리를 효과적으로 분류할 수 있는 기법을 제안한다. 공개 데이터 셋을 사용한 실험에서, 제안된 기법은 단일 모델의 평균 성능에 비해 Recall 기준으로 최대 22.6%의 성능 개선을 달성하였다.

유전 알고리즘 기반의 비정상 행위 탐지를 위한 특징선택 (Feature Selection for Anomaly Detection Based on Genetic Algorithm)

  • 서재현
    • 한국융합학회논문지
    • /
    • 제9권7호
    • /
    • pp.1-7
    • /
    • 2018
  • 데이터 전처리 기법 중 하나인 특징 선택은 대규모 데이터셋을 다루는 다양한 응용분야에서 주요 연구 분야 중 하나로 각광받고 있다. 특징 선택은 패턴 인식, 기계학습 및 데이터 마이닝에서 사용됐고, 최근에는 텍스트 분류, 이미지 검색, 침입 탐지 및 게놈 분석과 같은 다양한 분야에 널리 적용되고 있다. 제안 방법은 메타 휴리스틱 알고리즘 중의 하나인 유전 알고리즘을 기반으로 한다. 특징 부분 집합을 찾는 방법은 크게 필터(filter) 방법과 래퍼(wrapper) 방법이 있는데, 본 연구에서는 최적의 특징 부분 집합을 찾기 위해 실제 분류기를 사용한 평가를 하는 래퍼 방법을 사용한다. 실험에 사용한 훈련 데이터셋은 클래스 불균형이 심하여 희소클래스에 대한 분류 성능을 높이기 어렵다. SMOTE 기법을 적용한 훈련 데이터셋을 사용하여 특징 선택을 하고 다양한 기계학습 알고리즘을 사용하여 선택한 특징들의 성능을 평가한다.

병렬 오토인코더 기반의 비정상 신호 탐지 (Abnormal signal detection based on parallel autoencoders)

  • 이기배;이종현
    • 한국음향학회지
    • /
    • 제40권4호
    • /
    • pp.337-346
    • /
    • 2021
  • 일반적으로 비정상 신호 탐지 연구에서는 데이터 불균형으로 인해 정상 신호 특징을 주된 정보로 사용한다. 본 논문에서는 비정상 신호의 특징을 학습하는 병렬 오토인코더를 이용한 효율적인 비정상 신호 탐지기법을 제안한다. 제안된 동일한 구조로 이루어진 병렬 오토인코더는 정상 신호와 비정상 신호에 대한 특징을 학습하는 정상 복원기와 비정상 복원기로 구성되며, 정상 및 비정상 데이터를 순차적으로 학습함으로써 불균형 데이터 문제를 효율적으로 해결할 수 있다. 뿐만 아니라 보다 높은 탐지성능 향상을 위해서 부가적인 이진 분류기가 추가될 수 있다. 공개된 음향데이터를 이용한 실험결과, 제안된 병렬 탐지모델의 학습시간이 단일 오토인코더 탐지모델과 비교하여 약 1.31 ~ 1.61배 늘어나지만, 최소 22 % 이상의 Area Under Curve(AUC) 향상을 보였다. 또한, 사전에 훈련된 병렬 오토인코더를 이용하여 수중 음향데이터를 전이학습한 결과 수중 비정상 신호 AUC 탐지성능을 93 % 이상 향상시킬 수 있음을 확인하였다.

오토인코더 기반 수치형 학습데이터의 자동 증강 기법 (Automatic Augmentation Technique of an Autoencoder-based Numerical Training Data)

  • 정주은;김한준;전종훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.75-86
    • /
    • 2022
  • 본 연구는 딥러닝 기반 변분 오토인코더(Variational Autoencoder)를 활용하여 수치형 학습데이터 내 클래스 불균형 문제를 해결하고, 학습데이터를 증강하여 학습모델의 성능을 향상시키고자 한다. 우리는 주어진 테이블 데이터에 대하여 인위적으로 레코드 개수를 늘리기 위해 'D-VAE'을 제안한다. 제안 기법은 최적의 데이터 증강을 지원하기 위해 우선 이산화와 특징선택을 수반한 전처리 과정을 수행한다. 이산화 과정에서 k-means 클러스터링을 적용하여 그룹화한 후, 주어진 데이터가 원-핫 인코딩(one-hot encoding) 기법으로 원-핫 벡터(one-hot vector)로 변환한다. 이후, 특징 선택 기법 중 RFECV 기법을 활용하여 예측에 도움이 되는 변수를 가려내고, 이에 대해서만 변분 오토인코더를 활용하여 새로운 학습데이터를 생성한다. 제안 기법의 성능을 검증하기 위해 4가지 유형의 실험 데이터를 활용하여 데이터 증강 비율별로 그 유효성을 입증한다.

CNN based data anomaly detection using multi-channel imagery for structural health monitoring

  • Shajihan, Shaik Althaf V.;Wang, Shuo;Zhai, Guanghao;Spencer, Billie F. Jr.
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.181-193
    • /
    • 2022
  • Data-driven structural health monitoring (SHM) of civil infrastructure can be used to continuously assess the state of a structure, allowing preemptive safety measures to be carried out. Long-term monitoring of large-scale civil infrastructure often involves data-collection using a network of numerous sensors of various types. Malfunctioning sensors in the network are common, which can disrupt the condition assessment and even lead to false-negative indications of damage. The overwhelming size of the data collected renders manual approaches to ensure data quality intractable. The task of detecting and classifying an anomaly in the raw data is non-trivial. We propose an approach to automate this task, improving upon the previously developed technique of image-based pre-processing on one-dimensional (1D) data by enriching the features of the neural network input data with multiple channels. In particular, feature engineering is employed to convert the measured time histories into a 3-channel image comprised of (i) the time history, (ii) the spectrogram, and (iii) the probability density function representation of the signal. To demonstrate this approach, a CNN model is designed and trained on a dataset consisting of acceleration records of sensors installed on a long-span bridge, with the goal of fault detection and classification. The effect of imbalance in anomaly patterns observed is studied to better account for unseen test cases. The proposed framework achieves high overall accuracy and recall even when tested on an unseen dataset that is much larger than the samples used for training, offering a viable solution for implementation on full-scale structures where limited labeled-training data is available.

머신러닝 CatBoost 다중 분류 알고리즘을 이용한 조류 발생 예측 모형 성능 평가 연구 (Evaluation of Multi-classification Model Performance for Algal Bloom Prediction Using CatBoost)

  • 김준오;박정수
    • 한국물환경학회지
    • /
    • 제39권1호
    • /
    • pp.1-8
    • /
    • 2023
  • Monitoring and prediction of water quality are essential for effective river pollution prevention and water quality management. In this study, a multi-classification model was developed to predict chlorophyll-a (Chl-a) level in rivers. A model was developed using CatBoost, a novel ensemble machine learning algorithm. The model was developed using hourly field monitoring data collected from January 1 to December 31, 2015. For model development, chl-a was classified into class 1 (Chl-a≤10 ㎍/L), class 2 (10<Chl-a≤50 ㎍/L), and class 3 (Chl-a>50 ㎍/L), where the number of data used for the model training were 27,192, 11,031, and 511, respectively. The macro averages of precision, recall, and F1-score for the three classes were 0.58, 0.58, and 0.58, respectively, while the weighted averages were 0.89, 0.90, and 0.89, for precision, recall, and F1-score, respectively. The model showed relatively poor performance for class 3 where the number of observations was much smaller compared to the other two classes. The imbalance of data distribution among the three classes was resolved by using the synthetic minority over-sampling technique (SMOTE) algorithm, where the number of data used for model training was evenly distributed as 26,868 for each class. The model performance was improved with the macro averages of precision, rcall, and F1-score of the three classes as 0.58, 0.70, and 0.59, respectively, while the weighted averages were 0.88, 0.84, and 0.86 after SMOTE application.

그래프 임베딩 및 준지도 기반의 이더리움 피싱 스캠 탐지 (Ethereum Phishing Scam Detection based on Graph Embedding and Semi-Supervised Learning)

  • 정유영;김경태;임동혁
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권5호
    • /
    • pp.165-170
    • /
    • 2023
  • 최근 블록체인 기술이 부상하면서 이를 이용한 암호화폐 플랫폼이 늘어나며 화폐 거래가 활발이 이뤄지고 있다. 그러나 암호화폐의 특성을 악용한 범죄 또한 늘어나 문제가 되고 있다. 특히 피싱 스캠은 이더리움 사이버 범죄의 과반수 이상을 차지하며 주요 보안 위협원으로 여겨지고 있다. 따라서 효과적인 피싱 스캠 탐지 방법이 시급하다. 그러나 전체 이더리움 참여 계정 주소에서 라벨링된 피싱 주소의 부족으로 인한 데이터 불균형 문제로 지도학습에 충분한 데이터 제공이 어려운 상황이다. 이를 해결하기 위하여 본 논문에서는 이더리움 트랜잭션 네트워크를 고려한 효과적인 그래프 임베딩 기법인 trans2vec과 준지도 학습 모델 tri-training을 함께 사용하여 라벨링된 데이터 뿐만 아니라 라벨링되지 않은 데이터도 최대한 활용하는 피싱 스캠 탐지 방법을 제안한다.

Research on the Financial Data Fraud Detection of Chinese Listed Enterprises by Integrating Audit Opinions

  • Leiruo Zhou;Yunlong Duan;Wei Wei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권12호
    • /
    • pp.3218-3241
    • /
    • 2023
  • Financial fraud undermines the sustainable development of financial markets. Financial statements can be regarded as the key source of information to obtain the operating conditions of listed companies. Current research focuses more on mining financial digital data instead of looking into text data. However, text data can reveal emotional information, which is an important basis for detecting financial fraud. The audit opinion of the financial statement is especially the fair opinion of a certified public accountant on the quality of enterprise financial reports. Therefore, this research was carried out by using the data features of 4,153 listed companies' financial annual reports and audits of text opinions in the past six years, and the paper puts forward a financial fraud detection model integrating audit opinions. First, the financial data index database and audit opinion text database were built. Second, digitized audit opinions with deep learning Bert model was employed. Finally, both the extracted audit numerical characteristics and the financial numerical indicators were used as the training data of the LightGBM model. What is worth paying attention to is that the imbalanced distribution of sample labels is also one of the focuses of financial fraud research. To solve this problem, data enhancement and Focal Loss feature learning functions were used in data processing and model training respectively. The experimental results show that compared with the conventional financial fraud detection model, the performance of the proposed model is improved greatly, with Area Under the Curve (AUC) and Accuracy reaching 81.42% and 78.15%, respectively.

과훈련증후군과 면역반응의 임상적 분석 (The Clinical Evaluation between Overtraining Syndrome and Exercise-related Immunity)

  • 최승준;박송영;곽이섭
    • 생명과학회지
    • /
    • 제25권11호
    • /
    • pp.1324-1330
    • /
    • 2015
  • 운동에 종사하는 엘리트 운동선수나 동호인들은 지속적인 같은 동작의 반복, 잦은 경쟁스트레스의 경험, 그리고 신체적인 컨디션이 좋지 않은 상황에서의 과도한 훈련의 요구 때문에 근육, 건, 인대, 염좌 및 골절과 같은 부상을 비롯한 근골격계 질환을 야기한다. 그리고 과도한 오버리칭, 경쟁불안으로 인한 스트레스, 및 피로회복의 부족 등으로 운동기술의 정체를 비롯한 운동수행력의 감소는 물론 심리적인 스트레스와 면역반응의 감소를 경험하게 된다. 따라서 본 연구에서는 과훈련증후군의 원인과 증상 및 치료와 처치에 대해 분석하고 이러한 증후군과 면역반응과 연관성을 비교 및 분석하여 운동 동호인을 비롯한 운동 선수들에게 나타날 수 있는 면역력의 감소를 줄여, 운동수행력의 증진은 물론 건강유지와 면역력 회복을 도모하고자 한다. 본 연구의 목적을 달성하기 위해 본론에서는 과훈련 증후군에 대한 전반적인 내용을 실험연구를 비롯한 관련 연구논문을 중심으로 분석하였고, 아울러 과훈련 증후군과 면역반응 및 알레르기 면역반응과의 연관성에 대해 면밀한 분석을 실시하였다. 본 연구 결과를 토대로 많은 스포츠 현장에서 과훈련증후군에 관한 실험적인 연구와 면역반응 및 알레르기반응과의 연관성 분석을 토대로 한 실험적 연구가 진행되어야 할 것으로 여겨지며, 본 연구가 많은 운동선수들과 동호인들의 건강관리는 물론, 면역력의 증가를 도모하는 데에 도움을 줄 것으로 여겨진다.

Agriculture in China

  • Pretty, K.M.
    • 한국토양비료학회지
    • /
    • 제17권4호
    • /
    • pp.314-318
    • /
    • 1984
  • China has made rapid strides in agricultural production during the past few years. Although the absence of any serious climatic disturbances is a contributing factor, implementation of the responsibility system to reward peasant families for their initiatives has been by far the most significant. This has resulted in increased specialization, a greater requirement for technical adivsory services, and a much higher demand for farm equipment and production inputs. The revamped system has brought with it some problems such as differences in income between the most progressive producers and their less successful neighbours and urban workers, a shortage of storage, transport and processing facilities, and a strain on the national treasury to continue to subsidize farm prices. Demand for fertilizers has been increasing at a fast rate, especially for nitrogen. This has led to a serious imbalance in nutrient use which must be corrected if the current momentum in improving crop yields is to be maintained. Following a decade of total stagnation during the Cultural Revolution, agricultural research and education facilities are being strengthened. Younger scientists, many with overseas training, are being placed in key positions. China is still a developing country, and much remains to be done; however, progress in the last decade, and especially in the past five years, has been remarkable.

  • PDF