• 제목/요약/키워드: Training Datasets

검색결과 344건 처리시간 0.026초

반자동 언어데이터 증강 방식에 기반한 FbSA 모델 학습을 위한 감성주석 데이터셋 FeSAD 구축 (Building Sentiment-Annotated Datasets for Training a FbSA model based on the SSP methodology)

  • 윤정우;황창회;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.66-71
    • /
    • 2021
  • 본 연구는 한국어 자질 기반 감성분석(Feature-based Sentiment Analysis: FbSA)을 위한 대규모의 학습데이터 구축에 있어 반자동 언어데이터 증강 기법(SSP: Semi-automatic Symbolic Propagation)에 입각한 자질-감성 주석 데이터셋 FeSAD(Feature-Sentiment-Annotated Dataset)의 개발 과정과 성능 평가를 소개하는 것을 목표로 한다. FeSAD는 언어자원을 활용한 SSP 1단계 주석 이후, 작업자의 주석이 2단계에서 이루어지는 2-STEP 주석 과정을 통해 구축된다. SSP 주석을 위한 언어자원에는 부분 문법 그래프(Local Grammar Graph: LGG) 스키마와 한국어 기계가독형 전자사전 DECO(Dictionnaire Electronique du COréen)가 활용되며, 본 연구에서는 7개의 도메인(코스메틱, IT제품, 패션/의류, 푸드/배달음식, 가구/인테리어, 핀테크앱, KPOP)에 대해, 오피니언 트리플이 주석된 FeSAD 데이터셋을 구축하는 프로세싱을 소개하였다. 코스메틱(COS)과 푸드/배달음식(FOO) 두 도메인에 대해, 언어자원을 활용한 1단계 SSP 주석 성능을 평가한 결과, 각각 F1-score 0.93과 0.90의 성능을 보였으며, 이를 통해 FbSA용 학습데이터 주석을 위한 작업자의 작업이 기존 작업의 10% 이하의 비중으로 감소함으로써, 학습데이터 구축을 위한 프로세싱의 소요시간과 품질이 획기적으로 개선될 수 있음을 확인하였다.

  • PDF

Computational intelligence models for predicting the frictional resistance of driven pile foundations in cold regions

  • Shiguan Chen;Huimei Zhang;Kseniya I. Zykova;Hamed Gholizadeh Touchaei;Chao Yuan;Hossein Moayedi;Binh Nguyen Le
    • Computers and Concrete
    • /
    • 제32권2호
    • /
    • pp.217-232
    • /
    • 2023
  • Numerous studies have been performed on the behavior of pile foundations in cold regions. This study first attempted to employ artificial neural networks (ANN) to predict pile-bearing capacity focusing on pile data recorded primarily on cold regions. As the ANN technique has disadvantages such as finding global minima or slower convergence rates, this study in the second phase deals with the development of an ANN-based predictive model improved with an Elephant herding optimizer (EHO), Dragonfly Algorithm (DA), Genetic Algorithm (GA), and Evolution Strategy (ES) methods for predicting the piles' bearing capacity. The network inputs included the pile geometrical features, pile area (m2), pile length (m), internal friction angle along the pile body and pile tip (Ø°), and effective vertical stress. The MLP model pile's output was the ultimate bearing capacity. A sensitivity analysis was performed to determine the optimum parameters to select the best predictive model. A trial-and-error technique was also used to find the optimum network architecture and the number of hidden nodes. According to the results, there is a good consistency between the pile-bearing DA-MLP-predicted capacities and the measured bearing capacities. Based on the R2 and determination coefficient as 0.90364 and 0.8643 for testing and training datasets, respectively, it is suggested that the DA-MLP model can be effectively implemented with higher reliability, efficiency, and practicability to predict the bearing capacity of piles.

PM10 예측 성능 향상을 위한 농도별 예측 모델 설계 (Prediction Model Design by Concentration Type for Improving PM10 Prediction Performance)

  • 조경우;정용진;오창헌
    • 한국항행학회논문지
    • /
    • 제25권6호
    • /
    • pp.576-581
    • /
    • 2021
  • 고농도의 경우 저농도와 비교하였을 때, 발생 빈도수의 차이와 발생 환경에 대한 차이로 예측 성능의 한계를 두드러지게 보이고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 인공신경망 알고리즘을 이용하여 저농도와 고농도로 분류하고 구분된 농도별로 특성을 학습시킨 두 가지 예측 모델을 통해 예측을 수행하는 모델을 제안하였다. 저농도와 고농도를 분류하기 위해 DNN 기반의 분류 모델을 설계하고 분류모델을 통해 구분된 저농도와 고농도를 기준으로 농도별 특성을 반영하기 위한 저농도 예측 모델과 고농도 예측 모델을 설계하였다. 농도별 예측 모델의 성능 평가 결과, 저농도 예측 정확도가 90.38%, 고농도 예측 정확도는 96.37% 의 예측 정확도를 보였다.

고차원 매핑기법과 딥러닝 네트워크를 통한 정형데이터의 분류 (Classification of Tabular Data using High-Dimensional Mapping and Deep Learning Network)

  • 김경택;장원두
    • 사물인터넷융복합논문지
    • /
    • 제9권6호
    • /
    • pp.119-124
    • /
    • 2023
  • 최근 딥러닝은 다양한 분야에서 전통적인 기계학습에 비해 월등히 높은 성능을 보이고 있으며, 패턴인식을 위한 보편적인 방법으로 자리 잡아 가고 있다. 하지만, 이에 비해 정형데이터를 사용하는 분류 문제에서는 여전히 머신러닝 기법이 주류를 이루고 있다. 본 논문에서는 정형데이터를 고차원 텐서로 변환하는 네트워크 모듈을 제안하며, 이 모듈을 보편적인 딥러닝 네트워크와 함께 구성하여 정형데이터의 분류 문제에 적용하였다. 제안된 방법은 4종의 데이터셋을 활용하여 학습 및 검증되었으며, 제안된 방법은 90.22%의 평균 정확도를 달성하여, 최신 딥러닝 모델인 TabNet에 비해 2.55%p 높은 정확도를 보였다. 제안된 방법은 컴퓨터 비전 분야에서 높은 성능을 보이는 다양한 네트워크 구조를 정형데이터에 활용할 수 있다는 점에서 의미가 있다.

Machine learning techniques for reinforced concrete's tensile strength assessment under different wetting and drying cycles

  • Ibrahim Albaijan;Danial Fakhri;Adil Hussein Mohammed;Arsalan Mahmoodzadeh;Hawkar Hashim Ibrahim;Khaled Mohamed Elhadi;Shima Rashidi
    • Steel and Composite Structures
    • /
    • 제49권3호
    • /
    • pp.337-348
    • /
    • 2023
  • Successive wetting and drying cycles of concrete due to weather changes can endanger the safety of engineering structures over time. Considering wetting and drying cycles in concrete tests can lead to a more correct and reliable design of engineering structures. This study aims to provide a model that can be used to estimate the resistance properties of concrete under different wetting and drying cycles. Complex sample preparation methods, the necessity for highly accurate and sensitive instruments, early sample failure, and brittle samples all contribute to the difficulty of measuring the strength of concrete in the laboratory. To address these problems, in this study, the potential ability of six machine learning techniques, including ANN, SVM, RF, KNN, XGBoost, and NB, to predict the concrete's tensile strength was investigated by applying 240 datasets obtained using the Brazilian test (80% for training and 20% for test). In conducting the test, the effect of additives such as glass and polypropylene, as well as the effect of wetting and drying cycles on the tensile strength of concrete, was investigated. Finally, the statistical analysis results revealed that the XGBoost model was the most robust one with R2 = 0.9155, mean absolute error (MAE) = 0.1080 Mpa, and variance accounted for (VAF) = 91.54% to predict the concrete tensile strength. This work's significance is that it allows civil engineers to accurately estimate the tensile strength of different types of concrete. In this way, the high time and cost required for the laboratory tests can be eliminated.

Learning-to-rank 기법을 활용한 서울 경마경기 순위 예측 (Horse race rank prediction using learning-to-rank approaches)

  • 정준형;신동욱;황세용;박건웅
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.239-253
    • /
    • 2024
  • 본 연구는 learning-to-rank (LTR) 기법 중 point-wise와 pair-wise learning을 적용하여 서울 경마경기 순위 예측을 수행하였다. Point-wise learning으로는 선형 회귀와 랜덤 포레스트를 pair-wise learning으로는 RankNet, LambdaMART (XGBoost Ranker, LightGBM Ranker, CatBoost Ranker)을 활용하였다. 또한 데이터 불균형 문제를 해결하기 위해 전처리 과정에서 경주기록을 경주거리에 따라 표준화하는 방식을 채택하였으며, 모형의 예측 능력 향상을 위해 경기 정보, 기수 정보, 마필 정보, 조교사 정보 등의 다양한 데이터를 사용하였다. 그 결과 아이템 간의 순위관계를 학습할 수 있는 pair-wise learning이 point-wise learning보다 전반적으로 더 뛰어난 예측력을 보이는 것을 확인하였다. 특히 CatBoost Ranker는 제시된 모형들 중 가장 뛰어난 예측 성능을 보였다. 마지막으로 섀플리 값을 통해 CatBoost Ranker에서 경주마의 성적, 직전 경주기록, 경주마의 출발훈련 횟수, 누적 출발훈련 횟수, 질병 진단횟수 등이 상위 10개 중요 변수에 포함된 것을 확인하였다.

Focal Loss와 앙상블 학습을 이용한 야생조류 소리 분류 기법 (Wild Bird Sound Classification Scheme using Focal Loss and Ensemble Learning)

  • 이재승;유제혁
    • 한국산업정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.15-25
    • /
    • 2024
  • 효과적인 동물 생태계 분석을 위해서는 동물 서식 현황을 자동으로 파악할 수 있는 동물 관제 기술이 중요하다. 특히 울음소리로 종을 판별하는 동물 소리 분류 기술은 영상을 통한 판별이 어려운 환경에서 큰 주목을 받고 있다. 기존 연구들은 단일 딥러닝 모델을 사용하여 동물 소리를 분류하였으나, 야외 환경에서 수집된 동물 소리는 많은 배경 잡음을 포함하여 단일 모델의 판별력을 악화시키며, 종에 따른 데이터 불균형으로 인해 모델의 편향된 학습을 야기한다. 이에, 본 논문에서는 클래스의 데이터 수를 고려하여 페널티를 부여하는 Focal Loss를 사용한 여러 분류 모델의 예측결과를 앙상블을 통해 결합하여 잡음이 많은 동물 소리를 효과적으로 분류할 수 있는 기법을 제안한다. 공개 데이터 셋을 사용한 실험에서, 제안된 기법은 단일 모델의 평균 성능에 비해 Recall 기준으로 최대 22.6%의 성능 개선을 달성하였다.

Predicting restraining effects in CFS channels: A machine learning approach

  • Seyed Mohammad Mojtabaei;Rasoul Khandan;Iman Hajirasouliha
    • Steel and Composite Structures
    • /
    • 제51권4호
    • /
    • pp.441-456
    • /
    • 2024
  • This paper aims to develop Machine Learning (ML) algorithms to predict the buckling resistance of cold-formed steel (CFS) channels with restrained flanges, widely used in typical CFS sheathed wall panels, and provide practical design tools for engineers. The effects of cross-sectional restraints were first evaluated on the elastic buckling behaviour of CFS channels subjected to pure axial compressive load or bending moment. Feedforward multi-layer Artificial Neural Networks (ANNs) were then trained on different datasets comprising CFS channels with various dimensions and properties, plate thicknesses, and restraining conditions on one or two flanges, while the elastic distortional buckling resistance of the elements were determined according to the Finite Strip Method (FSM). To develop less biased networks and ensure that every observation from the original dataset has the chance of appearing in the training and test set, a K-fold cross-validation technique was implemented. In addition, the hyperparameters of the ANNs were tuned using a grid search technique to provide ANNs with optimum performances. The results demonstrated that the trained ANNs were able to predict the elastic distortional buckling resistance of CFS flange-restrained elements with an average accuracy of 99% in terms of coefficient of determination. The developed models were then used to propose a simple ANN-based design formula for the prediction of the elastic distortional buckling stress of CFS flange-restrained elements. Finally, the proposed formula was further evaluated on a separate set of unseen data to ensure its accuracy for practical applications.

다기관 임상연구를 위한 인공지능 학습 플랫폼 구축 (Construction of Artificial Intelligence Training Platform for Multi-Center Clinical Research)

  • 이충섭;김지언;노시형;김태훈;윤권하;정창원
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권10호
    • /
    • pp.239-246
    • /
    • 2020
  • 인공지능 기술을 도입한 의료분야에서 진단 및 예측과 연계한 임상의사결정지원 시스템(CDSS)에 관련된 연구가 활발하게 진행되고 있다. 특히, 인공지능 기술 적용에 가장 많은 이슈를 일으키고 있는 의료영상기반의 질환진단연구가 다양한 제품으로 출시되고 있는 실정이다. 그러나 의료영상 데이터는 일관되지 않은 데이터들로 이루어져 있으며, 그것을 정제하여 연구에 사용하기 위해서는 상당한 시간이 필요한 것이 현실이다. 본 논문은 의료영상 표준인 R_CDM(Radiology Common Data Model)으로 변환하고, 그 데이터를 기반으로 인공지능 알고리즘 개발 연구를 지원하기위한 원스톱 인공지능학습 플랫폼에 대하여 기술한다. 이를 위해 기존 공통데이터모델(CDM : Common Data Model)과 연계에 중점을 두어 DICOM(Digital Imaging and Communications in Medicine) 태그정보를 기반으로 의료영상 표준 모델의 스키마와 다기관 연구를 위한 Report 정보를 포함하여 시스템을 모델링하였다. 이렇게 변환된 데이터 집합을 기반으로 인공지능 학습 플랫폼에서 수행 과정을 결과로 보인다. 제안한 플랫폼을 통해 다양한 영상기반 인공지능 연구에 활용될 것으로 기대하고 있다.

분포형 광섬유 센서 자료 적용을 위한 기계학습 기반 P, S파 위상 발췌 알고리즘 개발 (Machine Learning-based Phase Picking Algorithm of P and S Waves for Distributed Acoustic Sensing Data)

  • 최용규;송영석;설순지;변중무
    • 지구물리와물리탐사
    • /
    • 제25권4호
    • /
    • pp.177-188
    • /
    • 2022
  • 최근 이산화탄소 지중저장 모니터링 기술 중 하나인 미소진동 모니터링 기술에 대한 관심이 증가하면서 과거에 주로 사용되었던 지오폰이나 지진계가 아닌 분포형 광섬유 센서(distributed acoustic sensing, DAS)의 적용도 증가하고 있다. 특히 DAS를 이용하여 모니터링을 수행하면 시×공간적으로 거의 연속된 자료가 기록되게 되어 자료의 양이 방대해지게 되고 빠르고 정확한 자료 처리가 중요하게 된다. 자료처리 중 이벤트 탐지 및 위상 발췌는 가장 기초적인 과정으로 모든 자료에 대해 필수적으로 수행되어야 한다. 이 논문에서는 기계학습 기반의 P, S파 위상 발췌 알고리즘을 개발하여 전통적인 위상 발췌 방법의 한계를 보완하고, 전이학습 방법을 이용하여 신호 대 잡음비가 낮은 단일 성분 자료만 존재하는 DAS 자료에도 적용이 가능하도록 하였다. 사용된 기계학습 모델은 위상 발췌에 뛰어난 성능을 보이는 합성곱 신경망 기반의 EQTransformer를 ResUNet의 특성을 포함하도록 수정하여 구성하였다. 훈련자료는 전세계적으로 기록된 지진파형 자료인 STEAD자료를 이용하였고 학습 자료에 포함되지 않은 특성들에 대해서도 좋은 성능을 보이도록 기본 자료를 다양하게 변형시킨 자료도 학습에 사용하였다. 개발된 알고리즘은 학습자료와 다른 특성을 갖는 K-net 및 KiK-net 자료에 의해 성능이 검증되었다. 또한, 전이 학습을 통해 DAS 자료의 특성에 맞게 변형시킨 후 포항 장기분지에서 측정된 DAS자료에 적용시켜 그 성능을 검증하였다.