• 제목/요약/키워드: Data Preprocessing

검색결과 987건 처리시간 0.028초

토픽모델링을 활용한 응급구조사 관련 연구동향 (Identifying research trends in the emergency medical technician field using topic modeling)

  • 이정은;김무현
    • 한국응급구조학회지
    • /
    • 제26권2호
    • /
    • pp.19-35
    • /
    • 2022
  • Purpose: This study aimed to identify research topics in the emergency medical technician (EMT) field and examine research trends. Methods: In this study, 261 research papers published between January 2000 and May 2022 were collected, and EMT research topics and trends were analyzed using topic modeling techniques. This study used a text mining technique and was conducted using data collection flow, keyword preprocessing, and analysis. Keyword preprocessing and data analysis were done with the RStudio Version 4.0.0 program. Results: Keywords were derived through topic modeling analysis, and eight topics were ultimately identified: patient treatment, various roles, the performance of duties, cardiopulmonary resuscitation, triage systems, job stress, disaster management, and education programs. Conclusion: Based on the research results, it is believed that a study on the development and application of education programs that can successfully increase the emergency care capabilities of EMTs is needed.

데이터 전처리와 자연어처리를 기반으로 한 교직원 번호안내 챗봇 시스템 (Faculty Number Guidance Chat-Bot System Based on Data Preprocessing and Natural Language Processing)

  • 허태성;백재원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.243-244
    • /
    • 2021
  • 대학교에 민원, 문의 등 업무용 전화가 많이 오가는 상황에서 사용자가 원하는 부서, 교직원의 전화번호를 알아내기 위해 직접 검색하는 과정에 대한 솔루션을 제공하기 위해 본 논문에서는 대학 교직원들의 전화번호와 부서의 정보를 저장하고 있는 CSV 파일을 챗봇 시스템에서 요구하는 모양과 특성에 맞게 데이터를 가공하고 알맞은 정보를 제공하기 위해 사용자의 질의 문장을 해체 분석하여 필요 정보에 대하여 답변을 해주는 대학 교직원 번호 안내 챗봇 시스템을 개발하였다.

  • PDF

산업단지 마이크로그리드 열거래 플랫폼을 위한 에너지 데이터 전처리 프로세스에 관한 연구 (A Study on the Energy Data Preprocessing Process for Industrial Complex Microgrid Thermal Energy Trading Platform)

  • 임정택;김태형;함경선
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.355-357
    • /
    • 2020
  • 최근 에너지 효율의 중요성이 높아지고 에너지 공급 형태가 다변화하면서 다양한 에너지원을 효율적으로 관리할 수 있는 마이크로그리드 개념이 중요해지고 있다. 본 연구의 산업단지 마이크로그리드 열거래 플랫폼은 실증사이트의 전기 및 열에너지 모니터링 기능과 열에너지 거래 정산 기능을 가지며, 이를 위해 정확하고 안정적인 실증사이트 데이터가 필요하다. 하지만 실증사이트 데이터는 에너지 단위의 불일치, 센서 및 현장 운영상태에 따른 불안정성 등의 문제가 있어 수집 직후 열거래 플랫폼에서 활용할 수 없다. 따라서 수집된 데이터를 활용하기 위해 엔진 최대 출력량, 최대 전력 사용량 등의 변수별 특성을 고려하여 데이터 전처리 프로세스를 설계 및 적용하였다.

  • PDF

데이터 정보를 이용한 흑색 플라스틱 분류기 설계 (Design of Black Plastics Classifier Using Data Information)

  • 박상범;오성권
    • 전기학회논문지
    • /
    • 제67권4호
    • /
    • pp.569-577
    • /
    • 2018
  • In this paper, with the aid of information which is included within data, preprocessing algorithm-based black plastic classifier is designed. The slope and area of spectrum obtained by using laser induced breakdown spectroscopy(LIBS) are analyzed for each material and its ensuing information is applied as the input data of the proposed classifier. The slope is represented by the rate of change of wavelength and intensity. Also, the area is calculated by the wavelength of the spectrum peak where the material property of chemical elements such as carbon and hydrogen appears. Using informations such as slope and area, input data of the proposed classifier is constructed. In the preprocessing part of the classifier, Principal Component Analysis(PCA) and fuzzy transform are used for dimensional reduction from high dimensional input variables to low dimensional input variables. Characteristic analysis of the materials as well as the processing speed of the classifier is improved. In the condition part, FCM clustering is applied and linear function is used as connection weight in the conclusion part. By means of Particle Swarm Optimization(PSO), parameters such as the number of clusters, fuzzification coefficient and the number of input variables are optimized. To demonstrate the superiority of classification performance, classification rate is compared by using WEKA 3.8 data mining software which contains various classifiers such as Naivebayes, SVM and Multilayer perceptron.

HCM 클러스터링과 유전자 알고리즘을 이용한 다중 FNN 모델 설계와 비선형 공정으로의 응용 (The Design of Multi-FNN Model Using HCM Clustering and Genetic Algorithms and Its Applications to Nonlinear Process)

  • 박호성;오성권;김현기
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 춘계학술대회 학술발표 논문집
    • /
    • pp.47-50
    • /
    • 2000
  • In this paper, an optimal identification method using Multi-FNN(Fuzzy-Neural Network) is proposed for model ins of nonlinear complex system. In order to control of nonlinear process with complexity and uncertainty of data, proposed model use a HCM clustering algorithm which carry out the input-output data preprocessing function and Genetic Algorithm which carry out optimization of model. The proposed Multi-FNN is based on Yamakawa's FNN and it uses simplified inference as fuzzy inference method and Error Back Propagation Algorithm as learning rules. HCM clustering method which carry out the data preprocessing function for system modeling, is utilized to determine the structure of Multi-FNN by means of the divisions of input-output space. Also, the parameters of Multi-FNN model such as apexes of membership function, learning rates and momentum coefficients are adjusted using genetic algorithms. Also, a performance index with a weighting factor is presented to achieve a sound balance between approximation and generalization abilities of the model, To evaluate the performance of the proposed model, we use the time series data for gas furnace and the numerical data of nonlinear function.

  • PDF

텐서플로우 튜토리얼 방식의 머신러닝 신규 모델 개발 : 캐글 타이타닉 데이터 셋을 중심으로 (Developing of New a Tensorflow Tutorial Model on Machine Learning : Focusing on the Kaggle Titanic Dataset)

  • 김동길;박용순;박래정;정태윤
    • 대한임베디드공학회논문지
    • /
    • 제14권4호
    • /
    • pp.207-218
    • /
    • 2019
  • The purpose of this study is to develop a model that can systematically study the whole learning process of machine learning. Since the existing model describes the learning process with minimum coding, it can learn the progress of machine learning sequentially through the new model, and can visualize each process using the tensor flow. The new model used all of the existing model algorithms and confirmed the importance of the variables that affect the target variable, survival. The used to classification training data into training and verification, and to evaluate the performance of the model with test data. As a result of the final analysis, the ensemble techniques is the all tutorial model showed high performance, and the maximum performance of the model was improved by maximum 5.2% when compared with the existing model using. In future research, it is necessary to construct an environment in which machine learning can be learned regardless of the data preprocessing method and OS that can learn a model that is better than the existing performance.

3차원 메쉬의 면적 정보를 이용한 효과적인 잡음 제거 (An effective filtering for noise smoothing using the area information of 3D mesh)

  • 현대환;최종수
    • 대한전자공학회논문지SP
    • /
    • 제44권2호
    • /
    • pp.55-62
    • /
    • 2007
  • 본 논문에서는 카메라 자동 교정을 통한 3차원 재구성 과정에서 생기는 오차로 인해 포함되는 잡음을 특성에 따라 효과적으로 제거하여 정교한 3차원 데이터를 얻기 위한 방법을 제안한다. 기존의 잡음 평활화 과정은 잡음 때문에 면적이 큰 메쉬는 3차원으로 재구성하는데 문제점이 존재한다. 제안한 알고리즘은 메쉬의 면적이 중요하기 때문에 취득된 3차원 데이터는 불필요한 삼각형 메쉬들을 사전에 제거하는 전처리 과정이 필요하다. 본 연구는 3차원 메쉬의 면적 정보를 이용하여 잡음의 특성을 분석하고, 그 특성에 따라 피크 잡음과 가우스 잡음을 분리하여 효과적으로 잡음을 제거한다. 본 알고리즘의 성능은 재구성 데이터에 대한 정량적인 비교 분석을 통해 기존의 메쉬 평활화 방법보다 더 정교한 3차원 데이터를 얻음을 확인하였다.

Rapid Characterization and Prediction of Biomass Properties via Statistical Techniques

  • Cho, Hyun-Woo
    • 청정기술
    • /
    • 제18권3호
    • /
    • pp.265-271
    • /
    • 2012
  • 화석연료에 대한 의존성을 줄이기 위한 대안으로서 재생에너지 사용이 요구되고 있다. 청정에너지원의 하나인 바이오매스는 그 물성치의 실시간 파악이 중요하기 때문에 다양한 종류의 바이오매스에 대해 널리 연구되어 왔으며, 방법론적인 측면에서는 비침투성이며 많은 정보를 가진 특징으로 인하여 근적외선 분광법이 성공적으로 적용되었다. 본 논문에서는 여러 바이오매스 종류에 대한 물성치의 빠른 예측을 위해 근적외선 데이터에 기반한 비선형 방법론의 적용성을 평가하였다. 다양한 방법론에 기반한 예측 모델들을 근적외선 데이터의 전처리방법과 조합하여 예측 성능을 평가하였다. 바이오매스 물성 예측 모델의 성능에서는 선형 모델보다는 비선형 모델에서 예측오차가 최소화되었으며 전처리 방법과 결합되었을 때 최적의 예측결과를 얻을 수 있었다.

Applications of Discrete Wavelet Analysis for Predicting Internal Quality of Cherry Tomatoes using VIS/NIR Spectroscopy

  • Kim, Ghiseok;Kim, Dae-Yong;Kim, Geon Hee;Cho, Byoung-Kwan
    • Journal of Biosystems Engineering
    • /
    • 제38권1호
    • /
    • pp.48-54
    • /
    • 2013
  • Purpose: This study evaluated the feasibility of using a discrete wavelet transform (DWT) method as a preprocessing tool for visible/near-infrared spectroscopy (VIS/NIRS) with a spectroscopic transmittance dataset for predicting the internal quality of cherry tomatoes. Methods: VIS/NIRS was used to acquire transmittance spectrum data, to which a DWT was applied to generate new variables in the wavelet domain, which replaced the original spectral signal for subsequent partial least squares (PLS) regression analysis and prediction modeling. The DWT concept and its importance are described with emphasis on the properties that make the DWT a suitable transform for analyzing spectroscopic data. Results: The $R^2$ values and root mean squared errors (RMSEs) of calibration and prediction models for the firmness, sugar content, and titratable acidity of cherry tomatoes obtained by applying the DWT to a PLS regression with a set of spectra showed more enhanced results than those of each model obtained from raw data and mean normalization preprocessing through PLS regression. Conclusions: The developed DWT-incorporated PLS models using the db5 wavelet base and selected approximation coefficients indicate their feasibility as good preprocessing tools by improving the prediction of firmness and titratable acidity for cherry tomatoes with respect to $R^2$ values and RMSEs.

커널 기반 데이터를 이용한 효율적인 서비스 거부 공격 탐지 방법에 관한 연구 (An Efficient Method for Detecting Denial of Service Attacks Using Kernel Based Data)

  • 정만현;조재익;채수영;문종섭
    • 정보보호학회논문지
    • /
    • 제19권1호
    • /
    • pp.71-79
    • /
    • 2009
  • 현재 커널 기반 데이터인 시스템 호출을 이용하는 호스트 기반 침입 탐지 연구가 많이 진행되고 있다. 시스템 호출을 이용한 침입 탐지 연구는 시퀀스 기반과 빈도 기반으로 시스템 호출을 전 처리 하는 방법이 많이 사용되고 있다. 실시간 침입 탐지 시스템에 적용할 때 시스템에서 수집 되는 시스템 호출 데이터의 종류와 수집 데이터가 많아 전처리에 어려움이 많다. 그러나 비교적 시퀀스 기반 방법보다 전처리 시간이 작은 빈도 기반의 주로 방법이 사용 되고 있다. 본 논문에서는 현재에도 시스템 공격 중 비중을 많이 차지하고 있는 서비스 거부 공격을 탐지 하기위해 빈도 기반의 방법에 사용하는 전체 시스템 호출을 주성분 분석(principal component analysis)을 이용하여 주성분이 되는 시스템 호출들을 추출하여 베이지안 네트워크를 구성하고 베이지안 분류기를 통하여 탐지하는 효율적인 방법을 제안한다.