• 제목/요약/키워드: Data preprocessing

검색결과 964건 처리시간 0.028초

Influence of Data Preprocessing

  • Zhu, Changming;Gao, Daqi
    • Journal of Computing Science and Engineering
    • /
    • 제10권2호
    • /
    • pp.51-57
    • /
    • 2016
  • In this paper, we research the influence of data preprocessing. We conclude that using different preprocessing methods leads to different classification performances. Moreover, not all data preprocessing methods are necessary, and a criterion is given to make sure which data preprocessing is necessary and which one is effective. Experiments on some real-world data sets validate that different data preprocessing methods result in different effects. Furthermore, experiments about some algorithms with different preprocessing methods also confirm that preprocessing has a great influence on the performance of a classifier.

자율 기계 학습을 위한 효과적인 스마트 온실 데이터 전처리 시스템 (An Effective Smart Greenhouse Data Preprocessing System for Autonomous Machine Learning)

  • 임종태;;김윤아;백정현;유재수
    • 스마트미디어저널
    • /
    • 제12권1호
    • /
    • pp.47-53
    • /
    • 2023
  • 최근 정보통신기술을 농업과 접목해 새로운 가치를 창출하는 스마트팜 연구가 활발하게 진행되고 있다. 국내 스마트팜 기술이 농업 선진국 수준의 생산성을 가지기 위해서는 기계 학습을 활용한 자동화된 의사결정이 필요하다. 그러나 현재의 스마트 온실 데이터 수집 기술은 빅데이터 분석이나 기계 학습을 수행하기에 충분하지 않다. 본 논문에서는 자율 기계 학습을 위한 스마트 온실 데이터 전처리 시스템을 설계하고 구현한다. 제안하는 시스템은 대상 데이터를 다양한 전처리 기법에 적용하고 평가를 수행하여 최적 전처리 기법을 탐색하고 저장한다. 이렇게 탐색 된 최적 전처리 기법은 새롭게 수집된 데이터에 대하여 전처리를 수행하는데 활용된다.

고속도로 차량검지기 이력자료 활용을 위한 전처리과정 개선 (Improvement of A Preprocessing of Archived Traffic Data Collected by Expressway Vehicle Detection System)

  • 이환필;남궁성;김수희;김진
    • 한국ITS학회 논문지
    • /
    • 제12권1호
    • /
    • pp.15-27
    • /
    • 2013
  • 그간 차량검지기로부터 수집되는 다양한 정보는 주로 실시간 자료로 이용되었으나 최근 교통데이터 이력자료의 활용방안에 대한 중요성이 증대되고 있다. 이러한 배경에서 본 연구는 차량검지기자료의 이력자료 활용을 위한 전처리 개선에 대한 연구를 수행하였다. 실제 교통현상과 가장 가까운 데이터 처리를 목적으로 세부처리로직을 개선하였다. 평가결과 기존 전처리 과정보다 개선 전처리 과정이 실제값에 가까운 결과를 나타내는 것으로 분석되었다.

데이터 전처리와 퍼지 논리 시스템을 이용한 전력 부하 예측 (Electric Load Forecasting using Data Preprocessing and Fuzzy Logic System)

  • 방영근;이철희
    • 전기학회논문지
    • /
    • 제66권12호
    • /
    • pp.1751-1758
    • /
    • 2017
  • This paper presents a fuzzy logic system with data preprocessing to make the accurate electric power load prediction system. The fuzzy logic system acceptably treats the hidden characteristic of the nonlinear data. The data preprocessing processes the original data to provide more information of its characteristics. Thus the combination of two methods can predict the given data more accurately. The former uses TSK fuzzy logic system to apply the linguistic rule base and the linear regression model while the latter uses the linear interpolation method. Finally, four regional electric power load data in taiwan are used to evaluate the performance of the proposed prediction system.

STATISTICALLY PREPROCESSED DATA BASED PARAMETRIC COST MODEL FOR BUILDING PROJECTS

  • Sae-Hyun Ji;Moonseo Park;Hyun-Soo Lee
    • 국제학술발표논문집
    • /
    • The 3th International Conference on Construction Engineering and Project Management
    • /
    • pp.417-424
    • /
    • 2009
  • For a construction project to progress smoothly, effective cost estimation is vital, particularly in the conceptual and schematic design stages. In these early phases, despite the fact that initial estimates are highly sensitive to changes in project scope, owners require accurate forecasts which reflect their supplying information. Thus, cost estimators need effective estimation strategies. Practically, parametric cost estimates are the most commonly used method in these initial phases, which utilizes historical cost data (Karshenas 1984, Kirkham 2007). Hence, compilation of historical data regarding appropriate cost variance governing parameters is a prime requirement. However, precedent practice of data mining (data preprocessing) for denoising internal errors or abnormal values is needed before compilation. As an effort to deal with this issue, this research proposed a statistical methodology for data preprocessing and verified that data preprocessing has a positive impact on the enhancement of estimate accuracy and stability. Moreover, Statistically Preprocessed data Based Parametric (SPBP) cost models are developed based on multiple regression equations and verified their effectiveness compared with conventional cost models.

  • PDF

효율적인 데이터베이스 마케팅을 위한 데이터마이닝 전처리도구에 관한 연구 (A Study on the Data Mining Preprocessing Tool For Efficient Database Marketing)

  • 이준석
    • 디지털융복합연구
    • /
    • 제12권11호
    • /
    • pp.257-264
    • /
    • 2014
  • 효율적인 데이터베이스 마케팅을 위하여 고객들을 세분화하고, 새로운 지식을 탐색할 수 있는 데이터마이닝의 필요성이 증대되고 있다. 데이터마이닝 도구를 구축하기 위해서는 단계별 구현이 요구되어 지는데, 본 연구에서는 데이터마이닝을 위한 분산 환경에 적응 가능한 데이터 전처리 도구를 구성하였다. 기존의 데이터마이닝 도구인 앤서 트리, 클레멘타인, 엔터프라이즈 마이너, 캔싱턴, 웨카의 전처리 부분을 고찰하고, 분산 환경에서 효율적으로 사용할 수 있는 데이터 마이닝 전처리 도구를 구성하였다. 새로이 제안된 시스템은 엔터프라이즈 자바 빈즈와 XML을 기반으로 하였다.

Prediction of the price for stock index futures using integrated artificial intelligence techniques with categorical preprocessing

  • Kim, Kyoung-jae;Han, Ingoo
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 1997년도 추계학술대회발표논문집; 홍익대학교, 서울; 1 Nov. 1997
    • /
    • pp.105-108
    • /
    • 1997
  • Previous studies in stock market predictions using artificial intelligence techniques such as artificial neural networks and case-based reasoning, have focused mainly on spot market prediction. Korea launched trading in index futures market (KOSPI 200) on May 3, 1996, then more people became attracted to this market. Thus, this research intends to predict the daily up/down fluctuant direction of the price for KOSPI 200 index futures to meet this recent surge of interest. The forecasting methodologies employed in this research are the integration of genetic algorithm and artificial neural network (GAANN) and the integration of genetic algorithm and case-based reasoning (GACBR). Genetic algorithm was mainly used to select relevant input variables. This study adopts the categorical data preprocessing based on expert's knowledge as well as traditional data preprocessing. The experimental results of each forecasting method with each data preprocessing method are compared and statistically tested. Artificial neural network and case-based reasoning methods with best performance are integrated. Out-of-the Model Integration and In-Model Integration are presented as the integration methodology. The research outcomes are as follows; First, genetic algorithms are useful and effective method to select input variables for Al techniques. Second, the results of the experiment with categorical data preprocessing significantly outperform that with traditional data preprocessing in forecasting up/down fluctuant direction of index futures price. Third, the integration of genetic algorithm and case-based reasoning (GACBR) outperforms the integration of genetic algorithm and artificial neural network (GAANN). Forth, the integration of genetic algorithm, case-based reasoning and artificial neural network (GAANN-GACBR, GACBRNN and GANNCBR) provide worse results than GACBR.

  • PDF

영화 흥행 실적 예측을 위한 빅데이터 전처리 (Big Data Preprocessing for Predicting Box Office Success)

  • 전희국;현근수;임경빈;이우현;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.615-622
    • /
    • 2014
  • 국제적 수준으로 성장한 한국의 영화 시장 환경은 더욱 타당한 자료 분석에 근거한 의사 결정 수단을 필요로 하게 되었다. 또한 발전된 정보 환경으로 인해 실시간으로 생성되는 대규모 데이터를 신속히 처리하고 분석하여 보다 정밀한 결과를 예측할 수 있어야 한다. 특히 전처리 작업은 정보 분석 과정 중 가장 많은 시간이 소요 되므로 대규모 데이터 기반 분석 환경에서도 합리적인 시간 내에 처리할 수 있어야 한다. 본 논문에서는 영화 흥행 예측을 위한 대용량 데이터 전처리 방법을 연구하였다. 영화 흥행 데이터의 특성을 분석해 전처리의 각 유형별 처리 방법을 설정했으며 하둡 기반 맵리듀스 프레임워크를 사용하는 방법을 사용하였다. 실험 결과 빅데이터 기법을 사용한 전처리가 기존의 방법보다 더 좋은 수행 결과를 보이는 것을 확인하였다.

A Nonparametric Approach for Noisy Point Data Preprocessing

  • Xi, Yongjian;Duan, Ye;Zhao, Hongkai
    • International Journal of CAD/CAM
    • /
    • 제9권1호
    • /
    • pp.31-36
    • /
    • 2010
  • 3D point data acquired from laser scan or stereo vision can be quite noisy. A preprocessing step is often needed before a surface reconstruction algorithm can be applied. In this paper, we propose a nonparametric approach for noisy point data preprocessing. In particular, we proposed an anisotropic kernel based nonparametric density estimation method for outlier removal, and a hill-climbing line search approach for projecting data points onto the real surface boundary. Our approach is simple, robust and efficient. We demonstrate our method on both real and synthetic point datasets.

DGPS 방식에 의한 위성의 정밀궤도 결정을 위한 GPS 원시 자료 전처리 (PREPROCESSING OF THE GPS RAW DATA FOR THE PRECISION ORBIT DETERMINATION BY DGPS TECHNIQUE)

  • 문보연;이정숙;이병선;김재훈;박은서;윤재철;노경민;최규홍
    • Journal of Astronomy and Space Sciences
    • /
    • 제19권2호
    • /
    • pp.163-172
    • /
    • 2002
  • 위성에 탑재된 GPS 수신기의 관측 자료를 활용하여 저궤도위성의 정밀궤도 결정을 위해서 반드시 필요한 관측 자료 전처리에 관련된 연구를 수행하였다. 전처리 과정에서는 반송파 위상 자료와 코드 자료에 있는 사이클 슬립, 시계 오차, 불량 관측값, 이온층 지연 효과 등을 제거하거나 보정하여 일정한 간격으로 재정렬된 이중차분 자료를 생성한다. DGPS 방식을 이용하여 저궤도 위성의 정밀궤도결정을 수행하면 그 정밀도가 수 미터에서 수 센티미터 수준에 달하기 때문에 전처리 과정에서도 그 정밀도에 영향을 미치지 않을 정도로 관측 자료의 편집이 정밀하게 수행되어야 한다. 그러나 GPS수신기가 자료를 수집하는 시간간격에 따라 관측 자료를 분해할 수 있는 한계가 달라지기 때문에 자료의 수신시간간격은 전처리의 성능과 직결된다. 또한 수신기의 성능과 수신기를 탑재한 위성의 고도에 따라서 자료의 질이 달라지기도 하므로, 이 논문에서는 DGPS 방식에 의한 위성의 정밀궤도결정을 수행하기 위한 전처리 과정에서 수신시간간격, 수신기의 성능과 위성의 고도에 따른 전처리의 성능을 분석하여 시간간격과 수신기의 종류에 따라 사용할 수 있는 전처리 방법을 제안하였다.