• 제목/요약/키워드: Data Preprocessing

검색결과 954건 처리시간 0.037초

홀로그래픽 데이터 저장 장치를 위한 2차원 인접 심볼간 간섭 보상 (Two Dimensional Inter-symbol Interference Compensation for Holographic Data Storage)

  • 정성권;이재진
    • 전자공학회논문지
    • /
    • 제52권6호
    • /
    • pp.10-14
    • /
    • 2015
  • 홀로그래픽 데이터 저장장치는 매질의 체적에 데이터를 저장하고 CCD를 사용하여 2차원 픽셀의 이미지로써 데이터를 처리하기 때문에 빠른 데이터 전송률과 저장 용량을 현저히 증가시킬 수 있다. 하지만 홀로그래픽 저장장치는 기존의 저장장치들과는 다른 오류 요인인 2차원 인접심볼간 간섭이 발생한다. 본 논문에서는 홀로그래픽 데이터 저장장치에서 읽은 데이터가 검출기를 통과하기 전에 전처리과정을 통하여 인접심볼간 간섭을 줄이는 방법을 제안한다. 이 방법은 어긋남을 보정하기 위한 전처리과정과 변조부호방법을 결합하여 사용할 수도 있다는 장점이 있다.

건설사고 분석을 위한 텍스트 마이닝 기반 데이터 전처리 및 사고유형 분석 (Text mining-based Data Preprocessing and Accident Type Analysis for Construction Accident Analysis)

  • 윤영근;이재윤;오태근
    • 한국안전학회지
    • /
    • 제37권2호
    • /
    • pp.18-27
    • /
    • 2022
  • Construction accidents are difficult to prevent because several different types of activities occur simultaneously. The current method of accident analysis only indicates the number of occurrences for one or two variables and accidents have not reduced as a result of safety measures that focus solely on individual variables. Even if accident data is analyzed to establish appropriate safety measures, it is difficult to derive significant results due to a large number of data variables, elements, and qualitative records. In this study, in order to simplify the analysis and approach this complex problem logically, data preprocessing techniques, such as latent class cluster analysis (LCCA) and predictor importance were used to discover the most influential variables. Finally, the correlation was analyzed using an alluvial flow diagram consisting of seven variables and fourteen elements based on accident data. The alluvial diagram analysis using reduced variables and elements enabled the identification of accident trends into four categories. The findings of this study demonstrate that complex and diverse construction accident data can yield relevant analysis results, assisting in the prevention of accidents.

마이크로어레이 자료의 사전 처리 순서에 따른 검색의 일치도 분석 (A Concordance Study of the Preprocessing Orders in Microarray Data)

  • 김상철;이재휘;김병수
    • 응용통계연구
    • /
    • 제22권3호
    • /
    • pp.585-594
    • /
    • 2009
  • 마이크로어레이 실험의 실험자들은 원 측정치인 영상을 조사하여 통계적 분석이 가능한 자료의 형태로 변환하는데 이러한 과정을 흔히 사전 처리라고 부른다. 마이크로어레이의 사전 처리는 불량 영상의 제거(filtering), 결측치의 대치와 표준화로 세분되어질 수 있다. 표준화 방법과 결측치 대치 방법 각각에 대하여서는 많은 연구가 보고되었으나, 사전 처리를 구성하는 원소들간의 적정한 순서에 대하여서는 연구가 미흡하다. 표준화 방법과 결측치 대치 방법 중 어느 것이 먼저 실시되어야 하는지에 대하여서 아직 알려진 바가 없다. 본 연구는 사전 처리 순서에 대한 탐색적 시도로서 대장암과 위암을 대상으로 실시한 두 조의 cDNA 마이크로어레이 실험 자료를 이용하여 사전 처리를 구성하는 원소들간의 다양한 순서에 따라 검색된 특이 발현 유전자 군이 어떻게 변화하는지를 분석하고 있다. 즉, 결측치대치와 표준화의 여러가지 방법들의 조합에 따라 검색된 특이 발현 유전자 군이 얼마나 일치적인가를 확인하고자 한다. 결측치 대치 방법으로는 K 최근접 이웃 방법과 베이지안 주성분 분석을 고려하였고, 표준화 방법으로는 전체 표준화, 블럭별 국소(within-print tip group) 평활 표준화 그리고 분산 안정화를 유도하는 표준화 방법을 적용하였다. 따라서 사전 처리를 구성하는 두개 원소가 각각 2개 수준과 3개 수준을 가지고 있고, 두개 원소의 순열에 따른 모든 가능한 사전 처리 개수 수는 12개가 된다. 본 연구에서는 12개 사전 처리 방법 각각에 따라 정상 조직과 암 조직간 특이적으로 발현하는 유전자 군을 검색하였고, 사전 처리 순서를 바꾸었을때 유전자 군이 얼마나 일치적으로 유지되는지를 파악하고 있다. 표준화 방법으로 분산 안정화 표준화를 사용할 경우는 사전 처리 순서에 따라 특이 발현 유전자 군이 다소 민감하게 변하는 것을 보이고 있다.

머신 러닝과 데이터 전처리를 활용한 증류탑 온도 예측 (Prediction of Distillation Column Temperature Using Machine Learning and Data Preprocessing)

  • 이예찬;최영렬;조형태;김정환
    • Korean Chemical Engineering Research
    • /
    • 제59권2호
    • /
    • pp.191-199
    • /
    • 2021
  • 화학 공정의 주요 설비 중 하나인 증류탑은 물질들의 끓는점 차이를 이용하여 혼합물에서 원하는 생산물을 분리하는 설비이며 증류 공정은 많은 에너지가 소비되기 때문에 최적화 및 운전 예측이 필요하다. 본 연구의 대상 공정은 공급처에 따라 원료의 조성이 일정하지 않아 정상 상태로 운전이 어려워 효율적인 운전이 어렵다. 이를 해결하기 위해 데이터 기반 예측 모델을 이용하여 운전 조건을 예측 할 수 있다. 하지만 미가공 공정 데이터에는 이상치 및 노이즈가 포함되어 있어 예측 성능을 향상시키기 위해 데이터 전처리가 필요하다. 본 연구에서는 인공 신경망 모델인 Long short-term memory (LSTM)과 Random forest (RF)를 사용하여 모델을 최적화한 후, 데이터 전처리 방법으로 Low-pass filter와 One-class support vector machine을 사용하여 데이터 전처리 방법 및 범위에 따른 예측 성능을 비교하였다. 각 모델의 예측 성능과 데이터 전처리의 영향은 R2과 RMSE를 사용하여 비교하였다. 본 연구의 결과, 전처리를 통해 LSTM의 경우 R2은 0.791에서 0.977으로 RMSE는 0.132에서 0.029로 각각 23.5%, 78.0% 향상되었고, RF의 경우 R2은 0.767에서 0.938으로 RMSE는 0.140에서 0.050으로 각각 22.3%, 64.3% 향상되었다.

방위각 정보만을 이용한 표적추적 필터의 특성연구 (Properties of a bearing-only target tracking filter)

  • 허남수;김인환;황창선;이만형
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1990년도 한국자동제어학술회의논문집(국내학술편); KOEX, Seoul; 26-27 Oct. 1990
    • /
    • pp.789-793
    • /
    • 1990
  • Preprocessing technique of the measurement bearing data is presented to improve the tar-get estimation accuracy for the bearing-only target notion analysis (TMA). Computer simulation is performed to compare with respect to the extended Kalman filter. By computer simulation, the target filter estimator with preprocessing Is both stable and robust to the measurement bearing noise.

  • PDF

항공엔진 열화데이터 기반 잔여수명 예측력 향상을 위한 데이터 전처리 방법 연구 (A study on Data Preprocessing for Developing Remaining Useful Life Predictions based on Stochastic Degradation Models Using Air Craft Engine Data)

  • 윤연아;정진형;임준형;장태우;김용수
    • 산업경영시스템학회지
    • /
    • 제43권2호
    • /
    • pp.48-55
    • /
    • 2020
  • Recently, a study of prognosis and health management (PHM) was conducted to diagnose failure and predict the life of air craft engine parts using sensor data. PHM is a framework that provides individualized solutions for managing system health. This study predicted the remaining useful life (RUL) of aeroengine using degradation data collected by sensors provided by the IEEE 2008 PHM Conference Challenge. There are 218 engine sensor data that has initial wear and production deviations. It was difficult to determine the characteristics of the engine parts since the system and domain-specific information was not provided. Each engine has a different cycle, making it difficult to use time series models. Therefore, this analysis was performed using machine learning algorithms rather than statistical time series models. The machine learning algorithms used were a random forest, gradient boost tree analysis and XG boost. A sliding window was applied to develop RUL predictions. We compared model performance before and after applying the sliding window, and proposed a data preprocessing method to develop RUL predictions. The model was evaluated by R-square scores and root mean squares error (RMSE). It was shown that the XG boost model of the random split method using the sliding window preprocessing approach has the best predictive performance.

A Preprocessing Algorithm for Efficient Lossless Compression of Gray Scale Images

  • Kim, Sun-Ja;Hwang, Doh-Yeun;Yoo, Gi-Hyoung;You, Kang-Soo;Kwak, Hoon-Sung
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.2485-2489
    • /
    • 2005
  • This paper introduces a new preprocessing scheme to replace original data of gray scale images with particular ordered data so that performance of lossless compression can be improved more efficiently. As a kind of preprocessing technique to maximize performance of entropy encoder, the proposed method converts the input image data into more compressible form. Before encoding a stream of the input image, the proposed preprocessor counts co-occurrence frequencies for neighboring pixel pairs. Then, it replaces each pair of adjacent gray values with particular ordered numbers based on the investigated co-occurrence frequencies. When compressing ordered image using entropy encoder, we can expect to raise compression rate more highly because of enhanced statistical feature of the input image. In this paper, we show that lossless compression rate increased by up to 37.85% when comparing results from compressing preprocessed and non-preprocessed image data using entropy encoder such as Huffman, Arithmetic encoder.

  • PDF

의사결정트리의 분류 정확도 향상 (Classification Accuracy Improvement for Decision Tree)

  • 메하리 마르타 레제네;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.787-790
    • /
    • 2017
  • Data quality is the main issue in the classification problems; generally, the presence of noisy instances in the training dataset will not lead to robust classification performance. Such instances may cause the generated decision tree to suffer from over-fitting and its accuracy may decrease. Decision trees are useful, efficient, and commonly used for solving various real world classification problems in data mining. In this paper, we introduce a preprocessing technique to improve the classification accuracy rates of the C4.5 decision tree algorithm. In the proposed preprocessing method, we applied the naive Bayes classifier to remove the noisy instances from the training dataset. We applied our proposed method to a real e-commerce sales dataset to test the performance of the proposed algorithm against the existing C4.5 decision tree classifier. As the experimental results, the proposed method improved the classification accuracy by 8.5% and 14.32% using training dataset and 10-fold crossvalidation, respectively.

지상파 DMB에서의 깊이 영상 기반 렌더링 기반의 3차원 서비스를 위한 깊이 영상 전처리 기술의 비교 연구 (A comparative study of Depth Preprocessing Method for 3D Data Service Based on Depth Image Based Rendering over T-DMB)

  • 오영진;정광희;김중규;이광순;이현;허남호;김진웅
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.815-816
    • /
    • 2008
  • In this paper, we evaluate depth image preprocessing for 3D data service based on DIBR over T-DMB. We evaluate two preprocessing methods of depth images. These are gaussian smoothing and adaptive smoothing. The results show that adaptive smoothing is more suitable for images with sharp transition of depth.

  • PDF

기계학습 기반 근감소증 예측을 위한 데이터 전처리 기법 (Data Preprocessing for Predicting Sarcopenia Based on Machine Learning)

  • 최윤;윤유림
    • 문화기술의 융합
    • /
    • 제9권3호
    • /
    • pp.737-744
    • /
    • 2023
  • 근감소증은 노인들 사이에서 점점 더 흔하게 발생하고 있어, 최근 주목을 받고 있는 질병이다. 근감소증의 원인은 매우 다양하게 나타나지만, 노화, 식습관, 운동 부족등이 주요한 원인들 중 하나이다. 근감소증은 원인이 다양한 만큼 예방 및 치료에 전략을 개발하는 것이 중요하다. 하지만 요인이 다양한 만큼 사람이 근감소증을 정확하게 예측하기는 어렵다. 여기서 기계학습을 이용해 근감소증 예측의 정확도와 편의를 크게 높일 수 있다. 그러나 생활습관과 생체 데이터의 양은 방대한 만큼, 전처리 없이 데이터를 쓰기에는 시간복잡도와 정확성 측면에서 부적절할 수 있다. 본 논문에서는 근감소증과 그 원인에 대한 최신 문헌을 검토하고, 그에 맞게 기계학습 기만 근감소증 예측에 활용할 데이터를 전처리하는데 초점을 맞춘다.