• Title/Summary/Keyword: 이상치 제거

Search Result 415, Processing Time 0.032 seconds

A Time Series-based Algorithm for Eliminating Outliers of GPS Probe Data (시계열기반의 GPS 프로브 자료의 이상치 제거 알고리즘 개발)

  • Choi, Kee-Choo;Jang, Jeong-A
    • Journal of Korean Society of Transportation
    • /
    • v.22 no.6
    • /
    • pp.67-77
    • /
    • 2004
  • A treatment of outlier has been discussed. Outliers disrupt the reliability of information systems and they should be eliminated prior to the information and/or data fusion. A time series-based elimination algorithm were proposed and prediction interval, as a criterion of acceptable value width, was obtained with the model. Ten actual link values were used and the best model was identified as IMA(1,1). Although the actual verification was difficult in a sense that the matching process between the eliminated data and model data was not readily available, the proposed model can be successfully used in practice with some calibration efforts.

Outlier Reduction using C-SCGP for Target Localization based on RSS/AOA in Wireless Sensor Networks (무선 센서 네트워크에서 C-SCGP를 이용한 RSS/AOA 이상치 제거 기반 표적 위치추정 기법)

  • Kang, SeYoung;Lee, Jaehoon;Song, JongIn;Chung, Wonzoo
    • Journal of Convergence for Information Technology
    • /
    • v.11 no.11
    • /
    • pp.31-37
    • /
    • 2021
  • In this paper, we propose an outlier detection algorithm called C-SCGP to prevent the degradation of localization performance based on RSS (Received Signal Strength) and AOA (Angle of Arrival) in the presence of outliers in wireless sensor networks. Since the accuracy of target estimation can significantly deteriorate due to various cause of outliers such as malfunction of sensor, jamming, and severe noise, it is important to detect and filter out all outliers. The single cluster graph partitioning (SCGP) algorithm has been widely used to remove such outliers. The proposed continuous-SCGP (C-SCGP) algorithm overcomes the weakness of the SCGP that requires the threshold and computing probability of outliers, which are impratical in many applications. The results of numerical simulations show that the performance of C-SCGP without setting threshold and probability computation is the same performance of SCGP.

Outlier Data Clustering using Factor Score (인자 점수를 이용한 이상치 데이터의 군집화)

  • 전성해;임민택;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.05a
    • /
    • pp.77-80
    • /
    • 2002
  • 이상치를 포함한 학습 데이터의 군집화 전략은 일반적으로 이상치를 포함하여 학습하거나, 이상치를 제거하는 두 가지 선택이 가능하다. 이상치를 제거하지 않고 학습에 반영시켜야 할 경우 한 개 또는 소수의 이상치가 독자적인 군집을 형성하거나 객관적인 군집화를 방해하는 문제가 발생할 수 있다. 이 때 주어진 학습 데이터의 군집 결과가 이상치의 영향으로부터 벗어나기 위해 원래의 학습 데이터에 대한 변환 작업을 거친 후 군집화를 수행할 수 있다. 이러한 변환 방법으로서 본 논문에서는 차원 축소의 기법으로 알려진 인자 분석의 점수를 사용하였다. 인자 점수로 변환된 학습 데이터에 대해 계층적 군집화, K-means 그리고 자기조직화 지도 등과 같은 군집화 알고리즘을 적용하면 이상치가 자신만의 군집을 별도로 형성하지 않고 다른 학습 데이터의 군집에 소속되면서 이상회의 영향으로부터 벗어남을 실험을 통하여 확인하였다.

  • PDF

Distributed Processing Environment for Outlier Removal to Analyze Big Data (대용량 데이터 분석을 위한 이상치 제거용 분산처리 환경)

  • Hong, Yejin;Na, Eunhee;Jung, Yonghwan;Kim, Yangwoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.73-74
    • /
    • 2016
  • IoT 데이터는 비정형 데이터로 가공되고 분석하였을 때 비로소 가치를 갖기에 전 세계적으로 빅데이터 기술에 관심이 집중되고 있다. IoT 데이터 중 많은 부분을 차치하는 센서 데이터는 수집이 용이하고 활용범위가 넓기 때문에 여러 분야에서 사용되고 있다. 하지만 센서가 정상적으로 작동하지 못한 경우에는 실제와는 다른 값인 이상치를 포함하여 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위하여 수집된 원자료의 데이터를 분석하기 전에 이상치 탐지 및 제거를 하고자 한다. 또한 점점 늘어나고 있는 대용량 데이터를 신속하게 처리하기 위하여 메모리 접근방식인 스파크를 사용한 분산처리환경에서 이상치 탐지 및 제거하는 것을 제안한다. 맵리듀스 기반의 이상치 탐지 및 제거는 총 4단계로 나누어 구현하였으며 제안한 기법의 성능 평가를 위해 총 3가지 환경에서 비교하여 실험하였다. 실험을 통해 데이터의 용량이 커질수록 분산처리환경에서 스파크를 사용하여 처리하는 방식이 가장 빠를 것 이라는 결과를 얻었다.

  • PDF

Combined Filtering Model Using Voting Rule and Median Absolute Deviation for Travel Time Estimation (통행시간 추정을 위한 Voting Rule과 중위절대편차법 기반의 복합 필터링 모형)

  • Jeong, Youngje;Park, Hyun Suk;Kim, Byung Hwa;Kim, Youngchan
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.12 no.6
    • /
    • pp.10-21
    • /
    • 2013
  • This study suggested combined filtering model to eliminate outlier travel time data in transportation information system, and it was based on Median Absolute Deviation and Voting Rule. This model applied Median Absolute Deviation (MAD) method to follow normal distribution as first filtering process. After that, Voting rule is applied to eliminate remaining outlier travel time data after Median Absolute Deviation. In Voting Rule, travel time samples are judged as outliers according to travel-time difference between sample data and mean data. Elimination or not of outliers are determined using a majority rule. In case study of national highway No. 3, combined filtering model selectively eliminated outliers only and could improve accuracy of estimated travel time.

강우센서에서 생성된 강우정보를 이용한 선형회귀분석과 대역 통과 필터링 분석간의 정확도 비교

  • Kim, Yeong-Gon;Lee, Seok-Ho;Kim, Byeong-Sik
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2017.05a
    • /
    • pp.172-172
    • /
    • 2017
  • 본 연구는 차량의 AW(AutoWiping) 기능을 위해 장착된 강우센서를 이용하여 강우정보를 생산하는 기술을 개발하고자 하였다. AW(AutoWiping) 기능이란 차량 앞창(Windshield)에 빗방울이 맺히게 되면 광신호의 산란으로 인해 수광부에 들어오는 감소되는 광신호의 정도에 따라 차량 와이퍼의 속도를 결정해 주는 기능이다. 빗방울이 많이 맺힐수록 광신호는 감소되며 와이퍼는 더 빠른 속도로 작동을 하게 된다. 여기서 강우센서가 강우량이 많으면 감소된 광신호 데이터를 표출하는 현상을 이용하여 강우정보를 생산한다. 강우센서는 총 8개의 채널로 이루어져있고, 초당 250개의 광신호 데이터를 수집하며, 10분이면 약 120만 개의 데이터가 생산되게 된다. 이 대량의 데이터에서 정확한 강우량을 산출하기 위해 강우센서의 초기값과 와이퍼 이동시 발생하는 순간 이상치를 제거해야 한다. 하지만 일일이 수백만 개 이상의 데이터에서 모든 이상치를 제거하는 작업은 불가능하다. 따라서 이상치를 포함한 회귀 분석 방법을 연구하였고, 인공강우 발생기를 이용하여 광신호를 강우량으로 환산하는 2가지 회귀식이 유도되었다. 이들은 각각 이상치를 모두 포함시켜 독립변수(광신호)에 따라 종속변수(강우량)의 값이 변화하는 관계를 나타내는 선형회귀분석(model 1), 임계치를 정하여 일정 이상치가 제거된 신호만 통과시키는 대역통과 필터링 분석(model 2)으로 유도된 회귀식을 실강우에 회귀식을 적용하여 정확도를 분석하였다.

  • PDF

A Heuristic Outlier Filtering Algorithm for Generating Link Travel Time using Taxi GPS Probes in Urban Arterial (링크통행시간 생성을 위한 이상치 제거 알고리즘 개발)

  • Choi, Keechoo;Choi, Yoon-Hyuk
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.26 no.5D
    • /
    • pp.731-738
    • /
    • 2006
  • Facing congestion, people want to know traffic information about their routes, especially real-time link travel time (LTT). In this paper, as a sequel paper of the previous non-taxi based LTT generating study by Choi et al. (1998), taxi based GPS probes have been tried to produce LTT for urban arterials. Taxis in itself are good deployment mode of GPS probes although it by nature experiences boarding and alighting time noises which should be accounted. A heuristic real-time dynamic outlier filter algorithm for taxi GPS probe has been developed focusing on urban arterials. An actual traffic survey for dynamic link travel times has been conducted using license plate method for the test arterials of Seoul city transportation network. With the algorithm, it is estimated that 70% of outliers have been filtered and the relative error has been improved by 73.7%. The filtering algorithm developed here would be expected to be in use for other spatial sites with some calibration efforts. Some limitations and future research agenda have also been discussed.

The System for Checking Multivariate Normality and Outliers

  • 강명래;최용석
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2000.11a
    • /
    • pp.253-255
    • /
    • 2000
  • 다변량분석 기법을 사용하기 위해서는 자료가 정규성(normality)가정을 만족해야한다. 본 연구에서는 GUI(graphic user interface)환경 하에서 일변량(univariate)과 다변량자료(multivariate data)의 정규성검정, 이상치(outliers)제거 및 변수변환(variable transformation)을 지원하는 시스템을 구축하여 사용자들이 보다 편리하게 사용할 수 있음을 소개 하고자 한다.

  • PDF

Analyzing Influence of Outlier Elimination on Accuracy of Software Effort Estimation (소프트웨어 공수 예측의 정확성에 대한 이상치 제거의 영향 분석)

  • Seo, Yeong-Seok;Yoon, Kyung-A;Bae, Doo-Hwan
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.10
    • /
    • pp.589-599
    • /
    • 2008
  • Accurate software effort estimation has always been a challenge for the software industrial and academic software engineering communities. Many studies have focused on effort estimation methods to improve the estimation accuracy of software effort. Although data quality is one of important factors for accurate effort estimation, most of the work has not considered it. In this paper, we investigate the influence of outlier elimination on the accuracy of software effort estimation through empirical studies applying two outlier elimination methods(Least trimmed square regression and K-means clustering) and three effort estimation methods(Least squares regression, Neural network and Bayesian network) associatively. The empirical studies are performed using two industry data sets(the ISBSG Release 9 and the Bank data set which consists of the project data collected from a bank in Korea) with or without outlier elimination.