• 제목/요약/키워드: 이상치 제거

검색결과 415건 처리시간 0.044초

Support Vector Regression을 이용한 이상치 데이터분석 (An Outlier Data Analysis using Support Vector Regression)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제18권6호
    • /
    • pp.876-880
    • /
    • 2008
  • 주어진 데이터에서 대부분의 다른 관측치들에 비해 지나치게 크거나 작은 관측치를 이상치라고 한다. 이상치는 몇 가지 원인에 의해 발생한다. 이상치를 포함한 데이터의 분석결과는 이 값을 포함하지 않은 경우와 크게 달라질 수 있다. 일반적으로 이상치는 탐지를 통하여 찾아내어 제거한 후에 데이터분석을 수행한다. 하지만 사기탐지, 네트워크 침입 등의 데이터 마이닝 분야에서는 이상치가 중요한 정보를 포함하고 있기 때문에 반드시 포함하여 데이터분석을 수행하여야 한다. 본 논문에서 다루는 회귀모형에서는 기존의 단순, 다중 회귀분석은 이상치에 대하여 안정된 모형을 구축하기 어렵기 때문에 표준화 잔차 또는 스튜던트화된 잔차를 이용하여 이상치를 찾아내고 제거한 후의 데이터분석 수행을 추천한다. 본 논문에서는 회귀모형에서 이상치를 포함하여 효과적으로 데이터분석을 수행할 수 있는 한 방법으로 Vapnik이 제안한 통계적 학습이론에 기반한 Support Vector Regression(SVR)을 이용하였다 인공 데이터를 생성한 모의실험 결과 기존의 회귀모형에 비해 SVR의 향상된 결과를 확인할 수 있었다.

UTIS 구간통행속도 이상치 제거 알고리즘 (Error Filtering Algorithm for Accurate Travel Speed Measurement Using UTIS)

  • 기용걸;안계형;김은정;정준하;배광수;이철기
    • 한국ITS학회 논문지
    • /
    • 제9권6호
    • /
    • pp.33-42
    • /
    • 2010
  • 구간통행속도는 도로의 교통상황을 나타내는 중요한 지표이며, UTIS(Urban Traffic Information System)는 도로의 구간 통행속도를 측정하여 제공하는 대표적인 구간속도 측정시스템이다. 시험운영 결과, 프로브 차량의 불규칙한 주행궤적, 무선통신 장치의 통신범위 등의 요인으로 UTIS 산출 속도의 신뢰도가 저하되는 현상이 일부 나타나고 있다. 본 논문에서는 이러한 오차를 줄이기 위해 UTIS에 포함된 이상치를 제거하는 알고리즘을 제안하였다. 제안된 알고리즘을 적용하여 현장실험을 실시한 결과 새로운 이상치 제거 알고리즘이 속도 측정값들 오차백분율의 분산을 기존 알고리즘보다 2배 이상 줄여주는 것으로 분석되었다. 이는 새로운 알고리즘이 이상치를 적절히 처리하여 구간통행속도 산출 정확도를 높여줌을 나타낸다.

다변량 정규성과 이상치 검정을 위한 통계 시스템 개발 (Development of Statistical System for Checking Multivariate Normality and Outliers)

  • 최용석;김종건;강명래
    • 응용통계연구
    • /
    • 제14권2호
    • /
    • pp.223-231
    • /
    • 2001
  • 다변량분석 기법을 위해서는 자료가 정규성(normality)가정을 만족해야한다. 본 연구에서는 GUI환경에서 일변량 및 다변량자료의 정규성검정, 이상치제거 및 변수변환을 하는 시스템을 Visual Basic 언어로서 구축하여 사용자들이 보다 편리하게 사용할 수 있음을 소개 하고자 한다.

  • PDF

이상치 검출 알고리즘을 이용한 TDOA와 FDOA 기반 이동 신호원 위치 추정 기법 (Robust Location Estimation based on TDOA and FDOA using Outlier Detection Algorithm)

  • 유호근;이재훈
    • 융합정보논문지
    • /
    • 제10권9호
    • /
    • pp.15-21
    • /
    • 2020
  • 본 논문은 다수의 전자전 센서에서 추출된 시간지연 차이정보와 도플러주파수 차이정보를 이용하는 Two-step weighted least-squares 기반의 이동 신호원 위치 및 속도 추정 기법에서, 수집 정보의 이상치를 검출하는 알고리즘을 제안하고자 한다. 다수의 전자전 센서에서 추출되는 정보는 다양한 요인에 의해 정보에 이상치가 발생할 수 있으며, 이를 효과적으로 검출하고 데이터 융합과정에서 이상치를 배제하여 이동 신호원의 위치와 속도 추정의 정확도를 높이고자 한다. 본 논문에서는 이상치를 제외한 최소의 정상치 정보 집합을 추출하고, 이를 기반으로 나머지 정보의 이상치 여부를 확률적으로 판단하는 알고리즘을 제안하였으며, 이를 모의실험을 통해, 정보의 이상치가 효과적으로 제거되어 위치 및 속도 추정의 정확도를 향상시킬 수 있음을 확인하였다. 정상치 거리정보 잡음이 20dB 이하인 경우, 이상치 정보를 효과적으로 제거하여, Cramér-Rao lower bound에 근접한 위치 및 속도 추정 정확도를 얻음을 확인하였다.

대용량 데이터 분석을 위한 맵리듀스 기반의 이상치 탐지 (Outlier Detection Based on MapReduce for Analyzing Big Data)

  • 홍예진;나은희;정용환;김양우
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.27-35
    • /
    • 2017
  • 가까운 미래에는 빅데이터의 많은 부분을 IoT 데이터가 차지할 것이라는 전망이 나오고 있다. 그에 따라, IoT 데이터의 많은 부분을 차치하는 센서 데이터에 관한 관심과 연구 또한 활발하게 진행되고 있다. 여러 분야에서 활용되고 있는 센서 데이터는 분석할 때 실제와는 다른 값인 이상치를 포함하게 되면 정확한 분석이 어려우며, 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위해 수집된 원자료를 분석하기 전에 이상치 탐지 및 제거를 하였다. 또한, 점점 늘어나고 있는 대용량의 데이터를 빠르게 처리하기 위해 메모리 접근방식인 스파크를 사용한 분산처리환경에서 처리하였다. 맵리듀스 기반의 이상치 탐지 및 제거는 총 4단계로 나누어 구현하였으며, 각 단계를 매퍼와 리듀스로 구현하였다. 제안한 기법의 평가를 위해서 3가지 환경에서 비교하였으며, 그 결과 이상치 탐지 및 제거를 하고자 하는 데이터의 용량이 커질수록 스파크를 이용한 분산처리환경에서의 처리가 가장 빠르다는 결과를 얻었다.

사분위편차 및 관리도 모형에 의한 GPS 수집기반 구간통행속도 데이터 이상치 제거방안 연구 (The Quartile Deviation and the Control Chart Model of Improvement Confidence for Link Travel Speed from GPS Probe Data)

  • 한원섭;김동효;현철승;이호원;오영태;이철기
    • 한국ITS학회 논문지
    • /
    • 제7권6호
    • /
    • pp.21-30
    • /
    • 2008
  • GPS를 탑재한 프로브차량에 의해 수집되는 교통정보(구간통행속도)는 차량검지기와 같이 특정링크에 대하여 연속적으로 교통정보를 수집하는 방식이 아니다. 따라서 단속교통류 구간에서 신호시간 등의 영향으로 수집되는 정보의 안정성과 대표값 등에 문제점이 있다. 본 연구는 GPS를 장착한 프로브차량에 의해 수집된 구간통행속도 데이터를 필터링하는 방법을 개발하는데 목적이 있다. 시간간격별로 수집되는 데이터에 대하여 사분위편차와 관리도에 의해 이상치를 제거하였다. 사분위편차를 적용한 결과는 제거율이 $0{\sim}3.7%$ 이고, 개별 관리도에 의한 결과는 제거율이 $0.3{\sim}7.2%$ 이었다. 두 방법 모두 교통소통이 원활한 새벽시간 대에 이상치 제거율이 낮고, 낮 시간대에 이상치 제거율이 높은 것으로 나타났다. 문제점으로 지적되는 것은 모형에 충실할 경우 Low Bound에서 이상치의 제거기준이 낮게 설정되는 것이다. 따라서 시스템 운영과정에서 경험적인 사항이 반영되어져야 할 것으로 검토된다.

  • PDF

TCS데이터를 이용한 이상치제거 및 결측보정 알고리즘 개발 (Outlier Filtering and Missing Data Imputation Algorithm using TCS Data)

  • 도명식;이향미;남궁성
    • 대한교통학회지
    • /
    • 제26권4호
    • /
    • pp.241-250
    • /
    • 2008
  • 지능형 교통체계구축과 교통 혼잡이 증가하면서 이용자는 과거보다 양질의 통행시간정보를 요구하고 있다. 기존 연구에서는 단속류, 연속류 모두 AVI검지기 자료를 이용한 이상치제거 및 통행시간 산출에 대한 연구가 많이 이루어져왔다. 현재 한국도로공사에서는 TCS(Toll Collection System)를 기반으로 정보제공을 준비 중에 있으며, TCS 데이터는 운전자가 실제교통상황을 경험한 동적특성을 가진 통행시간이 수집된 자료로 통행시간 추정자료로 잠재력이 크다. 그러나 '시간처짐현상'이 발생하고 속도위반, 휴게소, 고장 등으로 인해 평균통행시간보다 작거나 큰 이상치와 결측데이터가 존재하여 기존 방법을 적용하는데 효과적이지 못한 것으로 나타났다. 따라서 본 연구에서는 TCS 데이터에 맞는 이상치제거 및 결측보정 알고리즘을 개발하였다. 기존알고리즘과 비교한 결과 개발 알고리즘이 더 효과적인 것으로 나타났다.

도심에서의 측정치 추정을 적용한 항법성능 향상 연구 (A Performance Improvement on Navigation Applying Measurement Estimation in Urban Weak Signal Environment)

  • 박슬기;조득재
    • 한국정보통신학회논문지
    • /
    • 제18권11호
    • /
    • pp.2745-2752
    • /
    • 2014
  • 미래의 교통체계를 대비하기 위하여 차량 전자장비의 기술도 급속히 발전하고 있다. 특히, 자율주행의 연구는 활발히 이루어지고 있으며, 정확하고 믿을 수 있는 위치결정이 가장 중요한 요구사항이다. 그러나 도심지역에서 위치결정의 가장 큰 문제점은 위선 신호 단절과 다중경로 오차이다. 본 논문에서는 GPS(Global Positioning System) 단독으로 이상신호를 판단하고 이를 제거 또는 측정치를 추정하여 위치결정하는 방법을 제안하였다. GPS 신호만으로 다중경로 혹은 위성신호차단을 판단하기 위하여 앙각과 신호잡음비 데이터간의 연관관계를 정의하였으며, 이를 기준으로 측정치를 추정할 것인지 제거할 것인지를 결정하며, 정상상태 신호의 시차분 측정치를 이용하여 현재 측정치를 추정할 수 있다. 제안한 알고리즘의 효용성을 검증하기 위하여 차량을 이용하여 도심에서 실험을 수행하였다. 제안한 이상신호 판단 기준을 통하여 전체 실험 수행구간중 이상신호는 11% 발생하였으며, 크게는 100m가량의 오차를 보였다. 이러한 이상신호를 제거하거나 측정치를 추정하여 위치결정 결과 수평측위오차가 RMS 9.48m 향상되었다.

다중 임계치 함수의 TI 웨이브렛 잡음제거 기법 (A Study on Translation-Invariant Wavelet De-Noising with Multi-Thresholding Function)

  • 최재용
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.333-338
    • /
    • 2006
  • 수중 방사소음 측정시 낮은 신호대 잡음비를 가지는 신호에 대해 유용한 신호를 얻기 위해서는 잡음제거가 이루어져야 한다. 본 논문은 잡음제거를 수행하기 위하여 Donoho 등에 의해 제안된 Translation-Invariant (TI) 웨이브렛 기반으로 다중 임계치 함수를 적용한 잡음제거 기법을 제안한다. 기존의 웨이브렛 잡음제거 기법은 특이점 부근에서 Pseudo-Gibbs 현상이 발생하는 문제점이 있다 TI 웨이브렛은 신호의 특성 위치를 변화시켜 Pseudo-Gibbs 현상을 제거한다. 그리고 배경잡음 및 외부잡음을 제거하기 위해 각 노드별 변형된 소프트 임계치를 적용한 다중 임계치 함수를 제안한다. 제안 기법의 타당성을 검토하기 위해 모의 시뮬레이션과 해상실험을 수행한 결과 신호대 잡음비가 23dB 및 18dB 이상 개선됨을 확인하였다.

불안정한 교통류상태에서 TRANSGUIDE 이상치 제거 기법 개선을 통한 교통 통행시간 예측 향상 연구 -DSRC 수집정보를 중심으로- (Study on Enhancement of TRANSGUIDE Outlier Filter Method under Unstable Traffic Flow for Reliable Travel Time Estimation -Focus on Dedicated Short Range Communications Probes-)

  • 모타즈 케들러;윤덕근
    • 한국산학기술학회논문지
    • /
    • 제18권3호
    • /
    • pp.249-257
    • /
    • 2017
  • 신뢰성 있는 통행시간 예측을 위해 DSRC로부터 수집된 통행시간에서의 이상치(outlier) 필터링은 필수이다. 통행시간 예측을 위해 사용되는 보편적 기법인 TRANSGUIDE는 특정 분석 시간동안 통행시간의 변동이 크게 발생하는 조건에서 수집데이터의 이상치 제거를 효율적으로 처리하지 못하는 문제점이 존재한다. 이에 본 연구에서는 TRANSGUIDE의 한계점 을 보완할 수 있는 알고리즘을 제안하고자 한다. TRANSGUIDE가 특정 분석 시간대 충분한 데이터 관측이 어려울 경우 Median Absolute Deviation(MAD)를 이용하여 이상치 제거를 위한 새로운 유효 분석 영역을 설정하였다. 새로운 분석 영역 설정 후 특정 시간대 교통 조건하에서 최대 허용 가능한 이상치를 고려한 변수 ${\alpha}$, ${\beta}$를 제안하였다. 변수 ${\alpha}$, ${\beta}$를 추정하기 위해 과거 데이터와 도로 구간의 특성을 반영하였다. 개발된 알고리즘은 수도권 일반국도 3호선, 2013년 1월 1달간 DSRC 데이터가 존재하는 다차로 일반국도에 적용하였다. 누적상대도수를 이용하여 모형의 정산 수행 후 성능에 대해 정량적 평가를 수행하였다. 개발된 알고리즘은 기존의 TRANSGUIDE가 특정 조건, 즉 일정 분석 시간동안 교통 조건이 급하게 변동되는 구간에서 이상치 제거에 취한한 점을 보완하는 것으로 판단되었다. TRANSGUDIDE가 특정 조건에서 통행시간 예측이 어려울 경우 본 개발 알고리즘은 활용될 것으로 판단한다.