• 제목/요약/키워드: 이상치 처리

검색결과 663건 처리시간 0.036초

하천수위 자료 이상치 점검에 대한 Hampel 필터의 적용성 평가 (Evaluation of applicability of Hampel Filter to outlier check for river water level data)

  • 박희성;김형섭
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.352-352
    • /
    • 2022
  • 수위자료는 기초 수문자료의 하나로서 자료 수집시 이에 대한 품질관리가 반드시 필요하다. 이 과정에서 이상치 여부를 점검하여 이상치로 확인된 경우 소거하거나 수정하는 등의 처리를 해야 한다. 수위자료의 이상치 점검에는 다양한 방법이 있지만 아직 일반화된 방법은 없다. 이에 다양한 방법에 대한 적용가능성을 평가해 볼 필요가 있다. Hampel 필터는 신호처리 시 신호의 이상치를 찾아 보완하려고 개발된 필터이다. 시계열자료에서 이상치를 감지하는 고전적인 접근 방법은 이동평균과 이동표준편차를 이용하는 것이지만 고전적인 이동평균과 이동표준편차는 이상치의 영향을 받는다. 이에 따라 이상치의 추정이 어렵게 되는 경우가 있다. 이에 반하여 Hampel 필터는 이동평균 및 이동표준편차 대신 중앙값과 중앙값 절대편차(Median Absolute Deviation; MAD)를 이용함으로써 더 나은 결과를 얻을 수 있다. Hampel 필터는 신호처리용으로 개발되었기 때문에 부드러운 Sine 곡선에 적합할 것으로 보이며, 이미 하천수위 변화보다는 부드러운 변화를 보이는 저수지수위의 이상치를 점검하기 위해 사용되고 있다. 하지만 변화가 급격하고 첨두가 발생하는 하천의 수위에 대해서도 적용할 수 있는지에 대해서는 평가가 필요하다. 이에 본 연구에서는 신호처리에 사용되는 Hampel 필터를 이용하여 수위자료의 이상치 점검에 적용하고 과거 자료에 기록된 실제 이상치 자료와 비교하여 그 성능을 평가해 보았다.

  • PDF

대용량 데이터 분석을 위한 이상치 제거용 분산처리 환경 (Distributed Processing Environment for Outlier Removal to Analyze Big Data)

  • 홍예진;나은희;정용환;김양우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.73-74
    • /
    • 2016
  • IoT 데이터는 비정형 데이터로 가공되고 분석하였을 때 비로소 가치를 갖기에 전 세계적으로 빅데이터 기술에 관심이 집중되고 있다. IoT 데이터 중 많은 부분을 차치하는 센서 데이터는 수집이 용이하고 활용범위가 넓기 때문에 여러 분야에서 사용되고 있다. 하지만 센서가 정상적으로 작동하지 못한 경우에는 실제와는 다른 값인 이상치를 포함하여 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위하여 수집된 원자료의 데이터를 분석하기 전에 이상치 탐지 및 제거를 하고자 한다. 또한 점점 늘어나고 있는 대용량 데이터를 신속하게 처리하기 위하여 메모리 접근방식인 스파크를 사용한 분산처리환경에서 이상치 탐지 및 제거하는 것을 제안한다. 맵리듀스 기반의 이상치 탐지 및 제거는 총 4단계로 나누어 구현하였으며 제안한 기법의 성능 평가를 위해 총 3가지 환경에서 비교하여 실험하였다. 실험을 통해 데이터의 용량이 커질수록 분산처리환경에서 스파크를 사용하여 처리하는 방식이 가장 빠를 것 이라는 결과를 얻었다.

  • PDF

농촌유역 홍수관리를 위한 자료처리 요소모듈 개발 (Development of data processing component module for the flood management in an agricultural watershed)

  • 이도길;강문성;박지훈;류정훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.289-289
    • /
    • 2016
  • 신뢰성 높은 홍수관리는 경향성 분석, 이상치 판정 등의 전처리를 수행한 입력 자료를 구축하는 것을 필요로 한다. 경향성 분석은 방법에 따라 경향성의 유무가 다르게 나타나기 때문에 하나의 방법으로만 판단하기 어려우며, 이상치 분석은 지역 특성에 따라 기준이 변동하므로 일정한 기준을 적용하기가 어려워 주로 수동으로 이루어지며 이 작업을 완료하는 데에는 많은 시간이 소요된다. 입력 자료 전처리에 수반되는 비용과 시간을 절감하기 위해 이러한 문제점의 개선이 필요한 실정이다. 따라서 본 연구의 목적은 농촌유역 홍수관리를 위한 자료처리 요소 모듈을 개발하는 데 있다. 홍수관리를 위한 자료처리 요소 모듈은 크게 기상자료의 경향성을 분석하는 모듈과 수위자료의 이상치를 탐지하고 판정하는 모듈로 구성하였다. 경향성 분석 모듈은 모수적 방법인 t-test와 비모수적 방법인 Hotelling-Pabst test 및 Mann-Kendall test를 분석 방법으로 제공하여 하나의 입력 자료로 세 가지 방법으로 분석한 결과를 비교할 수 있도록 개발하였다. 이상치 탐지 모듈은 IQR (interquartile range) 규칙과 규칙기반의 방법을 이용한 이상치 탐지를 제공할 수 있도록 개발하였다. 개발된 모듈은 한강 유역의 용당저수지에 적용하여 검정을 실시하였다. 본 연구에서 개발된 농촌유역 홍수관리를 위한 자료처리 요소 모듈은 추후 홍수관리 및 그에 관한 연구를 하는데 있어 활용될 수 있을 것으로 기대된다.

  • PDF

경제조사에서의 이상치 탐지와 처리방법 (Outlier detection and treatment in industrial sampling survey)

  • 주영선;조교영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권1호
    • /
    • pp.131-142
    • /
    • 2016
  • 통계조사에서 이상치는 총계추정에 큰 영향을 줄 수 있다. 통계조사에서 보고된 값은 극단적이 아니지만 그것의 가중치 (weight)가 커서 추정값에 큰 영향을 주거나, 극단값이라 해도 그것이 작은 가중치를 가질 때 추정에 큰 영향을 주지 않는 경우도 있다. 이러한 극단값이나 추정에 영향을 주는 값 들은 표본조사에서 민감하다. 일반적으로 치우친 분포를 가진 모집단에서 추출된 표본으로 조사를 하는 사업체 조사에서는 특별히 더 큰 영향을 준다. 본 연구에서는, 우리는 이상치를 판별하고 처리하는 방법에 대해서 다루고자 한다. 이상치 판별은 분위수에 기초해서 판정하였으며, 판정된 이상치는 여러 가지 다양한 방법을 적용해 보았다. 연구에서는 2가지 winsorised 방법과 세가지 cut-off 방법에 대하여 적용하였다. 그리고 시뮬레이션에서는 4가지 방법의 가중치를 각각 적용하여 진행하였다. 여러 가지 이상치 처리방법들을 비교해 본 결과 type I 윈저화 방법보다는 type II 윈저화 방법이 효율적인 결과값을 보여주었으며, 가중치 변환방법들 중에서는 제곱근 변환을 통한 가중치 감소방법이 다른 처리방법에 비해 좋은 결과값을 보여주었다.

대용량 데이터 분석을 위한 맵리듀스 기반의 이상치 탐지 (Outlier Detection Based on MapReduce for Analyzing Big Data)

  • 홍예진;나은희;정용환;김양우
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.27-35
    • /
    • 2017
  • 가까운 미래에는 빅데이터의 많은 부분을 IoT 데이터가 차지할 것이라는 전망이 나오고 있다. 그에 따라, IoT 데이터의 많은 부분을 차치하는 센서 데이터에 관한 관심과 연구 또한 활발하게 진행되고 있다. 여러 분야에서 활용되고 있는 센서 데이터는 분석할 때 실제와는 다른 값인 이상치를 포함하게 되면 정확한 분석이 어려우며, 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위해 수집된 원자료를 분석하기 전에 이상치 탐지 및 제거를 하였다. 또한, 점점 늘어나고 있는 대용량의 데이터를 빠르게 처리하기 위해 메모리 접근방식인 스파크를 사용한 분산처리환경에서 처리하였다. 맵리듀스 기반의 이상치 탐지 및 제거는 총 4단계로 나누어 구현하였으며, 각 단계를 매퍼와 리듀스로 구현하였다. 제안한 기법의 평가를 위해서 3가지 환경에서 비교하였으며, 그 결과 이상치 탐지 및 제거를 하고자 하는 데이터의 용량이 커질수록 스파크를 이용한 분산처리환경에서의 처리가 가장 빠르다는 결과를 얻었다.

DASVDD 모형을 통한 반려동물 센서 데이터 이상치 탐지 (Detection of outliers in pet sensor data through DASVDD)

  • 박정현;고준혁;김시웅;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1208-1210
    • /
    • 2023
  • 이상치는 주로 저빈도로 발생하기 때문에, 이상치 탐지 분야에서는 정상 데이터만을 이용한 비지도 기반 학습 모델을 사용하는 방법들이 제안되었다. 따라서, 본 논문에서는 반려동물 센서 데이터를 이용해 비지도 기반 모델인 DASVDD을 활용하여 이상치를 탐지한다. 하지만 데이터셋에 이상치가 존재하지 않아 반려동물이 고빈도로 보여주는 A행동군(서다, 앉다, 엎드리다, 눕다, 걷다), 저빈도로 보여주는 B행동군(킁킁대다, 먹다)으로 분리하여 학습을 진행한다. 모델의 성능은 ROC-AUC을 기준으로 79.05%의 성능을 보여주는 것을 확인하였다.

클러스터링 기반 앙상블 모델 구성을 이용한 이상치 탐지 (Outlier Detection By Clustering-Based Ensemble Model Construction)

  • 박정희;김태공;김지일;최세목;이경훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권11호
    • /
    • pp.435-442
    • /
    • 2018
  • 이상치 탐지는 정상 데이터 분포를 크게 벗어나는 데이터 샘플을 탐지하는 것을 의미한다. 대부분의 이상치 탐지 방법은 데이터 샘플이 정상 상태를 벗어나는 정도를 나타내는 이상치 지수(outlier score)를 계산하여 주어진 임계값 이상일 때 이상치로 판정한다. 그러나, 데이터마다 이상치 지수의 범위가 다양하고 정상 데이터에 비해 이상치 데이터는 적은 비율로 존재하기 때문에 이상치 지수에 대한 임계값을 결정하기는 매우 어렵다. 또한, 실제 상황에서는 학습에 이용할 수 있는 충분한 양의 이상치를 포함하는 데이터의 획득이 용이하지 않다. 본 논문에서는 정상 데이터가 주어졌을 때 이를 이용하여 정상 데이터 영역을 나타내는 모델을 구성하고 새로운 데이터 샘플에 대해 이상치와 정상치의 이진 분류를 수행하는 방법으로 군집화 기반 이상치 탐지 방법을 제안한다. 그리고, 주어진 정상 데이터를 청크로 나누고 각 청크에 대해 클러스터링 모델을 구성한 후 모델들에 의한 이상치 판정 결과를 결합하는 앙상블 방법과 동적 변화가 있는 스트리밍 데이터에서의 적용 방법으로 확장한다. 실제 데이터와 인공 데이터를 이용한 실험결과는 제안 방법의 높은 성능을 보여준다.

재무 시계열 자료 분석을 위한 로버스트 추정방법 (The Robust Estimation Method for Analyzing the Financial Time Series Data)

  • 김상용
    • 응용통계연구
    • /
    • 제21권4호
    • /
    • pp.561-569
    • /
    • 2008
  • 본 논문은 재무 시계열 자료에서 흔히 나타나는 이상치를 처리하기 위하여 이중 로버스트 추정함수를 제시하였다. 이중 로버스트 추정 방정식의 해인 로버스트 추정치를 이용하여 ARCH모형과 GARCH 모형 하에서 이상치를 처리하였다. 또한 실제 주가자료를 응용하여 기존의 최소제곱추정치보다 로버스트 추정치나 이중 로버스트 추정치의 성능이 우수함을 보였다.

모바일 기기에서 이상치 데이터 처리 정책에 따른 배터리 잔여 시간 예측 기법의 평가 (Performance Evaluation of Battery Remaining Time Estimation Methods According to Outlier Data Processing Policies in Mobile Devices)

  • 탁성우
    • 한국정보통신학회논문지
    • /
    • 제26권7호
    • /
    • pp.1078-1090
    • /
    • 2022
  • 모바일 기기 배터리의 잔여 시간 예측은 배터리 잔량별 사용 시간 데이터의 분포 특성에 영향을 받는다. 특히 이상치 데이터가 존재하는 경우, 통계적 회귀 기법의 예측 성능을 왜곡시킬 수 있다. 이에 본 논문에서는 통계적 회귀 기법의 예측 성능 향상을 위해 이상치 데이터를 탐지 및 처리하는 프레임워크를 제안하였다. 제안한 프레임워크는 먼저 배터리 잔여 시간 예측에 영향을 주는 이상치 데이터를 탐지한다. 탐지된 이상치 데이터는 평활 과정을 통해 새로운 값으로 치환된 후, 이상치 데이터와 치환된 데이터 간의 차이를 개별 데이터에 분배한다. 마지막으로 개별 데이터를 재강화하여 예측 성능을 향상시키고자 한다. 제안한 프레임워크의 성능 분석을 수행한 결과, 배터리 잔여 시간의 예측 성능이 향상됨을 확인하였다.

함수근사를 위한 로버스트 역전파 알고리즘 (A Robust Propagation Algorithm for Function Approximation)

  • 김상민;황창하
    • 한국정보처리학회논문지
    • /
    • 제4권3호
    • /
    • pp.747-753
    • /
    • 1997
  • 함수근사는 과학과 공학분야에서 광범위하게 응용된다. 다층 전방향 신경망은 비선형 함수근사를 위한 도구로서 제안되어져 왔으며, 다층 신경망을 학습시키기 위한 학습 알고리즘으로 역전파 알고리즘이 널리 이용되어져 왔다. 그러나 이상치(outlier) 를 포함한 학습자료가 존재할 때에는 학습되는 함수는 존재하는 모든 자료 사이를 보간 하므로 이상치가 있는 자료의 위치까지도 보간 하여, 원하지 않은 구조를 파악하게 된다. 따라서 이상치의 영향을 최소화 시키기 위해 본 논문에서는 로버스트 에너지 함수를 유도하여 개량된 로버스트 역전파 알고리즘을 제안한다.

  • PDF