• 제목/요약/키워드: Outlier model

검색결과 213건 처리시간 0.033초

A Study on Applications of Regression Diagnostic Method to Technometrics, and the Statistical Quality Control

  • Kim, Soon-Kwi
    • 품질경영학회지
    • /
    • 제21권1호
    • /
    • pp.55-64
    • /
    • 1993
  • This article is concerned with procedures for detecting one or more outliers or influential observations in a linear regression model. A test procedure, based on recursive residuals is proposed and developed The power of the test procedure to identify one or more outliers is investigated through simulation, and its relevance to the number and configuration of the outlier.

  • PDF

가무시안 혼합모델에서 점진적 강인적응을 통한 화자확인 성능개선 (Performance Enhancement for Speaker Verification Using Incremental Robust Adaptation in GMM)

  • 김은영;서창우;임영환;전성채
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.268-272
    • /
    • 2009
  • 본 논문에서는 화자확인을 위해서 가우시안혼합모델에 forgetting factor를 갖는 점진적 강인적응 방법을 제안하였다. 화자인식 시스템에서 적은 양의 데이터로 좋은 성능을 얻기 위하여 화자모델 적응방법이 사용되고 있다. 그러나, 현재 사용되고 있는 적응방법은 불규칙한 발성변화와 잡음 같은 이씨에 취약하고, 그것은 부정확한 화자모델을 만들 수 있다. 또한 시간이 지날수록 모델에 새로운 데이터가 적응되는 비율이 줄어들게 되는 문제점이 있다. 제안된 알고리즘은 가우시안혼합모델을 이용한 화자모델에서 이상치에 의한 왜곡과 새로운 데이터에 대한 적응 비율을 일정이상으로 유지할 수 있도록 하기 위하여 점진적 강인적응 방법을 제안하였다. 점진적 강인적응은 화자인식에서 적은 양의 데이터로 등록하고 테스트된 새로운 데이터로 모델을 적응시키는 방법이다. 실험결과는 7개월에 걸쳐서 수집된 데이터로부터 제안된 방법이 이상치에 강인하고 새로운 데이터의 적응 비율을 일정하게 유지시킴을 보였다.

상수관망의 누수감지를 위한 주성분 분석의 적용 가능성에 대한 연구 (Study on the applicability of the principal component analysis for detecting leaks in water pipe networks)

  • 김기민;박수완
    • 상하수도학회지
    • /
    • 제33권2호
    • /
    • pp.159-167
    • /
    • 2019
  • In this paper the potential of the principal component analysis(PCA) technique for the application of detecting leaks in water pipe networks was evaluated. For this purpose the PCA was conducted to evaluate the relevance of the calculated outliers of a PCA model utilizing the recorded pipe flows and the recorded pipe leak incidents of a case study water distribution system. The PCA technique was enhanced by applying the computational algorithms developed in this study which were designed to extract a partial set of flow data from the original 24 hour flow data so that the effective outlier detection rate was maximized. The relevance of the calculated outliers of a PCA model and the recorded pipe leak incidents was analyzed. The developed algorithm may be applied in determining further leak detection field work for water distribution blocks that have more than 70% of the effective outlier detection rate. However, the analysis suggested that further development on the algorithm is needed to enhance the applicability of the PCA in detecting leaks by considering series of leak reports happening in a relatively short period.

시계열 이상치 탐지 기법을 활용한 경부선 주요도시 철도 승객수의 이상치 탐색 연구 (A Study on the Outliers Detection in the Number of Railway Passengers for the Gyeongbu Line From Seoul to Major Cities Using a Time Series Outlier Detection Technique)

  • 이지선;윤윤진
    • 대한교통학회지
    • /
    • 제35권6호
    • /
    • pp.469-480
    • /
    • 2017
  • 2004년 4월 1일, 국내 최초의 고속철도(HSR)인 KTX (Korea Train eXpress)가 경부선에 도입 되었다. KTX의 등장은 경부선을 이용하는 철도 승객들의 운송수단 선택 및 도시구간별 이용객 수 변화를 가져왔다. KTX의 등장과 같은 개입사건(Intervention events)의 영향은 개입사건 전후 변화를 단순 통계량으로 분석하거나 개입 ARIMA 모델을 통해 분석 되었다. 개입 ARIMA 모델은 개입사건의 발생 시점(t)과 개입사건의 영향 형태(type) 등의 가정이 필요하다는 한계가 있었으며, 본 연구에서는 기존 연구에서의 한계점을 보완할 수 있는 시계열 이상치 탐지(time series outlier detection)를 활용하였다. 일반적으로 개입사건의 발생시기는 잘 알려져 있지 않으므로 시계열 이상치 탐지를 통해 개입사건에의 발생 시기를 추정할 수 있다. 시계열 이상치 탐지기법을 활용하여 개입의 시점과 영향 형태에 관한 가정 없이 개입사건에 대한 영향을 분석할 수 있으며, 발생된 이상치의 시점을 개입사건의 시점, 이상치의 영향을 개입사건의 영향으로 가정하였다. 데이터는 KTDB (Korea Transport Database)로 부터 KTX가 도입되기 이전인 2003년부터 2014년까지 12년 동안의 경부선(4개의 주요 도시구간 합산)을 포함한 주요 도시구간 4개의 월별데이터를 수집하여 활용하였다. 경부선 도시 구간별 이상치를 탐지 하고 그 영향을 분석한 결과, 동일한 개입사건 임에도 그 영향의 형태의 정도가 도시구간마다 다르게 나타나거나 영향이 나타나지 않았으며, 기존 연구에서 분석되지 않은 개입사건을 찾을 수 있었다.

불안정한 교통류상태에서 TRANSGUIDE 이상치 제거 기법 개선을 통한 교통 통행시간 예측 향상 연구 -DSRC 수집정보를 중심으로- (Study on Enhancement of TRANSGUIDE Outlier Filter Method under Unstable Traffic Flow for Reliable Travel Time Estimation -Focus on Dedicated Short Range Communications Probes-)

  • 모타즈 케들러;윤덕근
    • 한국산학기술학회논문지
    • /
    • 제18권3호
    • /
    • pp.249-257
    • /
    • 2017
  • 신뢰성 있는 통행시간 예측을 위해 DSRC로부터 수집된 통행시간에서의 이상치(outlier) 필터링은 필수이다. 통행시간 예측을 위해 사용되는 보편적 기법인 TRANSGUIDE는 특정 분석 시간동안 통행시간의 변동이 크게 발생하는 조건에서 수집데이터의 이상치 제거를 효율적으로 처리하지 못하는 문제점이 존재한다. 이에 본 연구에서는 TRANSGUIDE의 한계점 을 보완할 수 있는 알고리즘을 제안하고자 한다. TRANSGUIDE가 특정 분석 시간대 충분한 데이터 관측이 어려울 경우 Median Absolute Deviation(MAD)를 이용하여 이상치 제거를 위한 새로운 유효 분석 영역을 설정하였다. 새로운 분석 영역 설정 후 특정 시간대 교통 조건하에서 최대 허용 가능한 이상치를 고려한 변수 ${\alpha}$, ${\beta}$를 제안하였다. 변수 ${\alpha}$, ${\beta}$를 추정하기 위해 과거 데이터와 도로 구간의 특성을 반영하였다. 개발된 알고리즘은 수도권 일반국도 3호선, 2013년 1월 1달간 DSRC 데이터가 존재하는 다차로 일반국도에 적용하였다. 누적상대도수를 이용하여 모형의 정산 수행 후 성능에 대해 정량적 평가를 수행하였다. 개발된 알고리즘은 기존의 TRANSGUIDE가 특정 조건, 즉 일정 분석 시간동안 교통 조건이 급하게 변동되는 구간에서 이상치 제거에 취한한 점을 보완하는 것으로 판단되었다. TRANSGUDIDE가 특정 조건에서 통행시간 예측이 어려울 경우 본 개발 알고리즘은 활용될 것으로 판단한다.

Fuzzy c-Regression Using Weighted LS-SVM

  • Hwang, Chang-Ha
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2005년도 추계학술대회
    • /
    • pp.161-169
    • /
    • 2005
  • In this paper we propose a fuzzy c-regression model based on weighted least squares support vector machine(LS-SVM), which can be used to detect outliers in the switching regression model while preserving simultaneous yielding the estimates of outputs together with a fuzzy c-partitions of data. It can be applied to the nonlinear regression which does not have an explicit form of the regression function. We illustrate the new algorithm with examples which indicate how it can be used to detect outliers and fit the mixed data to the nonlinear regression models.

  • PDF

해양 이상 자료 탐지를 위한 오토인코더 활용 기법 최적화 연구 (An Outlier Detection Using Autoencoder for Ocean Observation Data)

  • 김현재;김동훈;임채욱;신용탁;이상철;최영진;우승범
    • 한국해안·해양공학회논문집
    • /
    • 제33권6호
    • /
    • pp.265-274
    • /
    • 2021
  • 해양 이상 자료 탐지의 연구는 이전부터 활발하게 이루어지고 있으며, 통계 및 거리 기반의 기계 학습 알고리즘을 활용하는 기법들이 개발되었다. 최근에는 AI 기반의 해양 자료 이상 탐지 기법이 많은 관심을 받고 있으며, AI를 활용한 해양 이상 자료 탐지 기법은 정답이 주어지는 지도학습 기법이 주를 이루고 있다. 이러한 방법은 학습에 필요한 모든 자료에 수작업으로 분류 정보(라벨)를 지정해야 한다는 점에서 많은 시간과 비용이 요구된다. 본 연구에서는 이러한 문제를 극복하기 위해 비지도학습 기반의 오토인코더를 이상 자료 탐지 기법에 사용하였다. 실험으로는 오토인코더의 평가를 위해 단변수·다변수학습 두가지 실험을 구성하였고, 단변수 학습은 기상청에서 제공하는 덕적도 부이 정점 관측 자료 중 수온만 사용하였으며, 다변수 학습은 수온과 기온, 풍향, 풍속, 기압, 습도 등을 사용하였다. 사용기간은 1996~2020년의 25년간이며 학습 자료에 해양-기상 자료의 특성을 고려한 전처리 기법을 적용하였다. 학습된 다변수와 단변수 오토인코더를 활용하여 실제 표층 수온에 대한 이상 탐지를 시도하였다. 모델성능 비교를 위해 오차를 삽입한 합성 자료에 다변수와 단변수 오토인코더를 포함한 여러 이상 탐지 기법을 적용하여 정량적으로 평가하였으며, 다변수/단변수의 정확도가 각각 약 96%/91%로써 다변수 오토인코더가 더 나은 이상자료 탐지 성능을 보였다. 오토인코더를 이용한 비지도학습 기반 이상 탐지 기법은 주관적 판단에 의한 오류와 자료 라벨링에 필요한 시간과 비용을 줄일 수 있다는 점에서 다양하게 활용될 것으로 판단된다.

환자 IQR 이상치와 상관계수 기반의 머신러닝 모델을 이용한 당뇨병 예측 메커니즘 (Diabetes prediction mechanism using machine learning model based on patient IQR outlier and correlation coefficient)

  • 정주호;이나은;김수민;서가은;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1296-1301
    • /
    • 2021
  • 최근 전 세계적으로 당뇨병 유발률이 증가함에 따라 다양한 머신러닝과 딥러닝 기술을 통해 당뇨병을 예측하려고 는 연구가 이어지고 있다. 본 연구에서는 독일의 Frankfurt Hospital 데이터로 머신러닝 기법을 활용하여 당뇨병을 예측하는 모델을 제시한다. IQR(Interquartile Range) 기법을 이용한 이상치 처리와 피어슨 상관관계 분석을 적용하고 Decision Tree, Random Forest, Knn, SVM, 앙상블 기법인 XGBoost, Voting, Stacking로 모델별 당뇨병 예측 성능을 비교한다. 연구를 진행한 결과 Stacking ensemble 기법의 정확도가 98.75%로 가장 뛰어난 성능을 보였다. 따라서 해당 모델을 이용하여 현대 사회에 만연한 당뇨병을 정확히 예측하고 예방할 수 있다는 점에서 본 연구는 의의가 있다.

실선에 의한 표류 예측모델에 관한 연구 (Study of estimated model of drift through real ship)

  • 이창헌;김광일;유상록;김민선;한승훈
    • 수산해양기술연구
    • /
    • 제60권1호
    • /
    • pp.57-70
    • /
    • 2024
  • In order to present a predictive drift model, Jeju National University's training ship was tested for about 11 hours and 40 minutes, and 81 samples that selected one of the entire samples at ten-minute intervals were subjected to regression analysis after verifying outliers and influence points. In the outlier and influence point analysis, although there is a part where the wind direction exceeds 1 in the DFBETAS (difference in Betas) value, the CV (cumulative variable) value is 6%, close to 1. Therefore, it was judged that there would be no problem in conducting multiple regression analyses on samples. The standard regression coefficient showed how much current and wind affect the dependent variable. It showed that current speed and direction were the most important variables for drift speed and direction, with values of 47.1% and 58.1%, respectively. The analysis showed that the statistical values indicated the fit of the model at the significance level of 0.05 for multiple regression analysis. The multiple correlation coefficients indicating the degree of influence on the dependent variable were 83.2% and 89.0%, respectively. The determination of coefficients were 69.3% and 79.3%, and the adjusted determination of coefficients were 67.6% and 78.3%, respectively. In this study, a more quantitative prediction model will be presented because it is performed after identifying outliers and influence points of sample data before multiple regression analysis. Therefore, many studies will be active in the future by combining them.

저궤도 인공위성의 센서 및 구동기 통합 고장검출 및 분리 기법 (An Integrated Fault Detection and Isolation Method for Sensors and Actuators of LEO Satellite)

  • 임준규;이준한;박찬국
    • 제어로봇시스템학회논문지
    • /
    • 제17권11호
    • /
    • pp.1117-1124
    • /
    • 2011
  • An integrated fault detection and isolation method is proposed in this paper. The main objective of this paper is development fault detection, isolation and diagnosis algorithm based on the DKF (Decentralized Kalman Filter) and the bank of IMM (Interacting Multiple Model) filters using penalty scalar for both partial and total faults and the outlier detection algorithm for preventing false alarm also included. The proposed FDI (Fault Detection and Isolation) scheme is developed in four phases. In the first phase, the outlier detection filter is designed to prevent false alarm as a pre-filter. In the second phases, two local filters and master filter are designed to detect sensor faults. In the third phases, the proposed FDI scheme checks sensor residual to isolate sensor faults and 11 EKFs actuator fault models are designed to detect wherever actuator faults occur. In the last phases, four filters are designed to identify the fault type which is either the total fault or partial fault. The developed scheme can deal with not only sensor and actuator faults, but also preventing false alarm. An important feature of the proposed FDI scheme can decreases fault isolation time and figure out not only fault detection and isolation but also fault type identification. To verify the proposed FDI algorithm performance, the Simulator is also developed under the Matlab/Simulink environment.