• 제목/요약/키워드: 이상치 데이터 감소

검색결과 41건 처리시간 0.038초

강우센서에서 생성된 강우정보를 이용한 선형회귀분석과 대역 통과 필터링 분석간의 정확도 비교

  • 김영곤;이석호;김병식
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.172-172
    • /
    • 2017
  • 본 연구는 차량의 AW(AutoWiping) 기능을 위해 장착된 강우센서를 이용하여 강우정보를 생산하는 기술을 개발하고자 하였다. AW(AutoWiping) 기능이란 차량 앞창(Windshield)에 빗방울이 맺히게 되면 광신호의 산란으로 인해 수광부에 들어오는 감소되는 광신호의 정도에 따라 차량 와이퍼의 속도를 결정해 주는 기능이다. 빗방울이 많이 맺힐수록 광신호는 감소되며 와이퍼는 더 빠른 속도로 작동을 하게 된다. 여기서 강우센서가 강우량이 많으면 감소된 광신호 데이터를 표출하는 현상을 이용하여 강우정보를 생산한다. 강우센서는 총 8개의 채널로 이루어져있고, 초당 250개의 광신호 데이터를 수집하며, 10분이면 약 120만 개의 데이터가 생산되게 된다. 이 대량의 데이터에서 정확한 강우량을 산출하기 위해 강우센서의 초기값과 와이퍼 이동시 발생하는 순간 이상치를 제거해야 한다. 하지만 일일이 수백만 개 이상의 데이터에서 모든 이상치를 제거하는 작업은 불가능하다. 따라서 이상치를 포함한 회귀 분석 방법을 연구하였고, 인공강우 발생기를 이용하여 광신호를 강우량으로 환산하는 2가지 회귀식이 유도되었다. 이들은 각각 이상치를 모두 포함시켜 독립변수(광신호)에 따라 종속변수(강우량)의 값이 변화하는 관계를 나타내는 선형회귀분석(model 1), 임계치를 정하여 일정 이상치가 제거된 신호만 통과시키는 대역통과 필터링 분석(model 2)으로 유도된 회귀식을 실강우에 회귀식을 적용하여 정확도를 분석하였다.

  • PDF

LSTM 오토인코더를 활용한 축산 환경 시계열 데이터의 이상치 탐지: 경계값 설정에 따른 성능 비교 (Anomaly Detection in Livestock Environmental Time Series Data Using LSTM Autoencoders: A Comparison of Performance Based on Threshold Settings)

  • 정세연;김상철
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.48-56
    • /
    • 2024
  • 축산업에서 환경의 이상치 탐지와 데이터 예측은 매우 중요한 과제이다. 대부분 시계열 데이터로 수집되는 축산 환경 데이터의 이상치는 급격한 생육환경의 변화와 예상치 못한 전염병의 징후를 나타낼 수 있으므로 이상치를 빠르게 탐지하는 것이 중요하다. 이상치의 빠른 탐지와 효과적인 대응은 가축의 스트레스를 최소화하고 전염병 발생 환경을 조기에 발견하여 농가의 경제적인 손실을 감소시키는 역할을 할 수 있다. 본 연구에서는 축산환경 데이터의 이상치 탐지 분야에서 이상치를 규정하는 경계값(Threshold) 설정에서 두 가지 설정 방법을 이용하여 실험하고 성능을 비교하였다. Mean Squared Error(MSE)를 활용한 이상치 탐지 방법과 Dynamic Threshold를 이용한 이상치 탐지 방법을 이용하여 이를 통해 주어진 이전 데이터의 평균값과의 변동성을 분석하여 이상 상황을 식별하는 연구를 진행하였다. MSE를 활용한 이상치 탐지 방법은 94.98% 정확도를 보였고 표준편차를 활용한 Dynamic Threshold 방법은 99.66%정확도로 성능이 더 우수함을 확인할 수 있었다.

Outlier Impact on the Power of Significance Test for Cronbach Alpha Reliability Coefficient

  • Yonghwan Um
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.179-187
    • /
    • 2023
  • 본 논문은 크론바흐 알파 신뢰계수의 유의성 검정에서 이상치가 검정력에 미치는 영향을 연구한 것이다. 표본 크기, 문항들의 수, 이상치의 수, 모집단의 크론바흐 알파 레벨의 네 개의 변수들에 변화를 주었다. 데이터 시물에이션을 위해 다변량 정규분포를 사용했고 균일분포로부터 이상치를 추출하여 사용했다. 크론바흐 알파 신뢰도의 유의성 검정을 위해 모수적 검정(F 검정)과 퍼뮤테이션 검정을 사용하였다. 결과적으로 퍼뮤테이션 검정의 검정력은 F검정의 검정력 보다 크거나 같았고, 두 검정의 검정력은 모두 이상치의 수가 많아질수록 감소하였으며 이러한 이상치의 영향은 모집단의 알파 레벨이 증가할수록 크게 나타났다.

대규모 IoT 환경에서의 중복 및 비정상 데이터 처리 기법 (Redundant and Abnormal Data Processing Scheme in Large-scale IoT Environment)

  • 김민우;이태호;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.109-110
    • /
    • 2019
  • 최근 IoT 환경에서는 고밀도로 노드가 분포되어진다. 이러한 센서 노드들은 데이터 전송 시 혼잡을 초래하는 중복 데이터를 생성하여 데이터의 정확도를 저하시킨다. 이에 따라 본 연구에서는 데이터 집중으로 인해 발생하는 네트워크의 정체 문제를 해결하기 위해 제안 기법은 사 분위(Interquatile, IRQ) 분석과 코사인 유사도 함수를 통해 데이터의 이상치와 중복성을 측정하여 중복 데이터 및 특이치를 제거한다. 본 연구를 통하여 최적의 데이터 전송을 통하여 IoT의 통신 성능을 향상시킬 수 있으며 결과적으로 데이터 감소율, 네트워크 수명 및 에너지의 효율성을 높일 수 있다.

  • PDF

경제조사에서의 이상치 탐지와 처리방법 (Outlier detection and treatment in industrial sampling survey)

  • 주영선;조교영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권1호
    • /
    • pp.131-142
    • /
    • 2016
  • 통계조사에서 이상치는 총계추정에 큰 영향을 줄 수 있다. 통계조사에서 보고된 값은 극단적이 아니지만 그것의 가중치 (weight)가 커서 추정값에 큰 영향을 주거나, 극단값이라 해도 그것이 작은 가중치를 가질 때 추정에 큰 영향을 주지 않는 경우도 있다. 이러한 극단값이나 추정에 영향을 주는 값 들은 표본조사에서 민감하다. 일반적으로 치우친 분포를 가진 모집단에서 추출된 표본으로 조사를 하는 사업체 조사에서는 특별히 더 큰 영향을 준다. 본 연구에서는, 우리는 이상치를 판별하고 처리하는 방법에 대해서 다루고자 한다. 이상치 판별은 분위수에 기초해서 판정하였으며, 판정된 이상치는 여러 가지 다양한 방법을 적용해 보았다. 연구에서는 2가지 winsorised 방법과 세가지 cut-off 방법에 대하여 적용하였다. 그리고 시뮬레이션에서는 4가지 방법의 가중치를 각각 적용하여 진행하였다. 여러 가지 이상치 처리방법들을 비교해 본 결과 type I 윈저화 방법보다는 type II 윈저화 방법이 효율적인 결과값을 보여주었으며, 가중치 변환방법들 중에서는 제곱근 변환을 통한 가중치 감소방법이 다른 처리방법에 비해 좋은 결과값을 보여주었다.

IP 기반 흔합 무선데이터망에서의 핸드오프 제어방식 연구 (Handoff Control Scheme for IP Based Hybrid Mobile Data Network)

  • 권수근
    • 한국멀티미디어학회논문지
    • /
    • 제7권5호
    • /
    • pp.680-688
    • /
    • 2004
  • 본 논문에서는 셀룰러이동망과 무선 LAN과의 핸드오프시 발생하는 급격한 데이터 전송율 변화를 고려한 새로운 핸드오프 방식을 제안한다. 이 방식에서는 고속의 무선 LAN에서 셀룰러망으로 이동국이 진행하는 경우 무선 LAN의 비콘신호의 세기가 일정 치 이상 감소하면 이에 비례하여 데이터의 전송율을 줄이며 이후 데이터 전송율이 일정치 이하로 감소하거나 무선 LAN과의 통신이 더 이상 불가한 경우 셀룰러망으로 핸드오프를 시킨다. 이에 따라 좀 더 많은 데이터를 전송이 가능하며 또한 급격한 데이터 전송율의 변화에 따라 요구되는 시스템 내부의 데이터 저장 버터의 크기도 줄일 수 있다. 성능분석 결과 기존에 방식에 비해 전송이득 측면에서는 호의 전송율이 2,048kbps이고 이동국의 속도가 1Km/hr 인 경우 약 180Mbytes의 정보를 추가적으로 전송할 수 있으며, 전송율의 변화에 따라 필요한 시스템 내부 데이터 버퍼의 크기는 위의 조건에서 1/2 정도로 줄어듦을 확인하였다.

  • PDF

지능형 다짐값의 공간적 분포를 고려한 이상치 분석 기법 연구 (Study on Outlier Analysis Considering the Spatial Distribution of Intelligent Compaction Measurement Values)

  • 정택규;조진우;정충기;백성하
    • 한국지반공학회논문집
    • /
    • 제40권4호
    • /
    • pp.91-103
    • /
    • 2024
  • 본 연구에서는 전체 시공영역에 대해 연속적으로 도출되는 지능형 다짐값의 높은 변동성과 관련한 문제를 해결하기 위해서, 지능형 다짐값의 공간적 분포를 고려한 이상치 분석 기법을 제안하였다. 제안된 기법에서는 다짐횟수 증가에도 불구하고 특정 위치에서 측정된 CMV가 감소하는 경우를 1차적으로 선별하고, 유효반경 1.5m 내에서 측정된 값들과의 차이가 큰 값들을 이상치로 판별한다. 본 연구에서 제안된 이상치 분석 기법을 현장시험에서 측정된 CMV 데이터에 적용한 결과, 지반의 내재적 불균질성은 고려하면서 다짐 품질과 관계없는 다짐롤러 구동조건의 변화에 따른 영향만을 배제할 수 있는 것으로 나타났다. 이상치 제거 후 CMV의 변동계수는 21.4~26.3%로 산정되었으며 관련 기준(20%)에서 제시하고 있는 수치보다 크게 나타났다. 추후 제안된 이상치 분석 기법에 여러 현장시험 데이터를 적용하여 고도화하고 지능형 다짐값의 변동성에 대한 합리적인 기준을 제안해야 할 것으로 판단된다.

고온 고속 노즐부위에서의 열전달

  • 장태호
    • 기계저널
    • /
    • 제25권3호
    • /
    • pp.236-241
    • /
    • 1985
  • 본 고에서는 일반적으로 노즐 부위 열해석에서 무시되는 복사열전달율과 점성소산효과를 수치적 모델을 통하여 그 필요성 여부를 조사한 것이며 다음과 같은 결론을 얻었다. (1)연소실 및 수 렴부위에서는 복사열전달율이 대류열전달율과 같은 차수의 크기로 나타나고 있어서 고 복사율을 갖는 연소가스에서는 특히 중요하다. 특히 최근에 많이 사용되는 연료에는 연소가스에 산화알 루미늄 성분이 증가하는 추세이므로 노즐부위 열해석에는 복사열전달이 차지하는 비중이 커질 것이다. (2)노즐의 확산부위에서는 고속으로 인하여 가스자체의 점성소산이 일어나 특성치 보 정계수 값이 감소한다. 따라서 Bartz의 예측치 보다는 열전달계수의 값이 적어지고 있다. (3) 따라서 노즐수렴부위에서는 일반적으로 Bartz의 예상치보다 높고 확산부에서는 낮은 결과를 얻 었던 실험결과와를 비교할 때 고온고속 노즐에서의 열전달해석은 복사 열전달과 점성열 소산을 고려함으로써 정확하게 될 수 있다. (4)이상 고려된 실험 데이터와 수치모델의 고찰은 노즐내의 침식이 없는 경우이나 실제의 경우 노즐벽 표면에서 화학적 반응이 일어난다. 그러나 이때 발 생될 수 있는 순수한 발한효과는 미미하며 단지 전체적인 단면의 열 해석시 상기에서 예측된 열전달율을 근간으로 화학반응열 및 온도분포를 계산하여야 할 것이다.

  • PDF

기계학습법을 이용한 IoMT 핀테크 모델을 기반으로 한 구조화 스토리지에서의 빅데이터 관리 연구 (Big Data Management in Structured Storage Based on Fintech Models for IoMT using Machine Learning Techniques)

  • 김경실
    • 산업과 과학
    • /
    • 1권1호
    • /
    • pp.7-15
    • /
    • 2022
  • 사물인터넷(IoT) 기술은 최근 의료사물인터넷(IoMT)으로 정의된 대량의 의료 데이터를 처리하여 발전을 위해 개발된 의료분야에서 많이 활용되고 있다. 수집된 광범위한 의료 데이터는 수집된 의료 데이터를 처리하기 위해 구조화된 방식으로 클라우드에 저장된다. 그러나 방대한 양의 의료 데이터를 효과적으로 처리하는 것은 쉽지 않기 때문에 의료분야 구조 데이터를 개발하는 것이 필요하다. 본 논문에서는 IoMT에서 수집된 구조화된 건강 관리 데이터를 처리하기 위한 기계 학습 모드를 개발하였다. 광범위한 의료 데이터를 처리하기 위해 본 논문에서는 의료 데이터 처리를 위한 MTGPLSTM 모델을 제안하였다. 제안된 모델은 의료 정보 처리를 위한 선형 회귀 모델을 통합한다. 개발된 모델 이상치 모델은 IoMT에서 수집된 COVID-19 의료 데이터들의 평가 및 예측을 위해 FinTech 모델을 기반으로 구현되었다. 제안된 MTGPLSTM 모델은 감염 확산 방지를 위한 계획 계획을 예측하고 평가하기 위한 회귀 모델로 구성된다. 개발된 모델 성능은 LR, SVR, RFR, LSTM 및 제안된 MTGPLSTM 모델과 같은 서로 다른 분류기를 고려하였으며 1GB, 2GB, 3GB 등 데이터 크기가 다르다는 점도 주요하게 고려되었다. 제안된 MTGPLSTM 모델이 전 세계 데이터에 대해 최대 4% 감소된 MAPE 및 RMSE 값을 달성하였고 중국의 경우 기존 분류기보다 최대 6% 최소인 최소 MAPE(0.97)이 달성되었다.

인간 지식을 이용한 경험적 의사결정트리의 설계 (Design of Heuristic Decision Tree (HDT) Using Human Knowledge)

  • 윤태복;이지형
    • 한국지능시스템학회논문지
    • /
    • 제19권4호
    • /
    • pp.525-531
    • /
    • 2009
  • 데이터 마이닝(Data Mining)은 수집된 데이터로 부터 감춰진 패턴을 찾는 작업이다. 여기에서 수집된 데이터는 예측 및 추천을 위한 기반 정보로 중요한 역할을 하며, 분석 결과의 성능을 향상시키기 위해 잘못된(Missing value) 데이터를 선별하는 과정을 필요로 한다. 수집한 데이터에서 의도하지 못한 데이터를 선별하기 위한 기존의 방법은 주로 통계적이거나 단순 거리(Distance)에 기반을 둔 방법을 이용하였다. 하지만 환경 및 데이터의 특성을 고려하지 못하여, 의미 있는 데이터도 함께 분석에서 제외 될 수 있는 문제점을 가지고 있다. 본 논문은 인간의 경험적 지식을 수집된 데이터와 비교하여 가중치로 변환하고, 의사결정트리(Decision Tree)의 생성에 이용한다. 생성된 트리는 인간의 지식이 반영되어 기존의 분석 방법보다 신뢰성이 높다고 할 수 있으며, 실험을 통하여 제안하는 방법의 유효성을 확인하였다.