• 제목/요약/키워드: 결측치 보간

검색결과 11건 처리시간 0.031초

글로벌 기후 관측자료 품질관리 기법 개발 (Development of quality control techniques for global climate observations)

  • 이재승;김선호;배덕효
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.104-104
    • /
    • 2019
  • 기후 관측자료의 경우 관측, 가공, 전송 중에 오류가 발생할 수 있으며, 특히 글로벌 기후자료는 다양한 조건을 가지고 있는 자료를 수집하였기 때문에 일반적으로 해당 국가 관측자료보다 품질이 낮다. 본 연구에서는 글로벌 기후 관측자료의 품질을 개선할 수 있는 품질관리 기법을 개발하고 국내 지역에 적용해보고자 한다. 연구대상지역으로 국내 대표도시 7 곳을 선정하였으며, 글로벌 기후자료는 NCDC (National Climatic Data Center)의 일 단위 GSOD (Global Surface Summary of the Day) 자료를 수집하였다. 품질관리는 강수와 기온에 대해서 실시하였으며 과정은 크게 이상치 검사, 이상치 및 결측치 보정, 연, 월 단위 기후 자료 산정으로 구분된다. 이상치 검사는 중복성 검사, 내적일치성 검사, 기후범위 검사, 공간동질성 검사를 기반으로 구성되어 있다. 이상치 및 결측치 보정은 인접 관측소의 자료를 보간하여 수행하였으며, 보간기법은 4 방향 역거리 가중법을 활용하였다. 연, 월 단위 자료 산정은 자료의 결측률을 고려하여 일 단위 자료를 연, 월 단위 자료로 변환하는 과정이다. 이상치 검사 결과 대부분의 이상치는 기후범위와 공간동질성 검사에서 발견되는 것으로 나타났으며, 중복성 및 내적일치성 검사는 이상치 검출 효과가 적은 것으로 나타났다. 결측치 및 이상치 보간 결과 추정된 자료와 관측값 간의 상관관계가 있는 것으로 나타나 활용성이 있었다. 본 연구는 글로벌 자료의 품질관리 기법을 제시하였다는 점에서 활용성이 있으며, 향후 품질관리 기법의 검증에 관한 연구를 수행할 필요가 있다.

  • PDF

펫 헬스 케어 서비스를 위한 GATs 기반 센서 데이터 처리 기법 설계 (Design of Sensor Data's Missing Value Handling Technique for Pet Healthcare Service based on Graph Attention Networks)

  • 이지훈;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.463-465
    • /
    • 2021
  • 센서 데이터는 여러가지 원인으로 인해 데이터 결측치가 발생할 수 있으며, 결측치로 인한 데이터의 처리 방식에 따라 데이터 분석 결과가 다르게 해석될 수 있다. 이는 펫 헬스 케어 서비스에서 치명적인 문제로 연결될 수 있다. 따라서 본 논문에서는 펫 웨어러블 디바이스로부터 수집되는 다양한 센서 데이터의 결측치를 처리하기 위해 GATs(Graph Attention neTworks)와 LSTM(Long Short Term Memory)을 결합하여 활용한 데이터 결측치 처리 기법을 제안한다. 펫 웨어러블 디바이스의 센서 데이터가 서로 연관성을 가지고 있다는 점을 바탕으로 인접 노드의 Attention 수치와 Feature map을 도출한다. 이후 Prediction Layer 를 통해 결측치의 Feature 를 예측한다. 예측된 Feature 를 기반으로 Decoding 과정과 함께 결측치 보간이 이루어진다. 제안된 기법은 모델의 변형을 통해 이상치 탐지에도 활용할 수 있을 것으로 기대한다.

도시하천 소배수구역의 결측 강우량 산정 방법 비교 (Comparison of Estimation Methods for the Missing Rainfall data in a Urban Sub-drainage Area)

  • 김충수;김형섭
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.701-705
    • /
    • 2006
  • 강우자료는 수문 모델링 작업에서 가장 기초적인 수문학적 입력자료로 시간과 공간에 따른 변동성이 크므로 규명하기 복잡한 수문현상 중의 하나이다. 산악지역이 많은 우리나라의 지형학적 특성과 태풍, 장마 및 특히, 최근의 게릴라성 집중호우 등으로 인하여 이러한 변동성이 더욱 커지고 있는 실정이다. 장기간 실측된 수문기상 기초 자료가 부족한 우리나라의 실정상 홍수예보 및 수공구조물 설계를 위해 정확한 강우량 자료의 취득이 선행돼야 한다. 따라서 적절한 장소에 수문관측소 설치 및 관리를 통해 양호한 강우량 자료를 획득해야 하지만, 현장 여건상 등의 이유로 미계측 및 결측, 이상자료가 발생하고 있다. 따라서 이러한 미계측 혹은 결측지점의 우량을 추정할 수 있는 방법을 비교, 분석하여 적절한 보정과정을 수행할 필요가 있다. 그간의 연구에서는 미계측 지점 혹은 산악지역에서의 점 강우량 보정방법에 대한 연구가 진행되었지만, 본 연구에서는 '도시홍수재해관리기술연구사업단'에서 운영 중인 도시하천 유역 특히 소배수구역에서의 결측 자료에 대해 여러 추정 방법을 비교, 분석하여 적절한 방안을 찾고자 한다. 이를 위하여 중랑천 유역의 3개 소배수 구역(월계1 배수구역, 군자 배수구역, 어린이대공원 배수구역)에 설치된 3개 우량관측소와 건설교통부 관할 우량관측소 2개소의 우량자료를 사용하였다. 본 연구에서는 결측치 보간을 위하여 널리 이용되고 있는 산술평균법(Arithmetic Average method), 역거리법(Reciprocal Distance Squared method), 거리고도비율법(Ratio of Distance and Elevation method), 인근관측소와의 관계식 이용, 크리깅방법(Simple Kriging method)을 비교, 검토 적용하였다. 중랑천 유역의 소배수구역을 대상으로 연중 발생하는 큰 호우사상에 대해 임의의 강우관측소를 결측지점으로 가정하고 주변의 강우관측소로부터 각각의 방법을 이용해 가중치들을 산정하여 결측지점의 강우량 값을 보정하고자 하였다. 또한 각각의 방법을 이용하여 얻어진 결과에 대해 실측값과 보정값의 오차정도를 평균절대오차법(Mean Absolute Error)과 제곱평균제곱근오차법(Root Mean Squared Error)에 의해 산정하여 보정 방법간의 효율성을 검토하고자 하였다.

  • PDF

혼합형 데이터 보간을 위한 디노이징 셀프 어텐션 네트워크 (Denoising Self-Attention Network for Mixed-type Data Imputation)

  • 이도훈;김한준;전종훈
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.135-144
    • /
    • 2021
  • 최근 데이터 기반 의사결정 기술이 데이터 산업을 이끄는 핵심기술로 자리 잡고 있는바, 이를 위한 머신러닝 기술은 고품질의 학습데이터를 요구한다. 하지만 실세계 데이터는 다양한 이유에 의해 결측값이 포함되어 이로부터 생성된 학습된 모델의 성능을 떨어뜨린다. 이에 실세계에 존재하는 데이터로부터 고성능 학습 모델을 구축하기 위해서 학습데이터에 내재한 결측값을 자동 보간하는 기법이 활발히 연구되고 있다. 기존 머신러닝 기반 결측 데이터 보간 기법은 수치형 변수에만 적용되거나, 변수별로 개별적인 예측 모형을 만들기 때문에 매우 번거로운 작업을 수반하게 된다. 이에 본 논문은 수치형, 범주형 변수가 혼합된 데이터에 적용 가능한 데이터 보간 모델인 Denoising Self-Attention Network(DSAN)를 제안한다. DSAN은 셀프 어텐션과 디노이징 기법을 결합하여 견고한 특징 표현 벡터를 학습하고, 멀티태스크 러닝을 통해 다수개의 결측치 변수에 대한 보간 모델을 병렬적으로 생성할 수 있다. 제안 모델의 유효성을 검증하기 위해 다수개의 혼합형 학습 데이터에 대하여 임의로 결측 처리한 후 데이터 보간 실험을 수행한다. 원래 값과 보간 값 간의 오차와 보간된 데이터를 학습한 이진 분류 모델의 성능을 비교하여 제안 기법의 유효성을 입증한다.

다중 융합 네트워크 기반 이동 객체 행동 인식 (Behavior Recognition of Moving Object based on Multi-Fusion Network)

  • 김진아;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.641-642
    • /
    • 2022
  • 단일 데이터로부터의 이동 객체에 대한 행동 인식 연구는 데이터 수집 과정에서 발생하는 노이즈의 영향을 크게 받는다. 본 논문은 영상 데이터와 센서 데이터를 이용하여 다중 융합 네트워크 기반 이동 객체 행동 인식 방법을 제안한다. 영상으로부터 객체가 감지된 영역의 추출과 센서 데이터의 이상치 제거 및 결측치 보간을 통해 전처리된 데이터들을 융합하여 시퀀스를 생성한다. 생성된 시퀀스는 CNN(Convolutional Neural Networks)과 LSTM(Long Short Term Memory)기반 다중 융합 네트워크 모델을 통해 시계열에 따른 행동 특징들을 추출하고, 깊은 FC(Fully Connected) 계층을 통해 특징들을 융합하여 행동을 예측한다. 본 연구에서 제시된 방법은 사람을 포함한 동물, 로봇 등의 다양한 객체에 적용될 수 있다.

센서 데이터 합성을 통한 반려동물 행동 감지 (Pet Behavior Detection through Sensor Data Synthesis)

  • 김형주;박찬;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.606-608
    • /
    • 2022
  • 센서 데이터를 활용한 행동 감지 연구는 인간 행동 인식을 선행연구로 진행되었으며, 인식의 정확도를 높이기 위해 전처리, 보간, 증강 등을 통한 연구가 활발히 진행되고 있다. 이에 본 논문에서는 시계열 센서 데이터 증강을 통하여 반려동물의 행동 감지를 제안한다. ODROID 단일 보드 컴퓨터와 6축 센서(가속도, 자이로) 데이터를 탑재한 소형 디바이스를 사용하여 블루투스 통신을 통해 웹 서버 DB에 저장한다. 저장된 데이터는 이상치, 결측치 처리 후 정규화를 통해 시퀀스를 구성하는 전처리 과정을 거친다. 이후 GAN을 기반으로 한 시계열 데이터 증강을 진행한다. 이때, 데이터 증강은 입력된 텍스트에 따라 센서 데이터로 변환하여 데이터를 증강한다. 학습된 딥러닝 모델을 바탕으로 행동을 감지 후 평가 지표에 따라 모델 성능을 검증한다.

적응형 뉴로-퍼지 기법을 이용한 수문자료 결측치 추정에 관한 연구 (A Study on the Estimation of Missing Hydrological Data Using Adaptive Network-based Fuzzy Inference System(ANFIS))

  • 신희재;이태희
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.264-264
    • /
    • 2020
  • 최근 기후변화로 우리나라는 과거에 비해 태풍이나 국지성 집중호우 및 가뭄 등 극심한 수문현상이 빈번하게 발생하고 그 피해가 더욱 커지고 있는 추세이다. 특히 우리나라의 경우 산지가 많으며 대부분의 하천이 유역면적이 작고 유로연장이 짧아 단시간에 유출이 발생하며 수문학적 특성이 연중 큰 편차를 보이고 있다. 이러한 이상기후에 따른 수문현상 파악 및 피해 경감을 위해 신뢰성 있는 수문자료는 매우 중요하다. 따라서 수문자료에 대한 품질관리는 필수적이지만 자료 결측 및 오측에 대한 신뢰성 높은 품질관리가 이뤄지지 못하고 있는 실정이다. 현재 수위자료의 결측이 발생한 경우 해당 관측소의 수위 자료를 사용해 선형보간 및 운형자법으로 수정하거나 상·하류 관측소의 관계를 이용하여 회귀분석을 통해 자료 결측의 수정 및 보완을 수행하는 등 담당자의 주관적 판단에 의존하고 있다. 본 논문에서는 신뢰성 높은 수문자료의 결측치 보완 및 예측을 위한 방안을 제시하고자 상류의 관측소의 수문자료를 이용한 하류의 단시간 수문 자료예측에 관한 연구를 수행하였다. 이를 위해 자료지향형 모델인 적응형 뉴로-퍼지 기법(Adaptive Network-based Fuzzy Inference System, ANFIS)을 이용한 모형을 적용하였다. 기존의 연구에서 가장 일반적으로 사용되는 물리적 모형은 수문자료를 활용하여 수위 및 유출을 산정함에 있어 매개변수의 결정이 어렵고 많은 오차들을 내포하고 있다. 본 연구에서 사용한 ANFIS는 입력자료와 출력자료만을 고려하여 구축할 수 있기 때문에 자료 수집단계에서 유역의 물리적 자료 및 지형 자료와 같은 방대한 양의 자료 수집이 필요가 없다. 이후 모형이 구축이 된다면 입·출력 자료만을 이용하여 신뢰성 높은 결과를 획득할 수 있지만 입력 자료의 품질에 따라 결과가 좌우되기 때문에 자료의 구성이 매우 중요하다. 본 연구에서는 ANFIS를 통해 무주남대천 유역의 무주군(여의교) 관측소의 수위자료를 입력자료를 사용하여 하류에 위치한 무주군(취수장) 관측소의 수문자료의 결측 보완 및 예측하는 모형을 구축하고 모형의 구조 변화를 통해 가장 정확도 높은 모형을 결정하였다.

  • PDF

색조영상에서 랜덤결측화소값 대체를 위한 EM 알고리즘 기반 기법 (An EM Algorithm-Based Approach for Imputation of Pixel Values in Color Image)

  • 김승구
    • 응용통계연구
    • /
    • 제23권2호
    • /
    • pp.305-315
    • /
    • 2010
  • 본 논문에서는 색조영상의 R-, G-, B-성분에서 랜덤결측된 화소값들의 대체를 위한 프리퀀티스틱(frequentictic) 기법을 제공한다. 이 기법은 관측영상을 가우시안 마코프 랜덤필드 상의 실현치로서 가정하고, 주어진 화소 내의 근방 화소들이 에지 강도에 따른 서로 다른 분산을 가지는 정규분포를 따른다고 설계함으로써 에지에서 결측화소 대체값이 이질적 색상에 영향 받지 않도록 한다. 이러한 모형하에서 우도가 최대화하도록 결측화소값들을 근사 EM 알고리즘에 기반 한 방법으로 모수들을 추정하고 결측화소를 대체한다. 제안된 방법의 결과들은 보간법에 기초한 대체법과 비교하여 그 유효성을 보인다.

태양광 발전량 데이터의 시계열 모델 적용을 위한 결측치 보간 방법 연구 (A Research for Imputation Method of Photovoltaic Power Missing Data to Apply Time Series Models)

  • 정하영;홍석훈;전재성;임수창;김종찬;박철영
    • 한국멀티미디어학회논문지
    • /
    • 제24권9호
    • /
    • pp.1251-1260
    • /
    • 2021
  • This paper discusses missing data processing using simple moving average (SMA) and kalman filter. Also SMA and kalman predictive value are made a comparative study. Time series analysis is a generally method to deals with time series data in photovoltaic field. Photovoltaic system records data irregularly whenever the power value changes. Irregularly recorded data must be transferred into a consistent format to get accurate results. Missing data results from the process having same intervals. For the reason, it was imputed using SMA and kalman filter. The kalman filter has better performance to observed data than SMA. SMA graph is stepped line graph and kalman filter graph is a smoothing line graph. MAPE of SMA prediction is 0.00737%, MAPE of kalman prediction is 0.00078%. But time complexity of SMA is O(N) and time complexity of kalman filter is O(D2) about D-dimensional object. Accordingly we suggest that you pick the best way considering computational power.

퍼지-유전자 알고리즘을 이용한 결측 강우량의 보정 (Filling of Incomplete Rainfall Data Using Fuzzy-Genetic Algorithm)

  • 김도진;장대원;서병하;김형수
    • 한국습지학회지
    • /
    • 제7권4호
    • /
    • pp.97-107
    • /
    • 2005
  • 분포형 모형이 개발되어 지면서 이러한 유역의 공간적인 특성을 고려한 정확한 강우 자료와 조밀한 계측망의 요구는 더욱 커지고 있다. 그러나 현실적으로 조밀한 계측망에 의해 측정된 정확한 강우 자료를 얻기는 쉽지 않다. 일반적으로 강우관측소가 적정 밀도를 가지고 유역을 대표 하도록 설치되어 있으나 부족한 실정이고, 설치되어 있더라도 강우의 시 공간적 변동성을 반영하기가 쉽지 않다. 또한 여러 가지 이유로 결측이 되는 경우도 있다. 강우는 측정된 점 관측 자료를 이용해 유역의 평균 강우분포를 추정하게 된다. 따라서 결측 강우자료는 시간의 연속성 측면에서 그 보정이 반드시 필요하며 보정 후 강우자료의 공간적 분포를 산정할 수 있을 것이다. 본 연구에서는 결측 강우량의 보정을 위하여 퍼지-유전자 알고리즘을 이용하였는데 이 방법을 기존의 방법 즉, 산술평균법, 역거리법, 년정상강우량법, 거리-고도비율법과 비교하였다. 보정결과 기존의 방법은 실측의 70~80%의 정확도를 보였으나 퍼지-유전자 알고리즘은 90%정도의 정확도를 보였다. 특히, 민감도 분석 결과를 바탕으로 수평거리와 고도차에 대한 적정 차수를 제안하였다.

  • PDF