• 제목/요약/키워드: 데이터 결측

검색결과 134건 처리시간 0.027초

한국복지패널 자료를 이용한 아동기 공격성에 대한 경시적 자료 분석 (A longitudinal study for child aggression with Korea Welfare Panel Study data)

  • 최나연;허집
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1439-1447
    • /
    • 2014
  • 한국 학생들의 아동기 혹은 청소년기의 공격성에 대한 연구들은 대부분 횡단자료를 이용한 것들이다. 경시적 자료를 이용한 연구가 있지만, 반복측정된 자료들이 서로 독립이라는 가정 하에 연구되었다. 본 연구에서는 2006년부터 2012년까지 세 차례 반복측정에 의해 얻어진 한국복지패널 자료를 이용하여, 횡단자료 분석 연구의 결과인 아동 혹은 청소년의 공격성에 영향을 미치는 요인들로 알려진 학교 적응, 자아존중감, 우울 및 불안, 비행, 학교 폭력 피해 경험, 부모로부터 학대 경험과 인터넷 사용시간이 경시적 자료 분석에서도 공격성에 영향을 주는 지를 분석하고자 한다. 한국복지패널 자료의 결측치는 임의결측을 가정하고, 제한적 최우추정량을 이용한 선형혼합모형을 적합하고자 한다.

고위험성 조류인플루엔자(HPAI) 확산 방지를 위한 GAN 기반 가상 데이터 생성 (Generating GAN-based Virtual data to Prevent the Spread of Highly Pathogenic Avian Influenza(HPAI))

  • 최대우;한예지;송유한;강태훈;이원빈
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.69-76
    • /
    • 2020
  • 이 연구는 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기술진흥센터의 지원을 받아 수행된 연구이다. 고병원성조류인플루엔자(Highly Pathogenic Avian Influenza, HPAI)는 병원성이 높은 조류인플루엔자 바이러스 감염에 의하여 발생하는 조류의 급성 전염병으로 닭, 오리 등 가금류에서 피해가 심각하게 나타난다. 고병원성 조류인플루엔자(HPAI)는 연중으로 발생하기보다는 겨울철에 집중하여 발생되는 양상을 보이며, 특정 기간에는 아예 발생하지 않는 경우가 있다. 이와 같은 HPAI의 특성으로 인해 충분한 양의 실제 데이터가 축적되지 못하는 문제점이 있다. 본 논문 연구에서는 GAN 네트워크를 활용하여 결측치를 포함하고 있는 실제와 유사한 데이터를 생성하였으며 해당 과정을 소개한다. 본 연구 결과는 HPAI가 발생하지 않은 특정 시기에 대하여 실제와 유사한 시뮬레이션 데이터를 생성하여 위험도를 측정하는데 이용될 수 있다.

SARIMA 알고리즘을 이용한 교통량 보정 및 예측 (A Study on the Traffic Volume Correction and Prediction Using SARIMA Algorithm)

  • 한대철;이동우;정도영
    • 한국ITS학회 논문지
    • /
    • 제20권6호
    • /
    • pp.1-13
    • /
    • 2021
  • 본 연구에서는 도로교통분야의 계획, 설계, 유지관리, 연구 등 다양한 목적으로 활용되고 있는 교통량 데이터의 정확도 확보를 위해 시계열 분석 기법을 적용하여 교통량 데이터의 보정 및 예측을 수행하였다. 기존 알고리즘의 경우 주기성 및 계절성이 강하거나 불규칙한 데이터에 한계를 보이고 있어 교통량 데이터와 같은 자료에 적용하기에는 한계가 있다. 이러한 한계점을 극복하고 보완하기 위해 ARIMA 모형에 자기상관 모형인 SAR(Seasonal Auto Regressive)과 계절 이동평균 모형인 SMA(Seasonal Moving Average)가 결합된 분석 기법인 SARIMA 모형을 적용하였다. 분석결과 최적 파라미터 조합인 SARIMA(4,1,3)(4,0,3) 12 모형을 활용한 교통량 예측 결과 평균 85% 정도의 우수한 성능을 보였다. 본 연구를 통해서 교통량 데이터의 결측 발생 시 교통량 보정 및 예측의 정확도를 높일 수 있으며, 교통량 데이터 외에도 계절성에 영향을 받는 시계열 데이터에 적용이 가능하다.

인공신경망 기법을 이용한 청미천 유역 Flux tower 결측치 보정 (A point-scale gap filling of the flux-tower data using the artificial neural network)

  • 전현호;백종진;이슬찬;최민하
    • 한국수자원학회논문집
    • /
    • 제53권11호
    • /
    • pp.929-938
    • /
    • 2020
  • 본 연구에서는 청미천 유역에서의 플럭스타워에서 산출되는 증발산량의 결측값을 보완하기 위해 인공신경망(Artificial Neural Network, ANN)을 사용하였다. 비교 평가를 위해, Mean Diurnal Variation(MDV), Food and Agriculture Organization Penman-Monteith(FAO-PM) 방법들을 이용하여 증발산량을 산정하였고, ANN 방법을 이용한 결과와 비교하였다. 비교 평가 방법으로 시계열 방법 및 통계 분석(결정계수, IOA, RMSE, MAE)이 사용되었다. 각 gap-filling 모델의 검증을 위해 2015년의 30분 단위 데이터를 이용하였으며, 121개의 결측값 중 MDV, FAO-PM, ANN 방법 순으로 각각 70, 53, 54개의 결측값을 보완하여 모든 데이터가 관측되지 않은 36개의 데이터를 제외하면 각각 82.4%, 62.4%, 63.5%의 성능을 보였다. 결정계수(MDV, FAO-PM, ANN 방법 순으로 각각 0.673, 0.784, 0.841)와 IOA(MDV, FAO-PM, ANN 방법 순으로 각각 0.899, 0.890, 0.951)를 분석한 결과, 3가지 방법 모두 양질의 상관성을 보여 활용성이 충분하다고 판단되며, 이 중 ANN 모델이 가장 높은 적합도와 양질의 성능을 나타내었다. 본 연구를 기반으로 기계학습방법을 이용한 플럭스 타워 자료의 gap-filing 연구에 보다 적절하게 활용될 수 있을 것이다.

고농도 오존 예측을 위한 향상된 변환 기법과 예측 성능 평가 (Modified Transformation and Evaluation for High Concentration Ozone Predictions)

  • 천성표;김성신;이종범
    • 한국지능시스템학회논문지
    • /
    • 제17권4호
    • /
    • pp.435-442
    • /
    • 2007
  • 대기중의 고농도 오존의 피해를 줄이기 위해서, 고농도 오존 발생 전에 미리 오존 농도를 예측하기 위한 연구가 진행되었다. 하지만, 고농도 오존은 그 발생 빈도가 매우 희소하고, 대기 오존 생성 과정이 매우 비선형적이며 복잡한 특징이 있다. 이러한 특징을 극복하고 보다 정확한 예측 모델을 개발하기 위하여, 본 논문에서는 다양한 데이터 처리 기법을 도입하였다. 데이터 전처리과정에서 FCM(Fuzzy C-mean) 방법을 이용하여 오존 농도별 데이터 클러스터링을 시도하였으며, 결측 또는 비정상 데이터를 처리할 목적으로 Rejection 표본 추출법을 이용하였고, 모델의 입력과 출력의 상관관계를 향상시키기 위해서 로그 변환기법을 응용하였다. 오존 예측을 위한 모델링 기법은 DPNN(Dynamical Polynomial Neural Networks)을 이용하였으며, 최소 바이어스 판별법(Minimum Bias Criterion)으로 최적화된 모델을 선택하였다. 끝으로, 본 논문에서는 로그 변환기법이 예측 모델에 미치는 영향을 보이기 위해서 입력 데이터를 두 개의 집합으로 나누어 다양한 방법으로 예측 결과를 평가했다. 결과적으로 계절적 영향에 의해 특정 분포를 가지는 오존 관련 데이터에 있어서 로그 변환 방법이 모델의 성능을 향상시킬 수 있다는 것을 보였다.

인공위성 토양수분 자료 검증에 관한 연구 (Verification Study for Remotely Sensed Soil Moisture)

  • 허유미;최민하;정성원
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.1564-1569
    • /
    • 2010
  • 토양수분은 수문현상 즉, 물의 순환과정을 이해하고 기상변화를 고려하는데 중요한 인자 중 하나이며 이는 최근 이상기후로 인한 가뭄 및 홍수 등의 자연재해가 우리나라 전역에 빈번히 발생되고 있는 가운데 이러한 현상을 보다 정확히 해석하기 위해 토양수분의 중요성이 더욱 부각되고 있다. 현재 이를 관측 및 분석하고 있으나 대부분 관측기간이 짧고 장비가 노후화되어 많은 결측치를 나타내고 있으며 관측치가 있더라도 여러 가지 요인으로 인해 관측에 대한 분석의 신뢰도가 떨어진다. 이로 인하여 본 연구에서는 광역적 범위에서 정확한 토양수분량 측정을 하고 있는 Advanced Microwave Scanning Radiometer E (AMSR-E) 위성관측 데이터를 기존의 토양수분 자료와 비교/검증하여 이의 활용방안을 모색하고자 한다.

  • PDF

다수의 결측치가 존재하는 가전업 고객 데이터 활용을 위한 고객분류기법의 개발 (Customer Classification Method for Household Appliances Industries with a Large Number of Incomplete Data)

  • 장영순;서종현
    • 산업공학
    • /
    • 제19권1호
    • /
    • pp.86-96
    • /
    • 2006
  • Some customer data of manufacturing industries have a large number of incomplete data set due to the customer's infrequent purchasing behavior and the limitation of customer profile data gathered from sales representatives. So that, most sophisticated data analysis methods may not be applied directly. This paper proposes a heuristic data analysis method to classify customers in household appliances industries. The proposed PD (percent of difference) method can be used for the discriminant analysis of incomplete customer data with simple mathematical calculations. The method is composed of variable distribution estimation step, PD measure and cluster score evaluation steps, variable impact construction step, and segment assignment step. A real example is also presented.

에센셜 그래프를 바탕으로 한 격자 조건부 독립 모델 (Lattice Conditional Independence Models Based on the Essential Graph)

  • Ju Sung, Kim;Myoong Young, Yoon
    • 한국산업정보학회논문지
    • /
    • 제9권2호
    • /
    • pp.9-16
    • /
    • 2004
  • 결측치가 존재하는 비 단조형 데이터에 대한 패턴 분석과 비 내포형 종속 회귀 모형 분석에 격자 조건부 독립 모델이 최근 도입되고 있다. 이러한 접근 방법은 데이터 패턴 분석에 성공적으로 적용되고 있지만 격자 조건부 독립 모델을 찾는 계산적 부담이 따른다. 본 논문에서는 이러한 단점을 극복하기 위하여 에센셜 그래프를 바탕으로 격자 조건부 독립 모델(LCIM)을 찾는 새로운 방법을 제안한다. 또한, LCIM 클래스가 특정한 비 순환 방향 그래프 모델과 마르코프 동등한 모든 추이적 비 순환 방향 그래프의 모델 클래스와 일치함을 밝혔다.

  • PDF

한반도의 과거 기후 데이터 구축을 위한 누락된 기록 추정 (Estimation of Missing Records in Daily Climate Data over the Korean Peninsula)

  • 노규호;안국현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.135-135
    • /
    • 2020
  • 우리나라의 기후 자료는 일반적으로 기상청에서 발표하는 종관기상관측(ASOS)과 방재기상관측(AWS), 그리고 북한이 세계기상기구(WMO, World Meteorogical Organization)의 기상통신망(GTS)을 통해 보낸 북한기상관측(NKO)을 사용 할 수 있다. 그러나 이 중 40년 이상의 완전한 관측 자료를 얻을 수 있는 건 ASOS가 유일하지만 공간적인 표현에 한계를 갖고 있다. AWS는 관측소가 많다는 장점이 있지만 관측 기간이 길지 않고 이용 가능한 기간에도 관측이 연속적이지 못한 경우가 많다. NKO는 비록 27개의 관측소가 있지만 많은 데이터가 누락되어 일별 기후자료의 사용에 한계를 갖고 있다. 이러한 미관측 기간이나 관측 자료의 누락은 연속적인 시계열 자료분석을 기반으로 하는 수자원 모델링에 있어서 문제를 야기한다. 본 연구는 1973년부터 2019년까지 47년의 신뢰도 높은 한반도 일일 기후 자료를 구축하기 위해 다양한 방법론을 비교하였다. 추정에 사용한 방법은 총 7개로 EM algorithm for probabilistic principal components (PPCA-EM), Inverse distance weight method (IDWM), Nearest neighbor method (NNM), Multivariate normal copulas (Copula), Elastic net model (Elastic), Ordinary kriging (OK), Regularized principal components with EM algorithm (RPCA-EM)를 살펴보았다. 다양한 형태의 결측치를 가정하여 그 결과값을 비교하였고 이는 Root mean squared error(RMSE), Kling-Gupta efficiency(KGE), Nash-Sutcliffe efficiency(NSE)를 통해 평가하였다. 최종 선택된 방법론을 통하여 한반도 전역을 그리드 기반의 강수 및 최저온도/최고온도의 일별자료로 생성하였다.

  • PDF