• 제목/요약/키워드: 다중 결측

검색결과 43건 처리시간 0.03초

SOLAS를 이용한 결측자료의 다중대치법

  • 김현정;문승호;신재경
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2003년도 춘계학술대회
    • /
    • pp.145-158
    • /
    • 2003
  • 불완전 데이터 즉, 결측값을 가지는 데이터를 분석할 경우 결측데이터에 대해서 어떠한 처리를 해야할 필요가 있다. 결측데이터에 대한 처리로서 주로 이용되어온 방법으로는 결측값을 포함한 관측값(case)을 제외하는 방법이었다. 이후 여러 방법들이 제안되어 EM알고리즘이나 회귀알고리즘에 의한 추정을 바탕으로 결측값에 대한 추정을 해서 그 추정값으로 결측값을 대치하는 방법을 사용할 수 있게되었다. 본 논문에서는 복수 개의 데이터세트를 생성해서 대치하는 다중대입 소프트인 SOLAS를 소개한다.

  • PDF

다중회귀분석을 이용한 강우량 결측치 보정 (Completion of the Missing Rainfall Data by a Multi-regression method)

  • 이명우;이봉희;김형수;심명필
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.775-779
    • /
    • 2006
  • 강우자료의 구축은 수문해석에 있어 가장 기본적이며 중요한 단계라 할 수 있다. 하지만 수문 관측 자료의 경우 결측치가 존재하여 그에 대한 보정이 필요한 경우가 종종 발생하게 된다. 따라서 수문자료의 분석을 수행하기에 앞서 우선 자료에 대한 검정을 실시하고, 결측치가 존재할 경우는 이를 보정하여 분석을 수행하여야 한다. 본 연구에서는 다변량통계기법의 하나인 다중회귀분석을 이용하여 강우 결측치를 보정하였다. 본 연구에서는 다중공선성과 자기상관에 대하여 고려한 다중회귀모형을 구성하였다. 모형의 구성시 모든 결측지점에 적용이 가능하지 않아 일반성이 떨어짐을 확인 할 수 있었지만, 모형이 구성될 경우 통계적 적합도와 유의수준을 확인 할 수 있는 장점이 있었으며, 다중회귀모형이 구성되는 경우 좋은 보정 결과를 주는 것을 확인 할 수 있었다.

  • PDF

시간-종속적 공변량이 포함된 이분형 반복측정자료의 GEE를 이용한 분석에서 결측 체계에 따른 회귀계수 추정방법 비교 (Comparison of GEE Estimation Methods for Repeated Binary Data with Time-Varying Covariates on Different Missing Mechanisms)

  • 박보람;정인경
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.697-712
    • /
    • 2013
  • 다시점 자료 연구에서 일반화추정방정식은 가상관행렬을 잘못 가정하더라도 모수의 일치추정량을 도출하므로 많이 이용된다. 하지만, 결측 체계가 완전임의결측이 아닌 경우에는 편의추정량을 제공하고, 시간-종속적 공변량이 포함된 경우에는 가상관행렬에 따라 회귀계수 추정값이 다르게 도출될 수 있는 문제점이 있다. 결측 체계가 임의결측인 경우에 발생하는 문제를 해결하기 위해 가중 방법과 다중대체 방법을 사용하는 것이 제안되었다. 본 논문에서는 시간-종속적 공변량이 포함된 이분형 반복측정자료를 GEE를 이용하여 분석할 때 다양한 결측 체계에서 일반화추정방정식 방법, 가중 방법, 다중대체 방법의 회귀계수 추정에 대한 로버스트성과 정확성을 모의실험을 통하여 비교해 보았다. 세 가지 방법 모두에서 시간-종속적 공변량의 회귀계수가 시간-독립적 공변량의 회귀계수에 비해 가상관행렬에 따라 추정값의 차이가 크게 나타났다. 다른 두 방법에 비해 다중대체 방법이 가상관행렬의 형태에 대해 더 로버스트하고 편의도 작은 추정치를 도출하였다.

마코프 랜덤 필드 하에서 정규혼합모형에 의한 다중 결측값 대체기법: 색조영상 결측 화소값 대체에 응용 (Imputation of Multiple Missing Values by Normal Mixture Model under Markov Random Field: Application to Imputation of Pixel Values of Color Image)

  • 김승구
    • Communications for Statistical Applications and Methods
    • /
    • 제16권6호
    • /
    • pp.925-936
    • /
    • 2009
  • 자료의 독립성 가청 하에서 EM 알고리즘에 의한 경측치 대체 (imputation of missing values) 기법은 잘 알려져 있다. 그러나 공간자료를 다루는 응용문제에서는 독립성 가정이 확장된 마코프 랜덤 필드 (Markov random field; MRF) 하에서 다루어져야 할 것이다. 이에 본 논문에서는 마코프 랜덤 필드 모형 궁에서 다변량 자료 중에 다중의 결측치의 대체를 위한 EM 알고리즘을 제공한다. 이 기법은 몇 가지 현실척 가정하에서 결국 혼합모형에 의한 대체 기법 임을 보인다. 그리고 제공된 기법으로 3-변량으로 구성된 색조영상(color image)의 결측화소값 대체문제에 적용하여 그 유용성과 문제점을 밝히며, 문제정의 개선방안에 대해 논의한다.

결측정보가 있는 전략환경평가를 이용한 댐 후보지 우선순위 분석 (Priority analysis of dam candidate sites with the strategic environmental assessment including the missing information)

  • 박대룡;엄명진
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.437-437
    • /
    • 2018
  • 본 연구는 댐 후보지에 대한 우선순위 분석이 결측 정보에 따라 다기준 의사결정 방법 및 결측정보 접근방법에 따라 어떻게 달라지는지를 조사하였다. 전략환경평가(Strategic Environmental Assessment, SEA)는 한국의 댐 건설 장기 계획에서 환경 및 생태학적 영향을 기반으로 한 지속가능한 댐 후보지 선정에 적용되고 있다. 그러나 특정 정보가 결측된 경우 SEA는 댐 후보지를 선정하는 데 어려움이 있다. 본 연구에서는 다기준 의사결정 방법으로 AHP, ELECTRE III, PROMETHEE II, Compromise Programming을 적용하였고, 결측 정보 보완을 위해 이항분포와 균등분포형을 사용하였다. 본 연구에서는 전국의 댐 선정 후보지에 적용하여 다중 기준 의사 결정기법과 정보 생성 방법에 의존하여 결과를 비교하였다. 그 결과, 이항분포형을 적용한 결과가 균등분포형을 적용한 결과보다 보다 명백한 우선순위를 보여 주었다. 또한, 다기준 의사결정방법에 따라서는 댐선정 후보지 결과가 달라지지 않는 것으로 나타났다. 따라서, 다기준 의사결정방법 적용시, 결측 정보를 생성하기 위해 이항분포를 사용하면 균등분포 적용시보다 우선순위를 제공하는데 더 효과적이라고 판단된다.

  • PDF

색조영상에서 랜덤결측화소값 대체를 위한 EM 알고리즘 기반 기법 (An EM Algorithm-Based Approach for Imputation of Pixel Values in Color Image)

  • 김승구
    • 응용통계연구
    • /
    • 제23권2호
    • /
    • pp.305-315
    • /
    • 2010
  • 본 논문에서는 색조영상의 R-, G-, B-성분에서 랜덤결측된 화소값들의 대체를 위한 프리퀀티스틱(frequentictic) 기법을 제공한다. 이 기법은 관측영상을 가우시안 마코프 랜덤필드 상의 실현치로서 가정하고, 주어진 화소 내의 근방 화소들이 에지 강도에 따른 서로 다른 분산을 가지는 정규분포를 따른다고 설계함으로써 에지에서 결측화소 대체값이 이질적 색상에 영향 받지 않도록 한다. 이러한 모형하에서 우도가 최대화하도록 결측화소값들을 근사 EM 알고리즘에 기반 한 방법으로 모수들을 추정하고 결측화소를 대체한다. 제안된 방법의 결과들은 보간법에 기초한 대체법과 비교하여 그 유효성을 보인다.

결측값 대체를 위한 데이터 재현 기법 비교 (Comparison of Data Reconstruction Methods for Missing Value Imputation)

  • 김청호;강기훈
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.603-608
    • /
    • 2024
  • 무응답 및 결측값은 표본 탈락, 설문조사에 대한 답변 회피 등으로 발생하며 정보의 손실 및 편향된 추론의 가능성이 있는 문제가 발생하게 되며, 이 경우 결측값을 적절한 값으로 바꾸는 대체가 필요하게 된다. 본 논문에서는 결측값에 대한 대체 방법으로 제안되었던 평균 대체, 다중회귀 대체, 랜덤 포레스트 대체, K-최근접 이웃 대체, 그리고 딥러닝을 기본으로 한 오토인코더 대체와 잡음제거 오토인코더 대체 방법을 비교한다. 결측값을 대체하는 이러한 방법들에 대해 설명하고, 연속형의 모의실험 데이터와 실제 데이터에 접목시켜 각 방법들을 비교하였다. 비교 결과 대부분의 경우에서 다중 대체 방법인 랜덤 포레스트 대체 방법과 잡음제거 오토인코더 대체 방법의 성능이 좋았음을 확인하였다.

불완전 순위 자료를 위한 몬테칼로 임의순열 검정 (Monte Carlo Random Permutation Tests for Incompletely Ranked Data)

  • 허명회;최원
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.191-199
    • /
    • 2001
  • 본 소고는 n명의 심사자가 k개의 객체를 평가하여 얻어진 불완전 순위자료에서 객체간 선호도에 있어 차이가 없다는 영가설을 검정하는 방법에 관한 연구이다. 주어진 자료에서 결측값들을 다중대체하는 방식을 제안하고 이들을 평균 p-값으로 묶는 몬테칼로방식의 임의순열 검정을 제안한다.

  • PDF

GAN 기반 관절 데이터 생성을 통한 행동 인식 방법 설계 (A Design of Behavior Recognition method through GAN-based skeleton data generation)

  • 김진아;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.592-593
    • /
    • 2022
  • 다중 데이터 기반의 행동 인식 과정에서 데이터 수집 반경이 비교적 제한되는 영상 데이터의 결측에 대한 보완이 요구된다. 본 논문에서는 6축 센서 데이터를 이용하여 결측된 영상 데이터를 생성함으로써 행동 인식의 성능을 개선하는 방법을 제안한다. 가속도와 자이로 센서로부터 수집된 행동 데이터를 이용하여 GAN(Generative Adversarial Network)을 통해 영상에서의 관절(Skeleton) 움직임에 대한 데이터를 생성하고자 한다. 이를 위해 DeepLabCut 기반 모델 학습을 통해 관절 좌표를 추출하며, 전처리된 센서 시퀀스 데이터를 가지고 GRU 기반 GAN 모델을 통해 관절 좌표에 대한 영상 시퀀스 데이터를 생성한다. 생성된 영상 시퀀스 데이터는 영상 데이터의 결측이 발생했을 때 대신 행동 인식 모델의 입력값으로 활용될 수 있어 성능 향상을 기대할 수 있다.

결측되었거나 구간중도절단된 중간사건을 가진 준경쟁적위험 자료에 대한 가산위험모형 (Additive hazards models for interval-censored semi-competing risks data with missing intermediate events)

  • 김자연;김진흠
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.539-553
    • /
    • 2017
  • 본 논문에서는 사망과 같은 종말사건의 발생 유무는 알고 있지만 치매 발병과 같은 중간사건이 구간중도절단 되었거나 연구 기간 도중에 추적이 끊겨 결측된 준경쟁적위험 자료에 대해 다중상태모형을 적용하여 모수를 추정하는 방법을 제안하였다. 이를 위해 본 논문에서는 상태 간의 전이강도는 로그정규 프레일티를 랜덤효과로 가진 Lin과 Ying(1994)의 가산위험모형을 따른다고 가정하였다. 다섯 가지 상태를 가진 다중상태모형에서 가능한 여섯 가지 경로별로 조건부우도를 정의하였고, 주변우도를 구하기 위해 조정중요표본추출법을 적용하였으며 반복유사뉴튼 방법으로 최적해를 구하였다. 소표본 모의실험을 통해 모수의 95% 신뢰구간 포함률이 명목값에 얼마나 가까운지 살펴보았으며, 제안한 모형을 Persones $Ag{\acute{e}}es$ Quid (PAQUID) 자료 (Helmer 등, 2001)에 적용하고 그 결과를 해석하였다.