• 제목/요약/키워드: 다중대체

검색결과 323건 처리시간 0.03초

패널자료의 무응답 대체법 (Non-Response Imputation for Panel Data)

  • 박기덕;신기일
    • Communications for Statistical Applications and Methods
    • /
    • 제17권6호
    • /
    • pp.899-907
    • /
    • 2010
  • 무응답 대체(non-response imputation) 방법에 관한 많은 이론과 방법이 제안되었으며 실제 자료 분석에 이용되고 있다. 흔히 횡단면 무응답 대체를 위하여 다중대체법(multiple imputation)이 사용되고 있으며 2차년도 이상의 패널자료에는 종시점회귀대체법(cross-wave regression imputation)이 사용되고 있다. 본 연구에서는 패널자료 분석을 위하여 종시점회귀대체법의 일반형태인 시계열 대체법과 횡단면 무응답 대체법을 결합한 시계열-횡단면 다중 대체법을 제안하였다. 노동부의 매월노동통계 자료를 이용하여 제안한 방법과 기존의 종시점회귀대체법을 비교하여 우수함을 보였다.

가중치 보정을 이용한 다중대체법 (Multiple Imputation Reducing Outlier Effect using Weight Adjustment Methods)

  • 김진영;신기일
    • 응용통계연구
    • /
    • 제26권4호
    • /
    • pp.635-647
    • /
    • 2013
  • 다중 대체법은 표본조사에서 결측값이 발생하였을 때 가장 흔히 사용하는 방법이다. 이 방법은 여러 요인에 의해 그 성능이 좌우되며 특히 이상점의 영향을 많이 받는다. 본 연구에서는 가중치 보정법을 이용하여 이상점의 영향력을 줄여 다중 대체법의 성능을 향상시키는 방법을 연구하였다. 가중치 보정법을 이용하여 얻어진 최종 가중치를 다중대체에 사용하였으며 SAS의 PROC MI가 다중 대체를 위해 사용되었다. 모의실험과 매월노동통계 자료를 이용한 실제 자료 분석을 통하여 제안된 방법의 우수성을 확인하였다.

MPLS 네트워크에서의 다중 경로 부하 분산 방안 (Load Distribution over Multipath for MPLS Networks)

  • 김세린;이미정
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.397-399
    • /
    • 2001
  • IETF에서는 차세대 인터넷 기술인 MPLS를 도입한 망에서의 다중경로 라우팅 및 부하 분산 방식으로서 MPLS OMP(Optimized MultiPath)를 제안하였다. 그런데, MPLS OMP는 다중 경로 집합을 계산하고 이 집합에 속하는 경로들의 활용률이 동일해 지는 것을 목표로 부하를 골고루 분산하기 때문에 긴 경로와 짧은 경로가 동일하게 활용되어 대역폭을 낭비할 수 있다는 단점이 있다. 이에 본 논문에서는 좀 더 MPLS 네트워크 자원을 효과적으로 사용하는 다중 경로 라우팅 방식을 제안하였다. 제안한 다중 경로 라우팅 방식은 최단경로의 활용률이 낮을때는 최단경로를 사용하고, 최단경로의 활용률이 높아지면 좀 더 길지만 활용률이 낮은 대체 경로 집합을 계산하여 대체 경로 집합의 경로들 중 흡수와 활용률을 반영해 무작위로 한 경로를 선택한다. 또한, 링크가 낭비되는 것을 막기 위해 링크의 활용률이 클수록 더 짧은 경로에 의해서만 사용되도록 제한한다. 그리고 계산한 대체 경로 집합의 활용률이 임계치 이상인 경우에는 대체 경로 집합의 크기를 늘린다. 시뮬레이션을 통하여 제한하는 방식과 단순한 최단 경로 방식을 비교한 결과, 제안하는 방식의 셀 손실률이 낮고, 연결 수락률이 높음을 볼 수 있었다.

한계와 이상치가 있는 결측치의 로버스트 다중대체 방법 (Robust multiple imputation method for missings with boundary and outliers)

  • 박유성;오도영;권태연
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.889-898
    • /
    • 2019
  • 항목 무응답(item missing)이 발생한 설문조사에서 결측이 포함된 변수에 이상치(outlier)의 존재와 다른 설문문항 항목과의 논리적 한계(boundary) 조건들이 유의미하다면 결측치 대체문제는 매우 복잡해진다. 한계가 있는 결측값들을 포함한 변수에 이상치가 존재하는 경우, 기존의 회귀분석에 근거한 결측치 대체방법은 편향된 대체값 그리고 한계를 만족하지 않은 대체값을 제시할 가능성이 있다. 이에 본 논문은 회귀모형에 기반을 두고 결측치들을 대체를 함에 있어 이상치와 논리적 한계조건이 자료에 존재하는 경우, 다양한 로버스트 회귀모형과 다중대체 방법의 조합을 통해 해결점을 모색하고자 한다. 이를 위해 이들 방법들의 최적의 조합을 다양한 시나리오별로 모의실험을 통하여 찾아보고 이에 대하여 논의하였다.

마코프 랜덤 필드 하에서 정규혼합모형에 의한 다중 결측값 대체기법: 색조영상 결측 화소값 대체에 응용 (Imputation of Multiple Missing Values by Normal Mixture Model under Markov Random Field: Application to Imputation of Pixel Values of Color Image)

  • 김승구
    • Communications for Statistical Applications and Methods
    • /
    • 제16권6호
    • /
    • pp.925-936
    • /
    • 2009
  • 자료의 독립성 가청 하에서 EM 알고리즘에 의한 경측치 대체 (imputation of missing values) 기법은 잘 알려져 있다. 그러나 공간자료를 다루는 응용문제에서는 독립성 가정이 확장된 마코프 랜덤 필드 (Markov random field; MRF) 하에서 다루어져야 할 것이다. 이에 본 논문에서는 마코프 랜덤 필드 모형 궁에서 다변량 자료 중에 다중의 결측치의 대체를 위한 EM 알고리즘을 제공한다. 이 기법은 몇 가지 현실척 가정하에서 결국 혼합모형에 의한 대체 기법 임을 보인다. 그리고 제공된 기법으로 3-변량으로 구성된 색조영상(color image)의 결측화소값 대체문제에 적용하여 그 유용성과 문제점을 밝히며, 문제정의 개선방안에 대해 논의한다.

시간-종속적 공변량이 포함된 이분형 반복측정자료의 GEE를 이용한 분석에서 결측 체계에 따른 회귀계수 추정방법 비교 (Comparison of GEE Estimation Methods for Repeated Binary Data with Time-Varying Covariates on Different Missing Mechanisms)

  • 박보람;정인경
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.697-712
    • /
    • 2013
  • 다시점 자료 연구에서 일반화추정방정식은 가상관행렬을 잘못 가정하더라도 모수의 일치추정량을 도출하므로 많이 이용된다. 하지만, 결측 체계가 완전임의결측이 아닌 경우에는 편의추정량을 제공하고, 시간-종속적 공변량이 포함된 경우에는 가상관행렬에 따라 회귀계수 추정값이 다르게 도출될 수 있는 문제점이 있다. 결측 체계가 임의결측인 경우에 발생하는 문제를 해결하기 위해 가중 방법과 다중대체 방법을 사용하는 것이 제안되었다. 본 논문에서는 시간-종속적 공변량이 포함된 이분형 반복측정자료를 GEE를 이용하여 분석할 때 다양한 결측 체계에서 일반화추정방정식 방법, 가중 방법, 다중대체 방법의 회귀계수 추정에 대한 로버스트성과 정확성을 모의실험을 통하여 비교해 보았다. 세 가지 방법 모두에서 시간-종속적 공변량의 회귀계수가 시간-독립적 공변량의 회귀계수에 비해 가상관행렬에 따라 추정값의 차이가 크게 나타났다. 다른 두 방법에 비해 다중대체 방법이 가상관행렬의 형태에 대해 더 로버스트하고 편의도 작은 추정치를 도출하였다.

다중대체와 재현자료 작성 (Multiple imputation and synthetic data)

  • 김정연;박민정
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.83-97
    • /
    • 2019
  • 사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법 중 하나로 재현자료(synthetic data)를 생성해서 활용하는 방법이 연구되어 왔다. 본 논문은 재현자료 생성과 관련된 방법론 및 주의사항을 소개하여, 재현자료의 이해를 도모하고자 한다. 이를 위해 재현자료 작성에 필수적인 다중대체, 베이지안 예측 모형 및 베이지안 붓스트랩 등의 개념들을 먼저 설명하고, 완전 재현자료 및 부분 재현자료에 대해 살펴본다. 특히, 재현자료 작성을 심도 깊이 이해하기 위해 순차회귀 다중대체(sequential regression multivariate imputation)를 이용해 경시적(longitudinal) 자료를 재현자료로 작성하는 구체적 사례를 살펴본다.

누락된 공변량을 가진 원인별 비례위험모형의 분석 (Analysis of the cause-specific proportional hazards model with missing covariates)

  • 이민정
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.225-237
    • /
    • 2024
  • 경쟁위험자료에서 일부 공변량들이 연구대상들의 일부분에 대해 관측되지 않을 수 있다. 그런 경우 결측된 공변량 값을 가진 연구대상들을 분석에서 제외하는 것은 편향된 추정치와 효율성 손실이 발생할 수 있다. 본 논문에서는 누락된 공변량을 가진 원인별 비례위험모형의 회귀모수 추정을 위해 다중대체 방법과 증대된 역 확률 가중 방법을 연구하였다. 모의실험을 통해 다중대체 방법과 증대된 역 확률 가중 방법에 의해 구해진 추정량의 성능을 평가한 결과, 이 방법들이 잘 수행됨을 확인하였다. 미국 국립암연구소의 전립선, 폐, 대장, 난소 암 선별 시험 연구에서 제공하는 종양 크기의 값이 누락된 유방암 자료에 대해 암 사망 위험률과 다른 원인 사망 위험률에 유의한 영향을 미치는 요인을 파악하기 위해 다중대체 방법과 증대된 역 확률 가중 방법을 적용하였다. 다중대체 방법과 증대된 역 확률 가중 방법에 의해 원인별 비례위험모형을 적합한 결과, 인종, 기혼여부, 병기, 분화도, 종양의 크기는 유방암 사망 위험률에 유의한 영향을 미치는 요인들이였으며, 병기가 유방암 사망 위험률을 높이는데 가장 큰 영향을 미치는 요인임을 확인하였다. 진단시 연령과 종양의 크기는 다른 원인 사망 위험률을 높이는데 유의한 영향을 미치는 요인이였다.

결측값 대체를 위한 데이터 재현 기법 비교 (Comparison of Data Reconstruction Methods for Missing Value Imputation)

  • 김청호;강기훈
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.603-608
    • /
    • 2024
  • 무응답 및 결측값은 표본 탈락, 설문조사에 대한 답변 회피 등으로 발생하며 정보의 손실 및 편향된 추론의 가능성이 있는 문제가 발생하게 되며, 이 경우 결측값을 적절한 값으로 바꾸는 대체가 필요하게 된다. 본 논문에서는 결측값에 대한 대체 방법으로 제안되었던 평균 대체, 다중회귀 대체, 랜덤 포레스트 대체, K-최근접 이웃 대체, 그리고 딥러닝을 기본으로 한 오토인코더 대체와 잡음제거 오토인코더 대체 방법을 비교한다. 결측값을 대체하는 이러한 방법들에 대해 설명하고, 연속형의 모의실험 데이터와 실제 데이터에 접목시켜 각 방법들을 비교하였다. 비교 결과 대부분의 경우에서 다중 대체 방법인 랜덤 포레스트 대체 방법과 잡음제거 오토인코더 대체 방법의 성능이 좋았음을 확인하였다.

다중수원의 비용효과 분석 : 스마트워터그리드를 중심으로 (The Cost Effectiveness Analysis of Multi-Water Resources)

  • 류문현;최한주;서진석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.119-119
    • /
    • 2015
  • 스마트워터그리드의 목적은 기존 용수부족 문제의 근본적인 해결을 위해 새로운 취수원을 개발하고, 지역 내의 수자원을 효율적으로 활용하는 방안을 강구하는 시스템을 구축하는데 있다. 따라서 운영비용을 최소화하면서 수요처에 적정한 수량과 수질의 용수를 공급할 수 있도록 해야한다. 스마트워터그리드 구축 시 설비 비용에 대한 부담으로 보급 확산에 어려움을 겪을 가능성이 높으므로, 비용 효과적(Cost-effective)인 측면에서 스마트워터그리드의 경제성을 검토할 필요성이 있다. 본 연구에서는 자료의 한계로 인해 기존의 다중수원에 대한 경제성분석 사례를 인용하여 상수도 생산원가 절감액, 댐 건설과 관련된 비용의 감소, 물 오염 감소 등으로 편익을 간접적으로 계산하고, 기술적으로 물량이 충분하다는 가정하에 다중수원들간의 비용효과분석 수행하였다. 분석결과, 현재 공급하고 있는 상수도 시스템이 다른 다중취수원에 비해 비용효과적 우위에 있는 것으로 나타났다. 지하수, 해수담수화 등 새로운 수원을 찾는 노력이 필요하며 지하수는 가장 쉽게 활용할 수 있는 대체 수원이지만, 관정개발에 많은 비용이 들고 대량으로 수원을 공급하기 어렵다는 단점이 있다. 해수담수화는 대체수자원으로서 중요성이 더욱 강조될 것으로 보이지만, 시설의 설치 및 운영에 드는 높은 비용과 함께 육지에서 물을 대량으로 연안에서 멀리 떨어져 있거나 고도가 높은 지역은 해수담수화 기술의 적용이 어려울 것으로 여겨진다.

  • PDF