• 제목/요약/키워드: Categorical Missing Data

검색결과 16건 처리시간 0.023초

혼합형 데이터 보간을 위한 디노이징 셀프 어텐션 네트워크 (Denoising Self-Attention Network for Mixed-type Data Imputation)

  • 이도훈;김한준;전종훈
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.135-144
    • /
    • 2021
  • 최근 데이터 기반 의사결정 기술이 데이터 산업을 이끄는 핵심기술로 자리 잡고 있는바, 이를 위한 머신러닝 기술은 고품질의 학습데이터를 요구한다. 하지만 실세계 데이터는 다양한 이유에 의해 결측값이 포함되어 이로부터 생성된 학습된 모델의 성능을 떨어뜨린다. 이에 실세계에 존재하는 데이터로부터 고성능 학습 모델을 구축하기 위해서 학습데이터에 내재한 결측값을 자동 보간하는 기법이 활발히 연구되고 있다. 기존 머신러닝 기반 결측 데이터 보간 기법은 수치형 변수에만 적용되거나, 변수별로 개별적인 예측 모형을 만들기 때문에 매우 번거로운 작업을 수반하게 된다. 이에 본 논문은 수치형, 범주형 변수가 혼합된 데이터에 적용 가능한 데이터 보간 모델인 Denoising Self-Attention Network(DSAN)를 제안한다. DSAN은 셀프 어텐션과 디노이징 기법을 결합하여 견고한 특징 표현 벡터를 학습하고, 멀티태스크 러닝을 통해 다수개의 결측치 변수에 대한 보간 모델을 병렬적으로 생성할 수 있다. 제안 모델의 유효성을 검증하기 위해 다수개의 혼합형 학습 데이터에 대하여 임의로 결측 처리한 후 데이터 보간 실험을 수행한다. 원래 값과 보간 값 간의 오차와 보간된 데이터를 학습한 이진 분류 모델의 성능을 비교하여 제안 기법의 유효성을 입증한다.

19대 대선 여론조사에서 무응답 메카니즘의 민감도 분석 (Sensitivity analysis of missing mechanisms for the 19th Korean presidential election poll survey)

  • 김성용;곽동호
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.29-40
    • /
    • 2019
  • 선거여론조사 자료의 경우 무응답이 흔히 관측되며, 이와 같이 무응답이 존재하는 범주형 자료는 불완전 분할표로 표현된다. 불완전 분할표로 표현된 선거여론조사 자료에서 후보자 지지율을 추정하는 경우, 지지율은 무응답이 어떤 메카니즘을 따르는가에 따라 다르게 추정되며, 따라서 자료가 어떠한 무응답 메카니즘을 따르는지에 대한 판별이 분석에 선행되어야 한다. 그러나 최근 연구에 따르면, 관측된 자료를 이용해서는 무응답 메카니즘을 판별할 수 없음이 밝혀졌다. 이러한 문제를 해결하기 위해 다양한 무응답 메카니즘을 반영할 수 있는 민감도 분석이 제안되었다. 그러나 기존에 제안된 민감도 분석의 경우, 이원 분할표에서 각 변수의 범주 수가 두 개인 경우만을 대상으로 한다. 우리나라 선거여론조사에서 고려되는 요인이 지역, 성, 연령 등임을 감안할 때, 기존 방법론으로 민감도 분석을 시행하기에는 한계점이 존재한다. 이에 따라 본 논문에서는 기존의 민감도 분석을 다차원 불완전 분할표에 적용할 수 있도록 확장하고, 이를 우리나라 19대 대선 여론조사 자료에 적용하였다. 분석 결과, 민감도 분석의 구간이 실제 지지율을 포함하고 있을 뿐 아니라, 다양한 무응답 메카니즘의 결과를 포괄하고 있으며, 실제 지지율과 가장 가까운 예측치의 경우 후보자에 대한 지지가 무응답의 발생에 영향을 미침을 알 수 있었다.

머신러닝 자동화를 위한 개발 환경에 관한 연구 (A Study on Development Environments for Machine Learning)

  • 김동길;박용순;박래정;정태윤
    • 대한임베디드공학회논문지
    • /
    • 제15권6호
    • /
    • pp.307-316
    • /
    • 2020
  • Machine learning model data is highly affected by performance. preprocessing is needed to enable analysis of various types of data, such as letters, numbers, and special characters. This paper proposes a development environment that aims to process categorical and continuous data according to the type of missing values in stage 1, implementing the function of selecting the best performing algorithm in stage 2 and automating the process of checking model performance in stage 3. Using this model, machine learning models can be created without prior knowledge of data preprocessing.

병원 성과 비교를 위한 급성기 뇌졸중 사망률 위험보정모형의 타당도 평가 (Evaluation of the Validity of Risk-Adjustment Model of Acute Stroke Mortality for Comparing Hospital Performance)

  • 최은영;김선하;옥민수;이현정;손우승;조민우;이상일
    • 보건행정학회지
    • /
    • 제26권4호
    • /
    • pp.359-372
    • /
    • 2016
  • Background: The purpose of this study was to develop risk-adjustment models for acute stroke mortality that were based on data from Health Insurance Review and Assessment Service (HIRA) dataset and to evaluate the validity of these models for comparing hospital performance. Methods: We identified prognostic factors of acute stroke mortality through literature review. On the basis of the avaliable data, the following factors was included in risk adjustment models: age, sex, stroke subtype, stroke severity, and comorbid conditions. Survey data in 2014 was used for development and 2012 dataset was analysed for validation. Prediction models of acute stroke mortality by stroke type were developed using logistic regression. Model performance was evaluated using C-statistics, $R^2$ values, and Hosmer-Lemeshow goodness-of-fit statistics. Results: We excluded some of the clinical factors such as mental status, vital sign, and lab finding from risk adjustment model because there is no avaliable data. The ischemic stroke model with age, sex, and stroke severity (categorical) showed good performance (C-statistic=0.881, Hosmer-Lemeshow test p=0.371). The hemorrhagic stroke model with age, sex, stroke subtype, and stroke severity (categorical) also showed good performance (C-statistic=0.867, Hosmer-Lemeshow test p=0.850). Conclusion: Among risk adjustment models we recommend the model including age, sex, stroke severity, and stroke subtype for HIRA assessment. However, this model may be inappropriate for comparing hospital performance due to several methodological weaknesses such as lack of clinical information, variations across hospitals in the coding of comorbidities, inability to discriminate between comorbidity and complication, missing of stroke severity, and small case number of hospitals. Therefore, further studies are needed to enhance the validity of the risk adjustment model of acute stroke mortality.

무응답을 가지고 있는 범주형 자료에 대한 모형 선택 방법 (Model selection method for categorical data with non-response)

  • 윤용화;최보승
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.627-641
    • /
    • 2012
  • 본 연구는 다차원 분할표 형태로 정리된 범주형 자료가 결측치나 무응답을 가지고 있을 때 주어진 자료를 가장 잘 설명하고 예측의 정확도를 높일 수 있는 모형의 추정과 모형의 선택 문제를 다루었다. 무시할 수 없는 무응답 (non-ignorable non-response)체계하에서 최대우도 추정에서 발생할 수 있는 변방값 문제를 해결하기 위하여 계층적 베이지안 모형을 고려하였다. 또한 모형 적도를 높이기 위한 변수 조합을 찾는 모형 선택의 문제를 함께 다루었다. 베이지안 접근하에서 모형 선택의 문제를 다루기 위하여 베이즈 인자 (Bayes factor)를 모형 선택의 기준으로 이용하였다. 제시된 방법은 2004년 실시된 우리나라 국회의원 선거를 앞두고 수행된 여론조사 데이터를 이용하여 실증분석을 수행하였다. 분석결과 무시할 수 없는 무응답 체계하에서 설명변수로 투표참여여부를 이용하는 것이 가장 적합한 모형으로 판명되었다.

신규시장 성장모형의 모수 추정을 위한 전문가 시스템 (An Expert System for the Estimation of the Growth Curve Parameters of New Markets)

  • 이동원;정여진;정재권;박도형
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.17-35
    • /
    • 2015
  • 시장 수요 예측은 일정 기간 동안 소비자에게 판매되는 동종 제품 또는 서비스의 수량 혹은 매출액의 규모를 추정하는 활동으로서, 기업경영활동에 있어 효율적인 의사결정을 내릴 수 있는 근거로 활용된다는 점에서 중요하게 인식되고 있다. 신규 시장의 수요를 예측하기 위해 다양한 시장성장모형이 개발되어 왔다. 이런 모형들은 일반적으로 시장의 크기 변화의 동인을 신기술 확산으로 보고 소비자인 개인에게 기술이 확산되는 과정을 통해 시장 크기가 변하는 과정을 확산모형으로 구현하게 된다. 그러나, 시장이 형성된 직후에는 수요 관측치의 부족으로 인해 혁신계수, 모방계수와 같은 예측모형의 모수를 정확하게 추정하는 것이 쉽지 않다. 이런 경우, 전문가의 판단 하에 예측하고자 하는 시장과 유사한 시장을 결정하고 이를 참고하여 모수를 추정하게 되는데, 어떤 시장을 유사하다고 판단하느냐에 따라 성장모형은 크게 달라지게 되므로, 정확한 예측을 위해서는 유사 시장을 찾는 것은 매우 중요하다. 그러나, 이런 방식은 직관과 경험이라는 정성적 판단에 크게 의존함으로써 일관성이 떨어질 수밖에 없으며, 결국, 만족할 만한 수준의 결과를 얻기 힘들다는 단점을 지닌다. 이런 정성적 방법은 유사도가 더 높은 시장을 누락시키고 유사도가 낮은 시장을 선택하는 오류를 일으킬 수 있다. 이런 이유로, 본 연구는 신규 시장의 모수를 추정하기 위해 필요한 유사시장을 누락 없이 효과적으로 찾아낼 수 있는 사례기반 전문가 시스템을 설계하고자 수행되었다. 제안된 모형은 데이터 마이닝의 군집분석 기법과 추천 시스템의 내용 기반 필터링 방법론을 기반으로 전문가 시스템으로 구현되었다. 본 연구에서 개발된 시스템의 유용성을 확인하고자 정보통신분야 시장의 모수를 추정하는 실험을 실시하였다. 전문가를 대상으로 실시된 실험에서, 시스템을 사용한 모수의 추정치가 시스템을 사용하지 않았을 때와 비교하여 실제 모수와 더 가까움을 보임으로써 시스템의 유용성을 증명하였다.