• 제목/요약/키워드: missing-value problems

검색결과 27건 처리시간 0.026초

디지털 데이터에서 데이터 전처리를 위한 자동화된 결측 구간 대치 방법에 관한 연구 (A Study on Automatic Missing Value Imputation Replacement Method for Data Processing in Digital Data)

  • 김종찬;심춘보;정세훈
    • 한국멀티미디어학회논문지
    • /
    • 제24권2호
    • /
    • pp.245-254
    • /
    • 2021
  • We proposed the research on an analysis and prediction model that allows the identification of outliers or abnormality in the data followed by effective and rapid imputation of missing values was conducted. This model is expected to analyze efficiently the problems in the data based on the calibrated raw data. As a result, a system that can adequately utilize the data was constructed by using the introduced KNN + MLE algorithm. With this algorithm, the problems in some of the existing KNN-based missing data imputation algorithms such as ignoring the missing values in some data sections or discarding normal observations were effectively addressed. A comparative evaluation was performed between the existing imputation approaches such as K-means, KNN, MEI, and MI as well as the data missing mechanisms including MCAR, MAR, and NI to check the effectiveness/efficiency of the proposed algorithm, and its superiority in all aspects was confirmed.

불완전한 데이터를 처리하기 위한 데이터 확장기법 (A data extension technique to handle incomplete data)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권2호
    • /
    • pp.7-13
    • /
    • 2021
  • 본 논문은 학습 데이터에 손실값을 포함하고 있는 불완전한 데이터를 위하여 확률을 나타낼 수 있는 형식으로 변환한 후 손실값을 보상하는 알고리즘을 소개한다. 기존에 이러한 데이터 변환을 사용한 방법에서는 손실 변수가 가질 수 있는 균등한 확률로 손실값을 할당하여 불완전한 데이터를 처리하는 것이었다. 이 방법으로 많은 문제에 적용하여 좋은 결과를 얻었으나, 손실 변수에 남아있는 모든 정보를 무시하고 새로운 값을 할당한다는 점에서 정보의 손실이 있다는 지적이 있었다. 이에 반해 새로운 제안 방법은 손실값을 포함하지 않는 완전한 정보만을 잘 알려진 분류 알고리즘(C4.5)에 입력하고 학습하는 중에 결정트리가 구축된다. 그리고 이 결정트리로 부터 손실값에 대한 확률을 구하여 이를 손실 변수의 추정값으로 할당한다. 즉, 불완전한 학습 데이터에서 손실되지 않은 많은 정보들을 사용하여 손실된 일부 정보를 복구하는 것이다.

연속적 결측이 존재하는 기온 자료에 대한 결측복원 기법의 비교 (A comparison of imputation methods for the consecutive missing temperature data)

  • 김희경;강인경;이재원;이영섭
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.549-557
    • /
    • 2016
  • 장기간의 기후 자료가 누적되다 보면 자료의 수집과정에서 시스템적 오류나 측정 장비의 고장 등으로 인하여 연속적 결측이 종종 발생하게 된다. 연속적인 결측 형태를 갖는 경우 시계열 결측 자료를 대체하는 것에 어려움이 따른다. 이러한 경우 참조시계열을 이용하여 결측값을 대체할 수 있다. 참조시계열은 결측이 발생한 시계열과 관련성이 높은 주변지점의 시계열로 구성할 수 있다. 본 연구에서는 결측값을 대체시킬 수 있는 3가지 결측복원 기법-수정된 정규화비율 방법, 회귀 방법, IDW 방법-을 비교하는 시뮬레이션을 수행하였다. 우리나라 14개 지점의 기후관측소의 일평균기온값을 대상으로 비교한 결과 남쪽 해안가에 위치한 기후관측소의 자료에 대해서는 IDW 방법이 가장 정확한 것으로 나타났으며, 그 외 지역의 기후관측소 자료에 대해서는 회귀 방법이 가장 정확한 것으로 나타났다.

5, 6, 7학년 학생들의 비례추론 능력 실태 조사 (A Survey on the Proportional Reasoning Ability of Fifth, Sixth, and Seventh Graders)

  • 안숙현;방정숙
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제18권1호
    • /
    • pp.103-121
    • /
    • 2008
  • 본 연구는 비례 추론의 중요성을 바탕으로 5, 6, 7학년 학생들의 비례추론 능력을 알아보고자, 다양한 유형의 비례 문제와 비례가 아닌 문제로 구성된 검사지를 이용하여 5학년 155명, 6학년 153명, 7학년 190명의 반응을 분석하였다. 분석 결과, 비례문제 유형별로는 정비례 상황의 미지값 구하기 문제, 수리적 비교, 반비례 상황의 미지값 구하기 문제, 질적 예측 및 비교의 순으로 성취 정도가 높게 나타났으며, 비례가 아닌 문제에서는 비례 상황이 아님에도 불구하고 전체 약 34%의 학생들이 비례관계를 적용하는 오류를 범하였다. 문제유형별로 학년별 학생들의 반응을 비교 분석함으로써 비와 비율 및 비례와 관련한 교수 학습 방향에 대한 시사점을 도출하였다.

  • PDF

머신러닝 기법을 활용한 에너지 데이터 분석에 관한 연구 (A Research on the Energy Data Analysis using Machine Learning)

  • 김동주;권성철;문종희;심기도;배문성
    • KEPCO Journal on Electric Power and Energy
    • /
    • 제7권2호
    • /
    • pp.301-307
    • /
    • 2021
  • After the spread of the data collection devices such as smart meters, energy data is increasingly collected in a variety of ways, and its importance continues to grow. However, due to technical or practical limitations, errors such as missing or outliers in the data occur during data collection process. Especially in the case of customer-related data, billing problems may occur, so energy companies are conducting various research to process such data. In addition, efforts are being made to create added value from data, which makes it difficult to provide such services unless reliability of data is guaranteed. In order to solve these challenges, this research analyzes prior research related to bad data processing specifically in the energy field, and propose new missing value processing methods to improve the reliability and field utilization of energy data.

패턴 분류 문제에 확장된 데이터 표현 기법을 적용한 응용 사례 (Application Examples Applying Extended Data Expression Technique to Classification Problems)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제9권12호
    • /
    • pp.9-15
    • /
    • 2018
  • 확장된 데이터 표현의 주요 목표는 유비쿼터스 환경에서 일반적인 문제에 적합한 데이터 구조를 개발하는 것이다. 이 방법의 가장 큰 특징은 속성 값을 확률로 표현할 수 있다는 것이다. 다음 특성은 훈련 데이터의 각 이벤트가 중요도를 나타내는 가중치 값을 갖도록 한다는 것이다. 데이터 구조가 개발된 후에 이를 학습할 수 있는 알고리즘이 고안된다. 그 동안 이 알고리즘은 여러 분야에서 여러 문제에 적용하여 좋은 결과를 산출해 왔다. 본 논문은 먼저 데이터 표현 기법인 UChoo를 소개하고 이론적인 배경이 되는 규칙 개선 문제를 소개한다. 그리고 규칙 개선, 손실 데이터 처리, BEWS 문제, 앙상블 시스템과 같은 응용 분야의 예를 소개한다.

머신러닝을 활용한 결측 부동산 매매 지수의 추정에 대한 연구 (A Study on the Index Estimation of Missing Real Estate Transaction Cases Using Machine Learning)

  • 김경민;김규석;남대식
    • 한국경제지리학회지
    • /
    • 제25권1호
    • /
    • pp.171-181
    • /
    • 2022
  • 부동산 시장 분석에 있어 기본이 되는 정량적 데이터는 부동산 가격 지수이다. OECD와 같은 국제기구에서는 국가별 부동산 가격 지수를 공표하고, 한국부동산원에서는 광역시 단위와 시군구 단위의 지수를 산출한다. 그런데 공간단위를 시군구보다 정교한 동단위, 아파트 단지 단위로 설정하는 경우, 여러 문제점을 맞이하게 된다. 대표적인 문제는 결측치이다. 공간적 범위를 좁힐수록 단위 기간에 따라 거래가 적거나 아예 존재하지 않는 경우가 존재하기에 이 경우에는 지수의 산출이 불가능한 결측치가 발생할 수 있다. 본 연구에서는 지도학습 기반의 머신러닝 기법을 활용하여 특정 범위와 기간에 거래가 존재하지 않아 발생할 수 있는 결측치를 보완하는 기법을 제안한다. 본 모형을 통해 부동산 매매 지수의 실제값이 존재하는 것들의 예측을 통해 그 정확도를 검증하고 결측치가 발생한 것들의 예측도 해 볼 수 있었다.

결측값 대체를 위한 데이터 재현 기법 비교 (Comparison of Data Reconstruction Methods for Missing Value Imputation)

  • 김청호;강기훈
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.603-608
    • /
    • 2024
  • 무응답 및 결측값은 표본 탈락, 설문조사에 대한 답변 회피 등으로 발생하며 정보의 손실 및 편향된 추론의 가능성이 있는 문제가 발생하게 되며, 이 경우 결측값을 적절한 값으로 바꾸는 대체가 필요하게 된다. 본 논문에서는 결측값에 대한 대체 방법으로 제안되었던 평균 대체, 다중회귀 대체, 랜덤 포레스트 대체, K-최근접 이웃 대체, 그리고 딥러닝을 기본으로 한 오토인코더 대체와 잡음제거 오토인코더 대체 방법을 비교한다. 결측값을 대체하는 이러한 방법들에 대해 설명하고, 연속형의 모의실험 데이터와 실제 데이터에 접목시켜 각 방법들을 비교하였다. 비교 결과 대부분의 경우에서 다중 대체 방법인 랜덤 포레스트 대체 방법과 잡음제거 오토인코더 대체 방법의 성능이 좋았음을 확인하였다.

SMOOTH SINGULAR VALUE THRESHOLDING ALGORITHM FOR LOW-RANK MATRIX COMPLETION PROBLEM

  • Geunseop Lee
    • 대한수학회지
    • /
    • 제61권3호
    • /
    • pp.427-444
    • /
    • 2024
  • The matrix completion problem is to predict missing entries of a data matrix using the low-rank approximation of the observed entries. Typical approaches to matrix completion problem often rely on thresholding the singular values of the data matrix. However, these approaches have some limitations. In particular, a discontinuity is present near the thresholding value, and the thresholding value must be manually selected. To overcome these difficulties, we propose a shrinkage and thresholding function that smoothly thresholds the singular values to obtain more accurate and robust estimation of the data matrix. Furthermore, the proposed function is differentiable so that the thresholding values can be adaptively calculated during the iterations using Stein unbiased risk estimate. The experimental results demonstrate that the proposed algorithm yields a more accurate estimation with a faster execution than other matrix completion algorithms in image inpainting problems.

속성 변동 최소화에 의한 러프집합 누락 패턴 부합 (Missing Pattern Matching of Rough Set Based on Attribute Variations Minimization in Rough Set)

  • 이영천
    • 한국전자통신학회논문지
    • /
    • 제10권6호
    • /
    • pp.683-690
    • /
    • 2015
  • 러프집합에서 누락된 속성 값들은 Reduct와 Core 계산, 더 나아가서 결정 트리 구축에 있어서 식별 불능의 패턴 부합 문제를 가진다. 현재 누락된 속성 값들의 추정과 관련하여 보편적인 속성 값으로의 대체, 속성들의 모든 가능한 값 할당, 이벤트 포장 방법, C4.5, 특수한 LEM2 알고리즘과 같은 접근방식들이 적용되고 있다. 그렇지만, 이들 접근방식은 결국 전형적으로 자주 등장하는 속성 값 혹은 가장 보편적인 속성 값으로의 단순 대체를 나타내기 때문에, 주요 속성 값들이 누락된 경우에 정보 손실이 큰 의사 결정 규칙들이 유도되기 때문에 의사결정 규칙들의 교차 검증에서 문제가 된다. 본 연구에서는 이러한 문제점을 개선시키기 위해 속성들간에 엔트로피 변동을 활용하여 정보 이득이 높은 방향으로 누락된 속성 값들을 대체하는 방식을 제안한다. 제안된 접근방식에 관한 타당성 검토는 비교적 가까운 유사 관계에 의해 누락 값 대체 방식을 적용하는 ROSE 프로그램과의 비교를 나타낸다.