• Title/Summary/Keyword: 불완전한 데이터

Search Result 150, Processing Time 0.04 seconds

A Study on Classifying Numerical Incomplete Data with Data Reparation Approach (데이터 수정 접근에 의한 불완전한 수치형 데이터 분류에 관한 연구)

  • Yo-Seung Kim;Young-Chul Jung;Won-Don Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.44-47
    • /
    • 2008
  • 분류는 기계학습에서 매우 중요한 연구주제이다. 그 중에서도 수치형 데이터의 분류를 위한 많은 알고리즘들이 있다. 그러나 불완전한 데이터의 존재는 분류 모델들의 학습(learning) 품질(quality)을 떨어뜨린다. 그 불완전한 데이터는 현실 세계에서 아주 흔하다. 학습 단계와 분류 단계 양쪽에서 불완전한 데이터를 다루는 것이 중요하고 현실세계 문제들을 풀기 위해 적용되는 것이 필요하다. 본 논문에서 Optimal Completion Strategy(OCS)로부터 나온 몇 개의 공식들이 불완전한 데이터를 예측하기 위해 사용되었다. 새로운 방법이 불완전한 데이터를 분류하기 위해서 제시되었고, 그것은 놀라운 성능을 보여준다.

An Efficient Processing Method of Top-k(g) Skyline Group Queries for Incomplete Data (불완전 데이터를 위한 효율적 Top-k(g) 스카이라인 그룹 질의 처리 기법)

  • Park, Mi-Ra;Min, Jun-Ki
    • The KIPS Transactions:PartD
    • /
    • v.17D no.1
    • /
    • pp.17-24
    • /
    • 2010
  • Recently, there has been growing interest in skyline queries. Most of works for skyline queries assume that the data do not have null value. However, when we input data through the Web or with other different tools, there exist incomplete data with null values. As a result, several skyline processing techniques for incomplete data have been proposed. However, available skyline query techniques for incomplete data do not consider the environments that coexist complete data and incomplete data since these techniques deal with the incomplete data only. In this paper, we propose a novel skyline group processing technique which evaluates skyline queries for the environments that coexist complete data and incomplete data. To do this, we introduce the top-k(g) skyline group query which searches g skyline groups with respect to the user's dimensional preference. In our experimental study, we show efficiency of our proposed technique.

Fuzzy Classification Algorithm for Incomplete Data (불완전 데이터 처리를 위한 퍼지 분류 알고리즘)

  • Lee, Chan-Hee;Park, Choong-shik;Woo, Young Woon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.387-390
    • /
    • 2009
  • 패턴 분류 문제는 기계 학습 분야에서 매우 중요한 연구 주제이다. 하지만 불완전 데이터는 실생활에서 매우 빈번히 발생 할 뿐만 아니라 분류 모델의 학습도가 낮다는 문제점을 지니고 있다. 불완전한 데이터를 다루는 것에 대한 많은 방법들이 제안되어 왔지만 대부분의 방법들이 훈련 단계에 집중하고 있다. 본 논문에서는 삼각 형태의 퍼지 함수를 이용하여 불완전 데이터의 분류 알고리즘을 제안한다. 제안한 기법에서는 불완전한 특징 벡터에서의 불완전 데이터를 추론하고 학습하였으며, 추론된 데이터의 가중치를 삼각 퍼지 함수 분류기에 적용하였다. 실험을 통하여 제안한 기법이 상대적으로 높은 인식률을 나타냄을 확인할 수 있었다.

  • PDF

Algorithms for Handling Incomplete Data in SVM and Deep Learning (SVM과 딥러닝에서 불완전한 데이터를 처리하기 위한 알고리즘)

  • Lee, Jong-Chan
    • Journal of the Korea Convergence Society
    • /
    • v.11 no.3
    • /
    • pp.1-7
    • /
    • 2020
  • This paper introduces two different techniques for dealing with incomplete data and algorithms for learning this data. The first method is to process the incomplete data by assigning the missing value with equal probability that the missing variable can have, and learn this data with the SVM. This technique ensures that the higher the frequency of missing for any variable, the higher the entropy so that it is not selected in the decision tree. This method is characterized by ignoring all remaining information in the missing variable and assigning a new value. On the other hand, the new method is to calculate the entropy probability from the remaining information except the missing value and use it as an estimate of the missing variable. In other words, using a lot of information that is not lost from incomplete learning data to recover some missing information and learn using deep learning. These two methods measure performance by selecting one variable in turn from the training data and iteratively comparing the results of different measurements with varying proportions of data lost in the variable.

A data extension technique to handle incomplete data (불완전한 데이터를 처리하기 위한 데이터 확장기법)

  • Lee, Jong Chan
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.2
    • /
    • pp.7-13
    • /
    • 2021
  • This paper introduces an algorithm that compensates for missing values after converting them into a format that can represent the probability for incomplete data including missing values in training data. In the previous method using this data conversion, incomplete data was processed by allocating missing values with an equal probability that missing variables can have. This method applied to many problems and obtained good results, but it was pointed out that there is a loss of information in that all information remaining in the missing variable is ignored and a new value is assigned. On the other hand, in the new proposed method, only complete information not including missing values is input into the well-known classification algorithm (C4.5), and the decision tree is constructed during learning. Then, the probability of the missing value is obtained from this decision tree and assigned as an estimated value of the missing variable. That is, some lost information is recovered using a lot of information that has not been lost from incomplete learning data.

Clustering of Incomplete Data Using Autoencoder and fuzzy c-Means Algorithm (AutoEncoder와 FCM을 이용한 불완전한 데이터의 군집화)

  • 박동철;장병근
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.29 no.5C
    • /
    • pp.700-705
    • /
    • 2004
  • Clustering of incomplete data using the Autoencoder and the Fuzzy c-Means(PCM) is proposed in this paper. The Proposed algorithm, called Optimal Completion Autoencoder Fuzzy c-Means(OCAEFCM), utilizes the Autoencoder Neural Network (AENN) and the Gradiant-based FCM (GBFCM) for optimal completion of missing data and clustering of the reconstructed data. The proposed OCAEFCM is applied to the IRIS data and a data set from a financial institution to evaluate the performance. When compared with the existing Optimal Completion Strategy FCM (OCSFCM), the OCAEFCM shows 18%-20% improvement of performance over OCSFCM.

Extracting Common Structure of Semistructured data Using mining frequent patterns (빈발 패턴 탐사 기법을 이용한 반구조적 데이터로부터의 공통구조 추출)

  • 이영언;문봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.302-304
    • /
    • 2000
  • 인터넷의 발달로 웹에는 엄청난 데이터가 존재하나, 불규칙적인 구조를 이루고 있는 반구조적 데이터가 대부분이다. 이러한 반구조적 데이터는 데이터들간의 어떤 정확하게 정해진 구조를 갖고 있진 않지만 불완전하고 불규칙한 구조 정보를 포함하고 있는 것으로, 데이터들 간의 관계를 규명할 수 있는 공통 구조 정보를 추출하여 효과적으로 구조화시킴으로써 정보로서의 가치를 높일 필요성이 대두되게 되었다. 또, 데이터 처리 과정에서 기존의 잘 정의된 구조를 가진 데이터베이스의 장점을 수용하기 위해서는 반구조적 데이터 집합의 불완전한 구조 정보로부터 공통 구조를 추출하는 것이 요구된다. 본 연구에서는 후보 항목 집합의 생성이 없는 빈발 패턴 탐사 기법을 사용하여 반구조적 데이터 집합으로부터 공통구조를 추출하고자 한다.

  • PDF

An Efficient Processing of Top-k(g) skyline group queries for Incomplete Data (불완전 데이터를 위한 효율적 top-k(g) 스카이라인 그룹 질의 처리 기법)

  • Park, Mi-Ra;Min, Jun-Ki
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.282-285
    • /
    • 2009
  • 대부분의 스카이라인 질의에 대한 연구는 완전한 데이터에 관하여 이루어지고 있다. 하지만, 우리가 웹이나 기타 다른 도구로 데이터베이스에 자료를 입력할 때는 null을 허용하는 부분이 존재한다. 현재 이런 불완전한 데이터를 처리하기 위한 많은 연구가 이루어지고 있다. 본 논문에서는 이러한 문제를 해결하기 위하여 기존에 제안되었던 불완전한 데이터를 처리하는 기법과 차원의 저주를 해결하기 위한 기법을 고려하여 이를 바탕으로 완전한 데이터와 동등하거나 혹은 더 좋을지도 모르는 데이터를 우선순위가 높은 순서대로 k(g)개 검색해주는 스카이라인 그룹 질의를 도입하고 이를 처리하는 방법을 제안한다.

Online Learning for Bayesian Network Parameters from Incomplete Data (불완전한 데이터로부터 베이지안 네트워크 파라메터의 온라인 학습)

  • Lim Sungsoo;Cho Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.652-654
    • /
    • 2005
  • 베이지안 네트워크의 파라메터 학습은 주어진 평가 척도에 따라 데이터의 훈련집합에 가장 잘 부합되는 네트워크 파라메터를 구하는 것으로, 베이지안 네트워크 설계에 드는 시간과 노력을 줄이기 위해 연구되어 왔다. 본 논문에서는 불완전한 데이터로부터 온라인으로 베이지안 네트워크의 파라메터를 학습하는 방법을 제안한다. 제안하는 방법은 불완전한 데이터로부터 학습이 가능하도록 하여 학습의 유연성을 높이고, 온라인 학습을 통해 사용자 또는 환경의 변화를 잘 모델링한다. Choen 등이 제안한 온라인 파라메터 학습 방법인 Voting EM 알고리즘과 비교 실험 결과, 제안하는 방법의 유용성을 확인할 수 있었다.

  • PDF

Design and Implementation of Spatial Classification System using Fuzzy-Neural Network (퍼지 신경망을 이용한 공간 분류 시스템의 설계 및 구현)

  • Ahn, Chan-Min;Park, Sang-Ho;Park, Tae-Su;Lee, Ju-Hong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06b
    • /
    • pp.460-463
    • /
    • 2007
  • 기존 공간 분류 시스템은 애매모호한 데이터나 불완전한 데이터, 결손 데이터의 처리에는 취약하다는 단점을 가지고 있다. 수치 형태의 애매모호성을 효과적으로 처리하기 위해 신경망을 이용할 수 있다. 그러나, 신경망을 이용한 공간 데이터 분류 방법은 불완전한 데이터나 결손 데이터들을 무시하지 않고 처리 할 수 있으나, 다양한 수치형태를 가지는 공간 데이터들로 인해 네트워크 구조의 복잡도가 증가하고 학습성능이 저하된다는 문제점을 야기한다. 본 논문에서는 이러한 문제점을 해결하기 위해서 퍼지 신경망을 적용한 새로운 공간 분류시스템을 제안하고 구현하였다. 실험 결과 기존의 방법에 비해 좋은 성능을 보임을 확인하였다.

  • PDF