• Title/Summary/Keyword: 불완전한 데이터

Search Result 150, Processing Time 0.053 seconds

데이터 수정 접근에 의한 불완전한 수치형 데이터 분류에 관한 연구 (A Study on Classifying Numerical Incomplete Data with Data Reparation Approach)

  • 김요승;정영철;이원돈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.44-47
    • /
    • 2008
  • 분류는 기계학습에서 매우 중요한 연구주제이다. 그 중에서도 수치형 데이터의 분류를 위한 많은 알고리즘들이 있다. 그러나 불완전한 데이터의 존재는 분류 모델들의 학습(learning) 품질(quality)을 떨어뜨린다. 그 불완전한 데이터는 현실 세계에서 아주 흔하다. 학습 단계와 분류 단계 양쪽에서 불완전한 데이터를 다루는 것이 중요하고 현실세계 문제들을 풀기 위해 적용되는 것이 필요하다. 본 논문에서 Optimal Completion Strategy(OCS)로부터 나온 몇 개의 공식들이 불완전한 데이터를 예측하기 위해 사용되었다. 새로운 방법이 불완전한 데이터를 분류하기 위해서 제시되었고, 그것은 놀라운 성능을 보여준다.

불완전 데이터를 위한 효율적 Top-k(g) 스카이라인 그룹 질의 처리 기법 (An Efficient Processing Method of Top-k(g) Skyline Group Queries for Incomplete Data)

  • 박미라;민준기
    • 정보처리학회논문지D
    • /
    • 제17D권1호
    • /
    • pp.17-24
    • /
    • 2010
  • 최근에 스카이라인 질의에 대한 관심이 점차 증가하고 있다. 대부분의 스카이라인 질의에 대한 연구는 데이터들이 널 값을 가지지 않는다는 가정에서 이루어진다. 그러나 우리가 웹이나 다른 도구로 데이터베이스에 자료를 입력할 때는 널 값을 가지는 불완전한 데이터가 존재한다. 따라서 불완전한 데이터를 위한 다양한 스카이라인 처리 기법들이 제안되었다. 그러나 기존의 불완전한 데이터를 위한 스카이라인 질의 처리 기법은 불완전한 데이터만을 고려함으로써 완전한 데이터와 불완전한 데이터가 공존하는 환경을 고려하지 않았다. 본 논문에서는 완전한 데이터를 위한 스카이라인 질의와 불완전한 데이터를 위한 스카이라인 질의를 모두 처리 하는 스카이라인 그룹 질의 처리 기법을 제안한다. 이를 위하여, 사용자 정의에 의한 차원의 선호도에 따라서 g개의 스카이라인 그룹을 검색하는 top-k(g) 스카이라인 그룹 질의를 도입하고, 이를 질의 처리하는 기법을 제안한다. 그리고 모의실험을 통하여 제안한 방식의 성능을 보인다.

불완전 데이터 처리를 위한 퍼지 분류 알고리즘 (Fuzzy Classification Algorithm for Incomplete Data)

  • 이찬희;박충식;우영운
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.387-390
    • /
    • 2009
  • 패턴 분류 문제는 기계 학습 분야에서 매우 중요한 연구 주제이다. 하지만 불완전 데이터는 실생활에서 매우 빈번히 발생 할 뿐만 아니라 분류 모델의 학습도가 낮다는 문제점을 지니고 있다. 불완전한 데이터를 다루는 것에 대한 많은 방법들이 제안되어 왔지만 대부분의 방법들이 훈련 단계에 집중하고 있다. 본 논문에서는 삼각 형태의 퍼지 함수를 이용하여 불완전 데이터의 분류 알고리즘을 제안한다. 제안한 기법에서는 불완전한 특징 벡터에서의 불완전 데이터를 추론하고 학습하였으며, 추론된 데이터의 가중치를 삼각 퍼지 함수 분류기에 적용하였다. 실험을 통하여 제안한 기법이 상대적으로 높은 인식률을 나타냄을 확인할 수 있었다.

  • PDF

SVM과 딥러닝에서 불완전한 데이터를 처리하기 위한 알고리즘 (Algorithms for Handling Incomplete Data in SVM and Deep Learning)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제11권3호
    • /
    • pp.1-7
    • /
    • 2020
  • 본 논문은 불완전한 데이터를 처리하기 위해 2가지의 서로 다른 기법과 이를 학습하는 알고리즘을 소개한다. 첫째방법은 손실변수가 가질 수 있는 균등한 확률로 손실값을 할당하여 불완전한 데이터를 처리하고, SVM 알고리즘으로 이 데이터를 학습하는 것이다. 이 기법은 임의의 변수에 손실 값의 빈도가 높을수록 엔트로피가 높도록 하여 이 변수가 결정트리에서 선택되지 않도록 하는 것이다. 이 방법은 손실 변수에 남아있는 정보를 모두 무시하고 새로운 값을 할당한다는 특징이 있다. 이에 반해 새로운 방법은 손실 값을 제외하고 남아있는 정보로 엔트로피 확률을 구하고 이를 손실 변수의 추정 값으로 사용하는 것이다. 즉, 불완전한 학습데이터로부터 소실되지 않은 많은 정보들을 이용해 소실된 일부 정보를 복구하고 딥러닝을 이용해 학습한다. 이 2가지 방법은 학습데이터에서 차례로 변수 하나를 선택하고, 이 변수에 손실된 데이터의 비율을 달리하면서 서로 다른 측정값들의 결과들과 반복적으로 비교함으로써 성능을 측정한다.

불완전한 데이터를 처리하기 위한 데이터 확장기법 (A data extension technique to handle incomplete data)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권2호
    • /
    • pp.7-13
    • /
    • 2021
  • 본 논문은 학습 데이터에 손실값을 포함하고 있는 불완전한 데이터를 위하여 확률을 나타낼 수 있는 형식으로 변환한 후 손실값을 보상하는 알고리즘을 소개한다. 기존에 이러한 데이터 변환을 사용한 방법에서는 손실 변수가 가질 수 있는 균등한 확률로 손실값을 할당하여 불완전한 데이터를 처리하는 것이었다. 이 방법으로 많은 문제에 적용하여 좋은 결과를 얻었으나, 손실 변수에 남아있는 모든 정보를 무시하고 새로운 값을 할당한다는 점에서 정보의 손실이 있다는 지적이 있었다. 이에 반해 새로운 제안 방법은 손실값을 포함하지 않는 완전한 정보만을 잘 알려진 분류 알고리즘(C4.5)에 입력하고 학습하는 중에 결정트리가 구축된다. 그리고 이 결정트리로 부터 손실값에 대한 확률을 구하여 이를 손실 변수의 추정값으로 할당한다. 즉, 불완전한 학습 데이터에서 손실되지 않은 많은 정보들을 사용하여 손실된 일부 정보를 복구하는 것이다.

AutoEncoder와 FCM을 이용한 불완전한 데이터의 군집화 (Clustering of Incomplete Data Using Autoencoder and fuzzy c-Means Algorithm)

  • 박동철;장병근
    • 한국통신학회논문지
    • /
    • 제29권5C호
    • /
    • pp.700-705
    • /
    • 2004
  • Autoencoder와 Fuzzy c-Means 알고리즘을 이용하여, 불완전한 데이터의 군집화를 위한 알고리즘이 본 논문에서 제안되었다. 본 논문에서 제안된 Optimal Completion Autoencoder Fuzzy c-Means (OCAEFCM)은 손상되어 불완전한 데이터의 최적 복원과 데이터의 군집화를 위해 Autoencoder Neural Network (AENN) 과 Gradient-based FCM (GBFCM)을 이용하였다. OCAEFCM 의 성능평가를 위해 IRIS 데이터와 금융기관에서 취득한 실제 데이터를 사용하였다 기존의 Optimal Completion Strategy FCM (OCSFCM)과 비교했을 때, 제안된 OCAEFCM 이 OCSFCM 보다 18%-20%의 성능 향상을 보여준다.

빈발 패턴 탐사 기법을 이용한 반구조적 데이터로부터의 공통구조 추출 (Extracting Common Structure of Semistructured data Using mining frequent patterns)

  • 이영언;문봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.302-304
    • /
    • 2000
  • 인터넷의 발달로 웹에는 엄청난 데이터가 존재하나, 불규칙적인 구조를 이루고 있는 반구조적 데이터가 대부분이다. 이러한 반구조적 데이터는 데이터들간의 어떤 정확하게 정해진 구조를 갖고 있진 않지만 불완전하고 불규칙한 구조 정보를 포함하고 있는 것으로, 데이터들 간의 관계를 규명할 수 있는 공통 구조 정보를 추출하여 효과적으로 구조화시킴으로써 정보로서의 가치를 높일 필요성이 대두되게 되었다. 또, 데이터 처리 과정에서 기존의 잘 정의된 구조를 가진 데이터베이스의 장점을 수용하기 위해서는 반구조적 데이터 집합의 불완전한 구조 정보로부터 공통 구조를 추출하는 것이 요구된다. 본 연구에서는 후보 항목 집합의 생성이 없는 빈발 패턴 탐사 기법을 사용하여 반구조적 데이터 집합으로부터 공통구조를 추출하고자 한다.

  • PDF

불완전 데이터를 위한 효율적 top-k(g) 스카이라인 그룹 질의 처리 기법 (An Efficient Processing of Top-k(g) skyline group queries for Incomplete Data)

  • 박미라;민준기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.282-285
    • /
    • 2009
  • 대부분의 스카이라인 질의에 대한 연구는 완전한 데이터에 관하여 이루어지고 있다. 하지만, 우리가 웹이나 기타 다른 도구로 데이터베이스에 자료를 입력할 때는 null을 허용하는 부분이 존재한다. 현재 이런 불완전한 데이터를 처리하기 위한 많은 연구가 이루어지고 있다. 본 논문에서는 이러한 문제를 해결하기 위하여 기존에 제안되었던 불완전한 데이터를 처리하는 기법과 차원의 저주를 해결하기 위한 기법을 고려하여 이를 바탕으로 완전한 데이터와 동등하거나 혹은 더 좋을지도 모르는 데이터를 우선순위가 높은 순서대로 k(g)개 검색해주는 스카이라인 그룹 질의를 도입하고 이를 처리하는 방법을 제안한다.

불완전한 데이터로부터 베이지안 네트워크 파라메터의 온라인 학습 (Online Learning for Bayesian Network Parameters from Incomplete Data)

  • 임성수;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.652-654
    • /
    • 2005
  • 베이지안 네트워크의 파라메터 학습은 주어진 평가 척도에 따라 데이터의 훈련집합에 가장 잘 부합되는 네트워크 파라메터를 구하는 것으로, 베이지안 네트워크 설계에 드는 시간과 노력을 줄이기 위해 연구되어 왔다. 본 논문에서는 불완전한 데이터로부터 온라인으로 베이지안 네트워크의 파라메터를 학습하는 방법을 제안한다. 제안하는 방법은 불완전한 데이터로부터 학습이 가능하도록 하여 학습의 유연성을 높이고, 온라인 학습을 통해 사용자 또는 환경의 변화를 잘 모델링한다. Choen 등이 제안한 온라인 파라메터 학습 방법인 Voting EM 알고리즘과 비교 실험 결과, 제안하는 방법의 유용성을 확인할 수 있었다.

  • PDF

퍼지 신경망을 이용한 공간 분류 시스템의 설계 및 구현 (Design and Implementation of Spatial Classification System using Fuzzy-Neural Network)

  • 안찬민;박상호;박태수;이주홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (B)
    • /
    • pp.460-463
    • /
    • 2007
  • 기존 공간 분류 시스템은 애매모호한 데이터나 불완전한 데이터, 결손 데이터의 처리에는 취약하다는 단점을 가지고 있다. 수치 형태의 애매모호성을 효과적으로 처리하기 위해 신경망을 이용할 수 있다. 그러나, 신경망을 이용한 공간 데이터 분류 방법은 불완전한 데이터나 결손 데이터들을 무시하지 않고 처리 할 수 있으나, 다양한 수치형태를 가지는 공간 데이터들로 인해 네트워크 구조의 복잡도가 증가하고 학습성능이 저하된다는 문제점을 야기한다. 본 논문에서는 이러한 문제점을 해결하기 위해서 퍼지 신경망을 적용한 새로운 공간 분류시스템을 제안하고 구현하였다. 실험 결과 기존의 방법에 비해 좋은 성능을 보임을 확인하였다.

  • PDF