• 제목/요약/키워드: 최근접 데이터 선택

검색결과 29건 처리시간 0.026초

최근접 이웃 규칙 기반 프로토타입 선택과 편의-분산을 이용한 성능 평가 (Nearest-neighbor Rule based Prototype Selection Method and Performance Evaluation using Bias-Variance Analysis)

  • 심세용;황두성
    • 전자공학회논문지
    • /
    • 제52권10호
    • /
    • pp.73-81
    • /
    • 2015
  • 이 논문은 프로토타입 선택 방법을 제안하고, 편의-분산 분해를 이용하여 최근접 이웃 알고리즘과 프로토타입 기반 분류 학습의 일반화 성능 비교 평가에 있다. 제안하는 프로토타입 분류기는 클래스 영역 내에서 가변 반지름을 이용한 다차원 구를 정의하고, 적은 수의 프로토타입으로 구성된 새로운 훈련 데이터 집합을 생성한다. 최근접 이웃 분류기는 새 훈련 집합을 이용하여 테스트 데이터의 클래스를 예측한다. 평균 기대 오류의 편의와 분산 요소를 분해하여 최근접 이웃 규칙, 베이지안 분류기, 고정 반지름을 이용한 프로토타입 선택 방법, 제안하는 프로토타입 선택 방법의 일반화 성능을 비교한다. 실험에서 제안하는 프로토타입 분류기의 편의-분산 변화 추세는 모든 훈련 데이터를 사용하는 최근접 이웃 알고리즘과 비슷한 편의-분산 추세를 보였으며, 프로토타입 선택 비율은 전체 데이터의 평균 약 27.0% 이하로 나타났다.

프로토타입 선택을 이용한 최근접 분류 학습의 성능 개선 (Performance Improvement of Nearest-neighbor Classification Learning through Prototype Selections)

  • 황두성
    • 전자공학회논문지CI
    • /
    • 제49권2호
    • /
    • pp.53-60
    • /
    • 2012
  • 최근접 이웃 분류에서 입력 데이터의 클래스는 선택된 근접 학습 데이터들 중에서 가장 빈번한 클래스로 예측된다. 최근접분류 학습은 학습 단계가 없으나, 준비된 데이터가 모두 예측 분류에 참여하여 일반화 성능이 학습 데이터의 질에 의존된다. 그러므로 학습 데이터가 많아지면 높은 기억 장치 용량과 예측 분류 시 높은 계산 시간이 요구된다. 본 논문에서는 분리 경계면에 위치한 학습 데이터들로 구성된 새로운 학습 데이터를 생성시켜 분류 예측을 수행하는 프로토타입 선택 알고리즘을 제안한다. 제안하는 알고리즘에서는 분리 경계 영역에 위치한 데이터를 Tomek links와 거리를 이용하여 선별하며, 이미 선택된 데이터와 클래스와 거리 관계 분석을 이용하여 프로토타입 집합에 추가 여부를 결정한다. 실험에서 선택된 프로토타입의 수는 원래 학습 데이터에 비해 적은 수의 데이터 집합이 되어 최근접 분류의 적용 시 기억장소의 축소와 빠른 예측 시간을 제공할수 있다.

클래스 초월구를 이용한 프로토타입 기반 분류 (Prototype-Based Classification Using Class Hyperspheres)

  • 이현종;황두성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권10호
    • /
    • pp.483-488
    • /
    • 2016
  • 본 논문은 최근접 이웃 규칙을 이용한 프로토타입을 이용하는 분류 학습을 제안한다. 훈련 데이터가 대표하는 클래스 영역을 초월구로 분할하는데 최근접 이웃규칙을 적용시키며, 초월구는 동일 클래스 데이터들만 포함시킨다. 초월구의 반지름은 가장 인접한 다른 클래스 데이터와 가장 먼 동일 클래스 데이터의 중간 거리 값으로 결정한다. 그리고 전체 훈련 데이터를 대표하는 최소의 프로토타입 집합을 선택하기 위해 집합 덮개 최적화를 이용한다. 제안하는 선택 방법은 클래스 별 프로토타입을 선택하는 그리디 알고리즘으로 설계되며, 대규모 훈련 데이터에 대한 병렬처리가 가능하다. 분류 예측은 최근접 이웃 규칙을 이용하며, 새로운 훈련 데이터는 프로토타입 집합이다. 실험에서 제안하는 방법은 기 연구된 학습 방법에 비해 일반화 성능이 우수하다.

클래스 영역의 다차원 구 생성에 의한 프로토타입 기반 분류 (Prototype based Classification by Generating Multidimensional Spheres per Class Area)

  • 심세용;황두성
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.21-28
    • /
    • 2015
  • 본 논문에서는 최근접 이웃 규칙을 이용한 프로토타입 선택 기반 분류 학습을 제안하였다. 각 훈련 데이터가 대표하는 클래스 영역을 구(sphere)로 분할하는데 최근접 이웃 규칙을 적용시키며, 구의 내부는 동일 클래스 데이터들만 포함하도록 한다. 프로토타입은 구의 중심점이며 프로토타입의 반지름은 가장 인접한 다른 클래스 데이터와 가장 먼 동일 클래스 데이터의 중간 거리 값으로 결정한다. 그리고 전체 훈련 데이터를 대표하는 최소의 프로토타입 집합을 선택하기 위해 집합 덮개 최적화를 이용하여 프로토타입 선택 문제를 변형시켰다. 제안하는 프로토타입 선택 방법은 클래스 별 적용이 가능한 그리디 알고리즘으로 설계되었다. 제안하는 방법은 계산 복잡도가 높지 않으며, 대규모 훈련 데이터에 대한 병렬처리의 가능성이 높다. 프로토타입 기반 분류 학습은 선택된 프로토타입 집합을 새로운 훈련 데이터 집합으로 사용하고 최근접 이웃 규칙을 적용하여 테스트 데이터의 클래스를 예측한다. 실험에서 제안하는 프로토타입 기반 분류기는 최근접 이웃 학습, 베이지안 분류 학습과 다른 프로토타입 분류기에 비해 일반화 성능이 우수하였다.

이동 객체 궤적에 대한 최근접 질의 (The Nearest Neighbor Query for Trajectory of Moving Objects)

  • 최보윤;지정희;김상호;류근호
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2003년도 추계학술대회
    • /
    • pp.169-174
    • /
    • 2003
  • 이동 객체에 대한 기존 최근접(nearest neighbor, NN) 질의 처리 기법들은 질의 궤적에 대해 연속적으로 정확하게, 질의와 가장 가까운 위치를 유지하면서 움직이는 최근접 객체를 선택할 수 있는 충분한 기준을 가지고 있지 못하다. 이 논문은 질의 객체와 데이터 객체가 모두 이동 객체인 경우에 가장 적합하게 사용되는 객체 궤적에 대한 연속적인 질의 처리를 통해 정확한 결과를 얻을 수 있는 새로운 최근접 질의 처리 기법, 연속 궤적 최근접 질의(CTNN, continuous trajectory nearest neighbor query)를 제안한다. 우리는 두 가지 Approximate, Exact CTNN 기법을 제안하며 이들은 모두 항해 시스템, 교통 통제 시스템, 물류정보 시스템 등 각종 위치 기반 서비스(L8S: location based services) 상에서 다양하게 사용될 수 있다. 이들은 이동 객체 궤적이 미리 알려져 있는 경우 그리고 질의와 데이터 객체가 모두 이동 객체인 경우에 가장 적합하다.

  • PDF

이동 객체의 궤적에 대한 최근접 탐색 기법 (The Method of Nearest Neighbor Search for Trajectory of Moving Objects)

  • 최보윤;신현호;지정희;김상호;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1595-1598
    • /
    • 2003
  • 이 논문은 질의와 검색 대상 객체가 모두 이동 객체인 경우, 즉 3 차원 폴리라인(polyline) 형태의 경로를 가지는 객체들 간의 연속(continuous) 최근접 질의 처리에 유용한 기법을 제안한다. 질의경로를 따라 객체를 탐색해가면서 질의에 대한 최근접 정보가 변하는 시점을 찾는 것이 목적인 연속 최근접 질의 처리는 전체 질의 경로에 올바른 최근접 정보 리스트를 제공하지만, 기존의 방법들은 검색 대상 객체가 동적인 경우에 적용되기에는 시간에 따라 움직이는 객체의 위치변화를 처리하지 못하고, 질의 시점과 대상 객체간의 시점을 연관시키기 어렵다는 문제점들을 가지고 있다. 따라서 이 논문에서는 데이터 객체들의 궤적 정보는 STR 트리로 유지하고, 질의 경로 세그먼트와 질의의 시간 인터벌에 포함되는 데이터 객체 세그먼트 모두에 대해 추출시간(sampling time) 선택, 스윕라인(sweep line) 적용, 위치 추정 함수 이용 등의 단계를 처리함으로써, 이 문제를 해결하고 질의 경로 전체에 정확한 최근접 객체 정보 리스트를 제공한다. 제안된 기법은 물류정보시스템, 국방정보시스템, 기상, 교통 등 시공간 이동 객체의 질의를 다루는 시스템에 적용할 수 있다.

  • PDF

상호정보 추정을 위한 k-최근접이웃 기반방법 (k-Nearest Neighbor-Based Approach for the Estimation of Mutual Information)

  • 차운옥;허문열
    • Communications for Statistical Applications and Methods
    • /
    • 제15권6호
    • /
    • pp.977-991
    • /
    • 2008
  • 본 논문에서는 연속형 변수에 대한 결합확률분포를 추정하지 않고도 상호정보(MI) 추정량을 구할 수 있는 k-최근접이웃 기반방법에 대하여 연구하였다. 변수가 동일한 값들을 가지는 경우 k-최근접이웃을 구할 때 생기는 문제점을 해결하기 위하여 지터링(jittering)과 붓스트랩(bootstrap) 방법을 제안하였다. 몬테칼로 모의실험과 실제 데이터에 대한 실험을 수행한 결과, k=1과 같이 작은 값을 사용한 k-최근접이웃 기반방법에 의해 효율적인 MI 추정량을 구할 수 있었다. k-최근접이웃 기반방법은 연속형 설명변수, 범주형 또는 연속형인 목적변수 형태의 데이터에 적용할 수 있으며, 목적변수에 영향을 주는 중요한 설명변수의 순서를 구할 수 있을 뿐만 아니라 다차원에도 적용할 수 있기 때문에 중요변수의 집합을 구하는 변수 선택(feature subset selection) 문제에도 적용할 수 있다.

다중소스 데이터 융합 기반의 가스 누출 예측을 위한 선형 보간 및 머신러닝 기법 (Linear interpolation and Machine Learning Methods for Gas Leakage Prediction Base on Multi-source Data Integration)

  • 홍고르출;조겨리;김미혜
    • 한국융합학회논문지
    • /
    • 제13권3호
    • /
    • pp.33-41
    • /
    • 2022
  • 본 논문에서는 다중 요인을 고려한 천연 가스 누출 정도 예측을 위해 관련 요인을 포함하는 기상청 자료와 천연가스 누출 자료를 통합하고, 요인 분석을 기반으로 중요 특성을 선택하는 머신러닝 기법을 제안한다. 제안된 기법은 3단계 절차로 구성되어 있다. 먼저, 통합 데이터 셋에 대해 선형 보간법을 수행하여 결측 데이터를 보완하는 전처리를 수행한다. 머신러닝 모델 학습 최적화를 위해 OrdinalEncoder(OE) 기반 정규화와 함께 요인 분석을 사용하여 필수 특징을 선택하며, 데이터 셋은 k-평균 클러스터링으로 레이블을 지정한다. 최종적으로 K-최근접 이웃, DT(Decision Tree), RF(Random Forest), NB(Naive Bayes)의 네 가지 알고리즘을 사용하여 가스 누출 수준을 예측한다. 제안된 방법은 정확도, AUC, 평균 표준 오차(MSE)로 평가되었으며, 테스트 결과 OE-F 전처리를 수행한 경우 기존 기법에 비해 성공적으로 개선되었음을 보였다. 또한 OE-F 기반 KNN(OE-F-KNN)은 95.20%의 정확도, 96.13%의 AUC, 0.031의 MSE로 비교 알고리즘 중 최고 성능을 보였다.

전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류 (Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method)

  • 유시호;조성배
    • 대한전자공학회논문지SP
    • /
    • 제41권3호
    • /
    • pp.83-92
    • /
    • 2004
  • 유전 발현 데이터는 생명체의 특정 조직에서 채취한 샘플을 마이크로어레이상에서 측정한 것으로, 유전자들의 발현 정도가 수치로 나타난 데이터이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현 정도는 차이를 보이기 때문에 유전 발현 데이터를 통하여 암을 분류할 수 있다. 그러나 분류에 모든 유전자가 관여하지는 않으므로 효율적인 암의 분류를 위해서는 관련성 있는 소수의 유전자만을 선별해내는 작업인 특징선택 방법이 필요하다. 본 논문에서는 회귀분석의 변수선택방법중 하나인 전진 선택법(forward selection method)을 사용하여 유전자들을 선하고 분류하는 방법을 제안한다. 이 방법은 선택되는 유전자들의 중복된 정보를 최소화시켜 암의 분류에 있어 보다 효과적인 유전자 선택을 한다. 실험데이터는 대장암 데이터(Colon cancer dataset)를 사용하였고, 분류기는 k-최근접 이웃(KNN)을 사용하였다. 이 방법과 상관계수를 이용한 특징 선택방법인 피어슨 상관계수와 스피어맨 상관계수방법과 비교해본 결과 전진 선택법에 의한 특징선택 방법이 암의 분류에 있어서 더 효과적인 유전자 선택을 한다는 사실을 확인하였다. 실험결과 90.3%의 높은 인식률을 보였다. 추가적으로 림프종 데이터에 대한 실험을 하였고, 그 결과 전진 선택법의 유용성을 확인할 수 있었다.

PCA 기반 군집화를 이용한 해슁 기법 (A Hashing Method Using PCA-based Clustering)

  • 박정희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권6호
    • /
    • pp.215-218
    • /
    • 2014
  • 해슁(hashing)을 기반으로 한 근사 최근접 이웃 탐색(approximate nearest neighbors search, ANN search) 방법에서는 데이터 샘플들을 k-비트 이진 코드로 변환하는 해쉬 함수들을 이용함으로써 근접 이웃 탐색이 이진변환 공간에서 이루어지게 된다. 본 논문에서는 PCA 기반 군집화 방법인 Principal Direction Divisive Partitioning(PDDP)를 이용한 해슁 방법을 제안한다. PDDP는 가장 큰 분산을 가지는 클러스터를 선택하여 그 클러스터의 첫 번째 주성분 방향을 이용하여 두 개의 클러스터로 분할하는 과정을 반복적으로 시행하는 군집화 방법이다. 제안하는 해슁 방법에서는 PDDP에서 분할을 위해 사용하는 주성분방향을 바이너리 코딩을 위한 사영벡터로서 사용한다. 실험결과는 제안하는 방법이 다른 해슁 방법들과 비교하여 경쟁력 있는 방법임을 입증한다.