• 제목/요약/키워드: k-NN classification

검색결과 188건 처리시간 0.035초

주급수 유량의 형상 분류 및 추정 모델에 대한 연구 (A Study of the Feature Classification and the Predictive Model of Main Feed-Water Flow for Turbine Cycle)

  • 양학진;김성근;최광희
    • 에너지공학
    • /
    • 제23권4호
    • /
    • pp.263-271
    • /
    • 2014
  • 터빈 사이클의 성능 상태량을 결정하기 위한 보정 열 성능 분석은 발전소의 향상된 경제성 운전을 위해 요구된다. 본 연구에서는 유용하고 정확한 성능 분석을 위해서 산업 표준인 ASME PTC를 기분으로 하여 성능 데이터를 사용하여 주급수 유량의 영역별 판정 알고리듬을 개발하고 각 영역별 추정 알고리즘을 개발하였다. 추정 알고리즘은 측정 상태량의 상관관계를 기반으로 형상 분류를 제시하고, 이를 기반으로 서포트 벡터 머신 모델링을 이용하여 추정 모델을 구성하였으며, 서포트 벡터 머신 모델링의 우수성을 검증하기 위하여 신경 회로망 모델, 커널 회귀 모델과 비교하였다. 주급수 유량의 형상 분류 및 추정 모델은 터빈 사이클에서 정확한 보정 열 성능 분석을 제공함으로써 향상된 성능 분석에 기여할 것이다.

자료변환 기반 특징과 다중 분류자를 이용한 다중시기 SAR자료의 분류 (Classification of Multi-temporal SAR Data by Using Data Transform Based Features and Multiple Classifiers)

  • 유희영;박노욱;홍석영;이경도;김예슬
    • 대한원격탐사학회지
    • /
    • 제31권3호
    • /
    • pp.205-214
    • /
    • 2015
  • 이 연구에서는 자료변환기법을 이용해 추출된 여러 특징과 다양한 분류방법론을 결합하여 다중시기 SAR 자료를 위한 새로운 토지피복 분류기법을 제안하였다. 먼저, 다중시기 SAR 자료로부터 원본자료와는 다른 새로운 정보를 추출하기 위해 주성분분석과 3차원 웨이블렛 변환을 이용한 자료변환을 수행하였다. 그리고 나서 최대우도법 분류자, 신경망, support vector machine을 포함한 세 가지 다른 분류자를 변환된 특징자료들과 원본 후방산란계수 자료를 포함한 세가지 자료에 적용하여 다양한 초기 분류 결과를 얻도록 한다. 이후 다수결규칙을 통해 모든 초기결과를 결합하여 최종 분류 결과를 생성하게 된다. 다중시기 ENVISAT ASAR 자료를 이용한 사례연구에서 모든 초기 결과는 사용한 특징자료와 분류자의 종류에 따라 매우 다양한 분류정확도를 보였다. 이러한 9개의 초기 분류 결과를 결합한 최종 분류 결과는 가장 높은 분류 정확도를 보여주고 있는데, 이는 각 초기 분류 결과가 토지피복을 결정하기 위한 상호 보완적인 정보를 제공하기 때문이다. 이 연구에서의 분류정확도 향상은 주로 자료변환을 통해 얻어진 각기 다른 특징자료와 다른 분류자를 결합에 의한 다양성 확보에서 기인한다. 그러므로 이 연구에서 제안한 토지피복 분류방법론은 다중시기 SAR자료의 분류에 효과적으로 적용가능하며, 또한 다중센서 원격탐사 자료융합으로 확장이 가능하다.

Wind Power Pattern Forecasting Based on Projected Clustering and Classification Methods

  • Lee, Heon Gyu;Piao, Minghao;Shin, Yong Ho
    • ETRI Journal
    • /
    • 제37권2호
    • /
    • pp.283-294
    • /
    • 2015
  • A model that precisely forecasts how much wind power is generated is critical for making decisions on power generation and infrastructure updates. Existing studies have estimated wind power from wind speed using forecasting models such as ANFIS, SMO, k-NN, and ANN. This study applies a projected clustering technique to identify wind power patterns of wind turbines; profiles the resulting characteristics; and defines hourly and daily power patterns using wind power data collected over a year-long period. A wind power pattern prediction stage uses a time interval feature that is essential for producing representative patterns through a projected clustering technique along with the existing temperature and wind direction from the classifier input. During this stage, this feature is applied to the wind speed, which is the most significant input of a forecasting model. As the test results show, nine hourly power patterns and seven daily power patterns are produced with respect to the Korean wind turbines used in this study. As a result of forecasting the hourly and daily power patterns using the temperature, wind direction, and time interval features for the wind speed, the ANFIS and SMO models show an excellent performance.

Default Prediction for Real Estate Companies with Imbalanced Dataset

  • Dong, Yuan-Xiang;Xiao, Zhi;Xiao, Xue
    • Journal of Information Processing Systems
    • /
    • 제10권2호
    • /
    • pp.314-333
    • /
    • 2014
  • When analyzing default predictions in real estate companies, the number of non-defaulted cases always greatly exceeds the defaulted ones, which creates the two-class imbalance problem. This lowers the ability of prediction models to distinguish the default sample. In order to avoid this sample selection bias and to improve the prediction model, this paper applies a minority sample generation approach to create new minority samples. The logistic regression, support vector machine (SVM) classification, and neural network (NN) classification use an imbalanced dataset. They were used as benchmarks with a single prediction model that used a balanced dataset corrected by the minority samples generation approach. Instead of using prediction-oriented tests and the overall accuracy, the true positive rate (TPR), the true negative rate (TNR), G-mean, and F-score are used to measure the performance of default prediction models for imbalanced dataset. In this paper, we describe an empirical experiment that used a sampling of 14 default and 315 non-default listed real estate companies in China and report that most results using single prediction models with a balanced dataset generated better results than an imbalanced dataset.

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권1호
    • /
    • pp.47-60
    • /
    • 2010
  • 기존 웹 페이지 자동분류 연구는 일반적으로 학습 기반인 kNN(k-Nearest Neighbor), SVM(Support Vector Machine)과 통계 기반인 Bayesian classifier, NNA(Neural Network Algorithm)등 여러 종류의 분류작업에서 입증된 분류 기법을 사용하여 웹 페이지를 분류하였다. 하지만 인터넷 상의 방대한 양의 웹 페이지와 각 페이지로부터 나오는 많은 양의 자질들을 처리하기에는 공간적, 시간적 문제에 직면하게 된다. 그리고 분류 대상을 표현하기 위해 흔히 사용하는 단일(uni-gram) 자질 기반에서는 자질들 간의 관계 분석을 통해 자질에 정확한 의미를 부여하기 힘들다. 특히 본 논문의 분류 대상인 한글 웹 페이지의 자질인 한글 단어는 중의적인 의미를 가지는 경우가 많기 때문에 이러한 중의성이 분류 작업에 많은 영향을 미칠 수 있다. 잠재적 의미 분석 LSA(Latent Semantic Analysis) 분류기법은 선형 기법인 특이치 분해 SVD(Singular Value Decomposition)을 통해 행렬의 분해 및 차원 축소(dimension reduction)를 수행하여 대용량 데이터 집합의 분류를 효율적으로 수행하고, 또한 차원 축소를 통해 새로운 의미공간을 생성하여 자질들의 중의적 의미를 분석할 수 있으며 이 새로운 의미공간상에 분류 대상을 표현함으로써 분류 대상의 잠재적 의미를 분석할 수 있다. 하지만 LSA의 차원 축소는 전체 데이터의 표현 정도만을 고려할 뿐 분류하고자 하는 범주를 고려하지 않으며 또한 서로 다른 범주 간의 차별성을 고려하지 않기 때문에 축소된 차원 상에서 분류 시 서로 다른 범주 데이터간의 모호한 경계로 인해 안정된 분류 성능을 나타내지 못한다. 이에 본 논문은 새로운 의미공간(semantic space) 상에서 서로 다른 범주사이의 명확한 구분을 위한 특별한 차원 선택을 수행하여 최적의 차원 선택과 안정된 분류성능을 보이는 최적의 지도적 LSA을 소개한다. 제안한 지도적 LSA 방법은 기본 LSA 및 다른 지도적 LSA 방법들에 비해 저 차원 상에서 안정되고 더 높은 성능을 보였다. 또한 추가로 자질 생성 및 선택 시 불용어의 제거와 자질에 대한 가중치를 통계적인 학습을 통해 얻음으로써 더 높은 학습효과를 유도하였다.

  • PDF

개념 및 관계 분류를 통한 분야 온톨로지 구축 (Building Domain Ontology through Concept and Relation Classification)

  • 황금하;신지애;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권9호
    • /
    • pp.562-571
    • /
    • 2008
  • 본 논문에서는 분야 온톨로지 구축을 위하여 분야 상위 온톨로지를 구축한 다음, 분야 시소러스의 개념과 관계를 이용하여 분야 상위 온톨로지를 확장하는 방법을 제안한다. 이를 위하여 우선 일반분야 시소러스와 분야 사전을 이용하여 분야 상위 개념 분류체계를 구축한다. 다음, 분야 시소러스의 개념을 분야 상위 온톨로지의 상위 개념으로 분류하고, 광의어(Broader Term: BT)-협의어(Narrower Term: NT) 및 광의어-관련어(Related Term: RT) 사이의 관계를 분야 상위 온톨로지에서 정의한 의미관계로 분류한다. 개념 분류는 두 단계로 진행되는데, 1단계에서는 빈도수 기반 방법, 2단계에서는 유사도 기반방법을 적용하여 시소러스 개념을 분야 상위 온톨로지의 개념으로 분류한다. 관계 분류에서는 두 가지 방법을 적용하였는데, (i) 훈련데이타가 부족한 경우를 위하여 규칙기반 방법으로 BT-NT/RT관계를 iso와 기타 관계(non-isa관계)로 분류하고, 다시 패턴기반 방법으로 non-isa관계를 온톨로지를 위한 의미관계로 분류한다. (ii) 훈련데이타를 충분히 가지고 있을 경우, 최대 엔트로피 모델(MEM)을 적용한 특징기반 분류 기법을 사용하되, k-Nearest Neighbors(k-NN)방법으로 훈련데이타를 정제하였다. 본 논문에서 제안한 방법으로 시스템을 구축하였고, 실험 결과 사람에 의한 판단 결과와 비교 가능한 성능을 보여 주었다.

An Approach of Dimension Reduction in k-Nearest Neighbor Based Short-term Load Forecasting

  • Chu, FaZheng;Jung, Sung-Hwan
    • 한국멀티미디어학회논문지
    • /
    • 제20권9호
    • /
    • pp.1567-1573
    • /
    • 2017
  • The k-nearest neighbor (k-NN) algorithm is one of the most widely used benchmark algorithm in classification. Nowadays it has been further applied to predict time series. However, one of the main concerns of the algorithm applied on short-term electricity load forecasting is high computational burden. In the paper, we propose an approach of dimension reduction that follows the principles of highlighting the temperature effect on electricity load data series. The results show the proposed approach is able to reduce the dimension of the data around 30%. Moreover, with temperature effect highlighting, the approach will contribute to finding similar days accurately, and then raise forecasting accuracy slightly.

문서분류 기법을 이용한 웹 문서 분류의 실험적 비교 (Empirical Analysis & Comparisons of Web Document Classification Methods)

  • 이상순;최정민;장근;이병수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.154-156
    • /
    • 2002
  • 인터넷의 발전으로 우리는 많은 정보와 지식을 인터넷에서 제공받을 수 있으며 HTML, 뉴스그룹 문서, 전자메일 등의 웹 문서로 존재한다. 이러한 웹 문서들은 여러가지 목적으로 분류해야 할 필요가 있으며 이를 적용한 시스템으로는 Personal WebWatcher, InfoFinder, Webby, NewT 등이 있다. 웹 문서 분류 시스템에서는 문서분류 기법을 사용하여 웹 문서의 소속 클래스를 결정하는데 문서분류를 위한 기법 중 대표적인 알고리즘으로 나이브 베이지안(Naive Baysian), k-NN(k-Nearest Neighbor), TFIDF(Term Frequency Inverse Document Frequency)방법을 이용한다. 본 논문에서는 웹 문서를 대상으로 이러한 문서분류 알고리즘 각각의 성능을 비교 및 평가하고자 한다.

  • PDF

다중 등급 유해문서 분류를 위한 워크벤치 프로그램 구현 (Implementation of Workbench Program for Multi-Level Harmful Document Classification)

  • 이원휘;조윤정;정성종;안동언
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.691-692
    • /
    • 2008
  • 유해 문서를 분류하기 위한 고정된 등급에 의한 분류가 아닌 사용자의 필요에 의해 다양한 등급으로 분류할 수 있는 분류기를 구현하였다. 자질 생성을 위해 ${\chi}^2$, IG, DF, ICF를 이용하였으며, 분류를 위해 나이브 베이지언, C4.5, kNN, SVM을 이용하였다.

  • PDF

입력패턴과 그 k 근방 원형상에서 최근접 결정법칙에 의한 패턴식별 (Pattern Classification using the Nearest Desion Method in Input Pattern and its k Neighbor Prototypes)

  • 김응규
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 제39회 하계학술대회
    • /
    • pp.1853-1854
    • /
    • 2008
  • 본 논문에서는 입력패턴과 그 k 근방 원형상에 잇어서 노름 평균에 기초한 최근접 결정법칙에 의한 패턴식별법을 제안한다. 이 방법은 식별경계 근방의 원형상에 있어서 분산의 차에 의한 가중치를 고려하기 때문에 패턴의 수가 적을 때 입력패턴을 정확하게 분류할 때 사용될 수 있다. 본 방법의 유효성을 평가하기 위해 인공적인 패턴과 실제패턴에 대해 k-NN 등 기존방법과 제안하는 방법을 적용하여 식별률에 의한 평가를 행한 결과, 특히 원형상의 분포가 희박한 경우 제안하는 방법이 기존방법에 비해 높은 식별률을 나타냈다.

  • PDF