• 제목/요약/키워드: Network Feature Selection

검색결과 238건 처리시간 0.031초

Predicting stock price direction by using data mining methods : Emphasis on comparing single classifiers and ensemble classifiers

  • Eo, Kyun Sun;Lee, Kun Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권11호
    • /
    • pp.111-116
    • /
    • 2017
  • This paper proposes a data mining approach to predicting stock price direction. Stock market fluctuates due to many factors. Therefore, predicting stock price direction has become an important issue in the field of stock market analysis. However, in literature, there are few studies applying data mining approaches to predicting the stock price direction. To contribute to literature, this paper proposes comparing single classifiers and ensemble classifiers. Single classifiers include logistic regression, decision tree, neural network, and support vector machine. Ensemble classifiers we consider are adaboost, random forest, bagging, stacking, and vote. For the sake of experiments, we garnered dataset from Korea Stock Exchange (KRX) ranging from 2008 to 2015. Data mining experiments using WEKA revealed that random forest, one of ensemble classifiers, shows best results in terms of metrics such as AUC (area under the ROC curve) and accuracy.

해외철도 노선선정 사례의 검토 (Review Study on the Selection of Oversea Railway Alignment)

  • 최병표;김군수;권영철;김동기;조희수
    • 한국철도학회:학술대회논문집
    • /
    • 한국철도학회 2006년도 추계학술대회 논문집
    • /
    • pp.402-406
    • /
    • 2006
  • There are two types of railway alignment design. First type is a modification of existing railway and second type is a planning of whole new alignment. Modification of existing railway would be more simpler, usually, main scope is improving a capacity with adopting standard track gauge, straighten intensively curved part. But planning new alignment should be considered various factors, not only topographic feature, but cultural, socio-economical, environmental factors. This paper is based on the performed project in the United Arab Emirates, the Arabian Peninsular, with Korea railroad corporation, Korea Rail Network Authority, and other skilled Korean design firms participated on May, 2006.

  • PDF

수정된 FMM을 이용한 특징 선정 기법 (A Feature Selection Technique Using a Modified FMM Neural Network)

  • 박현정;정경훈;김호준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.347-350
    • /
    • 2004
  • 본 논문에서는 FMM 신경망의 활성화 특성에 가중치 개념을 도입한 패턴 분류 모형을 소개하고 이에 대한 학습 기법을 제안한다. 또한 제안된 모델의 활용으로서 주어진 학습패턴에 대하여 효과적인 특징의 종류와 특징과 패턴 클래스간의 상대적 연관도를 분석하는 방법론을 제시한다. 이를 위하여 새롭게 정의된 하이퍼박스 생성, 확장, 축소의 방법론을 소개하며, 이들 이론에 대하여 의료진단 데이터 등을 사용한 실제 실험을 통하여 유용성을 고찰한다.

  • PDF

Default Prediction of Automobile Credit Based on Support Vector Machine

  • Chen, Ying;Zhang, Ruirui
    • Journal of Information Processing Systems
    • /
    • 제17권1호
    • /
    • pp.75-88
    • /
    • 2021
  • Automobile credit business has developed rapidly in recent years, and corresponding default phenomena occur frequently. Credit default will bring great losses to automobile financial institutions. Therefore, the successful prediction of automobile credit default is of great significance. Firstly, the missing values are deleted, then the random forest is used for feature selection, and then the sample data are randomly grouped. Finally, six prediction models of support vector machine (SVM), random forest and k-nearest neighbor (KNN), logistic, decision tree, and artificial neural network (ANN) are constructed. The results show that these six machine learning models can be used to predict the default of automobile credit. Among these six models, the accuracy of decision tree is 0.79, which is the highest, but the comprehensive performance of SVM is the best. And random grouping can improve the efficiency of model operation to a certain extent, especially SVM.

희소 클래스 분류 문제 해결을 위한 전처리 연구 (A Study on Pre-processing for the Classification of Rare Classes)

  • 류경준;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.472-475
    • /
    • 2020
  • 실생활의 사례를 바탕으로 생성된 여러 분야의 데이터셋을 기계학습 (Machine Learning) 문제에 적용하고 있다. 정보보안 분야에서도 사이버 공간에서의 공격 트래픽 데이터를 기계학습으로 분석하는 많은 연구들이 진행 되어 왔다. 본 논문에서는 공격 데이터를 유형별로 정확히 분류할 때, 실생활 데이터에서 흔하게 발생하는 데이터 불균형 문제로 인한 분류 성능 저하에 대한 해결방안을 연구했다. 희소 클래스 관점에서 데이터를 재구성하고 기계학습에 악영향을 끼치는 특징들을 제거하고 DNN(Deep Neural Network) 모델을 사용해 분류 성능을 평가했다.

공진화에 의한 신경회로망의 구조탐색 및 학습 (A Co-Evolutionary Approach for Learning and Structure Search of Neural Networks)

  • 이동욱;전효병;심귀보
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1997년도 추계학술대회 학술발표 논문집
    • /
    • pp.111-114
    • /
    • 1997
  • Usually, Evolutionary Algorithms are considered more efficient for optimal system design, However, the performance of the system is determined by fitness function and system environment. In this paper, in order to overcome the limitation of the performance by this factor, we propose a co-evolutionary method that two populations constantly interact and coevolve. In this paper, we apply coevolution to neural network's evolving. So, one population is composed of the structure of neural networks and other population is composed of training patterns. The structure of neural networks evolve to optimal structure and, at the same time, training patterns coevolve to feature patterns. This method prevent the system from the limitation of the performance by random design of neural network structure and inadequate selection of training patterns. In this time neural networks are trained by evolution strategies that are able to apply to the unsupervised learning. And in the coding of neural networks, we propose the method to maintain nonredundancy and character preservingness that are essential factor of genetic coding. We show the validity and the effectiveness of the proposed scheme by applying it to the visual servoing of RV-M2 robot manipulators.

  • PDF

고해상도 위성영상의 효율적 지형분류기법 연구 (A Study on Efficient Topography Classification of High Resolution Satelite Image)

  • 임혜영;김황수;최준석;송승호
    • 대한공간정보학회지
    • /
    • 제13권3호
    • /
    • pp.33-40
    • /
    • 2005
  • 위성영상에서 실제 지표면의 형태와 지상물체를 구분하여 분류하는 것은 원격탐사의 중요한 목적중의 하나이다. 다중분광영상을 이용한 분류는 일반적인 토지피복도의 제작에 이용되어지고 있으며 영상분류의 방법에는 많은 이론들이 사용되어지고 있다. 본 연구는 대구 달성군 지역의 IKONOS 영상을 MLC(Maximum Likelihood Classification), ANN(Artificial neural network), SVM(Support Vector Machine), Naive Bayes 분류기법들을 이용하여 각각의 분류정확도를 비교 분석하였다. 또한 PCA/ICA 전처리 과정을 거친 분류기법들 결과와, Boosting 알고리즘 과정을 거친 후의 결과를 비교하였다. 본 연구의 목적은 적절한 전처리과정과 분류기법을 수행함으로써 가장 효율적인 지형분류 방법을 획득하는데 그 목적이 있다.

  • PDF

Short-term Load Forecasting of Buildings based on Artificial Neural Network and Clustering Technique

  • Ngo, Minh-Duc;Yun, Sang-Yun;Choi, Joon-Ho;Ahn, Seon-Ju
    • 전기전자학회논문지
    • /
    • 제22권3호
    • /
    • pp.672-679
    • /
    • 2018
  • Recently, microgrid (MG) has been proposed as one of the most critical solutions for various energy problems. For the optimal and economic operation of MGs, it is very important to forecast the load profile. However, it is not easy to predict the load accurately since the load in a MG is small and highly variable. In this paper, we propose an artificial neural network (ANN) based method to predict the energy use in campus buildings in short-term time series from one hour up to one week. The proposed method analyzes and extracts the features from the historical data of load and temperature to generate the prediction of future energy consumption in the building based on sparsified K-means. To evaluate the performance of the proposed approach, historical load data in hourly resolution collected from the campus buildings were used. The experimental results show that the proposed approach outperforms the conventional forecasting methods.

암의 이질성 분류를 위한 하이브리드 학습 기반 세포 형태 프로파일링 기법 (Hybrid Learning-Based Cell Morphology Profiling Framework for Classifying Cancer Heterogeneity)

  • 민찬홍;정현태;양세정;신현정
    • 대한의용생체공학회:의공학회지
    • /
    • 제42권5호
    • /
    • pp.232-240
    • /
    • 2021
  • Heterogeneity in cancer is the major obstacle for precision medicine and has become a critical issue in the field of a cancer diagnosis. Many attempts were made to disentangle the complexity by molecular classification. However, multi-dimensional information from dynamic responses of cancer poses fundamental limitations on biomolecular marker-based conventional approaches. Cell morphology, which reflects the physiological state of the cell, can be used to track the temporal behavior of cancer cells conveniently. Here, we first present a hybrid learning-based platform that extracts cell morphology in a time-dependent manner using a deep convolutional neural network to incorporate multivariate data. Feature selection from more than 200 morphological features is conducted, which filters out less significant variables to enhance interpretation. Our platform then performs unsupervised clustering to unveil dynamic behavior patterns hidden from a high-dimensional dataset. As a result, we visualize morphology state-space by two-dimensional embedding as well as representative morphology clusters and trajectories. This cell morphology profiling strategy by hybrid learning enables simplification of the heterogeneous population of cancer.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.