• 제목/요약/키워드: categorical preprocessing

검색결과 7건 처리시간 0.018초

Prediction of the price for stock index futures using integrated artificial intelligence techniques with categorical preprocessing

  • Kim, Kyoung-jae;Han, Ingoo
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 1997년도 추계학술대회발표논문집; 홍익대학교, 서울; 1 Nov. 1997
    • /
    • pp.105-108
    • /
    • 1997
  • Previous studies in stock market predictions using artificial intelligence techniques such as artificial neural networks and case-based reasoning, have focused mainly on spot market prediction. Korea launched trading in index futures market (KOSPI 200) on May 3, 1996, then more people became attracted to this market. Thus, this research intends to predict the daily up/down fluctuant direction of the price for KOSPI 200 index futures to meet this recent surge of interest. The forecasting methodologies employed in this research are the integration of genetic algorithm and artificial neural network (GAANN) and the integration of genetic algorithm and case-based reasoning (GACBR). Genetic algorithm was mainly used to select relevant input variables. This study adopts the categorical data preprocessing based on expert's knowledge as well as traditional data preprocessing. The experimental results of each forecasting method with each data preprocessing method are compared and statistically tested. Artificial neural network and case-based reasoning methods with best performance are integrated. Out-of-the Model Integration and In-Model Integration are presented as the integration methodology. The research outcomes are as follows; First, genetic algorithms are useful and effective method to select input variables for Al techniques. Second, the results of the experiment with categorical data preprocessing significantly outperform that with traditional data preprocessing in forecasting up/down fluctuant direction of index futures price. Third, the integration of genetic algorithm and case-based reasoning (GACBR) outperforms the integration of genetic algorithm and artificial neural network (GAANN). Forth, the integration of genetic algorithm, case-based reasoning and artificial neural network (GAANN-GACBR, GACBRNN and GANNCBR) provide worse results than GACBR.

  • PDF

머신러닝 자동화를 위한 개발 환경에 관한 연구 (A Study on Development Environments for Machine Learning)

  • 김동길;박용순;박래정;정태윤
    • 대한임베디드공학회논문지
    • /
    • 제15권6호
    • /
    • pp.307-316
    • /
    • 2020
  • Machine learning model data is highly affected by performance. preprocessing is needed to enable analysis of various types of data, such as letters, numbers, and special characters. This paper proposes a development environment that aims to process categorical and continuous data according to the type of missing values in stage 1, implementing the function of selecting the best performing algorithm in stage 2 and automating the process of checking model performance in stage 3. Using this model, machine learning models can be created without prior knowledge of data preprocessing.

특징 래핑을 통한 숫자형 특징과 범주형 특징이 혼합된 데이터의 클래스 분류 성능 향상 기법 (Improving Classification Performance for Data with Numeric and Categorical Attributes Using Feature Wrapping)

  • 이재성;김대원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권12호
    • /
    • pp.1024-1027
    • /
    • 2009
  • 본 논문에서는 혼합형 데이터에 대한 특징 선별 기법의 효율성을 비교하기 위해 특징 필터링과 특징 래핑을 통한 특징 선별 후, 클래스 분류 성능을 측정하였다. 혼합형 데이터는 숫자형 특징과 범주형 특징이 함께 혼합되어 있으므로, 숫자형 특징을 범주형 특징으로 이산화를 하여 단일형 데이터로 변환한 뒤 특징 선별 기법 등을 적용할 수 있다. 본 연구에서는 혼합형 데이터를 전처리하여 단일형 데이터로 변환하고, 널리 활용되는 특징 필터링 기법과 특징 래핑 기법을 통해 클래스 분류 성능을 높일 수 있는 특징 집합을 선별하였다. 선별된 특징 집합을 통한 클래스 분류 성능을 비교한 결과, 특징 필터링에 비해 특징 래핑을 통해 선별한 특징 집합을 활용하여 클래스 분류를 하였을 때 분류 정확도가 높은 것을 확인할 수 있었다.

의료 영상 바이오마커 추출을 위한 딥러닝 손실함수 성능 비교 (Comparison of Deep Learning Loss Function Performance for Medical Video Biomarker Extraction)

  • 서진범;조영복
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.72-74
    • /
    • 2021
  • 다양한 분야에서 현재 활용되고 있는 딥러닝 과정은 데이터 준비, 데이터 전처리, 모델 생성, 모델 학습, 모델 평가로 구성 된다. 이중 모델 학습 과정에서 손실함수는 모델이 학습하면서 출력한 값을 실제 값과 비교하여 그 차이를 출력하게 되고, 출력된 손실값을 기반으로 모델은 역전파 알고리즘을 통해 손실값이 감소하는 방향으로 가중치를 수정해가며 학습을 진행한다. 본 논문에서는 바이오마커 추출을 위한 딥러닝 모델에서 사용될 신경망 출력 값의 손실도를 측정하여 출력해주는 다양한 손실함수를 분석하고 실험을 통해 최적의 손실함수를 찾아내고자 한다.

  • PDF

전역적 범주화를 위한 샘플 분할 포인트를 이용한 점진적 기법 (An Incremental Method Using Sample Split Points for Global Discretization)

  • 한경식;이수원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권7호
    • /
    • pp.849-858
    • /
    • 2004
  • 대부분의 교사학습 알고리즘은 수치형 변수 처리의 어려움을 해결하기 위해 전처리 단계에서 연속형 변수를 범주형으로 변환시킨 후 적용된다. 이러한 전처리 단계를 전역적 범주화라 하며 빈즈(Bins)라는 클래스 분포 리스트를 이용한다. 그러나 대부분의 전역적 범주화 기법은 단일 빈즈를 필요로 하기 때문에 데이타가 대용량이고 범주화를 수행할 변수의 범위가 매우 클 경우, 단일 빈즈를 생성하기 위해 많은 정렬 및 병합을 수행해야한다. 또한, 기존의 방법은 일괄처리 방식으로 범주화를 수행하기 때문에 새로운 데이타가 추가되면 이 데이타가 반영된 범주를 생성하기 위해 처음부터 범주화를 다시 수행해야한다. 본 논문은 이러한 문제점을 해결하기 위해 샘플 분할 포인트를 추출하고 이로부터 범주화를 수행하는 기법을 제안한다. 본 논문의 접근 방법은 단일 빈즈를 생성하기 위한 병합이 필요 없기 때문에 대용량 데이타에 대한 범주화를 수행할 때 효율적이다. 본 연구에서는 실제 데이타와 가상의 데이타를 이용하여 기존의 방법과 비교 실험하였다.

이산화 과정을 배제한 실수 값 인자 데이터의 고차 패턴 분석을 위한 진화연산 기반 하이퍼네트워크 모델 (Evolutionary Hypernetwork Model for Higher Order Pattern Recognition on Real-valued Feature Data without Discretization)

  • 하정우;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권2호
    • /
    • pp.120-128
    • /
    • 2010
  • 하이퍼네트워크는 하이퍼그래프의 일반화된 모델로 학습과정에 있어 진화적 개념을 도입한 확률 그래프 기반의 기계학습 알고리즘으로서 최근 들어 여러 다양한 분야에 응용되고 있다. 그러나 하이퍼네트워크 모델은 데이터와 모델을 구성하는 하이퍼에지 간의 동등비교를 기반으로 하는 학습과정의 특성상 데이터를 구성하는 인자들이 범주형인 경우에만 학습 및 모델링이 가능하고 실수 값으로 표현된 데이터를 학습하기 위해서는 이산화 등의 전처리가 선행되어야 한다는 한계점이 있다. 하지만 데이터 전처리에 있어 이산화 하는 과정은 필연적으로 정보손실이 발생할 수밖에 없기 때문에 이는 분류 예측 모델의 성능 저하를 유발하는 원인이 될 수 있다. 이러한 기존 하이퍼네트워크 모델의 한계점을 극복하기 위해 본 연구에서는 별도의 데이터 전처리 과정을 거치지 않고 실수 인자로 구성된 데이터의 패턴 학습이 가능한 개선된 하이퍼네트워크 모델을 제안한다. 여러 실험 결과를 통해 제안한 하이퍼네트워크 모델은 기존 하이퍼네트워크 모델에 비해 실수형 데이터에 대한 학습 및 분류 결과 성능이 향상되었을 뿐 아니라, 다른 여러기계학습 방법들에 비해서도 경쟁력 있는 성능이 나타남을 확인하였다.

퍼지 관계를 활용한 사례기반추론 예측 정확성 향상에 관한 연구 (A Study on Forecasting Accuracy Improvement of Case Based Reasoning Approach Using Fuzzy Relation)

  • 이인호;신경식
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.67-84
    • /
    • 2010
  • 미래에 대한 정확한 예측은 경영자, 또는 기업이 수행하는 경영의사결정에 매우 중요한 역할을 한다. 예측만 정확하다면 경영의사결정의 질은 매우 높아질 수 있을 것이다. 하지만 점점 가속화되고 있는 경영 환경의 변화로 말미암아 미래 예측을 정확하게 하는 일은 점점 더 어려워지고 있다. 이에 기업에서는 정확한 예측을 위하여 전문가의 휴리스틱뿐만 아니라 과학적 예측모형을 함께 활용하여 예측의 성과를 높이는 노력을 해 오고 있다. 본 연구는 사례기반추론모형을 예측을 위한 기본 모형으로 설정하고, 데이터 간의 유사도 측정에 퍼지 관계의 개념을 적용함으로써 개선된 예측성과를 얻고자 하였다. 특히, 독립변수 중 기호 데이터 형식의 속성을 가지는 변수들간의 유사도를 측정하기 위해 이진논리의 개념(일치여부의 판단)과 퍼지 관계 및 합성의 개념을 이용하여 도출된 유사도 매트릭스를 사용하였다. 연구 결과, 기호 데이터 형식의 속성을 가지는 변수들 간의 유사도 측정에서 퍼지 관계 및 합성의 개념을 적용하는 방법이 이진논리의 개념을 적용하는 방법과 비교하여 더 우수한 예측정확성을 나타내었다. 그러나 유사도 측정을 위해 다양한 퍼지합성방법(Max-min 합성, Max-product 합성, Max-average 합성)을 적용하여 예측하는 경우에는 예측정확성 측면에서 퍼지 합성방법 간의 통계적인 차이는 유의하지 않았다. 본 연구는 사례기반추론 모형의 구축에서 가장 중요한 유사도 측정에 있어서 퍼지 관계 및 퍼지 합성의 개념을 적용함으로써 유사도 측정 및 적용 방법론을 제시하였다는데 의의가 있다.