• 제목/요약/키워드: feature vector selection

검색결과 176건 처리시간 0.021초

Support Vector Machine을 이용한 생체 신호 분류기 개발 (Development of a Clinical Decision Support System Utilizing Support Vector Machine)

  • 홍동권;채용웅
    • 한국전자통신학회논문지
    • /
    • 제13권3호
    • /
    • pp.661-668
    • /
    • 2018
  • 피부 저항을 이용한 생체 신호는 스트레스성 질환에 따라 각각 다른 특성을 보이고 있으며 이 특성을 이용하여 스트레스성 질환을 진단하는 생체진단 장비들이 개발 되었으며, 장비들은 피부 저항 측정기에서 측정한 신호를 해석하기 쉽게 출력해주며, 그 분야의 전문가는 출력 신호를 직접 보고 어떤 스트레스성 질환의 가능성이 높은지를 판단하게 된다. 하지만 각 측정 대상자에게서 측정된 생체 신호를 분석하여 측정 대상자가 어떤 스트레스성 질환을 가지고 있는지를 사람이 정확히 판단하기는 매우 어려울 뿐만 아니라 판단의 결과가 잘못될 가능성도 매우 높다. 이런 문제점을 해결하기 위하여 본 연구에서는 머신러닝 기법을 이용하여 측정된 신호가 어떤 스트레스성 질환의 신호에 해당하는지를 판단하는 기능을 구현하였다. 측정 장비의 낮은 컴퓨팅 능력을 고려하여 분류 기법은 SVM을 사용하였으며, 훈련 데이터와 테스트 데이터는 13개의 질환을 중심으로 오차범위 5를 사용하여 각 질환 당 1,000개를 랜덤하게 생성하여 사용하였다. 모의실험 결과에서 90% 이상의 판단 정확도를 보였으며 앞으로 측정 장비가 실제로 환자들에게 적용되면 다시 생성된 데이터로 분류기를 재훈련 할 수 있게 구성하였다.

기상 데이터를 이용한 데이터 마이닝 기반의 산불 예측 모델 (Data Mining based Forest Fires Prediction Models using Meteorological Data)

  • 김삼근;안재근
    • 한국산학기술학회논문지
    • /
    • 제21권8호
    • /
    • pp.521-529
    • /
    • 2020
  • 산불은 경제, 자연환경, 건강과 같은 삶의 여러 측면에서 몇 가지 악영향을 주는 가장 핵심적인 환경위험 중의 하나이다. 산불의 조기발견, 빠른 예측, 신속한 대응은 산불 위험으로부터 재산과 생명을 구하는데 본질적인 역할을 할 수 있다. 산불의 빠른 발견을 위해 기상청에서 각 지역에 설치한 로컬 센서를 통해 획득한 기상 데이터를 이용하는 방법이 있다. 기상 조건(예: 온도, 바람)은 산불 발생에 영향을 미친다고 알려져 있다. 본 논문에서는 산불의 피해 면적을 예측하기 위해 데이터 마이닝(DM) 기법을 적용한다. 다섯 종류의 DM 모델, 예를 들어 Stochastic Gradient Descent(SGD), Support Vector Machines(SVM), Decision Tree(DT), Random Forests(RF), Deep Neural Network(DNN)과 네 가지 입력 특성 그룹(공간, 시간, 기상 데이터 이용)을 최근 5년간의 경기도 지역에서 수집한 실제 산불 발생 데이터에 적용하였다. 실험결과는 기상 데이터만을 이용한 DNN 모델이 가장 우수한 성능을 보였다. 제안한 모델은 빈도수가 높은 작은 규모의 산불 예측에 더 효과적이었다. 제안한 예측 모델을 통해 도출된 이러한 지식은 소방 자원 관리를 개선하는데 특히 유용하다.

Protecting Accounting Information Systems using Machine Learning Based Intrusion Detection

  • Biswajit Panja
    • International Journal of Computer Science & Network Security
    • /
    • 제24권5호
    • /
    • pp.111-118
    • /
    • 2024
  • In general network-based intrusion detection system is designed to detect malicious behavior directed at a network or its resources. The key goal of this paper is to look at network data and identify whether it is normal traffic data or anomaly traffic data specifically for accounting information systems. In today's world, there are a variety of principles for detecting various forms of network-based intrusion. In this paper, we are using supervised machine learning techniques. Classification models are used to train and validate data. Using these algorithms we are training the system using a training dataset then we use this trained system to detect intrusion from the testing dataset. In our proposed method, we will detect whether the network data is normal or an anomaly. Using this method we can avoid unauthorized activity on the network and systems under that network. The Decision Tree and K-Nearest Neighbor are applied to the proposed model to classify abnormal to normal behaviors of network traffic data. In addition to that, Logistic Regression Classifier and Support Vector Classification algorithms are used in our model to support proposed concepts. Furthermore, a feature selection method is used to collect valuable information from the dataset to enhance the efficiency of the proposed approach. Random Forest machine learning algorithm is used, which assists the system to identify crucial aspects and focus on them rather than all the features them. The experimental findings revealed that the suggested method for network intrusion detection has a neglected false alarm rate, with the accuracy of the result expected to be between 95% and 100%. As a result of the high precision rate, this concept can be used to detect network data intrusion and prevent vulnerabilities on the network.

분류 알고리즘과 NCA를 활용한 기계학습 기반 구조건전성 모니터링 시스템 (Machine Learning Based Structural Health Monitoring System using Classification and NCA)

  • 신창교;권현석;박유림;김천곤
    • 한국항행학회논문지
    • /
    • 제23권1호
    • /
    • pp.84-89
    • /
    • 2019
  • 본 연구는 복합재 항공기의 비행 데이터를 활용한 기계학습 기반 구조건전성 모니터링 시스템 연구의 예비 연구이다. 본 연구에서는 구조건전성 모니터링에 이용되기에 가장 적합한 기계학습 알고리즘을 선별하고, 실 기체 데이터에 대한 적용을 위해 차원 축소를 수행하였다. 이를 위해 외팔보를 통해 모사된 항공기 날개 구조와 부가 질량을 통해 손상 모사 실험을 진행하고, 분류 알고리즘을 통해 데이터를 손상의 위치와 정도에 따라 구분하였다. 이를 위해 FBG (fiber bragg grating) 센서를 부착한 외팔보의 진동 실험을 통해 정상상태와 12개의 손상상태에 대한 데이터를 취득하고, MATLAB 환경에서 tree, discriminant, SVM (support vector machine), kNN, ensemble 알고리즘의 비교와 파라미터 튜닝을 통해 가장 적합한 알고리즘을 도출하였다. 또한 NCA (neighborhood component analysis)를 이용한 특징 선택을 통해, 실 기체에서 나올 수 있는 고차원 데이터의 관리를 위해 필요한 차원 축소를 수행하였다. 그 결과, quadratic SVM이 NCA를 적용하지 않은 모델에서 98.7%, NCA를 적용한 모델에서 95.9%로 가장 높은 정답률을 보였다. 또한 NCA 적용 후 모델의 예측 속도, 학습 시간, 용량이 모두 향상되었다.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.

다분류 SVM을 이용한 DEA기반 벤처기업 효율성등급 예측모형 (The Prediction of DEA based Efficiency Rating for Venture Business Using Multi-class SVM)

  • 박지영;홍태호
    • Asia pacific journal of information systems
    • /
    • 제19권2호
    • /
    • pp.139-155
    • /
    • 2009
  • For the last few decades, many studies have tried to explore and unveil venture companies' success factors and unique features in order to identify the sources of such companies' competitive advantages over their rivals. Such venture companies have shown tendency to give high returns for investors generally making the best use of information technology. For this reason, many venture companies are keen on attracting avid investors' attention. Investors generally make their investment decisions by carefully examining the evaluation criteria of the alternatives. To them, credit rating information provided by international rating agencies, such as Standard and Poor's, Moody's and Fitch is crucial source as to such pivotal concerns as companies stability, growth, and risk status. But these types of information are generated only for the companies issuing corporate bonds, not venture companies. Therefore, this study proposes a method for evaluating venture businesses by presenting our recent empirical results using financial data of Korean venture companies listed on KOSDAQ in Korea exchange. In addition, this paper used multi-class SVM for the prediction of DEA-based efficiency rating for venture businesses, which was derived from our proposed method. Our approach sheds light on ways to locate efficient companies generating high level of profits. Above all, in determining effective ways to evaluate a venture firm's efficiency, it is important to understand the major contributing factors of such efficiency. Therefore, this paper is constructed on the basis of following two ideas to classify which companies are more efficient venture companies: i) making DEA based multi-class rating for sample companies and ii) developing multi-class SVM-based efficiency prediction model for classifying all companies. First, the Data Envelopment Analysis(DEA) is a non-parametric multiple input-output efficiency technique that measures the relative efficiency of decision making units(DMUs) using a linear programming based model. It is non-parametric because it requires no assumption on the shape or parameters of the underlying production function. DEA has been already widely applied for evaluating the relative efficiency of DMUs. Recently, a number of DEA based studies have evaluated the efficiency of various types of companies, such as internet companies and venture companies. It has been also applied to corporate credit ratings. In this study we utilized DEA for sorting venture companies by efficiency based ratings. The Support Vector Machine(SVM), on the other hand, is a popular technique for solving data classification problems. In this paper, we employed SVM to classify the efficiency ratings in IT venture companies according to the results of DEA. The SVM method was first developed by Vapnik (1995). As one of many machine learning techniques, SVM is based on a statistical theory. Thus far, the method has shown good performances especially in generalizing capacity in classification tasks, resulting in numerous applications in many areas of business, SVM is basically the algorithm that finds the maximum margin hyperplane, which is the maximum separation between classes. According to this method, support vectors are the closest to the maximum margin hyperplane. If it is impossible to classify, we can use the kernel function. In the case of nonlinear class boundaries, we can transform the inputs into a high-dimensional feature space, This is the original input space and is mapped into a high-dimensional dot-product space. Many studies applied SVM to the prediction of bankruptcy, the forecast a financial time series, and the problem of estimating credit rating, In this study we employed SVM for developing data mining-based efficiency prediction model. We used the Gaussian radial function as a kernel function of SVM. In multi-class SVM, we adopted one-against-one approach between binary classification method and two all-together methods, proposed by Weston and Watkins(1999) and Crammer and Singer(2000), respectively. In this research, we used corporate information of 154 companies listed on KOSDAQ market in Korea exchange. We obtained companies' financial information of 2005 from the KIS(Korea Information Service, Inc.). Using this data, we made multi-class rating with DEA efficiency and built multi-class prediction model based data mining. Among three manners of multi-classification, the hit ratio of the Weston and Watkins method is the best in the test data set. In multi classification problems as efficiency ratings of venture business, it is very useful for investors to know the class with errors, one class difference, when it is difficult to find out the accurate class in the actual market. So we presented accuracy results within 1-class errors, and the Weston and Watkins method showed 85.7% accuracy in our test samples. We conclude that the DEA based multi-class approach in venture business generates more information than the binary classification problem, notwithstanding its efficiency level. We believe this model can help investors in decision making as it provides a reliably tool to evaluate venture companies in the financial domain. For the future research, we perceive the need to enhance such areas as the variable selection process, the parameter selection of kernel function, the generalization, and the sample size of multi-class.