• 제목/요약/키워드: 10-fold cross validation

검색결과 207건 처리시간 0.026초

텍스트 분류를 위한 자질 순위화 기법에 관한 연구 (An Experimental Study on Feature Ranking Schemes for Text Classification)

  • 김판준
    • 정보관리학회지
    • /
    • 제40권1호
    • /
    • pp.1-21
    • /
    • 2023
  • 본 연구는 텍스트 분류를 위한 효율적인 자질선정 방법으로 자질 순위화 기법의 성능을 구체적으로 검토하였다. 지금까지 자질 순위화 기법은 주로 문헌빈도에 기초한 경우가 대부분이며, 상대적으로 용어빈도를 사용한 경우는 많지 않았다. 따라서 텍스트 분류를 위한 자질선정 방법으로 용어빈도와 문헌빈도를 개별적으로 적용한 단일 순위화 기법들의 성능을 살펴본 다음, 양자를 함께 사용하는 조합 순위화 기법의 성능을 검토하였다. 구체적으로 두 개의 실험 문헌집단(Reuters-21578, 20NG)과 5개 분류기(SVM, NB, ROC, TRA, RNN)를 사용하는 환경에서 분류 실험을 진행하였고, 결과의 신뢰성 확보를 위해 5-fold cross validation과 t-test를 적용하였다. 결과적으로, 단일 순위화 기법으로는 문헌빈도 기반의 단일 순위화 기법(chi)이 전반적으로 좋은 성능을 보였다. 또한, 최고 성능의 단일 순위화 기법과 조합 순위화 기법 간에는 유의한 성능 차이가 없는 것으로 나타났다. 따라서 충분한 학습문헌을 확보할 수 있는 환경에서는 텍스트 분류의 자질선정 방법으로 문헌빈도 기반의 단일 순위화 기법(chi)을 사용하는 것이 보다 효율적이라 할 수 있다.

한국어 형태소 분석을 위한 음절 단위 확률 모델 (Syllable-based Probabilistic Models for Korean Morphological Analysis)

  • 심광섭
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.642-651
    • /
    • 2014
  • 본 논문에서는 음절 단위의 한국어 형태소 분석 방법에 적용할 수 있는 세 가지 확률 모델을 제안하고, 품사 태깅 말뭉치를 이용하여 각 확률 모델의 성능을 평가한다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치를 10 개의 세트로 나누고 10 배수 교차 검증 결과 98.4%의 정답 제시율을 얻을 수 있었다. 제안된 확률 모델은 각 음절에 대하여 품사 태그를 먼저 부착한 후 원형 복원 및 형태소 생성을 하기 때문에 원형 복원을 먼저 하는 기존 확률 모델에 비하여 탐색 공간이 크게 줄어들어 형태소 분석 과정이 훨씬 간결하고 효율적이어서 분석 속도가 기존의 초당 수 백 어절에서 14만 7천 어절로 약 174배 가량 향상시킬 수 있었다.

Cloud Attack Detection with Intelligent Rules

  • Pradeepthi, K.V;Kannan, A
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권10호
    • /
    • pp.4204-4222
    • /
    • 2015
  • Cloud is the latest buzz word in the internet community among developers, consumers and security researchers. There have been many attacks on the cloud in the recent past where the services got interrupted and consumer privacy has been compromised. Denial of Service (DoS) attacks effect the service availability to the genuine user. Customers are paying to use the cloud, so enhancing the availability of services is a paramount task for the service provider. In the presence of DoS attacks, the availability is reduced drastically. Such attacks must be detected and prevented as early as possible and the power of computational approaches can be used to do so. In the literature, machine learning techniques have been used to detect the presence of attacks. In this paper, a novel approach is proposed, where intelligent rule based feature selection and classification are performed for DoS attack detection in the cloud. The performance of the proposed system has been evaluated on an experimental cloud set up with real time DoS tools. It was observed that the proposed system achieved an accuracy of 98.46% on the experimental data for 10,000 instances with 10 fold cross-validation. By using this methodology, the service providers will be able to provide a more secure cloud environment to the customers.

FCM을 적용한 결함심각도 기반 앙상블 모델 (Defect Severity-based Ensemble Model using FCM)

  • 이나영;권기태
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권12호
    • /
    • pp.681-686
    • /
    • 2016
  • 소프트웨어 결함 예측은 프로젝트의 효율적인 관리와 성공에 있어 중요한 요소이다. 이 결함은 심각도에 따라 프로젝트에 영향을 미치는 정도가 다르다. 그러나 기존 연구는 결함 유무만 관심을 두고 심각도를 고려하지 않는다. 본 논문에서는 소프트웨어 관리 효율과 품질 향상을 위해 FCM을 적용한 결함 심각도 기반 앙상블 모델을 제안한다. 제안된 모델은 FCM으로 NASA PC4의 결함심각도를 재분류한다. 그리고 RF(Random Forest)로 심각도에 영향을 주는 입력 column을 선별하여 데이터 핵심 결함 요인을 추출한다. 또한 10-fold 교차검증으로 파라미터를 변경해 모델 성능을 평가한다. 실험 결과는 다음과 같다. 첫째, 결함심각도가 58,40,80에서 30,20,128로 재분류되었다. 둘째, 심각도에 영향을 주는 중요한 입력 column은 정확도와 노드 불순도 측면에서 BRANCH_COUNT였다. 셋째, 성능평가는 트리수가 작고 고려할 변수가 많을수록 좋은 성능을 보였다.

Cox 비례위험모형을 이용한 우측 대장암 3기 자료 분석 (Analysis of stage III proximal colon cancer using the Cox proportional hazards model)

  • 이태섭;이민정
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.349-359
    • /
    • 2017
  • 본 논문에서는 미국 국립암연구소의 SEER 프로그램에서 제공하는 우측 대장암 3기 자료에 Cox 비례위험모형을 적합하여 생존분석을 하였다. 우측 대장암 3기 환자의 사망률에 유의한 영향을 미치는 공변량들을 파악하고, 관심있는 공변량들을 가진 환자의 생존율을 추정하였다. Schoenfeld 잔차를 기반한 검정과 Schoenfeld 잔차 도표, $log[-log\{{\hat{S}}(t)\}]$ 도표를 이용하여 분석에 사용된 공변량들이 비례위험 가정을 만족함을 확인하였다. 적합된 Cox 비례위험모형의 타당성을 검증하기 위해 10-fold 교차 검증을 이용하여 calibration 도표와 시간에 의존하는 ROC 곡선 아래 면적을 계산하였다. 이를 통해 적합된 Cox 비례위험모형의 타당성을 확인하였다.

Use of a Machine Learning Algorithm to Predict Individuals with Suicide Ideation in the General Population

  • Ryu, Seunghyong;Lee, Hyeongrae;Lee, Dong-Kyun;Park, Kyeongwoo
    • Psychiatry investigation
    • /
    • 제15권11호
    • /
    • pp.1030-1036
    • /
    • 2018
  • Objective In this study, we aimed to develop a model predicting individuals with suicide ideation within a general population using a machine learning algorithm. Methods Among 35,116 individuals aged over 19 years from the Korea National Health & Nutrition Examination Survey, we selected 11,628 individuals via random down-sampling. This included 5,814 suicide ideators and the same number of non-suicide ideators. We randomly assigned the subjects to a training set (n=10,466) and a test set (n=1,162). In the training set, a random forest model was trained with 15 features selected with recursive feature elimination via 10-fold cross validation. Subsequently, the fitted model was used to predict suicide ideators in the test set and among the total of 35,116 subjects. All analyses were conducted in R. Results The prediction model achieved a good performance [area under receiver operating characteristic curve (AUC)=0.85] in the test set and predicted suicide ideators among the total samples with an accuracy of 0.821, sensitivity of 0.836, and specificity of 0.807. Conclusion This study shows the possibility that a machine learning approach can enable screening for suicide risk in the general population. Further work is warranted to increase the accuracy of prediction.

감정어휘 평가사전과 의미마디 연산을 이용한 영화평 등급화 시스템 (Grading System of Movie Review through the Use of An Appraisal Dictionary and Computation of Semantic Segments)

  • 고민수;신효필
    • 인지과학
    • /
    • 제21권4호
    • /
    • pp.669-696
    • /
    • 2010
  • 본 논문은 한 문서의 전체 의미는 각 부분의미의 합성이라는 관점에서 미리 반자동으로 구축된 감정어휘 평가사전을 기반으로 한 시스템을 제안한다. 인간의 의사 결정 과정과 유사한 방식으로 의사 결정 과정을 모델링하려는 노력으로써 본 ARSSA 시스템은 개별 리뷰의 의미값 연산과 자료 분류를 통해 감정 표현이 나타난 영화평 리뷰의 자동 등급화에 대한 연구를 수행한다. 이는 {'평점' : '리뷰'} 이항구조로 이루어진 현재의 평점 부여 형식에서 발생하는 두 변항의 불연속성 문제를 해결해보려는 목적을 가진다. 이는 어휘 의미 합성 과정에서 반영된 추상적 의미들의 합성 함수를 통해 실현될 수 있다. 시스템의 성능 실험에서 네이버 무비에서 확보한 1000개의 리뷰에 대한 10-fold 교차 검증 실험이 수행되었다. 이 실험은 기존에 부여된 평점과 비교하여 감정어휘 평가사전을 이용하였을 때 85%의 F1 Score를 보였다.

  • PDF

테이블 균형맞춤 작업이 가능한 Q-학습 기반 협력로봇 개발 (Cooperative Robot for Table Balancing Using Q-learning)

  • 김예원;강보영
    • 로봇학회논문지
    • /
    • 제15권4호
    • /
    • pp.404-412
    • /
    • 2020
  • Typically everyday human life tasks involve at least two people moving objects such as tables and beds, and the balancing of such object changes based on one person's action. However, many studies in previous work performed their tasks solely on robots without factoring human cooperation. Therefore, in this paper, we propose cooperative robot for table balancing using Q-learning that enables cooperative work between human and robot. The human's action is recognized in order to balance the table by the proposed robot whose camera takes the image of the table's state, and it performs the table-balancing action according to the recognized human action without high performance equipment. The classification of human action uses a deep learning technology, specifically AlexNet, and has an accuracy of 96.9% over 10-fold cross-validation. The experiment of Q-learning was carried out over 2,000 episodes with 200 trials. The overall results of the proposed Q-learning show that the Q function stably converged at this number of episodes. This stable convergence determined Q-learning policies for the robot actions. Video of the robotic cooperation with human over the table balancing task using the proposed Q-Learning can be found at http://ibot.knu.ac.kr/videocooperation.html.

의사결정나무 변수 선정 방법을 적용한 대축적 생물다양성 지도 구축 (Mapping Biodiversity throughoptimized selection of input variables in decision tree models)

  • 김도연;허준;김창재
    • 환경영향평가
    • /
    • 제20권5호
    • /
    • pp.663-673
    • /
    • 2011
  • In the face of accelerating biodiversity loss and its significance in our coexistence with nature, biodiversity is becoming more crucial in sustainable development perspective. To estimate biodiversity in the future which provides valuable information for decision making system especially in the national level, a quantitative approach must be studied forehand as a baseline of the present status. In this study, we developed a large-scale map of Plant Species Richness (PSR, typical indicator of biodiversity) for Young-dong and Pyung-chang provinces. Due to the accessibility of appropriate data and advance of modelling techniques, reduction of variables without deteriorating the predictive power is considered by applying Genetic algorithm. In addition, a number of Correctly Classified Instances (CCI) with 10-fold cross validation which indicates the predictive power, was carried out for evaluation. This study, as a fundamental baseline, will be beneficial in future land work as well as ecosystem restoration business or other relevant decision making agenda.

지형분석을 이용한 산지토양 탄소의 분포 예측과 불확실성 (Spatial Prediction of Soil Carbon Using Terrain Analysis in a Steep Mountainous Area and the Associated Uncertainties)

  • 정관용
    • 한국지형학회지
    • /
    • 제23권3호
    • /
    • pp.67-78
    • /
    • 2016
  • Soil carbon(C) is an essential property for characterizing soil quality. Understanding spatial patterns of soil C is particularly limited for mountain areas. This study aims to predict the spatial pattern of soil C using terrain analysis in a steep mountainous area. Specifically, model performances and prediction uncertainties were investigated based on the number of resampling repetitions. Further, important predictors for soil C were also identified. Finally, the spatial distribution of uncertainty was analyzed. A total of 91 soil samples were collected via conditioned latin hypercube sampling and a digital soil C map was developed using support vector regression which is one of the powerful machine learning methods. Results showed that there were no distinct differences of model performances depending on the number of repetitions except for 10-fold cross validation. For soil C, elevation and surface curvature were selected as important predictors by recursive feature elimination. Soil C showed higher values in higher elevation and concave slopes. The spatial pattern of soil C might possibly reflect lateral movement of water and materials along the surface configuration of the study area. The higher values of uncertainty in higher elevation and concave slopes might be related to geomorphological characteristics of the research area and the sampling design. This study is believed to provide a better understanding of the relationship between geomorphology and soil C in the mountainous ecosystem.