• 제목/요약/키워드: k-Nearest Neighbor Classification

검색결과 182건 처리시간 0.025초

Okapi BM25 단어 가중치법 적용을 통한 문서 범주화의 성능 향상 (A Research on Enhancement of Text Categorization Performance by using Okapi BM25 Word Weight Method)

  • 이용훈;이상범
    • 한국산학기술학회논문지
    • /
    • 제11권12호
    • /
    • pp.5089-5096
    • /
    • 2010
  • 문서 범주화는 정보검색 시스템의 중요한 기능중의 하나로 문서들을 어떤 기준에 의해 그룹화를 하는 것을 말한다. 범주화의 일반적인 방법은 대상 문서에서 중요한 단어들을 추출하고 가중치를 부여한 후에 분류 알고리즘에 따라 문서를 분류한다. 따라서 성능과 정확성은 분류 알고리즘에 의해 결정됨으로 알고리즘의 효율성이 중요하다. 본 논문에서는 단어 가중치 계산 방법을 개선하여 문서분류 성능을 향상시키는 것을 소개하였다. Okapi BM25 단어 가중치법은 일반적인 정보검색분야에서 사용되어 검색 결과에 좋은 결과를 보여주고 있다. 이를 적용하여 문서 범주화에서도 좋은 성능을 보이는지를 실험하였다. 비교한 단어 가중치법에는 가장 일반적인 TF-IDF법와 문서분류에 최적화된 가중치법 TF-ICF법, 그리고 문서요약에서 많이 사용되는 TF-ISF법을 이용하여 4가지 가중치법에 따라 결과를 측정하였다. 실험에 사용한 문서로는 Reuter-21578 문서를 사용하였으며 분류기 알고리즘으로는 Support Vector Machine(SVM)와 K-Nearest Neighbor(KNN)알고리즘을 사용하여 실험하였다. 사용된 가중치법 중 Okapi BM25 법이 가장 좋은 성능을 보였다.

생존분석에서의 기계학습 (Machine learning in survival analysis)

  • 백재욱
    • 산업진흥연구
    • /
    • 제7권1호
    • /
    • pp.1-8
    • /
    • 2022
  • 본 논문은 중도중단 데이터가 포함된 생존데이터의 경우 적용할 수 있는 기계학습 방법에 대해 살펴보았다. 우선 탐색적인 자료분석으로 각 특성에 대한 분포, 여러 특성들 간의 관계 및 중요도 순위를 파악할 수 있었다. 다음으로 독립변수에 해당하는 여러 특성들과 종속변수에 해당하는 특성(사망여부) 간의 관계를 분류문제로 보고 logistic regression, K nearest neighbor 등의 기계학습 방법들을 적용해본 결과 적은 수의 데이터이지만 통상적인 기계학습 결과에서와 같이 logistic regression보다는 random forest가 성능이 더 좋게 나왔다. 하지만 근래에 성능이 좋다고 하는 artificial neural network나 gradient boost와 같은 기계학습 방법은 성능이 월등히 좋게 나오지 않았는데, 그 이유는 주어진 데이터가 빅데이터가 아니기 때문인 것으로 판명된다. 마지막으로 Kaplan-Meier나 Cox의 비례위험모델과 같은 통상적인 생존분석 방법을 적용하여 어떤 독립변수가 종속변수 (ti, δi)에 결정적인 영향을 미치는지 살펴볼 수 있었으며, 기계학습 방법에 속하는 random forest를 중도중단 데이터가 포함된 생존데이터에도 적용하여 성능을 평가할 수 있었다.

Protecting Accounting Information Systems using Machine Learning Based Intrusion Detection

  • Biswajit Panja
    • International Journal of Computer Science & Network Security
    • /
    • 제24권5호
    • /
    • pp.111-118
    • /
    • 2024
  • In general network-based intrusion detection system is designed to detect malicious behavior directed at a network or its resources. The key goal of this paper is to look at network data and identify whether it is normal traffic data or anomaly traffic data specifically for accounting information systems. In today's world, there are a variety of principles for detecting various forms of network-based intrusion. In this paper, we are using supervised machine learning techniques. Classification models are used to train and validate data. Using these algorithms we are training the system using a training dataset then we use this trained system to detect intrusion from the testing dataset. In our proposed method, we will detect whether the network data is normal or an anomaly. Using this method we can avoid unauthorized activity on the network and systems under that network. The Decision Tree and K-Nearest Neighbor are applied to the proposed model to classify abnormal to normal behaviors of network traffic data. In addition to that, Logistic Regression Classifier and Support Vector Classification algorithms are used in our model to support proposed concepts. Furthermore, a feature selection method is used to collect valuable information from the dataset to enhance the efficiency of the proposed approach. Random Forest machine learning algorithm is used, which assists the system to identify crucial aspects and focus on them rather than all the features them. The experimental findings revealed that the suggested method for network intrusion detection has a neglected false alarm rate, with the accuracy of the result expected to be between 95% and 100%. As a result of the high precision rate, this concept can be used to detect network data intrusion and prevent vulnerabilities on the network.

Recognition of damage pattern and evolution in CFRP cable with a novel bonding anchorage by acoustic emission

  • Wu, Jingyu;Lan, Chengming;Xian, Guijun;Li, Hui
    • Smart Structures and Systems
    • /
    • 제21권4호
    • /
    • pp.421-433
    • /
    • 2018
  • Carbon fiber reinforced polymer (CFRP) cable has good mechanical properties and corrosion resistance. However, the anchorage of CFRP cable is a big issue due to the anisotropic property of CFRP material. In this article, a high-efficient bonding anchorage with novel configuration is developed for CFRP cables. The acoustic emission (AE) technique is employed to evaluate the performance of anchorage in the fatigue test and post-fatigue ultimate bearing capacity test. The obtained AE signals are analyzed by using a combination of unsupervised K-means clustering and supervised K-nearest neighbor classification (K-NN) for quantifying the performance of the anchorage and damage evolutions. An AE feature vector (including both frequency and energy characteristics of AE signal) for clustering analysis is proposed and the under-sampling approaches are employed to regress the influence of the imbalanced classes distribution in AE dataset for improving clustering quality. The results indicate that four classes exist in AE dataset, which correspond to the shear deformation of potting compound, matrix cracking, fiber-matrix debonding and fiber fracture in CFRP bars. The AE intensity released by the deformation of potting compound is very slight during the whole loading process and no obvious premature damage observed in CFRP bars aroused by anchorage effect at relative low stress level, indicating the anchorage configuration in this study is reliable.

차대차 교통사고에 대한 상해 심각도 예측 연구 (A Study on Injury Severity Prediction for Car-to-Car Traffic Accidents)

  • 고창완;김현민;정영선;김재희
    • 한국ITS학회 논문지
    • /
    • 제19권4호
    • /
    • pp.13-29
    • /
    • 2020
  • 자동차는 우리의 일상에 필수재가 된 지 오래지만 자동차 교통사고로 인한 사회적 비용이 국가 예산의 9%를 넘을 정도로 심각하여 이에 대한 국가적인 예방 및 대응 체계 구축이 매우 필요한 실정이다. 이에 본 연구에서는 빅데이터 분석 기법을 활용하여 차대차 교통사고의 상해 심각도를 정확히 예측할 수 있는 모형을 제시하고자 하였다. 이를 위해 과거 3년간의 전국교통사고 발생 데이터를 토대로, K-최근접 이웃, 로지스틱 회귀분석, 나이브베이즈, 의사결정나무, 앙상블 알고리즘을 적용하여 각 모델의 상해 심각도 분류의 성능을 비교 분석하였다. 특히 이 과정에서 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높일 수 있었고, 분산 분석을 통해 모델의 유의성을 검증하였다.

슬통 진단용 설문지개발 및 진단 일치도 평가연구 (Development of Knee Pain Diagnosis Questionnaire and Clinical Study of Diagnostic Correspondent Rate)

  • 황지후;김유종;김은정;이참결;이은용;이승덕;김갑성
    • Journal of Acupuncture Research
    • /
    • 제29권5호
    • /
    • pp.61-74
    • /
    • 2012
  • Objectives : This study is perfomed for preparation of oriental medicine clinical guidelines for drawing up the standards of oriental medicine demonstration and diagnosis classification about the knee pain. Methods : Statistical analysis about Crane's-knee wind(鶴膝風), arthralgia syndrome(痺症), knee injury(膝傷), gout arthritis(痛風), Youk jeol poung(歷節風) classified experts' opinions about knee pain patients by Delphi method is conducted by using oriental medicine diagnosis questionnaire. The result was classified by using linear discriminant analysis(LDA), diagonal linear discriminant analysis(DLDA), diagonal quadratic discriminant analysis(DQDA), K-nearest neighbor classification(KNN), classification and regression trees(CART), support vector machines(SVM). Results : The results are summarized as follows. 1. The result analyzed by using LDA has a hit rate of 81.65% in comparison with the original diagnosis. 2. The result analyzed by using DLDA has a hit rate of 63.3% in comparison with the original diagnosis. 3. The result analyzed by using DQDA has a hit rate of 65.14% in comparison with the original diagnosis. 4. The result analyzed by using KNN has a hit rate of 74.31% in comparison with the original diagnosis. 5. The result analyzed by using CART has a hit rate of 75.23% in comparison with the original diagnosis when the test of selected 13 significant questions based on analysis of variance was performed. 6. The result analyzed by using SVM has a hit rate of 87.16% in comparison with the original diagnosis. Conclusions : Statistical analysis using oriental medicine diagnosis questionnaire on knee pain generally turned out to have a significant result.

사례 기반 추론을 이용한 적조 예측 모니터링 시스템 구현 및 설계 (A Design and Implementation Red Tide Prediction Monitoring System using Case Based Reasoning)

  • 송병호;정민아;이성로
    • 한국통신학회논문지
    • /
    • 제35권12B호
    • /
    • pp.1219-1226
    • /
    • 2010
  • 적조 현상에 대한 판별, 예측 분석을 위한 시스템은 현재 개발이 아주 미흡한 상태이고 현재의 적조원인에 대한 연구는 화학 및 생물학적 원인의 규명에 대해 그 초점이 맞추어져 있어 지능적인 의사 결정 알고리즘을 갖는 시스템 구현이 필요하다. 본 논문에서는 사례 기반 추론 기법을 이용하여 적조 현상에 관한 사례를 지식 베이스로 구축하고 추론하는 시스템을 설계하였다. 가장 유사한 사례 추천을 위해 KNN 알고리즘을 이용하였고 적조 사례 베이스를 구축하기 위하여 375 건의 데이터를 입력 받아 실험하였다. 학습 데이터로부터의 영향을 최소화하고 신뢰성을 확보하기 위해 10-Fold 교차검증을 수행한 결과 적조 사례에 대한 평균 정확도는 약 84.2%를 나타냈고 유사도 분류 k 개수가 5인 경우에 최적의 수행 결과를 나타냈다. 또한, 추론된 결과를 이용하여 적조 모니터링 시스템을 구현하였다.

A novel method for natural motion mapping as a strategy of game immediacy

  • Lee, Ji Young;Woo, Tack
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권5호
    • /
    • pp.2313-2326
    • /
    • 2018
  • The method of operating a game could determine the psychological distance between the player and the game character, and thus, in the Virtual Reality, players' control methodologies are important to enhance their immersion. This study has the objective of examining the difference in games according to the method of operation based on the player's movements. This study researched the effect of the method of operating movement conforming to the movement of the character and the physical operation of the body on forming game experiences for the player. The result of performing an experiment increased reality for the game player through a controller in the shape of the actual control, to increase focus in the game. As so, game play through movements, including actual movements by the player displayed to enhance game satisfaction. In the part of media remediation field, Game can be defined as media which has their own unique hypermediacy. Especially, in the motion based game, players' movement mediates players and the game, therefore, players' movement could make players' experience augmented or immediate in accordance with the characteristics of movements. Even though sports and dances genres of motion-based games are common, RPG or adventure genres are rare. It can be explained that the characteristics of the action have been explained in the immediacy. In a game of fantasy, which is difficult to experience in real-life situations, the nature of the player's motion can increase the immersion of the game, which can contribute to utilization of players' motion and experience design in the various genres and suggestion of grounds theory. In addition, through this study, it is able to design motion-based games of various genres.

비유사도-기반 분류를 위한 차원 축소방법의 비교 실험 (A Comparative Experiment on Dimensional Reduction Methods Applicable for Dissimilarity-Based Classifications)

  • 김상운
    • 전자공학회논문지
    • /
    • 제53권3호
    • /
    • pp.59-66
    • /
    • 2016
  • 이 논문에서는 비유사도-기반 분류(dissimilarity-based classifications: DBC)를 효율적으로 수행할 수 있는 차원 축소 방법들을 비교 평가한 실험 결과를 보고한다. DBC에선 분류를 위해 대상 물체를 측정한 결과 값들(특징 요소들의 집합)을 이용하는 대신에 각 대상 물체들 사이의 비유사도를 측정하여 분류한다. 현재 DBC와 관련된 이슈들 중의 하나는 대규모 데이터를 취급할 경우에 비유사도 공간의 차원이 고차원으로 되는 문제가 있다. 이 문제를 해결하기 위하여 현재 프로토타입 선택(prototype selection: PS)방법이나 차원 축소(dimension reduction: DR)방법을 이용하고 있다. PS는 전체 학습 데이터에서 프로토타입을 추출하여 비유사도 공간을 구성하는 방법이고, DR은 전체 학습 데이터로 먼저 비유사도 공간을 구성한 다음 이 공간의 차원을 축소하는 방법이다. 이 논문에서는 PS이나 DR 대신에, 학습 데이터에 대한 주성분 분석으로 적절한 차원의 고유 공간 (Eigen space: ES)을 구성한 다음, 이 고유 공간으로 매핑 된 벡터들 사이의 $l_p$-놈(norm) 거리를 비유사도 거리로 측정하여 이용하는 DBC를 제안한다. 인터넷에 공개된 인공 및 실세계 데이터를 이용하여 최 근방 이웃 분류규칙으로 ES에서 수행한 DBC의 분류 성능을 측정한 결과, 고유공간의 차원을 적절하게 선정하였을 경우 PS와 DR를 이용한 DBC보다 분류 성능이 더 향상되었음을 확인하였다.

P2P 대부 우수 대출자 예측을 위한 합성 소수집단 오버샘플링 기법 성과에 관한 탐색적 연구 (Exploring the Performance of Synthetic Minority Over-sampling Technique (SMOTE) to Predict Good Borrowers in P2P Lending)

  • 프란시스 조셉 코스텔로;이건창
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.71-78
    • /
    • 2019
  • 본 연구는 P2P 대부 플랫폼에서 우수 대출자를 예측시 유용한 합성 소수집단 오버샘플링 기법을 제안하고 그 성과를 실증적으로 검증하고자 한다. P2P 대부 관련 우수 대출자를 추정할 때 일어나는 문제점중의 하나는 클래스 간 불균형이 심하여 이를 해결하지 않고서는 우수 대출자 예측이 쉽지 않다는 점이다. 이러한 문제를 해결하기 위하여 본 연구에서는 SMOTE, 즉 합성 소수집단 오버샘플링 기법을 제안하고 LendingClub 데이터셋에 적용하여 성과를 검증하였다. 검증결과 SMOTE 방법은 서포트 벡터머신, k-최근접이웃, 로지스틱 회귀, 랜덤 포레스트, 그리고 딥 뉴럴네트워크 분류기와 비교하여 통계적으로 우수한 성과를 보였다.