• 제목/요약/키워드: decision tree technique

검색결과 203건 처리시간 0.029초

Twostep Clustering of Environmental Indicator Survey Data

  • Park, Hee-Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권1호
    • /
    • pp.1-11
    • /
    • 2006
  • Data mining technique is used to find hidden knowledge by massive data, unexpectedly pattern, relation to new rule. The methods of data mining are decision tree, association rules, clustering, neural network and so on. Clustering is the process of grouping the data into clusters so that objects within a cluster have high similarity in comparison to one another. It has been widely used in many applications, such that pattern analysis or recognition, data analysis, image processing, market research on off-line or on-line and so on. We analyze Gyeongnam social indicator survey data by 2001 using twostep clustering technique for environment information. The twostep clustering is classified as a partitional clustering method. We can apply these twostep clustering outputs to environmental preservation and improvement.

  • PDF

X-treeDiff+ 기반의 프로그램 복제 탐지 (Program Plagiarism Detection based on X-treeDiff+)

  • 이석균
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.44-53
    • /
    • 2010
  • 컴퓨터 프로그래밍 교육에서 프로그램 복제는 프로그래밍 학습 효율을 저해하는 심각한 요인이다. 본 논문에서는 학생들이 프로그래밍 과제의 무분별한 복제를 방지하기 위해 유사 또는 동일 프로그램을 탐지하는 기법을 제안한다. 지문법이나 스트링 매칭을 기반으로 하는 기존의 탐지 기법과는 달리, 우선 C 프로그램을 파싱하여 문법요소를 엘리먼트로 하는 XML 문서로 변화시킨 후 XML 문서의 변화탐지 알고리즘인 X-treeDiff+를 실행시켜 그 차이를 분석하는 방법을 취한다. 이때 대응의 정도를 나타내는 유사도와 두 문서의 차이로 제시되는 일련의 편집연산인 편집스크립트를 프로그램 복제의 관점에서 분석하여 복제 여부에 대한 판단을 하게 된다. 편집스크립트의 분석은 두 프로그램 간의 변환 과정을 유추할 수 있게 하여 기존 방법들과는 달리 사용자는 과제의 성격이나 복제의 정도를 고려한 정성적인 판단이 가능하다는 장점이 있다.

트레이닝 데이터 생성과 의사 결정 트리를 이용한 계통수 생성 방법 (The Training Data Generation and a Technique of Phylogenetic Tree Generation using Decision Tree)

  • 채덕진;신예호;천태영;고흥선;류근호;황부현
    • 정보처리학회논문지D
    • /
    • 제10D권6호
    • /
    • pp.897-906
    • /
    • 2003
  • 전통적인 동물 계통수(系統樹)는 초기발생 혈질에 기초하여 몸 구조가 단순한 것에서 복잡한 것으로 동물문(animal phylum)들을 배열하는 것이다. 현재 활발하게 연구 진행되는 분자수준에서의 분자계통 분류학(Molecular Systematics) 연구들이 이런 경향을 재평가하고 새로운 계통과 진화의 의미를 제시하고 있다. 본 논문에서는 한 염기서열로부터 획득할 수 있는 특성 값들을 추출하여 트레이닝 데이터를 생성하고, 생성된 데이터를 기반으로 데이터마이닝 기법중의 하나인 분류기법(classification) 을 사용하여 계통수를 생성하였다. 실험용 데이터는 미토콘드리아 염기서열을 사용하였으며 생물학분야에서 사용하는 분석 프로그램인 MEGA 프로그램을 사용하여 이를 증명하였다. 비록 마이닝을 수행한 결과는 생물학적 실험을 거쳐 정확성을 검증 받아야 하지만 인터넷상에 떠다니는 무수한 유전체들에 대한 유효한 분류기준을 제시할 수 있고 계통수 제작을 위한 실험에 소요되는 많은 시간과 노력들을 줄일 수 있다.

데이터마이닝을 이용한 박스오피스 예측 (Prediction of box office using data mining)

  • 전성현;손영숙
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1257-1270
    • /
    • 2016
  • 본 연구는 영화 흥행의 척도로서 총 관객수의 예측을 다루었다. 의사결정나무, MLP 신경망모형, 다항로짓모형, support vector machine과 같은 데이터마이닝 분류 기법들을 사용하여 개봉 전, 개봉 일, 개봉 1주 후, 그리고 개봉 2주 후 시점 별로 예측이 이루어진다. 국적, 등급, 개봉 월, 개봉 계절, 감독, 배우, 배급사, 관객수, 그리고 스크린 수와 같은 영화의 내재적인 속성을 나타내는 변수 뿐만 아니라 포털의 평점과 평가자 수, 블로그 수, 뉴스 수와 같은 온라인 구전 변수들이 예측변수로 사용되었다. 10-중 교차 검증에서 신경망모형의 정확도는 개봉 전 시점에서도 90% 이상의 높은 예측력을 보였다. 또한 최종 온라인 구전 변수의 추정치를 예측변수로 추가함으로서 예측의 정확도가 더 높아짐을 볼 수 있다.

소프트 컴퓨팅 기법을 이용한 개인화된 손동작 인식 시스템 (A Personalized Hand Gesture Recognition System using Soft Computing Techniques)

  • 전문진;도준형;이상완;박광현;변증남
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.53-59
    • /
    • 2008
  • 최근 하지가 불편한 노약자나 장애인이 집안의 다양한 가전기기를 손쉽게 제어하기 위한 비전 기반의 손동작 인식 기술이 발전해 왔다. 다수의 사용자가 하나의 손동작 인식 시스템을 사용할 경우 사용자마다 손동작 특성이 모두 다르기 때문에 특정 사용자의 인식률이 저하되는 문제가 발생한다. 또한 동일한 사용자라 하더라도 시간에 따라 손동작 특성이 변화할 수 있다. 사용자마다 다른 손동작 특성은 모델 학습 및 선택 기법을 사용해 효과적으로 다루어질 수 있다. 시간에 따라 변하는 사용자의 특성은 퍼지 개념을 이용해 효과적으로 다루어질 수 있다. 본 논문에서는 다변량 퍼지 의사 결정트리를 이용해 사용자 별 인식모델을 만드는 방법을 제시한다. 또한 새로운 사용자가 시스템을 사용할 경우 가장 적합한 모델을 선택해 인식에 사용하고 인식률을 측정한다.

다중모델을 이용한 자동차 보험 고객의 이탈예측 (Customer Churn Prediction of Automobile Insurance by Multiple Models)

  • 이재식;이진천
    • 지능정보연구
    • /
    • 제12권2호
    • /
    • pp.167-183
    • /
    • 2006
  • 데이터마이닝은 우리가 완벽하게 알고 있지 못하는 데이터 집합으로부터 알려지지 않은 사실이나 규칙을 찾아내는 작업이기 때문에 항상 높은 오류율의 위험에 처해 있다. 다중모델은 하나의 문제에 다수의 모델을 사용함으로써 오류율을 줄이고자 하는 접근 방법이다. 본 연구에서는 데이터마이닝의 예측 성능을 개선시킬 수 있는 새로운 방식의 다중모델을 제시한다. 이 다중모델은 입력사례의 특성에 따라 그에 적합하게 개발된 모델이 선정되어 적용되는 특징을 가지고 있다. 제시된 다중모델의 현실적인 성능 검증을 위해 국내 자동차 보험 가입 고객의 이탈 예측 문제에 적용하여, 그 결과를 단일모델의 결과와 비교 평가하였다. 비교 대상 단일모델로는, 사례기반추론, 인공신경망, 의사결정나무 등이 사용되었는데, 다중모델의 예측 성능이 어떤 단일모델의 예측 성능보다 우수한 것으로 나타났다.

  • PDF

Stacking Ensemble Learning을 활용한 블록 탑재 시수 예측 (A Study on the Work-time Estimation for Block Erections Using Stacking Ensemble Learning)

  • 권혁천;유원선
    • 대한조선학회논문집
    • /
    • 제56권6호
    • /
    • pp.488-496
    • /
    • 2019
  • The estimation of block erection work time at a dock is one of the important factors when establishing or managing the total shipbuilding schedule. In order to predict the work time, it is a natural approach that the existing block erection data would be used to solve the problem. Generally the work time per unit is the product of coefficient value, quantity, and product value. Previously, the work time per unit is determined statistically by unit load data. However, we estimate the work time per unit through work time coefficient value from series ships using machine learning. In machine learning, the outcome depends mainly on how the training data is organized. Therefore, in this study, we use 'Feature Engineering' to determine which one should be used as features, and to check their influence on the result. In order to get the coefficient value of each block, we try to solve this problem through the Ensemble learning methods which is actively used nowadays. Among the many techniques of Ensemble learning, the final model is constructed by Stacking Ensemble techniques, consisting of the existing Ensemble models (Decision Tree, Random Forest, Gradient Boost, Square Loss Gradient Boost, XG Boost), and the accuracy is maximized by selecting three candidates among all models. Finally, the results of this study are verified by the predicted total work time for one ship among the same series.

데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구 (Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games)

  • 오윤학;김한;윤재섭;이종석
    • 대한산업공학회지
    • /
    • 제40권1호
    • /
    • pp.8-17
    • /
    • 2014
  • In this research, we employed various data mining techniques to build predictive models for win-loss prediction in Korean professional baseball games. The historical data containing information about players and teams was obtained from the official materials that are provided by the KBO website. Using the collected raw data, we additionally prepared two more types of dataset, which are in ratio and binary format respectively. Dividing away-team's records by the records of the corresponding home-team generated the ratio dataset, while the binary dataset was obtained by comparing the record values. We applied seven classification techniques to three (raw, ratio, and binary) datasets. The employed data mining techniques are decision tree, random forest, logistic regression, neural network, support vector machine, linear discriminant analysis, and quadratic discriminant analysis. Among 21(= 3 datasets${\times}$7 techniques) prediction scenarios, the most accurate model was obtained from the random forest technique based on the binary dataset, which prediction accuracy was 84.14%. It was also observed that using the ratio and the binary dataset helped to build better prediction models than using the raw data. From the capability of variable selection in decision tree, random forest, and stepwise logistic regression, we found that annual salary, earned run, strikeout, pitcher's winning percentage, and four balls are important winning factors of a game. This research is distinct from existing studies in that we used three different types of data and various data mining techniques for win-loss prediction in Korean professional baseball games.

노면 적응형 대퇴 의족개발을 위한 발목 관절 부하 가변형 하퇴 의족 적용에 대한 연구 (The Study on Applying Ankle Joint Load Variable Lower-Knee Prosthesis to Development of Terrain-Adaptive Above-Knee Prosthesis)

  • 엄수홍;나선종;류중현;박세훈;이응혁
    • 전기전자학회논문지
    • /
    • 제23권3호
    • /
    • pp.883-892
    • /
    • 2019
  • 본 연구에서는 지능형 대퇴 의족의 노면 적응 기술 구현시 보행 환경이 변화하는 구간 및 약 경사로 보행에서의 보행 불평형 문제를 해결하기 위한 방법으로 발목 관절 운동을 제어 가능한 하퇴 의족을 적용하였다. 제안한 태퇴 의족의 개발을 위해서는 보행의 단계 구분이 필수적이다. 이러한 보행의 입각기의 단계별 구분과 유각기의 판단을 위하여 대퇴의족의 슬관절 데이터와 관성센서 데이터를 바탕으로 의사 결정 나무 학습법과 랜덤포레스트 기법을 융합한 머신러닝 기술을 제안 및 적용하였다. 이러한 방법으로 발목의 운동 상태를 제어 하였으며 보행 평형이 문제가 해소 되는지를 butterfly diagram을 측정하여 평가 하였다.

환자 IQR 이상치와 상관계수 기반의 머신러닝 모델을 이용한 당뇨병 예측 메커니즘 (Diabetes prediction mechanism using machine learning model based on patient IQR outlier and correlation coefficient)

  • 정주호;이나은;김수민;서가은;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1296-1301
    • /
    • 2021
  • 최근 전 세계적으로 당뇨병 유발률이 증가함에 따라 다양한 머신러닝과 딥러닝 기술을 통해 당뇨병을 예측하려고 는 연구가 이어지고 있다. 본 연구에서는 독일의 Frankfurt Hospital 데이터로 머신러닝 기법을 활용하여 당뇨병을 예측하는 모델을 제시한다. IQR(Interquartile Range) 기법을 이용한 이상치 처리와 피어슨 상관관계 분석을 적용하고 Decision Tree, Random Forest, Knn, SVM, 앙상블 기법인 XGBoost, Voting, Stacking로 모델별 당뇨병 예측 성능을 비교한다. 연구를 진행한 결과 Stacking ensemble 기법의 정확도가 98.75%로 가장 뛰어난 성능을 보였다. 따라서 해당 모델을 이용하여 현대 사회에 만연한 당뇨병을 정확히 예측하고 예방할 수 있다는 점에서 본 연구는 의의가 있다.