• 제목/요약/키워드: CHAID기법

검색결과 22건 처리시간 0.033초

베이지안 신경망을 이용한 분류분석 (A Classification Analysis using Bayesian Neural Network)

  • 황진수;최성용;전홍석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제12권2호
    • /
    • pp.11-25
    • /
    • 2001
  • 자료들 사이에 존재하는 관계, 패턴, 규칙등을 찾아내서 모형화 하는 통계적인 분류기법은 여러가지가 있다. 그러나 우리가 얻게 되는 지식은 어떤 일련의 분류규칙에 의해서가 아닌 관찰과 학습을 통한 훈련으로부터 얻게 된다. 본 베이지안 학습은 모든 형태의 불확실성을 표현하는 확률로써 우리의 믿음의 정도를 표현하는 것으로 해석될 수 있으며, 확실한 결과가 알려짐에 따라 확률이론 법칙을 사용하여 이러한 확률들을 갱신한다. 또한 신경망 모형은 이미 알고 있는 속성들에 근거하여 아직 알지 못하는 집단이나 특질들을 예측하게 해준다. 본 논문에서는 이러한 두 가지 방법을 결합한 베이지안 신경망과 기존의 CHAID, CART, QUBST 분류 알고리즘에 있어서 각각 오분류율을 비교연구하였다.

  • PDF

데이터마이닝 기법을 활용한 불법주차 영향요인 분석 (A Study on the Analysis Effect Factors of Illegal Parking Using Data Mining Techniques)

  • 이창희;김명수;서소민
    • 한국ITS학회 논문지
    • /
    • 제13권4호
    • /
    • pp.63-72
    • /
    • 2014
  • 우리나라는 급속한 경제발전과 고속성장으로 생활수준이 향상되면서 자동차 수요가 급격히 증가함에 따라 교통혼잡, 교통사고, 주차문제 등의 문제가 발생되고 있다. 자동차 증가로 인한 주차문제 중 불법주차는 교통혼잡을 야기하고 주차공간으로 인한 이웃간 분쟁의 원인이 되어 사회적 문제로 대두되고 있다. 이에 본 연구에서는 지방 광역시중 승용차 수단분담률이 높음에도 불구하고 불법주차 단속건수가 상대적을 적은 대전광역시를 대상으로 주차조사를 실시하였으며 불법주차에 대한 원론적인 문제를 파악하기 위해 의사결정나무모형 Exhaustive CHAID분석을 통하여 운전자들의 주차행위에 있어 불법주차를 선택하는 과정과 그에 따른 영향요인을 탐색하여 불법주차의 원인을 파악하고 해결하는 방안을 제시하고자 한다. 분석결과 불법주차를 선택하는 영향요인으로는 거리, 단속경험, 직업, 이용시간대 순으로 영향을 미치는 것으로 나타났으며 예측 모형은 최종적으로 4가지 노드가 도출되었다. 분석결과에 따른 불법주차의 해결방안으로는 공영주차장의 추가설치와 생계유지 및 조업차량의 주차공간 확보가 우선되어야 하고 불법주차 단속강화와 시민의식 고취를 위한 캠페인의 활성화가 필요하다.

고속도로 사고등급별 돌발상황 처리시간 예측모형 및 의사결정나무 개발 (The prediction Models for Clearance Times for the unexpected Incidences According to Traffic Accident Classifications in Highway)

  • 하오근;박동주;원제무;정철호
    • 한국ITS학회 논문지
    • /
    • 제9권1호
    • /
    • pp.101-110
    • /
    • 2010
  • 본 연구는 고속도로에서 발생하는 비반복적 정체 중 교통사고로 인하여 발생하는 돌발상황에 대한 운영관리 부족 및 처리시간에 대한 정보제공 요구증가에 따라 이에 대응할 수 있는 돌발상황 처리시간 예측모형개발을 개발하였다. 돌발상황 처리시간 예측모형을 개발하기에 앞서 종속변수인 사고처리시간을 사고등급 A, B, C등급으로 구분하였으며, 독립변수로는 교통량, 사고차량수, 사고시간대 등 총 15개 변수를 적용하여 모형을 개발하였다. 모형도출결과 돌발상황 처리시간에 영향을 미치는 주요변수로는 교통량, 중차량포함여부, 사고시간대가 도출되었다. 또한 돌발상황 처리시간 예측모형에서 영향 변수로 도출된 변수들을 토대로 의사결정나무를 구축하였으며, 이때 CHAID기법을 적용하였다. 그 결과 1차적으로 사고등급 A, B등급과 C등급으로 구분되었으며, 2차적으로는 도로의 교통량으로 분리되었다. 본 연구를 통하여 도출된 돌발상황 처리시간 예측모형과 의사결정나무를 통하여 향후 고속도로 돌발상황 발생시 도로이용자들에게 보다 신속하고 실효성있는 교통정보를 제공하는데 기여할 수 있을 것으로 판단된다.

분류 트리 기법을 이용한 국내 일괄사육 양돈장의 차단방역 수준에 영향을 미치는 기여 요인 평가 (Classification Tree Analysis to Assess Contributing Factors Influencing Biosecurity Level on Farrow-to-Finish Pig Farms in Korea)

  • 김규욱;박선일
    • 한국임상수의학회지
    • /
    • 제33권2호
    • /
    • pp.107-112
    • /
    • 2016
  • The objective of this study was to determine potential contributing factors associated with biosecurity level of farrow-to-finish pig farms and to develop a classification tree model to explore how these factors related to each other based on prediction model. To this end, the author analyzed data (n = 193) extracted from a cross-sectional study of 344 farrow-to-finish farms which was conducted between March and September 2014 aimed to explore swine disease status at farm level. Standardized questionnaires with information about basic demographical data and management practices were collected in each farm by on-site visit of trained veterinarians. For the classification of the data sets regarding biosecurity level as a dependent variable and predictor variables, Chi-squared Automatic Interaction Detection (CHAID) algorithm was applied for modeling classification tree. The statistics of misclassification risk was used to evaluate the fitness of the model in terms of prediction results. Categorical multivariate input data (40 variables) was used to construct a classification tree, and the target variable was biosecurity level dichotomized into low versus high. In general, the level of biosecurity was lower in the majority of farms studied, mainly due to the limited implementation of on-farm basic biosecurity measures aimed at controlling the potential introduction and transmission of swine diseases. The CHAID model illustrated the relative importance of significant predictors in explaining the level of biosecurity; maintenance of medical records of treatment and vaccination, use of dedicated clothing to enter the farm, installing fence surrounding the farm perimeter, and periodic monitoring of the herd using written biosecurity plan in place. The misclassification risk estimate of the prediction model was 0.145 with the standard error of 0.025, indicating that 85.5% of the cases could be classified correctly by using the decision rule based on the current tree. Although CHAID approach could provide detailed information and insight about interactions among factors associated with biosecurity level, further evaluation of potential bias intervened in the course of data collection should be included in future studies. In addition, there is still need to validate findings through the external dataset with larger sample size to improve the external validity of the current model.

기계학습을 이용한 문서 자동분류에 관한 연구 (A Study on the Documents's Automatic Classification Using Machine Learning)

  • 김성희;엄재은
    • 정보관리연구
    • /
    • 제39권4호
    • /
    • pp.47-66
    • /
    • 2008
  • 본 논문에서는 수작업 분류 시 초래하는 여러 가지 한계점을 극복하고, 이용자에게 보다 빠르고 정확한 분류 서비스를 제공하기 위해 4개의 다양한 기계학습 알고리즘을 적용하였다. 연구대상으로는 MeSH의 8개의 주제별 범주로 각각 100개의 문헌 타이틀을 선정하였으며, 4개의 기계학습 알고리즘으로 실험을 수행하였다. 그 결과 신경망 기법과 C5.0 기법을 병행하여 사용했을 경우 단일 기법을 사용했을 경우보다 2.5%, 3.75%가 상승하여 분류 효율이 83.75%로 측정되었다. 이 수치는 4개의 분류 실험 결과 중 가장 높은 정확률을 나타내었다. 따라서 신경망 기법과 C5.0 기법의 장점을 이용하여 분류 서비스를 실행하면 단일 기법을 사용한 경우보다 높은 정확률을 나타낼 수 있을 것이라 기대된다.

데이터마이닝 기법을 이용한 전공이탈자 분류를 위한 성능평가 (Evaluation on Performance for Classification of Students Leaving Their Majors Using Data Mining Technique)

  • 임영문;유창현
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2006년도 추계공동학술대회
    • /
    • pp.293-297
    • /
    • 2006
  • Recently most universities are suffering from students leaving their majors. In order to make a countermeasure for reducing major separation rate, many universities are trying to find a proper solution. As a similar endeavor, this paper uses decision tree algorithm which is one of the data mining techniques which conduct grouping or prediction into several sub-groups from interested groups. This technique can analyze a feature of type on students leaving their majors. The dataset consists of 5,115 features through data selection from total data of 13,346 collected from a university in Kangwon-Do during seven years(2000.3.1 $\sim$ 2006.6.30). The main objective of this study is to evaluate performance of algorithms including CHAID, CART and C4.5 for classification of students leaving their majors with ROC Chart, Lift Chart and Gains Chart. Also, this study provides values about accuracy, sensitivity, specificity using classification table. According to the analysis result, CART showed the best performance for classification of students leaving their majors.

  • PDF

데이터마이닝 기법을 이용한 전공이탈자 예측모형 (Predicting Model of Students Leaving Their Majors Using Data Mining Technique)

  • 임영문;유창현
    • 대한안전경영과학회지
    • /
    • 제8권5호
    • /
    • pp.17-25
    • /
    • 2006
  • Nowadays most colleges are confronting with a serious problem because many students have left their majors at the colleges. In order to make a countermeasure for reducing major separation rate, many universities are trying to find a proper solution. As a similar endeavor, the objective of this paper Is to find a predicting model of students leaving their majors. The sample for this study was chosen from a university in Kangwon-Do during seven years(2000.3.1 $\sim$ 2006. 6.30). In this study, the ratio of training sample versus testing sample among partition data was controlled as 50% : 50% for a validation test of data division. Also, this study provides values about accuracy, sensitivity, specificity about three kinds of algorithms including CHAID, CART and C4.5. In addition, ROC chart and gains chart were used for classification of students leaving their majors. The analysis results were very informative since those enable us to know the most important factors such as semester taking a course, grade on cultural subjects, scholarship, grade on majors, and total completion of courses which can affect students leaving their majors.

건설업의 산업재해 특성분석을 위한 의사결정나무 기법의 상용 최적 알고리즘 선정 (Selection of an Optimal Algorithm among Decision Tree Techniques for Feature Analysis of Industrial Accidents in Construction Industries)

  • 임영문;최요한
    • 대한안전경영과학회지
    • /
    • 제7권5호
    • /
    • pp.1-8
    • /
    • 2005
  • The consequences of rapid industrial advancement, diversified types of business and unexpected industrial accidents have caused a lot of damage to many unspecified persons both in a human way and a material way Although various previous studies have been analyzed to prevent industrial accidents, these studies only provide managerial and educational policies using frequency analysis and comparative analysis based on data from past industrial accidents. The main objective of this study is to find an optimal algorithm for data analysis of industrial accidents and this paper provides a comparative analysis of 4 kinds of algorithms including CHAID, CART, C4.5, and QUEST. Decision tree algorithm is utilized to predict results using objective and quantified data as a typical technique of data mining. Enterprise Miner of SAS and AnswerTree of SPSS will be used to evaluate the validity of the results of the four algorithms. The sample for this work chosen from 19,574 data related to construction industries during three years ($2002\sim2004$) in Korea.

의사결정트리를 이용한 교육성과 요인에 관한 연구 (A Study on Factors of Education's Outcome using Decision Trees)

  • 김완섭
    • 공학교육연구
    • /
    • 제13권4호
    • /
    • pp.51-59
    • /
    • 2010
  • 대학에서 운영되는 강좌를 효과적으로 관리하고 교육성과를 향상시키기 위해서는 각 클래스의 현재의 교육성과를 진단하고 교육성과에 영향을 미치는 요인들을 파악하는 과정이 요구된다. 요인을 발견하는 연구에는 연관성 분석, 회귀분석 등의 통계기법들이 많이 사용되고 있으며 최근에는 데이터마이닝의 결정트리 분석도 사용되고 있다. 결정트리 분석은 결과 모델을 이해하기 쉽고 의사결정에 적용하기 쉽다는 장점이 있지만, 다중공선성 등의 입력 데이터의 특성에 견고하지 못한 문제점이 있다. 본 연구에서는 기존의 결정트리 분석의 문제점들을 정리하고, 이 문제점들을 보완하기 위한 하나의 실험적 해결책으로 다중 결정트리를 이용한 요인의 발견 방법을 제안한다. 실험을 통해 다중 결정트리를 수행이 다중 결정트리를 적용할 때보다 신뢰할 수 있는 요인을 발견하고 각 변수의 중요성을 발견할 수 있음을 보였다.

  • PDF

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.