• 제목/요약/키워드: Decision Tree Induction

검색결과 38건 처리시간 0.029초

한영 기계번역에서 결정 트리 학습에 의한 한국어 부사격 조사의 의미 중의성 해소 (Decision Tree based Disambiguation of Semantic Roles for Korean Adverbial Postpositions in Korean-English Machine Translation)

  • 박성배;장병탁;김영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.668-677
    • /
    • 2000
  • 한국어는 격조사에 의해 구문 역할이 결정되고 하나의 조사가 여러 개의 의미를 가지는 특징이 있다. 특히, 부사격 조사는 그 의미의 다양성으로 인해서 한영 기계 번역에서의 조사 번역을 어렵게 만든다. 본 논문에서는 부사격 조사가 가질 수 있는 의미격을 24개의 클래스로 분류한 후, 50만 어절 크기의 말뭉치에서 추출한 학습 예제와 결정 트리 추론(decision tree induction)을 통해 부사격 조사의 의미격 결정 규칙을 학습하였다. 결정 트리 추론 시 나타날 수 있는 학습 예제의 부족 문제는 단어 클래스를 사용함으로써 해결하였다. 실험 결과, 6개의 부사격 조사에 대해서 평균적으로 76.2%의 정확도를 보였으며, 이는 가장 많이 나타나는 의미격을 부사격 조사의 의미격으로 결정하는 방법에 비해 26.0%의 정확도 향상을 의미한다.

  • PDF

의사결정나무의 현실적인 상황에서의 팩(PAC) 추론 방법 (PAC-Learning a Decision Tree with Pruning)

  • 김현수
    • Asia pacific journal of information systems
    • /
    • 제3권1호
    • /
    • pp.155-189
    • /
    • 1993
  • Empirical studies have shown that the performance of decision tree induction usually improves when the trees are pruned. Whether these results hold in general and to what extent pruning improves the accuracy of a concept have not been investigated theoretically. This paper provides a theoretical study of pruning. We focus on a particular type of pruning and determine a bound on the error due to pruning. This is combined with PAC (Probably Approximately Correct) Learning theory to determine a sample size sufficient to guarantee a probabilistic bound on the concept error. We also discuss additional pruning rules and give an analysis for the pruning error.

  • PDF

전문가시스템 실용화를 위한 지식오류분석방법론 연구 (A Development of Knowledge Error Analysis Methodology for practical use of Expert Systems)

  • 김현수
    • Asia pacific journal of information systems
    • /
    • 제6권2호
    • /
    • pp.77-105
    • /
    • 1996
  • The accuracy of knowledge is a major concern for expert system developers and users. Machine learning approaches have recently been found to be useful in knowledge acquisition for expert systems. However, the accuracy of concept acquired from machine learning could not be analyzed in most cases. In this paper we develop a comprehensive knowledge error analysis methodology for practical use of expert systems. Decision tree induction is an important type of machine learning method for business expert systems. Here we start to analyze with knowledge acquired from decision tree induction method, and extend the results to develop error analysis methodology for general machine learning methods. We give several examples and illustrations for these results. We also discuss the applicability of these results to multistrategy learning approaches.

  • PDF

생명보험사의 개인연금 보험예측 사례를 통해서 본 의사결정나무 분석의 설명변수 축소에 관한 비교 연구 (A study on the comparison of descriptive variables reduction methods in decision tree induction: A case of prediction models of pension insurance in life insurance company)

  • 이용구;허준
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권1호
    • /
    • pp.179-190
    • /
    • 2009
  • 금융 산업에서, 의사결정나무 분석은 분류분석을 위해서 널리 사용되는 분석기법이다. 그러나 금융 산업에서 실제로 의사결정나무 분석을 적용할 때, 발생하는 문제점 중 하나는 설명변수의 수가 너무 많다는 점이다. 따라서 모형의 결과에 별 영향을 미치지 않으면서 설명변수의 수를 줄이는 효과적인 방법을 연구할 필요가 있다. 본 연구에서는 의사결정 나무 분석에서 모형의 정확성에 근거한 최선의 변수 선택 방법을 구하기 위하여 다양한 변수 선택방법들을 비교 분석 하였다. 이를 위하여 본 연구에서는 한 보험회사의 연금 보험 상품 자료에 다양한 설명변수 축소방법을 적용하여, 가장 적은 수의 설명변수를 가지고 가장 높은 정확도를 제공하여 주는 설명변수 축소방법을 구하는 실증적인 연구를 시행하였다. 이러한 실험결과, 신경망의 민감도 분석을 이용하여 변수를 축소하고, 그 축소된 변수를 이용하여 의사결정나무 분석 모델을 생성하는 경우가 가장 효율적인 설명변수 축소방법임을 알 수 있었다.

  • PDF

A Hybrid Genetic Algorithm for K-Means Clustering

  • Jun, Sung-Hae;Han, Jin-Woo;Park, Minjae;Oh, Kyung-Whan
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.330-333
    • /
    • 2003
  • Initial cluster size for clustering of partitioning methods is very important to the clustering result. In K-means algorithm, the result of cluster analysis becomes different with optimal cluster size K. Usually, the initial cluster size is determined by prior and subjective information. Sometimes this may not be optimal. Now, more objective method is needed to solve this problem. In our research, we propose a hybrid genetic algorithm, a tree induction based evolution algorithm, for determination of optimal cluster size. Initial population of this algorithm is determined by the number of terminal nodes of tree induction. From the initial population based on decision tree, our optimal cluster size is generated. The fitness function of ours is defined an inverse of dissimilarity measure. And the bagging approach is used for saying computational time cost.

  • PDF

일상 활동에서의 상황변수를 고려한 대중교통 정보서비스 이용 유형 연구 (A Contextual Study of Public Transport Information Service Use Behavior in Daily Activity)

  • 조창현;이백진;빈미영
    • 대한교통학회지
    • /
    • 제28권4호
    • /
    • pp.19-30
    • /
    • 2010
  • 정보화의 진전에 따라 공공 서비스인 대중교통 정보서비스 제공의 올바른 방향 제시가 필요하게 되었다. 이에 본 연구는 상황에 따른 의사결정 특성이 강한 대중교통 정보서비스의 내용과 매체 이용 행태를 분석하였다. 이를 위해 본 연구는 주로 개인의 사회 인구학적 특성과 정보이용의 특정 행태 간 상관관계를 분석하는 전통적 접근 방법론을 보완하여, 상황에 따라 가변적인 의사결정 특성 분석이 가능한 접근 방법론을 채택하였다. 보다 구체적으로, 인지심리학적 의사결정 테이블(decision table)을 바탕으로 하는 분석도구인 CHAID의 귀납적 의사결정트리 추론(decision tree induction)을 이용하여 대중교통 이용자의 활동패턴과 정보이용 행태에 대해 분석하였다. 주요 연구결과로, 대중교통 정보서비스 이용은 사회 인구학적 변수 이외에도 정보 이용 당시의 상황 변수가 큰 영향을 미침을 확인하였다. 본 연구의 결과는 효율적 대중교통 정보서비스 제공을 위한 시장세분화(market segmentation)에 대한 중요한 시사점을 제공할 것으로 기대된다.

Modified Bagging Predictors를 이용한 SOHO 부도 예측 (SOHO Bankruptcy Prediction Using Modified Bagging Predictors)

  • 김승혁;김종우
    • 지능정보연구
    • /
    • 제13권2호
    • /
    • pp.15-26
    • /
    • 2007
  • 본 연구에서는 기존 Bagging Predictors에 수정을 가한 Modified Bagging Predictors를 이용하여 SOHO에 대한 부도예측 모델을 제시한다. 대기업 및 중소기업에 대한 기업부도예측 모델에 대한 많은 선행 연구가 있어왔지만 SOHO만의 기업부도 예측 모델에 관한 연구는 미비한 상태이다. 금융기관들의 대출 심사 시 대기업 및 중소기업과는 달리 SOHO에 대한 대출심사는 아직은 체계화되지 못한 채 신용정보점수 등의 단편적인 요소를 사용하고 있는 것이 현실이고 이에 따라 잘못된 대출로 인한 금융기관의 부실화를 초래할 위험성이 크다. 본 연구에서는 실제국내은행의 SOHO 대출 데이터 집합이 사용되었다. 먼저, 기업부도 예측 모델에서 우수하다고 연구되어진 인공신경망과 의사결정나무 추론 기법을 적용하여 보았지만 만족할 만한 성과를 이끌어내지 못하여, 기존 기업부도 예측 모델 연구에서 적용이 미비하였던 Bagging Predictors와 이를 개선한 Modified Bagging Predictors를 제시하고 이를 적용하여 보았다. 연구결과, SOHO 부도 예측에 있어서 본 연구에서 제시한 Modified Bagging Predictors가 인공신경망과 Bagging Predictors 등의 기존 기법에 비해서 성과가 향상됨을 알 수 있었다.

  • PDF

불균형 데이터 집합에서의 의사결정나무 추론: 종합 병원의 건강 보험료 청구 심사 사례 (Decision Tree Induction with Imbalanced Data Set: A Case of Health Insurance Bill Audit in a General Hospital)

  • 허준;김종우
    • 경영정보학연구
    • /
    • 제9권1호
    • /
    • pp.45-65
    • /
    • 2007
  • 다른 산업과 달리 병원/의료 산업에서는 건강 보험료 심사 평가라는 독특한 검증 과정이 필수적으로 있게 된다. 건강 보험료 심사 평가는 병원의 수익 문제 뿐 아니라 적정한 진료행위를 하는 병원이라는 이미지와도 맞물려 매우 중요한 분야이며, 특히 대형 종합병원일수록 이 부분에 많은 심사관련 인력들을 투입하여, 병원의 수익과 명예를 위해서 업무를 수행하고 있다. 본 논문은 이러한 건강보험료 청구 심사 과정에서, 사전에 수많은 진료 청구 건 중 심사 평가에서 삭감이 될 수 있는 진료 청구 건을 데이터 마이닝을 통해서 발견하여, 사전의 대비를 철저히 하고자 하는 한 국내 대형 종합병원의 사례를 소개하고자 한다. 데이터 마이닝을 적용함에 있어, 주요한 문제점 중 하나는 바로 지도학습 기법을 적용하기에 곤란한 데이터 불균형 문제가 발생하는 것이다. 이런 불균형 문제를 해소하고, 비교 조건 중에 가장 효율적인 삭감 예상 진료 건 탐지 모델을 만들어 내기 위하여, 데이터 불균형 문제의 기본 해법인 Sampling과 오분류 비용의 다양한 혼합적인 적용을 통하여, 적합한 조건을 가지는 의사결정 나무 모델을 도출하였다.

결정트리 데이터마이닝을 이용한 족부 임상 진단 (Podiatric Clinical Diagnosis using Decision Tree Data Mining)

  • 김진호;박인식;김봉옥;양윤석;원용관;김정자
    • 전자공학회논문지CI
    • /
    • 제48권2호
    • /
    • pp.28-37
    • /
    • 2011
  • 최근 건강에 대한 관심이 고조 되면서 발과 다리에 대한 진단, 치료, 예방의 전반적인 진료를 맡고 있는 족부의학(Podiatry)이 주목받고 있지만 국내 연구는 미비한 실정이다. 또한 임상 데이터 분석에 있어 대부분의 기존 연구들은 기초 통계적인 방법에 근거한 정량분석만을 수행함으로서, 획득된 정보를 임상에 적용 하는데 있어서는 충분한 신뢰성을 보장할 수 없다. 임상데이터 마이닝은 데이터마이닝의 다양한 분석 방법론을 이용하여 의료 현장에서 발생한 임상 데이터를 분석함으로서 전문가의 진단과 치료 과정의 결정에 도움을 주고 있다. 결정트리(Decision Tree) 알고리즘은 분석과정의 설명과 표현성이 좋고, 결과에 대한 해석이 편리하여 임상에서 적용하기가 용이하다. 본 연구에서는 신뢰성 있는 족부 임상 진단 평가를 위해 충남대학교병원 재활의학과 신발클리닉에 내원한 환자 1310명(남자:633명, 여자:677명)의 2620족(foot)을 대상으로 수집된 진료 데이터에 결정트리를 적용하여 22개의 족부 질환 인자에 따르는 15개의 족부 질환을 분류하고 그에 대한 64개의 진단 규칙을 탐사 하였다. 또한 5개의 클래스(영유아, 소아, 청소년, 노인, 전체)로 분류된 각 그룹들로부터 생성된 결정 트리를 통해 각 클래스의 질환 특징과 질환 주요 인자, 클래스 간 상관관계를 비교, 분석하였다. 탐사된 결과는 족부 임상 전문가의 의사결정에 더욱 정성적이고 유용한 선험적 지식을 제공할 것이고, 효과적이고 정확한 진단과 예측을 위한 임상 도구로써 사용될 수 있다.

인공신경망과 귀납규칙기법을 이용한 제품별 예상 구매고객예측 (Identifying prospective buyers for specific products using artificial neural network and induction rules)

  • 이건호;정수미;정병희
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2004년도 추계학술대회 및 정기총회
    • /
    • pp.395-398
    • /
    • 2004
  • It is effective and desirable for a proper customer relational management(CRM) to send an email of product sales' advertisement bills for the prospective customers rather than to send spam mails for non specific customers. This study identifies the prospective customers with high probability to buy the specific products using Artificial Neural Network(ANN) and Induction Rule(IR) technique. We suggest an integrated model, IRANN of ANN and IR of decision tree program C5.0 and, also compare and analyze the accuracy of ANN, IR, and IRANN each other.

  • PDF