• 제목/요약/키워드: Decision tree method

검색결과 623건 처리시간 0.036초

Support Vector Machine 기법을 이용한 고객의 구매의도 예측 (Forecasting of Customer's Purchasing Intention Using Support Vector Machine)

  • 김진화;남기찬;이상종
    • 경영정보학연구
    • /
    • 제10권2호
    • /
    • pp.137-158
    • /
    • 2008
  • 기업 경쟁력 강화의 중요한 이슈인 대량 개별화(mass-customization)의 실행을 위하여 통합 고객관계 관리 프로세스로서의 CRM(customer relationship management)에 대한 관심과 활용에 대한 필요성은 점점 더 높아지고 있다. 특히, 기존 고객들의 구매 정보를 기반으로 고객의 구매 패턴을 파악하고 의도를 예측하는 것은 오늘날 실질적인 판매 전략을 수립하는 마케팅 분야에서 상당히 큰 비중을 차지하고 있다. 고객의 구매의도 예측에는 대량의 데이터로부터 과거에 인지하지 못했던 의미 있고, 근거 있는 정보를 추출하는 데이터마이닝(datamining)이 주로 사용되고 있다. 기존의 구매의도 예측에 사용된 데이터마이닝 기법들은 주로 신경망(neural networks)과 로지스틱 회귀분석(logistic regression analysis)이었는데, 예측 정확성 및 모형 구축의 어려움으로 인한 다양한 문제점들이 제기되고 있는 실정이다. 따라서, 본 논문에서는 기존의 기법들이 가지고 있는 단점들을 개선하기 위하여 신경망과 로지스틱 회귀분석 외에 연관규칙(association rule), 연관성 매트릭스(association matrix), 의사결정 나무(decision tree), 베이지안 망(bayesian network), SVM(support vector machine) 기법들을 추가로 제안하였다. 본 연구의 목적은 고객의 특정 상품에 대한 구매의도 예측을 위하여 새로운 알고리즘을 제시하기보다는 기존의 다양한 데이터마이닝 기법들을 적용시켜 봄으로써, 가장 우수한 예측성과를 나타내는 기법을 발견하는 것이다. 연구에 사용된 자료는 기존의 연구에서는 적용되지 않았던 편의점의 영수증 데이터이다. 예측 목표상품은 카테고리화 된 '우유'와 '냉동식품'이며, 제안된 기법들의 신뢰성을 위하여 전체 데이터를 10개의 training과 test 셋으로 중복되지 않게 구분함과 동시에 10번의 교차 검증(cross validation)을 실시하였다. 실험 결과 SVM이 영수증 데이터를 이용한 고객의 특정 상품에 대한 구매의도 예측에서 가장 우수한 성과를 나타내는 것을 확인하였다.

부도예측 개선을 위한 하이브리드 언더샘플링 접근법 (A Hybrid Under-sampling Approach for Better Bankruptcy Prediction)

  • 김태훈;안현철
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.173-190
    • /
    • 2015
  • 부도는 막대한 사회적, 경제적 손실을 야기할 수 있으므로, 미리 부도여부를 정확하게 예측하여 선제 대응하는 것은 경영분야에서 대단히 중요한 의사결정문제 중 하나이다. 이에 지능정보시스템 분야에서도 그간 기업의 재무 데이터에 기반해 부도예측을 개선하기 위한 노력을 기울여왔는데, 안타깝게도 기존의 연구들은 대부분 분류모형의 성능 개선을 통해 예측 정확도를 개선하는 것에만 주로 초점을 맞추어 다른 요소들을 충분히 고려하지 못했다는 한계가 있다. 이러한 배경에서 본 연구는 부도예측 모형의 정확도를 개선하기 위한 방편으로 새로운 데이터 전처리 방법, 그 중에서도 효과적인 표본추출 방법을 제안하고자 한다. 일반적으로 부도예측을 위해 사용되는 데이터들은 극심한 데이터 불균형 문제에 노출되어 있는데, 본 연구에서는 k-reverse nearest neighbor(k-RNN)와 one-class support vector machine(OCSVM) 방법을 결합한 하이브리드 언더샘플링(hybrid under-sampling) 접근법을 통해 이같은 데이터 불균형 문제를 해결하고자 하였다. 본 연구에서 제안한 접근법에서 k-RNN은 이상치를 효과적으로 제거할 수 있으며, OCSVM은 다수를 구성하는 등급의 데이터로부터 정보량이 풍부한 표본만 효과적으로 선택할 수 있는 수단으로 활용될 수 있다. 제안된 기법의 성능을 검증하기 위해, 본 연구에서는 국내 한 은행의 비외감기업 부도예측모형 구축에 제안 기법을 적용해 본 뒤, 일반적으로 많이 사용되는 랜덤샘플링(random sampling)과 제안 기법의 성능을 비교해 보았다. 그 결과, 로지스틱 회귀분석, 판별분석, 의사결정나무, SVM 등 대다수의 분류모형에 있어 분류 정확도가 개선됨을 확인할 수 있었으며, 모든 분류모형에 있어 부정 오류, 즉 부실기업을 정상으로 예측하는 오류율이 크게 감소함을 확인할 수 있었다.

결합과 분배를 이용한 정합 알고리즘 (Matching Algorithms using the Union and Division)

  • 박종민;조범준
    • 한국정보통신학회논문지
    • /
    • 제8권5호
    • /
    • pp.1102-1107
    • /
    • 2004
  • 지문 인식 시스템은 지문인식 장치(fingerprint acquisition device)를 통하여 아날로그(analog) 지문으로 부터 변환된 디지털(digital) 지문에서 특이점을 추출하고 추출한 특이점들에 대한 정보를 데이터 베이스에 등록하는 오프라인(off-line) 처리와 사용자가 시스템에 접근 할 때 입력한 지문으로부터 특이점을 추출한 후 데이터베이스에 저장되어 있는 특이점들과 정합(matching) 하여 사용자의 시스템 접근 여부를 결정하는 온라인(on-line) 처리로 이루어져 있다. 정합에 있어서 가장 중요한 것은 어떤 기준점을 어떻게 설정하느냐 하는 것이다. 지금까지 삼각주나 코어를 기준점으로 잡거나, 기준점으로 설정하는 경우에는 모든 사람에게 존재하지 않는 단점이 있다. 특징점이 없는 사용자들을 처리하기 위하여 특이점들의 상호 관계를 스패닝 트리를 구성하거나, 삼각화를 하여 정합 하는 방법들이 이용되고 있다. 그러나 이러한 방법들은 시간에 대한 오버헤드가 있고 정확하게 정합 한다는 보장을 하지 못한다. 본 논문에서는 동일 등선 줄기 상에 있는 두 특이점을 잇는 선분을 기준점으로 선택함으로서 기존 정합 알고리즘과 비교하여 인식률이 높고 오인식률이 낮으며 효율성 면에서도 우수하고 정확하게 정합 하는 알고리즘을 제안한다.

철도사고의 인적오류 분석을 위한 수행도 영향인자 분류 (Taxonomy of Performance Shaping Factors for Human Error Analysis of Railway Accidents)

  • 백동현;구락조;이경선;김동산;신민주;윤완철;정명철
    • 산업경영시스템학회지
    • /
    • 제31권1호
    • /
    • pp.41-48
    • /
    • 2008
  • Enhanced machine reliability has dramatically reduced the rate and number of railway accidents but for further reduction human error should be considered together that accounts for about 20% of the accidents. Therefore, the objective of this study was to suggest a new taxonomy of performance shaping factors (PSFs) that could be utilized to identify the causes of a human error associated with railway accidents. Four categories of human factor, task factor, environment factor, and organization factor and 14 sub-categories of physical state, psychological state, knowledge/experience/ability, information/communication, regulation/procedure, specific character of task, infrastructure, device/MMI, working environment, external environment, education, direction/management, system/atmosphere, and welfare/opportunity along with 131 specific factors was suggested by carefully reviewing 8 representative published taxonomy of Casualty Analysis Methodology for Maritime Operations (CASMET), Cognitive Reliability and Error Analysis Method (CREAM), Human Factors Analysis and Classification System (HFACS), Integrated Safety Investigation Methodology (ISIM), Korea-Human Performance Enhancement System (K-HPES), Rail safety and Standards Board (RSSB), $TapRoot^{(R)}$, and Technique for Retrospective and Predictive Analysis of Cognitive Errors (TRACEr). Then these were applied to the case of the railway accident occurred between Komo and Kyungsan stations in 2003 for verification. Both cause decision chart and why-because tree were developed and modified to aid the analyst to find causal factors from the suggested taxonomy. The taxonomy was well suited so that eight causes were found to explain the driver's error in the accident. The taxonomy of PSFs suggested in this study could cover from latent factors to direct causes of human errors related with railway accidents with systematic categorization.

중소기업 프로파일링 분석을 통한 기술유출 방지 및 보호 모형 연구 (A Study on Empirical Model for the Prevention and Protection of Technology Leakage through SME Profiling Analysis)

  • 유인진;박도형
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제27권1호
    • /
    • pp.171-191
    • /
    • 2018
  • Purpose Corporate technology leakage is not only monetary loss, but also has a negative impact on the corporate image and further deteriorates sustainable growth. In particular, since SMEs are highly dependent on core technologies compared to large corporations, loss of technology leakage threatens corporate survival. Therefore, it is important for SMEs to "prevent and protect technology leakage". With the recent development of data analysis technology and the opening of public data, it has become possible to discover and proactively detect companies with a high probability of technology leakage based on actual company data. In this study, we try to construct profiles of enterprises with and without technology leakage experience through profiling analysis using data mining techniques. Furthermore, based on this, we propose a classification model that distinguishes companies that are likely to leak technology. Design/methodology/approach This study tries to develop the empirical model for prevention and protection of technology leakage through profiling method which analyzes each SME from the viewpoint of individual. Based on the previous research, we tried to classify many characteristics of SMEs into six categories and to identify the factors influencing the technology leakage of SMEs from the enterprise point of view. Specifically, we divided the 29 SME characteristics into the following six categories: 'firm characteristics', 'organizational characteristics', 'technical characteristics', 'relational characteristics', 'financial characteristics', and 'enterprise core competencies'. Each characteristic was extracted from the questionnaire data of 'Survey of Small and Medium Enterprises Technology' carried out annually by the Government of the Republic of Korea. Since the number of SMEs with experience of technology leakage in questionnaire data was significantly smaller than the other, we made a 1: 1 correspondence with each sample through mixed sampling. We conducted profiling of companies with and without technology leakage experience using decision-tree technique for research data, and derived meaningful variables that can distinguish the two. Then, empirical model for prevention and protection of technology leakage was developed through discriminant analysis and logistic regression analysis. Findings Profiling analysis shows that technology novelty, enterprise technology group, number of intellectual property registrations, product life cycle, technology development infrastructure level(absence of dedicated organization), enterprise core competency(design) and enterprise core competency(process design) help us find SME's technology leakage. We developed the two empirical model for prevention and protection of technology leakage in SMEs using discriminant analysis and logistic regression analysis, and each hit ratio is 65%(discriminant analysis) and 67%(logistic regression analysis).

지식 데이타베이스를 적용한 효율적인 세균 의료영상 검색 시스템의 구현 (Implementation of an Efficient Microbial Medical Image Retrieval System Applying Knowledge Databases)

  • 신용원;구봉오
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.93-100
    • /
    • 2005
  • 본 연구는 신규 임상병리사로 하여금 보다 정확한 의사결정과 효율적인 교육에 이용할 수 있는 지식 및 내용 기반 의료 세균화상 검색 시스템을 설계 및 구현하는 것이다. 이를 위해, 먼저 알고리듬방식의 검색 이전에 경험적 지식을 바탕으로 세균동정단계 중 가장 빠른 경로를 탐색하여 원인균 동정에 소요되는 시간을 줄일 수 있도록 룰 베이스를 근거로 유연성 있는 탐색경로를 설정하여 전체적인 추론을 수행한다. 다음으로, 색상 모델 중에서 HSV 컬러 모델을 이용하여 세균화상 중에서도 특히 세균화상으로부터 시각정보의 색상 특징 벡터를 추출할 수 있는 색상 특징 추출방법을 제안한다. 아울러 대용량 세균화상 데이터베이스를 기반으로 보다 빠른 검색 성능을 위해, 배지, 검체, 부서, 세균명과 같은 단순속성들에 대해서는 B+-트리, 세균화상에 대한 부가적인 설명 정보로부터 추출한 키워드들에 대해서는 역화일기법, 그리고 화상으로부터 추출한 고차원 색상 특징벡터에 대해서는 스캔-기반 필터링(Scan-Based Filtering:SBF) 기법을 결합한 통합 색인기법을 기술한다. 마지막으로 구현된 시스템은 시각적인 내용 자체의 정보와 지식을 이용하여 효과적으로 복잡한 세균화상을 검색 및 관리할 수 있는 가능성을 보인다. 아울러 구현한 지식 및 내-용기반 세균화상 검색 시스템을 통해 임상분야의 지식을 잘 구조화함으로써 초보적인 임상병리사의 학습기간을 현저히 단축시킬 수 있을 것으로 기대된다.

  • PDF

사상체질 진단을 위한 2단계 설문지(TS-QSCD)의 표준화 연구 (A Study on the Standardization of TS-QSCD)

  • 신동윤;송정모
    • 사상체질의학회지
    • /
    • 제21권1호
    • /
    • pp.99-126
    • /
    • 2009
  • 1. Objective TS-QSCD (The Two-Step Questionnaire for the Sasang Constitution Diagnosis) is one of the self-reporting Sasang-Constitutional diagnosis questionnaires and one constituted by a two-step discriminant function. The process of TS-QSCD is as follows. During the first step, the testers are classified into two groups: the Yangin(陽人) group and Eumin(陰人) group. Following this, the Yangin group is divided into the Soyangin group and Taeyangin group likewise the Eumin group is divided into the Taeumin group and Soeumin group. This questionnaire has the merits of an ordinary questionnaire with four discriminant functions and a decision tree method. The purpose of this study is to evaluate and standardize TS-QSCD 2. Materials and Methods TS-QSCD was administered to 352 random informants who were examined by professionals. Reliability was tested by inter-item consistency using cronbach's ${\alpha}$, and validity was tested by a two step discriminant function. Cross tabulation Analysis was also used to look into the distribution of responses among the groups. 3. Result 1) The reliability of TS-QSCD was relatively valid. The internal consistency of TS-QSCD (AB) was cronbach's ${\alpha}$= 0.815, and TS-QSCD (AC) was cronbach's ${\alpha}$= 0.832. 2) There was a significant difference in points between Eumin group teens and other age groups, between those of Soeumin teens and other age groups. 3) TS-QSCD corresponded with the real Sasang constitution at the rate of 65.0%. When using 61 questions and four discriminant function as with ordinary methods, TS-QSCD corresponded with the real Sasang constitution at the rate of 74.9%. 4. Conclusion 1) TS-QSCD that complements the merits of existing questionnaires is effective in diagnosing Sasang constitutions. 2) Deleting duplicate questions is thought to be one of the reasons for the decreased validity rate. 3) The lower the validity of the first step, the more we should build up at each second steps a way to rescue the groups which were assigned wrongly during the first steps. 4) This standardization of TS-QSCD would be helpful in making a program for diagnosing the Sasang Constitution

  • PDF

데이터 마이닝을 이용한 고혈압환자의 당뇨질환 동반에 관한 데이터 질 관리 알고리즘 개발 (Developing data quality management algorithm for Hypertension Patients accompanied with Diabetes Mellitus By Data Mining)

  • 황규연;이은숙;김고원;홍성옥;박정선;곽미숙;이예진;임채혁;박태현;박종호;강성홍
    • 디지털융복합연구
    • /
    • 제14권7호
    • /
    • pp.309-319
    • /
    • 2016
  • 보건의료데이터의 질적 수준을 향상시키기 위해서는 데이터 질 관리 알고리즘을 개발할 필요성이 있다. 이에 본 연구에서는 질환의 유병률, 입원율이 높은 고혈압 환자의 당뇨질환 동반에 관련된 데이터 질 관리 알고리즘을 개발하고자 하였다. 이를 위해 2011년, 2012년 퇴원손상심층조사 자료 중 고혈압 환자 61,199건을 추출하여 분석대상으로 하였다. 데이터 마이닝의 대화식 의사결정나무 방법과 Outlier Detection 방법론을 통해 데이터 질 관리 알고리즘 개발한 결과 고혈압 환자가 당뇨병을 동반상병으로 가지는데 영향을 미치는 요인으로는 성별, 연령, 당뇨병성 사구체 장애, 당뇨병성 망막병증, 당병성 다발성 신경병증 등이 있었다. 의사결정나무 결과에 따라 당뇨병을 동반상병으로 가질 확률 값이 80% 이상이거나, 20% 이하인 집단을 Outlier(극단치)로 정의하고, 고혈압 환자의 당뇨 동반에 대한 극단치를 가지는 6개 집단을 발견하였다. 이와 같이 Outlier(극단치) 집단에 포함되는 실제 데이터를 확인하여 데이터의 질적 수준을 향상 시킬 필요가 있다.

무제약 필기 숫자를 인식하기 위한 다수 인식기를 결합하는 의존관계 기반의 프레임워크 (Dependency-based Framework of Combining Multiple Experts for Recognizing Unconstrained Handwritten Numerals)

  • 강희중;이성환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권8호
    • /
    • pp.855-863
    • /
    • 2000
  • K개의 인식기로부터 관찰된 K개 결정을 결합하는 결합 방법론 중의 하나인 BKS (Behavior-Knowledge Space) 방법은 아무런 가정 없이 이들 결정을 결합하지만, 관찰된 K개 결정을 저장하고 관리하려면 이론적으로 기하학적인 저장 공간을 만들어야 한다. 즉, K개의 인식기 결정을 결합하기 위하여 (K+1)차 확률 분포를 필요로 하는데, 작은 K라 할지라도 그 확률 분포를 저장하거나 평가하는 것이 어렵다는 것은 이미 잘 알려져 있다. 그러한 문제점을 극복하기 위해서는 고차 확률 분포를 몇 개의 구성 분포로 나누고, 이들 구성 분포의 곱(product)으로 고차 확률 분포를 근사시켜야 한다. 그러한 이전 방법 중의 하나는 그 확률 분포에 조건부 독립 가정을 적용하는 것이고, 다른 방법으로는 [1]에서와 같이 그 확률 분포를 단지 트리 의존관계 또는 2차 구성 분포의 곱으로 근사하는 것이다. 본 논문에서는, 구성 분포의 곱으로 근사하는 방법에서, 2차 이상의 고차 구성 분포까지 고려하여 (K+1)차 확률 분포를 d차 ($1{\le}d{\le}K$) 의존관계에 의한 최적의 곱으로 근사하고, 베이지안 방법과 그 곱을 기반으로 다수 인식기의 결정을 결합하는 의존관계 기반의 프레임워크를 제안한다. 이 프레임워크는 표준 CENPARMI 데이타베이스로 실험되어 평가되었다.

  • PDF

효과적 이모션마이닝을 위한 속성선택 방법에 관한 연구 (Exploring Feature Selection Methods for Effective Emotion Mining)

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.107-117
    • /
    • 2019
  • 블로그, 소셜 미디어 등의 발달로 인해 점점 더 많은 사람들이 본인의 의견이나 감정을 표현하기 위해 온라인상에서 텍스트 문장을 작성한다. 그리고 이같은 온라인 텍스트 문장속에 숨겨져 있는 긍정 또는 부정등의 감성을 찾아내는 연구분야를 감성분석 이라고 한다. 그중에서도 이모션 마이닝은 사람들의 구체적인 이모션을 찾아내는데 초점을 맞춘 연구분야이다. 본 연구에서는 속성선택 방법과 단일 및 앙상블 분류기를 조합하여 효과적인 이모션 마이닝 예측모델을 제시하고자 한다. 이를 위해 두가지 대표적인 오픈 데이터인 Tweet와 SemEval2007 데이터를 이용하여 TF-IDF를 계산하고 백 오브 워즈(BOW: bag-of-words) 형태로 속성 셋을 구성하였다. 그리고 효과적인 이모션 마이닝이 될 수 있는 최적의 속성을 선택하기 위하여 상관관계 기반 속성선택(CFS), 정보획득 속성선택 (IG), 그리고 ReliefF 등 세가지 속성선택 방법을 적용하였다. 선택된 속성을 이용하여 아홉가지 분류기 모델로 이모션 마이닝의 정확도를 비교하였다. 실험 결과, Tweet 데이터는 의사결정나무(DT)가 CFS, IG, ReliefF에 의한 속성을 이용할 경우 정확도가 상승했고, 랜덤서브스페이스(RS)는 CFS, IG에 선택된 속성을 사용할 경우 정확도가 상승했다. SemEval2007 데이터는 ReliefF에 의해 선택된 속성으로 로지스틱 회귀분석(LR)을 적용하였을 때 정확도가 상승했고, 나이브 베이지안 네트워크(NBN)은 CFS, IG에 의한 속성을 사용할 경우 정확도가 상승하였다.