• 제목/요약/키워드: Decision tree classification model rule

검색결과 15건 처리시간 0.018초

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

프로토타입 학습 모델에 관한 연구 (A Study on a Prototype Learning Model)

  • 송두헌
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권2호
    • /
    • pp.151-156
    • /
    • 2001
  • 우리는 개념 학습에 있어서 전통적으로 사용되어 온 연역 트리 구성법이나 규칙 학습법과 다른 새로운 개념 표현 기법을 소개하고자 한다. 우리의 PROLEARN 알고리즘은 각 클래스로부터 주어진 예제를 가장 잘 설명할 수 있는 가상 예제, 즉, 프로토타입을 하나 이상 학습하고 이것을 마치 주어진 예제처럼 취급하여 일반적인 개체 중심 학습법처럼 분류하도록 한다. 우리의 프로토타입 개념은 인지 심리학에서 사용한 같은 용어와는 하나의 개념이 하나 이상의 프로토타입을 가질 수 있도록 한 점에서 다르며 학습된 프로토타입은 근본적으로 ‘가상 예제’라는 점에서 다른 개체 중심 학습법과 다르다. 실험 결과 이 알고리즘은 정확도에서 다른 알고리즘에 뒤지지 않으며 실제 학습 문제에서 자주 발생하는 불안정성 문제, 즉 훈련 예제 집합이 바뀌면 알고리즘의 정확도도 영향 받는 부분도 해소하였다.

  • PDF

A New Latent Class Model for Analysis of Purchasing and Browsing Histories on EC Sites

  • Goto, Masayuki;Mikawa, Kenta;Hirasawa, Shigeichi;Kobayashi, Manabu;Suko, Tota;Horii, Shunsuke
    • Industrial Engineering and Management Systems
    • /
    • 제14권4호
    • /
    • pp.335-346
    • /
    • 2015
  • The electronic commerce site (EC site) has become an important marketing channel where consumers can purchase many kinds of products; their access logs, including purchase records and browsing histories, are saved in the EC sites' databases. These log data can be utilized for the purpose of web marketing. The customers who purchase many product items are good customers, whereas the other customers, who do not purchase many items, must not be good customers even if they browse many items. If the attributes of good customers and those of other customers are clarified, such information is valuable as input for making a new marketing strategy. Regarding the product items, the characteristics of good items that are bought by many users are valuable information. It is necessary to construct a method to efficiently analyze such characteristics. This paper proposes a new latent class model to analyze both purchasing and browsing histories to make latent item and user clusters. By applying the proposal, an example of data analysis on an EC site is demonstrated. Through the clusters obtained by the proposed latent class model and the classification rule by the decision tree model, new findings are extracted from the data of purchasing and browsing histories.

고객유지를 위한 접촉스케줄링시스템의 설계 (Design of Contact Scheduling System(CSS) for Customer Retention)

  • 이재식;조유정
    • 지능정보연구
    • /
    • 제11권3호
    • /
    • pp.83-101
    • /
    • 2005
  • 고객유지는 갈수록 경쟁이 심화되고 있는 생명보험산업에서 핵심이슈 중에 하나이다. 생명보험사들은 고객을 유지하기 위해서 많은 활동들을 한다. 그 가운데 대표적인 것이 바로 지속적으로 고객과 접촉하는 것이다. 본 연구는 접촉스케줄링시스템(CSS: Contact Scheduling System)의 설계에 대한 것으로 해촉된 모집설계사의 고객을 관리해야만 하는 지원설계사의 고객관리를 돕는 것을 목표로 한다 지원설계사는 모집설계사의 고객관리 경험과 지식을 공유할 수 없다. 이런 지원설계사의 고객접촉을 지원하기 위해서, 본 연구에서는 CSS를 설계한다. CSS설계는 두 단계로 이루어지고, CART(Classification And Regression Tree)와 SPM(Sequential Pattern Mining)의 데이터 마이닝 기법을 활용한다. 단계 1에서는 CART 기법을 이용하여 고객을 8개의 고객군으로 분류한다. 단계 2에서는 각 분류고객군에 적합한 접촉내용, 접촉간격 그리고 접촉방법 등의 접촉스케줄링 정보를 생성한다. 접촉내용은 스케줄 접촉내용, 이벤트접촉내용 그리고 비즈니스규칙에 의한 접촉내용의 결합으로 결정되는데 스케줄접촉내용은 SPM 모델의 결과를 통해 생성된다. 또한 본 연구에서 설계한 CSS가 실제상황에서 어떻게 작동하는지를 제시함으로써 CSS가 효율적이고 효과적인 고객접촉에 실용적임을 보인다.

  • PDF

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.