• 제목/요약/키워드: Hybrid Data Mining

검색결과 91건 처리시간 0.031초

Hybrid Product Recommendation for e-Commerce : A Clustering-based CF Algorithm

  • Ahn, Do-Hyun;Kim, Jae-Sik;Kim, Jae-Kyeong;Cho, Yoon-Ho
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2003년도 춘계학술대회
    • /
    • pp.416-425
    • /
    • 2003
  • Recommender systems are a personalized information filtering technology to help customers find the products they would like to purchase. Collaborative filtering (CF) has been known to be the most successful recommendation technology. However its widespread use in e-commerce has exposed two research issues, sparsity and scalability. In this paper, we propose several hybrid recommender procedures based on web usage mining, clustering techniques and collaborative filtering to address these issues. Experimental evaluation of suggested procedures on real e-commerce data shows interesting relation between characteristics of procedures and diverse situations.

  • PDF

인터넷 쇼핑몰을 위한 데이터마이닝 기반 개인별 상품추천방법론의 개발 (Development of a Personalized Recommendation Procedure Based on Data Mining Techniques for Internet Shopping Malls)

  • Kim, Jae-Kyeong;Ahn, Do-Hyun;Cho, Yoon-Ho
    • 지능정보연구
    • /
    • 제9권3호
    • /
    • pp.177-191
    • /
    • 2003
  • 상품추천시스템은 고객들에게 추천 상품 리스트를 만들어 고객들이 구매 가능성이 있는 상품을 쉽게 찾도록 도와주는 개인화 된 정보필터링 기술이다 협업 필터링(collaborative filtering)이 가장 성공적인 상품추천 기법으로 알려져 있으며 많이 이용되고 있다. 그러나, 인터넷 쇼핑몰에서 관리하는 상품과 고객의 수가 급속히 증가하면서 협업필터링에 기반 한 상품추천 시스템은 입력데이터의 희박성(Sparsity) 문제와 시스템 확장성(Scalability) 문제가 노출되고 있다. 따라서 본 연구에서는 협업필터링 기반 상품추천시스템의 상품추천 효과 및 성능을 개선하기 위해 웹 마이닝과 군집분석 기법에 기반을 둔 개인별 상품추천 방법론을 개발한다. 또한 실제 인터넷 쇼핑몰에서 개인별로 상품을 추천할 때 개발된 상품추천 방법론을 적용하여 다른 기존 상품추천 방법론과 실험적으로 비교함으로써 개발 방법론의 효과 및 성능을 검증한다.

  • PDF

BLOCS: 블록 상관관계를 인지하는 시퀀스 패턴 마이닝 기반 하이브리드 스토리지 캐슁 알고리즘 (BLOCS: Block Correlation Aware Sequential Pattern Mining based Caching Algorithm for Hybrid Storages)

  • 이성진;원유집
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권7호
    • /
    • pp.113-130
    • /
    • 2014
  • 본 논문은 SSD를 캐쉬로 사용하는 하이브리드 저장장치에서 캐쉬에 저장할 데이터를 찾기 위한 BLOCS 기법을 제안한다. 시퀀스 패턴 마이닝을 사용하는 BLOCS 기법은 파일시스템에서 호출하는 섹터들의 연관성을 발생한 순서를 고려하여 빈번히 요청되는 섹터들의 집합을 생성한다. 비교 분석을 위해 탐색거리(DIST) 기반 기법과 요청 빈도(FREQ) 기반 기법 그리고 빈도와 크기의 곱(F-S) 기반 기법을 제안하였다. 제안한 캐슁 기법을 평가하기 위해 하이브리드 캐슁 시뮬레이터를 개발하여 적중률과 응답시간 정보를 얻는다. 부팅 시 발생하는 I/O의 흐름자료와 10개의 응용프로그램들의 실행 시나리오에서 발생한 I/O 흐름자료를 수집하여 캐쉬 시뮬레이터의 입력으로 사용하였다. 실험 결과 부팅 흐름자료에서 제안한 BLOCS 기법이 61%의 적중률을 나타내서 적중률이 가장 낮았던 거리 우선 기반 기법에 비해 15% 더 높은 적중률을 보였다.

Comparison and Analysis of P2P Botnet Detection Schemes

  • Cho, Kyungsan;Ye, Wujian
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권3호
    • /
    • pp.69-79
    • /
    • 2017
  • In this paper, we propose our four-phase life cycle of P2P botnet with corresponding detection methods and the future direction for more effective P2P botnet detection. Our proposals are based on the intensive analysis that compares existing P2P botnet detection schemes in different points of view such as life cycle of P2P botnet, machine learning methods for data mining based detection, composition of data sets, and performance matrix. Our proposed life cycle model composed of linear sequence stages suggests to utilize features in the vulnerable phase rather than the entire life cycle. In addition, we suggest the hybrid detection scheme with data mining based method and our proposed life cycle, and present the improved composition of experimental data sets through analysing the limitations of previous works.

데이터 마이닝을 위한 경쟁학습모텔과 BP알고리즘을 결합한 하이브리드형 신경망 (A Neural Network Combining a Competition Learning Model and BP ALgorithm for Data Mining)

  • 강문식;이상용
    • Journal of Information Technology Applications and Management
    • /
    • 제9권2호
    • /
    • pp.1-16
    • /
    • 2002
  • Recently, neural network methods have been studied to find out more valuable information in data bases. But the supervised learning methods of neural networks have an overfitting problem, which leads to errors of target patterns. And the unsupervised learning methods can distort important information in the process of regularizing data. Thus they can't efficiently classify data, To solve the problems, this paper introduces a hybrid neural networks HACAB(Hybrid Algorithm combining a Competition learning model And BP Algorithm) combining a competition learning model and 8P algorithm. HACAB is designed for cases which there is no target patterns. HACAB makes target patterns by adopting a competition learning model and classifies input patterns using the target patterns by BP algorithm. HACAB is evaluated with random input patterns and Iris data In cases of no target patterns, HACAB can classify data more effectively than BP algorithm does.

  • PDF

Recommended Chocolate Applications Based On The Propensity To Consume Dining outside Using Big Data On Social Networks

  • Lee, Tae-gyeong;Moon, Seok-jae;Ryu, Gihwan
    • International Journal of Advanced Culture Technology
    • /
    • 제8권3호
    • /
    • pp.325-333
    • /
    • 2020
  • In the past, eating outside was usually the purpose of eating. However, it has recently expanded into a restaurant culture market. In particular, a dessert culture is being established where people can talk and enjoy. Each consumer has a different tendency to buy chocolate such as health, taste, and atmosphere. Therefore, it is time to recommend chocolate according to consumers' tendency to eat out. In this paper, we propose a chocolate recommendation application based on the tendency to eat out using data on social networks. To collect keyword-based chocolate information, Textom is used as a text mining big data analysis solution.Text mining analysis and related topics are extracted and modeled. Because to shorten the time to recommend chocolate to users. In addition, research on the propensity of eating out is based on prior research. Finally, it implements hybrid app base.

유사 시퀀스 매칭을 위한 하이브리드 저차원 변환 (Hybrid Lower-Dimensional Transformation for Similar Sequence Matching)

  • 문양세;김진호
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.31-40
    • /
    • 2008
  • 유사 시퀀스 매칭에서는 고차원인 시퀀스를 저차원의 점으로 변환하기 위하여 저차원 변환을 사용한다. 그런데, 이러한 저차원 변환은 시계열 데이터의 종류에 따라 인덱싱 성능에 있어서 큰 차이를 나타낸다. 즉, 어떤 저차원 변환을 선택하느냐가 유사 시퀀스 매칭의 인덱싱 성능에 큰 영향을 주게 된다. 이 문제를 해결하기 위하여, 본 논문에서는 하나의 인덱스에서 두 개 이상의 저차원 변환을 통합하여 사용하는 하이브리드 접근법을 제안한다. 먼저, 하나의 시퀀스에 두 개 이상의 저차원 변환을 적용하는 하이브리드 저차원 변환의 개념을 제안하고, 변환된 시퀀스간의 거리를 계산하는 하이브리드 거리를 정의한다. 다음으로, 이러한 하이브리드 접근법 사용하면 유사 시퀀스 매칭을 정확하게 수행할 수 있음을 정형적으로 증명한다. 또한, 제안한 하이브리드 접근법을 사용하는 인덱스 구성 및 유사 시퀀스 매칭 알고리즘을 제시한다. 다양한 시계열 데이터에 대한 실험 결과, 제안한 하이브리드 접근법은 단일 저차원 변환을 사용하는 경우에 비해서 우수한 성능을 보이는 것으로 나타났다. 이 같은 결과를 볼 때, 제안한 하이브리드 접근법은 다양한 특성을 지닌 다양한 시계열 데이터에 두루 적용될 수 있는 우수한 방법이라 사료된다.

개선된 데이터마이닝을 위한 혼합 학습구조의 제시 (Hybrid Learning Architectures for Advanced Data Mining:An Application to Binary Classification for Fraud Management)

  • Kim, Steven H.;Shin, Sung-Woo
    • 정보기술응용연구
    • /
    • 제1권
    • /
    • pp.173-211
    • /
    • 1999
  • The task of classification permeates all walks of life, from business and economics to science and public policy. In this context, nonlinear techniques from artificial intelligence have often proven to be more effective than the methods of classical statistics. The objective of knowledge discovery and data mining is to support decision making through the effective use of information. The automated approach to knowledge discovery is especially useful when dealing with large data sets or complex relationships. For many applications, automated software may find subtle patterns which escape the notice of manual analysis, or whose complexity exceeds the cognitive capabilities of humans. This paper explores the utility of a collaborative learning approach involving integrated models in the preprocessing and postprocessing stages. For instance, a genetic algorithm effects feature-weight optimization in a preprocessing module. Moreover, an inductive tree, artificial neural network (ANN), and k-nearest neighbor (kNN) techniques serve as postprocessing modules. More specifically, the postprocessors act as second0order classifiers which determine the best first-order classifier on a case-by-case basis. In addition to the second-order models, a voting scheme is investigated as a simple, but efficient, postprocessing model. The first-order models consist of statistical and machine learning models such as logistic regression (logit), multivariate discriminant analysis (MDA), ANN, and kNN. The genetic algorithm, inductive decision tree, and voting scheme act as kernel modules for collaborative learning. These ideas are explored against the background of a practical application relating to financial fraud management which exemplifies a binary classification problem.

  • PDF

통계조사에서의 퓨전된 자료에 대한 하이브리드 데이터마이닝의 적용 방안 (Application Scheme of Hybrid Data Mining for Fused Data in Statistical Survey)

  • 박희창;조광현
    • 응용통계연구
    • /
    • 제21권3호
    • /
    • pp.399-411
    • /
    • 2008
  • 현대 사회에서는 조직의 운영 및 의사 결정을 위하여 다양한 통계 조사가 실시되고 있으며, 연구의 목적에 따라 조사 문항을 다르게 하여 실시하고 있다. 현재 경상남도의 경우 3년 주기로 매년 설문 문항을 다르게 하여 사회 지표 조사를 실시하고 있어 유기적인 분석이 가능하지 못한 실정이다. 이에 본 장에서는 데이터 퓨전을 이용하여 다양한 통계 조사 자료를 결합하여 고부가적인 자료를 생성하고자 한다. 데이터 퓨전을 통해서 얻은 최종 결과에 대한 추가된 정보를 이용함으로써 통계 분석의 질을 향상시킬 수 있는 방법이므로, 데이터 퓨전에 의해서 얻어진 정보를 효율적으로 분석하는 것 또한 중요하다. 이에 본 논문에서는 통계 조사 자료에 대하여 데이터 퓨전을 실시하고, 데이터 퓨전에 의해 생성된 자료에 대하여 하이브리드 데이터마이닝 기법인 잠재변수를 이용한 신경망 분석을 적용하는 방안에 대하여 연구하고자 한다.

개선된 데이터 마이닝 기술에 의한 웹 기반 지능형 추천시스템 구축 (Development of Web-based Intelligent Recommender Systems using Advanced Data Mining Techniques)

  • 김경재;안현철
    • Journal of Information Technology Applications and Management
    • /
    • 제12권3호
    • /
    • pp.41-56
    • /
    • 2005
  • Product recommender system is one of the most popular techniques for customer relationship management. In addition, collaborative filtering (CF) has been known to be one of the most successful recommendation techniques in product recommender systems. However, CF has some limitations such as sparsity and scalability problems. This study proposes hybrid cluster analysis and case-based reasoning (CBR) to address these problems. CBR may relieve the sparsity problem because it recommends products using customer profile and transaction data, but it may still give rise to scalability problem. Thus, this study uses cluster analysis to reduce search space prior to CBR for scalability Problem. For cluster analysis, this study employs hybrid genetic and K-Means algorithms to avoid possibility of convergence in local minima of typical cluster analyses. This study also develops a Web-based prototype system to test the superiority of the proposed model.

  • PDF