• 제목/요약/키워드: Association Rules Mining

검색결과 308건 처리시간 0.029초

연관규칙 마이닝에서의 동시성 기준 확장에 대한 연구 (An Investigation on Expanding Co-occurrence Criteria in Association Rule Mining)

  • 김미성;김남규;안재현
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.23-38
    • /
    • 2012
  • 온라인 쇼핑몰은 인터넷을 통해 손쉽게 접근이 가능하기 때문에, 최초 구매의사가 발생한 시점으로부터 이에 대한 실제 구매가 실현되기까지의 기간이 오프라인 쇼핑몰에 비해 비교적 짧게 나타난다. 즉 오프라인 쇼핑몰의 경우 구매희망 물품을 바로 구매하기 보다는 몇 개의 물품들을 모아서 구매하는 행태가 일반적이다. 하지만, 인터넷 쇼핑몰의 경우 단 하나의 물품만을 포함하고 있는 주문이 전체 주문의 절반 이상을 차지한다. 따라서 온라인 쇼핑몰 데이터의 장바구니 분석에 전통적 데이터마이닝 기법을 그대로 적용할 경우, Null Transaction의 수가 지나치게 많음으로 인해 합리적 수준의 지지도(Support)를 만족시키는 규칙을 찾는 것이 매우 어렵게 된다. 이러한 이유로 온라인 데이터를 사용한 많은 연구는 동시성 기준을 여러 방법으로 확장하여 사용하였는데, 이들 동시성 기준은 명확한 근거나 합의 없이 연구자의 상황에 따라 임의로 선택된 측면이 있다. 따라서 본 연구에서는 온라인 마켓 분석에 적용되는 구매의 동시성 기준을 정확도 측면에서 평가함으로써, 구매의 동시성 기준 선정을 위한 근거를 제시하고자 한다. 또한 동시성 기준의 정확도가 고객의 평균 구매간격에 따라 상이하게 나타나는 것을 파악하여, 향후 고객의 특성에 따른 차별화된 추천 시스템 구축을 위한 기본 방향을 제시하고자 한다. 이를 위해 국내 대형 인터넷 쇼핑몰의 최근 2년간 실제 거래 내역을 대상으로 실험을 수행하였으며, 실험 결과 단골 고객의 구매 추천을 위한 분석의 경우 추천 범위와 분석 데이터의 동시성 기준을 맞추어 연관규칙을 도출하는 것이 바람직하며, 비단골 고객의 경우 대부분의 추천 범위에 대해서 분석 데이터의 동시성 기준을 비교적 길게 설정하여 연관규칙을 도출하는 것이 바람직한 것으로 나타났다.

Overview of Fuzzy Associations Mining

  • Chen, Guoqing;Wei, Qiang;Kerre, Etienne;Wets, Geert
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.1-6
    • /
    • 2003
  • Associations, as specific forms of knowledge, reflect relationships among items in databases, and have been widely studied in the fields of knowledge discovery and data mining. Recent years have witnessed many efforts on discovering fuzzy associations, aimed at coping with fuzziness in knowledge representation and decision support processes. This paper focuses on associations of three kinds, namely, association rules, functional dependencies and pattern associations, and overviews major fuzzy logic extensions accordingly.

  • PDF

Designing Summary Tables for Mining Web Log Data

  • Ahn, Jeong-Yong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권1호
    • /
    • pp.157-163
    • /
    • 2005
  • In the Web, the data is generally gathered automatically by Web servers and collected in server or access logs. However, as users access larger and larger amounts of data, query response times to extract information inevitably get slower. A method to resolve this issue is the use of summary tables. In this short note, we design a prototype of summary tables that can efficiently extract information from Web log data. We also present the relative performance of the summary tables against a sampling technique and a method that uses raw data.

  • PDF

웹마이닝을 통한 도서관 홈페이지의 사용편의성에 관한 연구 - 육군대학 도서관 홈페이지를 중심으로 - (Study on the Usability Based on Web Mining in Army College Library Homepage)

  • 손용배;이응봉
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.213-218
    • /
    • 2001
  • 본 연구는 육군대학 도서관 홈페이지의 웹서버에 저장되어 있는 로그파일을 실험 데이터로 사용하여, 기존 데이터마이닝(data mining)의 기법들 중에서 연관규칙(association rules) 탐사 기법을 적용함으로써, 사용자들의 웹 항행에 대한 순차패턴을 추출하였다. 이를 분석하여 실제 사용자들이 효과적으로 사용할 수 있는 웹사이트 디자인을 제안하고 나아가 대상 웹사이트의 사용편의성을 평가하였다.

  • PDF

연관 규칙 탐사를 위한 효율적인 자료 구조 (Efficient Data Structure for Mining Association Rules)

  • 권경희;정균락
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.7-9
    • /
    • 2001
  • 정보화 시대에 정보의 양이 폭발적으로 증가함에 따라 데이터 마이닝(Data Mining) 또는 데이터베이스에서의 지식 발견이라 불리는 분야가 새로운 정보기술의 활용방법으로 대두되었다. 데이터 마이닝의 한 기법인 연관 규칙 탐사를 위한 자료 구조로 그 동안 해쉬 트리, prefix 트리, 이진 트리 구조 등이 제안되었다. 본 논문에서는 연관 규칙 탐사를 위한 효율적인 자료 구조를 제안하고 실험을 통해 해쉬 트리보다 그 성능이 우수함을 보였다.

  • PDF

연관규칙을 활용한 상품 구매 패턴분석에 관한 연구 (An Study on the Product Purchase Patterns using Association Rule)

  • 정용규;박정권;이정찬;최은영
    • 서비스연구
    • /
    • 제2권1호
    • /
    • pp.39-46
    • /
    • 2012
  • 기업의 데이터베이스 규모는 계속 증가되고 있는 추세이다. 이런 대량의 데이터베이스에서 유용한 정보를 얻는 데이터마이닝은 다양한 예측기법이나 차이점의 분석을 통하여 매출의 증대나, 비용 절감 등의 효과를 줄 수 있다. 분석방법에는 정보의 다양한 분류기법 또한 다양한 각도나 영역의 관점을 통하여 분석할 수 있다. 연관규칙과 패턴의 분석은 대량의 데이터베이스에서 유용한 정보를 효과적으로 분석할 수 있다. 본 논문에서는 쇼핑몰의 상품을 데이터마이닝 분석 기법중의 하나인 연관규칙을 활용하여 분석하였다. 이를 통하여 기존상품 분류 및 분석에 따른 고객의 구매패턴을 분석하고, 전략적 마케팅 수립을 통해 접근할 수 있는 데이터마이닝 분석에 관한 사례를 연구하였다.

  • PDF

이분형 예측 유사성 측도의 연관성 평가 기준 적용 방안 (The application for predictive similarity measures of binary data in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권3호
    • /
    • pp.495-503
    • /
    • 2011
  • 데이터 마이닝에서의 연관성 규칙은 방대한 양의 데이터베이스에 내재되어 있는 항목들 간의 관련성을 수치화 하는 방법이다. 의미 있는 연관성 규칙을 탐사하기 위한 가장 기본적인 연관성 규칙 평가 기준에는 지지도, 신뢰도, 향상도 등이 있다. 이들 중에서 향상도는 그 값에 의해 양의 연관성이 있는지 아니면 음의 연관성이 있는지, 즉 연관성의 방향을 알 수 있는 반면에 지지도와 신뢰도는 그 방향을 알 수가 없다. 이를 위해 순수 신뢰도와 기여 순수 신뢰도가 제안되었으나 이들 또한 단점을 안고 있다. 본 논문에서는 기존의 여러 형태의 신뢰도가 가지고 있는 문제점을 해결하기 위해 군집분석이나 다차원 분석에서 활용되고 있는 이분형 예측 유사성 측도 중에서 -1과 1 사이의 값을 가지는 Yule의 Y 및 Q 측도를 연관성 평가 기준으로 제안하였다. 또한 기존의 순수 신뢰도 및 기여 순수 신뢰도의 문제점을 파악한 후, 예제를 통하여 이분형 예측 유사성 측도의 유용성에 관해 알아보았다. 그 결과, 본 논문에서 고려한 유사성 측도들은 기존의 측도들이 가지고 있는 문제점을 해결할 수 있어서 본 논문에서 제안한 이분형 예측 유사성 측도가 연관성 평가 기준으로 활용할 수 있다는 사실을 확인하였다.

사용자 구분에 의한 지역적 연관규칙의 유도 (Deriving Local Association Rules by User Segmentation)

  • 박세일;이수원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권1_2호
    • /
    • pp.53-64
    • /
    • 2002
  • 연관규칙 탐사기법은 트랜잭션들을 대상으로 항목간 또는 속성간의 연관관계를 발견하는 방법으로, 데이터 집합의 구조를 쉽게 통찰할 수 있다는 장점으로 인하여 활발히 연구되어 왔다. 그러나 현재까지의 연구들은 전체 사용자 중 공통적인 특성을 지닌 사용자 그룹이 존재할 경우, 이러한 그룹별 연관규칙을 찾아낼 수 없다는 한계점을 지닌다. 본 논문에서는 이러한 점을 해결하기 위하여, 속성선택 및 사용자 구분 기법을 이용하여 사용자를 부분집합으로 구분하고 그 부분집합별로 연관규칙을 발견한다. 또한 위와 같이 얻어진 지역적 연관규칙이 전체 사용자를 대상으로 한 전역적 연관규칙보다 해당 부분집합에 더욱 적합하다는 사실을 여러 연관규칙 평가치를 이용하여 평가한다.

확률적 흥미도를 이용한 유사성 측도의 연관성 평가 기준 (Exploration of PIM based similarity measures as association rule thresholds)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권6호
    • /
    • pp.1127-1135
    • /
    • 2012
  • 연관성 규칙 기법은 대용량데이터베이스에 있는 항목들 간의 관련성을 수치화 하는 것으로 데이터 마이닝 기법 중에서는 가장 많이 활용되고 있다. 연관성 규칙을 탐사하기 위한 연관성 규칙 평가 기준에는 지지도, 신뢰도, 향상도 등이 있다. 이들 중에서 가장 중심이 되는 신뢰도는 비대칭적 측도일 뿐만 아니라 항상 양의 값만을 취하고 있어서 항목 간에 연관성 규칙을 생성하는 데 여러가지 문제가 존재한다. 이러한 문제를 해결하기 위해 본 논문에서는 확률적 흥미도 측도 기반, 특히 주변 비율을 고려하지 않은 유사성 측도를 연관성 평가 기준으로 적용하는 방안에 대해 연구하였다. 예제에 의한 비교를 통하여 Yule과 Michael의 유사성 계수와 Pearson의 파이 계수는 신뢰도와 동일하게 연관성의 정도를 파악할 수 있는 동시에 부호를 포함하고 있어서 연관성의 방향도 알 수 있었으나, 카이 제곱 통계량 기반 측도들은 항상 양의 값만 나타날 뿐만 아니라 신뢰도와는 변화하는 양상이 다르다는 것을 확인할 수 있었다.

텍스트마이닝 기반의 인적재난사고사례 신뢰도 측정연구 (Measuring the Confidence of Human Disaster Risk Case based on Text Mining)

  • 이영재;이성수
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제20권3호
    • /
    • pp.63-79
    • /
    • 2011
  • Deducting the risk level of infrastructure and buildings based on past human disaster risk cases and implementing prevention measures are important activities for disaster prevention. The object of this study is to measure the confidence to proceed quantitative analysis of various disaster risk cases through text mining methodology. Indeed, by examining confidence calculation process and method, this study suggests also a basic quantitative framework. The framework to measure the confidence is composed into four stages. First step describes correlation by categorizing basic elements based on human disaster ontology. Secondly, terms and cases of Term-Document Matrix will be created and the frequency of certain cases and terms will be quantified, the correlation value will be added to the missing values. In the third stage, association rules will be created according to the basic elements of human disaster risk cases. Lastly, the confidence value of disaster risk cases will be measured through association rules. This kind of confidence value will become a key element when deciding a risk level of a new disaster risk, followed up by preventive measures. Through collection of human disaster risk cases related to road infrastructure, this study will demonstrate a case where the four steps of the quantitative framework and process had been actually used for verification.