• 제목/요약/키워드: 연관규칙 분석

검색결과 346건 처리시간 0.031초

시정보 반영을 통한 연관규칙의 신뢰도 측정 (Association Rules Reflected Temporal Information)

  • 옥지웅;백주련;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.353-356
    • /
    • 2006
  • 연관규칙 (Association rule) 마이닝은 무수히 많은 데이터로부터 유용한 정보만을 뽑아내어 실생활에 적용하여 이점을 얻게 하는 데이터마이닝의 가장 핵심적인 연구분야이다. 마켓 기반 데이터들로부터 고객들의 구매유형을 분석하여 적절한 판매전략을 세우거나 기업 데이터로부터 특정 업무와 관련된 의사결정을 지원하는 등의 일이 모두 연관규칙을 기반으로 한다. 그러나 대부분의 연관규칙들은 시간을 고려하지 않는 않거나, 순차패턴만을 고려해왔다. 따라서 하루중 특정 규칙이 발생되지 않는 시간대에도 그 규칙에 대한 불필요한 노력이 있었다. 본 논문에서는 추출된 연관규칙들과 각 트랜잭션에 부여한 시간 정보를 분석하여 특정 항목 (Item) 집합들 간의 연관규칙이 빈번하게 발생하는 시간대를 추출한다. 추출되 시간 정보를 이용하여 시간대별 유용한 판매 전략을 세움으로써, 상품 판매를 극대화하고자 한다.

  • PDF

수량적 속성과 시계열 분석에 의한 연관규칙 탐사 (Discovery of Association Rules Based on Data of Quantitative Attribute and Time Series)

  • 양신모;정광호;김진수;최성용;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.175-177
    • /
    • 2003
  • 연관규칙은 데이터 안에 존재하는 항목들간의 종속 관계를 찾아내는 것이다. 기존의 연구에서는 연관규칙 탐사 과정에서 발견항목 자체에만 관심을 두고 연구되어 왔다. 즉, 연관규칙 생성을 위한 후보 항목은 수량을 배제한 항목 대 수량비가 1:1인 상태에서 규칙을 발견하는 연구였다. 이것은 항목의 구매 수량에 관계없이 같은 가중치로 규칙을 발견하는 문제점을 갖고 있다. 두 번째 문제점은 연관규칙은 시간적 연장선상에서 발견되는 규칙이라 할 수 있다. 즉, 규칙을 발견하는 과정에서 모든 자료를 동일한 시간적 가중치를 두어 취급하는 것이다. 본 논문에서는 각각의 아이템을 (아이템, 수량)의 묶음 단위로 후보항목을 만들어 수량적 속성이 포함된 아이템 대 수량 비 1:n의 관계에서 규칙을 발견하는 방법을 제안한다. 또한 과거의 자료들을 이용하여 예측할 때 모든 자료를 동일하게 취급하기보다는 최근의 자료에 더 큰 비중을 주는 예측법을 사용하여 연관규칙 발견의 신뢰성을 높인다. 성능평가는 기존의 알고리즘과 비교하여 제안한 알고리즘의 성능향상 및 타당성을 보인다.

  • PDF

공간 연관규칙을 이용한 도시성장 확률모형의 구현

  • 조성휘;박수홍
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2003년도 추계학술대회논문집
    • /
    • pp.40-47
    • /
    • 2003
  • GIS는 공간과 관련된 문제를 해결하는데 있어 좋은 도구가 되며 도시성장 예측과 같은 문제에 사용될 수 있다. 본 연구에서는 수도권 내에 위치한 수원지역을 대상으로 1960년대부터 1990년대까지의 도시성장에 관한 데이터베이스를 구축하고 도시의 물리적인 확산에 초점을 맞추어 모형의 핵심이 되는 공간 연관규칙을 추출하였다. 공간 연관규칙의 추출을 위해 GIS 공간 분석 기능과 데이터마이닝 기법을 이용하였으며, 규칙을 기반으로 모형을 작성하여 도시성장을 분석 및 예측하고 UGM(Urban Growth Model)과 비교하였다.

  • PDF

오차를 허용하는 주기적 연관규칙 탐사를 통한 오차의 경향성에 관한 연구 (Discovery Of Cyclic Association Rule With Loose Cycle and Error Cycle over Loose Cycle)

  • 배수균;남도원;이동하;이전영
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 추계정기학술대회:지능형기술과 CRM
    • /
    • pp.317-324
    • /
    • 2000
  • 주기적인 연관규칙은 타겟데이터베이스를 일정 단위시간으로 나누었을 때 연관규칙이 만족하는 구간이 일정한 주기마다 발생하는 패턴을 탐색하는 방법이다. 하지만, 이 방법은 엄격한 주기를 가지도록 하여 실제 데이터에 그대로 적용하기가 어려웠다. 예를 들이 편의점 데이터에서 매일 오전 7시-8시 사이에 주기적으로 발생하는 연관규칙을 발견할 때, 이러한 연관규칙을 주기적인 연관규칙이라고 한다. 하지만, 실제 데이터에서는 날씨와 같이 사람의 행동에 영향을 미치는 다른 요인 때문에 항상 일정한 주기를 가지는 연관규칙을 찾기는 어렵다. 본 논문에서는 주기가 일정하지 않은 연관규칙을 찾기 위해서 연관규칙의 주기성을 허용 오차를 포함하며 재정의하고, 오차를 허용하기 위한 탐색 알고리즘을 보완하였다. 반면에, 오차를 허용함으로써 오차를 허용하지 않는 경우보다 더 많은 주기성을 찾을 수 있을 뿐만 아니라, 동일한 주기를 가지지만 오프셋이 다른 여러 개의 비슷한 주기가지 찾게 되어 사용자가 의미 있는 연관규칙을 찾는데 방해가 된다. 본 논문에서는 이를 해결하기 위해서 오차를 허용하는 주기적 연관규칙의 오차의 정도를 측정하기 위한 단위로 집중도(intensity)와 경향성(tendency)을 제안한다. 주기적 연관규칙이 매 주기마다 정확한 세그먼트에 나타나는 정도를 나타내는 집중도와, 최소 평균오차를 의미하는 경향성을 이용하여 유사한 주기들 중에서 대표주기만을 찾을 수 있도록 한다. 또한, 오차를 허용하는 주기적 연관규칙에서 오차가 주로 발생하는 패턴을 분석함으로써 고객들의 수요 경향성을 더 잘 파악할 수 있다. 예를 들어, 평소에는 매일 오진 7시∼8시에 나타나던 연관성이 지각하는 사람들이 같은 월요일에는 1시간 늦은 8시∼9시에 나타난다는 오타 정보까지 파악할 수 있다. 이러한 월요일마다 1시간 늦게 나타나는 오차의 경향성을 나타내는 오차 주기(error cyc1e)를 이용함으로써 고객들의 수요의 경향성을 좀 더 세밀한 부분까지 파악할 수 있게 해 준다.

  • PDF

클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 (Mining of Multi-dimensional Association Rules over Interval Data using Clustering and Characterization)

  • 임승환;권용석;김상욱
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권1호
    • /
    • pp.60-64
    • /
    • 2010
  • 비 트랜잭션 데이터를 대상으로 연관 규칙을 도출하기 위해서, 데이터의 속성들을 구간화하는 기법들이 활발하게 연구되었다. 이러한 기존의 연구들은 구간화 단계에서 구간 범위의 변화에 따른 연관 규칙의 신뢰도 변화를 반영하지 않고, 구간화 단계와 연관 규칙을 도출하는 단계들을 독립적으로 수행하였다. 이로 인해 속성들의 구간이 부적절하게 설정되고, 이 결과 높은 신뢰도를 갖는 연관 규칙들이 최종 결과에서 누락된다. 따라서 본 논문에서는 속성들을 구간화하는 단계와 연관 규칙들을 도출하는 단계를 병합하여 동시에 수행함으로써, 가장 신뢰도가 높은 연관규칙들을 도출할 수 있는 구간을 설정하는 방안을 제안한다. 이를 위해서 연관 규칙의 우변의 속성들을 대상으로 계층적 클러스터링을 수행하고, 각 클러스터들에 대해서 특성 분석을 수행한다. 실험 결과, 제안하는 기법은 기존의 기법들에 비해서 높은 신뢰도를 갖는 연관 규칙들을 발견하는 것으로 나타났다.

정보이론에 기반한 연관 규칙들의 새로운 중요도 측정 방법 (A New Importance Measure of Association Rules Using Information Theory)

  • 이창환;배주현
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권1호
    • /
    • pp.37-42
    • /
    • 2014
  • 연관 규칙들을 이용한 분류학습은 최근 활발히 연구되는 분야의 하나이다. 이러한 연관 규칙을 이용한 분류에는 연관 규칙들에 대한 수치적 중요도를 계산하는 것이 중요하다. 본 논문에서는 정보 이론을 사용한 H measure 라는 새로운 규칙 중요도 기법을 제안한다. 구체적으로 Hellinger 변량을 이용하여 연관규칙의 중요도를 계산한다. 제안된 H measure 의 다양한 특성들을 분석하였으며 또한 이러한 H measure를 이용한 분류학습의 성능을 다른 규칙 measure를 이용한 분류학습의 성능과 비교하였다.

항목 계층 구조에 기반한 빈발 항목 집합 나열 방법 (Item Hierarchy based Frequent Itemset Ordering Method)

  • 김준우;강현경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2013년도 춘계 종합학술대회 논문집
    • /
    • pp.301-302
    • /
    • 2013
  • 연관 규칙 탐사는 이산적인 항목들을 포함하는 트랜잭션 데이터에 존재하는 항목 간 동시 발생 관계를 찾아내는 데 그 목적을 두고 있다. 연관 규칙은 {전항}${\rightarrow}${후항}의 형태를 갖고, 전, 후항은 모두 사전에 정의된 지지도 하한을 만족하는 빈발 항목 집합으로 구성된다. 연관 규칙 탐사에서 문제가 되는 것은 일반적으로 탐사되는 빈발 항목 집합의 개수가 많아지면서 규칙의 개수도 많아지고, 이들 사이에 중복성이 존재한다는 점이다. 따라서 단순히 지지도나 신뢰도 순으로 빈발 항목 집합이나 규칙을 나열하기보다는 항목들의 연관성을 고려하는 것이 분석자에게 보다 도움이 될 수 있다. 본 논문에서는 이를 위하여 연관 규칙 탐사와 함께 계층 군집 분석을 실시하여 항목들 간 연관성을 정리하고, 이를 토대로 빈발 항목 집합들을 나열하는 방법을 제안하고자 한다.

  • PDF

발생빈도를 고려한 연관성분석 연구 (A study of association rule by considering the frequency)

  • 임제순;이경준;조영석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1061-1069
    • /
    • 2010
  • 데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다. 하지만 실제 데이터에서는 발생이 빈번하지 않은 데이터 뿐 아니라, 발생이 많이 일어나는 데이터도 존재한다. 따라서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한다. 본 논문에서는 각 케이스 내의 발생빈도를 고려한 새로운 연관성 측정 도구를 제시하였다. 또한 실제 예제를 통하여 기존의 연관성규칙과 새로운 연관성규칙의 결과를 비교해 보았다. 그 결과, 새로 제시한 연관성규칙이 기존의 연관성규칙보다 더 세밀하게 구분하는 것을 확인할 수 있었다.

과실 생산량과 기상요소간의 연관분석 마이닝 (Association rule Mining between Climate factors and Fruits yields)

  • 우종선;;류근호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.23-25
    • /
    • 2016
  • 이 논문에서는 기후조건과 농업 생산량을 포함하는 농업/기상 데이터에 데이터 마이닝의 연관규칙 기법을 적용하여 농업 생산의 기반이 되는 기후요인들과 생산량 간의 연관성을 분석하고자 한다. 기후 속성들의 값을 포함하고 있는 기상청 기후 데이터와 농업 생산량을 포함하는 통계청의 데이터를 통합 한 후 기후 속성들의 값을 이산화 하여 연관규칙 기법을 적용한다. 실험 결과 각 기후요소들과 생산량 간의 연관 규칙을 표현 할 수 있었다. 이를 통해 기후조건 변화에 따른 농업생산기반 취약성을 예방하는 지표를 마련하고 농업 생산성 향상에 기여 할 수 있을 것으로 기대한다.

  • PDF

문항 응답 데이터에서 문항간 연관규칙의 질적 향상을 위한 도구 개발 (A Measure for Improvement in Quality of Association Rules in the Item Response Dataset)

  • 곽은영;김현철
    • 컴퓨터교육학회논문지
    • /
    • 제10권3호
    • /
    • pp.1-8
    • /
    • 2007
  • 본 논문은 연관규칙 마이닝을 이용하여 성취도 평가 결과인 문항 응답 데이터를 대상으로 의미있는 문항간 관련성을 찾아낼 수 있는 도구를 개발하는데 연구의 목적이 있다. 제안된 도구는 의미없는 데이터들을 제거하여 보다 더 흥미(interestingness)있는 연관규칙을 생성하도록 하며, 이러한 결과는 교수-학습 방법이나 문제은행의 질을 향상시키는데 필요한 많은 정보를 제공할 수 있을 것이다. 이를 위하여 임의의 문항 응답 실험 데이터 집합을 생성하고 정보이론(Information Theory) 기반의 surprisal 이라는 도구를 개발하여 의미 없는 데이트를 제거한 후, 연관규칙을 추출하였다. 실험 데이터는 특정 문항간 관계가 의도적으로 빈발 생성되도록 만들어지며, 추출된 연관규칙이 그러한 문항간 관계를 적절히 반영하고 있는지의 여부를 평가하고, 원본 데이터와 지지도(support) 기반으로 추출된 연관규칙과 비교함으로써 surprisal 도구의 타당성을 증명하였다.

  • PDF