• 제목/요약/키워드: 연관 규칙 생성

검색결과 192건 처리시간 0.026초

수량적 속성과 시계열 분석에 의한 연관규칙 탐사 (Discovery of Association Rules Based on Data of Quantitative Attribute and Time Series)

  • 양신모;정광호;김진수;최성용;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.175-177
    • /
    • 2003
  • 연관규칙은 데이터 안에 존재하는 항목들간의 종속 관계를 찾아내는 것이다. 기존의 연구에서는 연관규칙 탐사 과정에서 발견항목 자체에만 관심을 두고 연구되어 왔다. 즉, 연관규칙 생성을 위한 후보 항목은 수량을 배제한 항목 대 수량비가 1:1인 상태에서 규칙을 발견하는 연구였다. 이것은 항목의 구매 수량에 관계없이 같은 가중치로 규칙을 발견하는 문제점을 갖고 있다. 두 번째 문제점은 연관규칙은 시간적 연장선상에서 발견되는 규칙이라 할 수 있다. 즉, 규칙을 발견하는 과정에서 모든 자료를 동일한 시간적 가중치를 두어 취급하는 것이다. 본 논문에서는 각각의 아이템을 (아이템, 수량)의 묶음 단위로 후보항목을 만들어 수량적 속성이 포함된 아이템 대 수량 비 1:n의 관계에서 규칙을 발견하는 방법을 제안한다. 또한 과거의 자료들을 이용하여 예측할 때 모든 자료를 동일하게 취급하기보다는 최근의 자료에 더 큰 비중을 주는 예측법을 사용하여 연관규칙 발견의 신뢰성을 높인다. 성능평가는 기존의 알고리즘과 비교하여 제안한 알고리즘의 성능향상 및 타당성을 보인다.

  • PDF

올바른 연관성 규칙 생성을 위한 의사결정과정의 제안 (Decision process for right association rule generation)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권2호
    • /
    • pp.263-270
    • /
    • 2010
  • 데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 체계적이고도 자동적으로 찾아내는 기법이다. 데이터마이닝의 중요한 목표 중의 하나는 여러 변수들 간의 관계를 발견하고 결정하는 것이다. 연관성 규칙은 항목 집합으로 표현된 트랜잭션에서 각 항목간의 연관성을 반영하는 규칙으로서, 항목 집합간의 관계를 지지도, 신뢰도, 순수 신뢰도 등과 같은 흥미도 측도에 의해 명확히 수치화함으로써 두 개 이상의 항목집합간의 관련성을 표시해주기 때문에 현업에서 많이 활용되고 있다. 본 논문에서는 기존에 많이 활용되고 있는 흥미도 측도인 신뢰도와 순수 신뢰도의 문제점을 보완하여 연관성 규칙을 올바르게 생성하기 위한 새로운 의사결정과정을 제안하고자 한다. 본 논문에서 제안하는 의사결정과정은 특히 스트리밍 데이터베이스에서의 연관성 규칙을 탐색하는 데 효율적이다.

음의 연관성 규칙 생성을 위한 음의 기여 순수 신뢰도의 제안 (Negatively attributable and pure confidence for generation of negative association rules)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권5호
    • /
    • pp.939-948
    • /
    • 2012
  • 데이터 마이닝 기법들 중에서 가장 많이 활용되고 있는 연관성 규칙은 방대한 데이터베이스에서 항목간의 관계를 흥미도 측도에 의해 명확히 수치화함으로써 그들간의 관련성을 표시해주는 기법이다. 양의 연관성 규칙 마이닝이 임의의 한 항목이 발생하면 다른 항목도 발생한다는 규칙을 생성하기 위한 기법인 반면에, 음의 연관성 규칙은 어느 항목이 발생하면 다른 항목은 발생하지 않는다는 규칙을 찾아내는 기법이다. 음의 연관성 규칙은 양의 연관성 규칙의 활용과 마찬가지로 고객의 구매 경향 및 마케팅 정책을 제시할 수 있고 교차판매와 매장 진열 등과 같이 타겟 마케팅에 활용 가능하다. 양의 연관성 규칙에 음의 연관성 규칙을 추가하게 되면 어떤 제품을 판매하기 위해서는 그 제품만 마케팅 하는 것뿐만 아니라 더 나아가 그 제품이 아닌 어느 제품을 마케팅 하는것이 필요한지를 판단할 수 있다. 본 논문에서는 기존의 음의 신뢰도의 단점을 보완할 수 있는 음의 기여 순수 신뢰도를 제안한 후, 이에 대해 흥미도 측도가 가져야 할 조건들을 조사하였으며, 예제 데이터를 활용하여 음의 기여 순수 신뢰도의 유용성을 고찰하였다.

수량 연관규칙 생성을 위한 데이터의 지역성을 고려한 효과적인 알고리즘 제안 (An Efficient Algorithm Using the locality of Data for Mining Quantitative Association Rules)

  • 이혜정;박원환;박두순
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.126-129
    • /
    • 2003
  • 최근 대용량의 데이터베이스로부터 연관규칙을 발견하여 이를 활용하는 단계에서 이러한 연관규칙을 수량항목에도 적용할 수 있도록 확장하는 연구가 소개되고 있다. 본 논문에서는 수량 항목을 이진항목으로 변환하기 위하여 빈발구간 항목집합(Large Interval Itemsets)을 생성할 때 수량 항목이 특정 영역에 집중하여 발생하거나 골고루 분포되어 있지 않은 경우, 이러한 지역성(locality)을 고려하여 빈발구간 항목집합을 생성하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 의미 있는 구간을 중심으로 빈발구간 항목들이 순서대로 생성되기 때문에 세밀도를 판단하여 활용할 수 있으며, 원 데이터가 가지고 있는 특성의 손실을 최소화할 수 있는 특징이 있다 또한 인구센서스등 실 데이터를 사용한 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF

침입탐지 감사자료 분석을 위한 연관규칙 생성 기술 (Generating Technology of the Association Rule for Analysis of Audit Data on Intrusion Detection)

  • 소진;이상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (중)
    • /
    • pp.1011-1014
    • /
    • 2002
  • 최근 대규모 네트워크 데이터에 대한 패턴을 분석하기 위한 연구에 대하여 관심을 가지고 침입탐지 시스템을 개선하기 위해 노력하고 있다. 특히, 이러한 광범위한 네트워크 데이터 중에서 침입을 목적으로 하는 데이터에 대한 탐지 능력을 개선하기 위해 먼저, 광범위한 침입항목들에 대한 탐지 적용기술을 학습하고, 그 다음에 데이터 마이닝 기법을 이용하여 침입패턴 인식능력 및 새로운 패턴을 빠르게 인지하는 적용기술을 제안하고자 한다. 침입 패턴인식을 위해 각 네트워크에 돌아다니는 관련된 패킷 정보와 호스트 세션에 기록되어진 자료를 필터링하고, 각종 로그 화일을 추출하는 프로그램들을 활용하여 침입과 일반적인 행동들을 분류하여 규칙들을 생성하였으며, 생성된 새로운 규칙과 학습된 자료를 바탕으로 침입탐지 모델을 제안하였다. 마이닝 기법으로는 학습된 항목들에 대한 연관 규칙을 찾기 위한 연역적 알고리즘을 이용하여 규칙을 생성한 사례를 보고한다. 또한, 추출 분석된 자료는 리눅스 기반의 환경 하에서 다양하게 모아진 네트워크 로그파일들을 분석하여 제안한 방법에 따라 적용한 산출물이다.

  • PDF

상대적 규칙 정확도의 균형화에 의한 연관성 측도의 개발 (Development of association rule threshold by balancing of relative rule accuracy)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1345-1352
    • /
    • 2014
  • 데이터마이닝 기법 중에서 연관성 규칙은 연관성 평가 기준을 기반으로 하여 데이터베이스에 포함되어 있는 항목들 간의 관련성을 탐색하는 기법이다. 일반적인 연관성 규칙 기법과는 달리 역의 연관성 규칙은 하나의 항목집합이 발생하지 않으면 다른 항목집합도 발생하지 않는다는 규칙을 찾아내는 것이다. 이러한 역의 연관성 규칙을 일반적인 연관성 규칙과 함께 생성하면 기업체에서 특정 제품을 판매하기 위해서는 그 제품만의 마케팅뿐만 아니라 더 나아가 어떤 제품의 마케팅이 필요한 지에 대한 정보를 파악할 수 있다. 이를 위해 본 논문에서는 이러한 두 종류의 연관성 규칙에 적용 가능한 균형화된 기여 상대적 규칙 정확도를 연관성 평가 기준으로 제안하고자 한다. 또한 Piatetsky-Shapiro (1991)가 제안한 흥미도 측도가 가져야 할 조건들을 점검한 후, 예제를 통하여 제안된 측도와 연관성 규칙에 적용 가능한 의학진단분야의 평가 측도들의 유용성을 비교하였다. 그 결과, 기여 상대적 정확도와 역의 기여 상대적 정확도의 크기가 다르게 나타나면 연관성의 정도를 명확하게 설명하기가 어려우므로 이들 두 측도를 동시에 고려한 균형화된 기여 상대적 규칙 정확도를 이용하는 것이 가장 바람직하다는 사실을 확인하였다.

효과적인 빈발 항목 생성 알고리즘T (An Effective Large itemset Generation Algorithm)

  • 채덕진;황부현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.198-200
    • /
    • 2000
  • 대용량의 데이터베이스에서 여러 트랜잭션에 동시에 나타나는 항목들의 모임인 빈발 항목집합을 찾아내는 데이터 마이닝 방법을 연관 규칙 탐사라고 한다. 빈발 항목집합을 찾아내는 데이터 마이닝 방법을 연관 규칙 탐사라고 한다. 빈방 항목집합을 찾아내는 문제는 항목 집합들의 후보 집합을 생성하고 빈발 항목집합의 조건을 충족시키는 후보 집합을 추출함으로써 해결된다. 그리고 이러한 작업은 각각의 빈발 k-항목집합에 대해 k가 증가함에 따라 반복적으로 수행된다. 그러나 연관 규칙 탐사에 관한 기존의 연구는 주로 데이터베이스를 이루는 항목들의 수가 많거나 트랜잭션의 길이가 긴 경우의 대용량 데이터베이스에서 빈발 항목집합의 발견에 초점을 맞추고 있다. 본 논문에서는 데이터베이스를 이루는 전체 항목의 수가 적거나 트랜잭션의 크기가 작은 경우 효과적으로 빈발 항목집합을 찾을 수 있는 연관 규칙 탐사 방법을 제안한다. 그리고 성능 평가를 통하여 제안하는 방법의 성능 및 타당성을 보인다.

  • PDF

실시간 CRM을 위한 분류 기법과 연관성 규칙의 통합적 활용;신용카드 고객 이탈 예측에 활용

  • 이지영;김종우
    • 한국경영정보학회:학술대회논문집
    • /
    • 한국경영정보학회 2007년도 International Conference
    • /
    • pp.135-140
    • /
    • 2007
  • 이탈 고객 예측은 데이터 마이닝에서 다루는 주요한 문제 중에 하나이다. 이탈 고객 예측은 일종의 분류(classification) 문제로 의사결정나무추론, 로지스틱 회귀분석, 인공신경망 등의 기법이 많이 활용되어왔다. 일반적으로 이탈 고객 예측을 위한 모델은 고객의 인구통계학적 정보와 계약이나 거래 정보를 입력변수로 하여 이탈 여부를 목표변수로 보는 형태로 분류 모델을 생성하게 된다. 본 연구에서는 고객과의 지속적인 접촉으로 발생되는 추가적인 사건 정보를 활용하여 연관성 규칙을 생성하고 이 결과를 기존의 방식으로 생성된 분류 모델과 결합하는 이탈 고객 예측 방법을 제시한다. 제시한 방법의 유용성을 확인하기 위해서 특정 국내 신용카드사의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 제시된 방법이 기존의 전통적인 분류 모델에 비해서 향상된 성능을 보이는 것을 확인할 수 있었다. 제시된 예측 방법의 장점은 기존의 이탈 예측을 위한 입력 변수들 이외에 고객과 회사간의 접촉을 통해서 생성된 동적 정보들을 통합적으로 활용하여 예측 정확도를 높이고 실시간으로 이탈 확률을 갱신할 수 있다는 점이다.

  • PDF

대용량 데이터베이스에서 클러스터링을 이용한 빈발 패턴 생성 (Creation of Frequent Patterns using Clustering in Large Database)

  • 김의찬;황병연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.100-102
    • /
    • 2005
  • 데이터베이스에 저장되어 있는 데이터들을 통해서 의미있는 정보를 찾는 것이 데이터 마이닝이다. 많은 데이터 마이닝 기법들 중에 연관규칙을 다루는 연구가 많이 이루어지고 있다. 연관규칙 기법도 다양하게 연구되고 있는데 그 중 빈발 패턴 트리(FP-Tree)라는 방법을 이용하여 빈발 패턴을 찾아내는 연구가 활발히 진행되고 있다. 빈발 패턴 트리는 기존에 잘 알려져있는 연관규칙 생성 기법인 Apriori 기법보다 우수한 성능을 가지는 방법이다. 그러나 빈발 패턴 트리도 몇가지 문제점을 가지고 있다. 본 논문에서는 빈발 패턴 트리의 문제점 중 하나인 과도한 FP-Tree 생성을 줄이려 한다. 조건부 패턴 베이스를 통해 얻어지는 조건부 FP-Tree의 생성을 줄여 기존의 FP-Tree보다 더 나은 성능을 얻기 위해서 적절한 클리스터링을 이용하려 한다. 클러스터링 기법은 비트 트랜잭션을 이용한 클러스터링 방법을 이용한다.

  • PDF

네트워크 침입 탐지를 위한 Coverage와 Exclusion 기반의 새로운 연관 규칙 마이닝 (A New Association Rule Mining based on Coverage and Exclusion for Network Intrusion Detection)

  • 김태연;한경현;황성운
    • 사물인터넷융복합논문지
    • /
    • 제9권1호
    • /
    • pp.77-87
    • /
    • 2023
  • 네트워크 침입 탐지 작업에 다양한 연관 규칙 마이닝 알고리즘을 적용하는 데에는 두 가지 중요한 문제가 있다. 생성된 규칙 집합의 크기가 너무 커서 IoT 시스템에서 활용하기 어렵고, 거짓 부정/긍정 비율을 제어하기 어렵다. 본 연구에서는 coverage와 exclusion이라는 새로 정의된 척도에 기반을 둔 연관 규칙 마이닝 알고리즘을 제안한다. Coverage는 한 클래스의 트랜잭션에서 패턴이 발견되는 빈도를 나타내고, exclusion은 다른 클래스의 트랜잭션에서 패턴이 발견되지 않는 빈도를 나타낸다. 우리는 KDDcup99라는 공개 데이터 세트를 사용하여 가장 유명한 알고리즘인 Apriori 알고리즘과 실험적으로 제안된 알고리즘을 비교한다. Apriori와 비교하여 제안된 알고리즘은 정확도를 완전히 유지하면서 생성되는 규칙 집합 크기를 최대 93.2%까지 줄인다. 또한, 제안된 알고리즘은 생성된 규칙의 거짓 부정/긍정 비율을 매개변수별로 완벽하게 제어한다. 따라서 네트워크 분석가는 두 가지 문제를 해결함으로써 제안한 연관 규칙 마이닝을 네트워크 침입 탐지 작업에 효과적으로 적용할 수 있다.