• 제목/요약/키워드: 연관규칙분석

검색결과 345건 처리시간 0.024초

실시간 연관규칙 탐사를 위한 능동적 후보항목 관리 모델 (An Active Candidate Set Management Model for Realtime Association Rule Discovery)

  • 신예호;류근호
    • 정보처리학회논문지D
    • /
    • 제9D권2호
    • /
    • pp.215-226
    • /
    • 2002
  • 미디어의 발달과 생활 패턴의 변화를 토대로 새롭게 나타나고 있는 다양한 판매 패턴들을 분석하는데 있어 단일한 분석 방법을 적용하는 것은 효과적이지 못하다. 특히 신선 식품이나 기념일 주변에서 집중적인 매출이 발생하는 품목들은 제한된 시간 내에 판매를 최대로 해야 하는 시간적 제약을 갖는다. 그러나 기존의 연관규칙 탐사 기법은 대규모 거래 데이터베이스로부터 반복적 스캔 연산을 통해 연관규칙 탐사를 수행하기 때문에 제한된 시간안에서 빈번히 필요로 하는 패턴을 분석하기에는 비효율적이기 때문이다. 따라서 이 논문에서는 시간 제약을 갖는 특수한 판매 패턴에 대한 실시간 연관규칙 탐사가 가능하도록 하기 위해 트리거와 저장 프로시져를 이용한 점진적 후보항목 관리 모델을 제안한다. 아울러 이 논문에서는 제안 모델의 구현 및 실험을 통해 그 성능 특성의 분석도 수행한다. 특히 이 논문에서 제안하는 방법은 이중 해쉬 기법을 이용함으로써 연산의 성능을 향상시킨다.

동시 비 발생 빈도를 고려한 유사성 측도의 연관성 규칙 평가 기준 활용 방안 (Association rule thresholds of similarity measures considering negative co-occurrence frequencies)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권6호
    • /
    • pp.1113-1121
    • /
    • 2011
  • 최근 여러 분야에서 다양한 데이터 마이닝 방법들을 현업에 적용하고 있는 추세이다. 가장 많이 활용되고 있는 데이터 마이닝 기법 중의 하나인 연관성 규칙은 대용량 데이터베이스에 내재되어 있는 항목들 간의 관련성을 수치화하여 그들 간의 연관 정도를 나타내는 기법이다. 의미 있는 연관성 규칙을 생성하기 위해 지지도, 신뢰도, 향상도 등의 측도가 가장 기본적으로 활용되고 있다. 본 논문에서는 군집 분석이나 다차원 분석법에서 많이 활용되고 있는 유사성 측도들 중에서 동시 비 발생 빈도를 고려한 유사성 측도를 연관성 평가 기준으로 제안한 후, 예제를 통하여 기존의 신뢰도 및 지지도와 비교함으로써 그 유용성을 알아보았다. 모의실험 결과를 종합해볼 때, 동시 발생 빈도 또는 동시 비 발생 빈도가 증가하면 본 논문에서 고려한 모든 유사성 측도들은 지지도 및 신뢰도와 마찬가지로 증가하며, 불일치 계수의 값이 증가하면 이 측도들은 감소하게 된다는 사실을 알 수 있었다. 또한 이들 유사성 측도들은 지지도 및 신뢰도와 매우 유의한 상관관계가 있는 것으로 나타났으며, 전항과 후항이 바뀌더라도 값의 변화가 없기 때문에 신뢰도 보다 더 바람직한 연관성 규칙 평가 기준이라고 할 수 있다.

데이터 마이닝을 이용한 시험 응답데이터 분석시스템 설계 및 구현 (Design and Implementation of Analysis System for Answer Dataset with Data Mining)

  • 곽은영;김현철
    • 컴퓨터교육학회논문지
    • /
    • 제11권1호
    • /
    • pp.65-74
    • /
    • 2008
  • 본 논문은 데이터 마이닝 기법 중 연관규칙 추출 알고리즘을 이용하여 시험 응답 데이터에서 서로 연관된 문항들을 찾아내고, 그 원인을 규명함으로써 교육평가에서 사용되고 있는 기존의 검사이론 기반의 분석 결과와 함께 사용되면 문항의 질뿐만 아니라 피험자의 성취 수준을 심층적으로 분석하는데 도움을 줄 수 있는 시험 응답데이터 분석시스템을 개발하고 구현하는데 연구의 목적이 있다. 현재의 교육평가 분야에서 문항 분석에 사용되는 고전검사 이론과 문항반응 이론은 각 문항의 독립성을 전제로 하고, 피험자들이 각 개별 문항에 반응하여 나타나는 결과를 통계적 수치를 이용하여 설명하고 있다. 그러나 실제 학교 현장에서 실시한 시험의 결과를 보면, 피험자들의 반응에 의하여 문항간 연관성이 발생하게 되며 이러한 연관성은 각각의 문항들을 분석하고 피험자의 능력을 추정하는 데 의미 있는 영향을 미치게 된다. 제안된 시스템은 연관규칙 마이닝을 이용하여 흥미로운 문항간 연관성을 추출하고, 그 원인을 분석하여 사용자에게 제공함으로써 교수-학습 방법 개선이나 문제은행의 질을 향상시키는데 도움을 줄 수 있도록 하였다.

  • PDF

테이블 형식의 데이터베이스에 대한 규칙의 효율적 발견 (An Efficient Discovery of Rules for Database Table)

  • 석현태
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 춘계종합학술대회논문집
    • /
    • pp.155-159
    • /
    • 2003
  • 데이터마이닝 작업의 대표적 방법 중의 하나인 의사결정목의 자료 단편화 및 소집단 자료에 대한 경시성 문제를 보완할 수 있는 방법으로 연관규칙 알고리즘을 활용한 기술적 규칙집합을 찾는 방법을 기술한다. 이를 위해 연관규칙 발견 알고리즘의 원리를 다루고 이를 테이블 형태의 데이터베이스에 효율적으로 적용하는 방법을 기술한다. 아울러 이러한 방법은 원 연관규칙 알고리즘을 이용할 때보다 효율적 작업이 가능함을 실험 데이터에 대한 분석을 통해 살펴보았다.

  • PDF

공간 데이터 분석을 위한 공간 연관 규칙 탐사 시스템의 설계 및 구현 (Design and Implementation of Spatial Association Rule Discovery System for Spatial Data Analysis)

  • 안찬민;이윤석;박상호;이주홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.27-34
    • /
    • 2006
  • 최근 공간 정보들을 효과적으로 이용할 수 있는 기술에 대한 연구가 활발하게 이루어지고 있다. 효율적인 지식 탐사를 위해 다양한 기존의 데이터 마이닝 방법들이 확장되어 공간 데이터 마이닝에 사용되고 있다. 그러나 기존의 공간 연관 규칙 탐사 시스템들은 프레디킷 간의 연산을 통해 규칙을 발견함에 따라 질의 결과에 다양한 비공간 속성들을 반영하지 못하는 문제점을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 공간 데이터베이스에서 사용되는 질의를 확장하고, 위상정보에 따른 데이터를 구성한 후 비공간 객체 속성간의 연관 규칙을 발견하는 시스템을 제안한다. 특히 지리 정보 시스템에 적용 가능한 모델을 구현하였다. 이렇게 구현된 시스템은 사용 중인 공간 데이터베이스를 확장하므로 이식성이 뛰어나고, 공간 속성뿐만 아니라 다양한 비공간 속성을 고려함으로써 좀 더 실생활에 유용한 공간 연관 규칙을 발견할 수 있다.

  • PDF

연관성 규칙 수의 추정을 위한 일반적인 비선형 회귀모형에서의 표준화 향상도 활용 방안 (Generally non-linear regression model containing standardized lift for association number estimation)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.629-638
    • /
    • 2016
  • 최근에 많이 활용되고 있는 데이터 분석을 위한 연관성 규칙 마이닝은 대용량 데이터베이스에 많이 활용되고 있는 서 두 항목간의 관계를 측도화 함으로써 두 개 이상의 항목간의 관련성을 표시하여 주는 기법이다. 연관성 규칙의 여부를 판단하기 위한 연관성 평가 기준에는 지지도, 신뢰도, 그리고 향상도 등이 있으며, 이들 세 가지 기준을 이용하여 연관성 규칙 생성 여부를 판단하게 된다. 이에 대한 기존의 연구 결과는 결정함수를 이용하는 방법과 회귀모형을 이용하는 방법으로 분류할 수 있다. 회귀모형을 이용하여 수행한 연구에는 지지도와 신뢰도에 의한 모형, 세 가지 평가 기준의 쌍에 의한 모형, 표준화 향상도를 포함한 세 가지 평가 기준의 쌍에 의한 모형, 그리고 세 가지 평가 기준 전부를 고려한 모형 등이 있다. 본 논문에서는 기존의 연구를 확장하는 의미에서 표준화 향상도를 포함한 세가지 평가 기준 전부를 고려한 비선형 회귀모형을 이용하여 연관성 규칙의 수를 추정하는 방안에 대해 강구하고자 한다. 또한 분산분석에서의 F 통계량과 수정 결정계수를 이용하여 각 모형의 유의한 정도를 비교하는 동시에 분산팽창계수에 의한 공선성 문제를 진단함으로써 가장 유용한 회귀 모형을 탐색하고자 한다.

적응형 웹 사이트 구축을 위한 연관규칙 알고리즘 개발과 적용 (Development and Application of An Adaptive Web Site Construction Algorithm)

  • 최윤희;전우천
    • 정보처리학회논문지D
    • /
    • 제16D권3호
    • /
    • pp.423-432
    • /
    • 2009
  • 컴퓨터의 보급과 인터넷의 발달로 인해 데이터의 유통은 증가하고 있으나 전통적인 방법으로는 가치 있고 의미 있는 정보를 획득하는 것은 어렵다. 또한, 정보화 사회에서의 많은 정보 중에서 자신에게 알맞은 정보를 탐사하는 데이터 마이닝의 필요성이 대두되고 있다. 또한 사용자들의 편리한 인터넷 항해를 돕고 적절한 정보를 제공할 수 있는 적응형 웹 사이트에 관한 연구도 필요하다. 본 연구의 목적은 사용자들에게 연관성이 있는 웹 페이지를 연결해 주는 적응형 웹 사이트 구축을 위해 웹 로그 분석을 통한 웹 사이트 사용자들의 행동 패턴을 발견하는 연관규칙 알고리즘의 개발에 있다. 데이터 마이닝의 기법 중에서 연관규칙은 웹 사이트에 접속하는 사용자들의 행동을 파악하는데 효과적이다. 본 논문에서는 웹 사용 마이닝을 이용하여 웹 서버의 로그 데이터를 분석하여 트랜잭션을 구성하고, 사용자들의 행동 패턴을 발견하기 위한 의미 있는 문서만을 추출하여 추출된 문서를 대상으로 발견한 빈발 항목으로 연결리스트를 구성하며, 빈발 패턴을 찾아 웹 페이지에 적용하는 일련의 알고리즘을 제안한다. 제안한 알고리즘의 특징은 첫째, 빈발패턴 발견을 위해 생성하는 연결리스트 이외에는 마이닝 과정에서 다른 중간생성물이 필요하지 않으므로 공간 사용면에 있어 효율적이다. 둘째, 기존의 연관규칙 알고리즘에 비해 데이터 베이스의 스캔 횟수를 줄이고, 시간복잡도를 개선하였다.

연관규칙을 활용한 상품 구매 패턴분석에 관한 연구 (An Study on the Product Purchase Patterns using Association Rule)

  • 정용규;박정권;이정찬;최은영
    • 서비스연구
    • /
    • 제2권1호
    • /
    • pp.39-46
    • /
    • 2012
  • 기업의 데이터베이스 규모는 계속 증가되고 있는 추세이다. 이런 대량의 데이터베이스에서 유용한 정보를 얻는 데이터마이닝은 다양한 예측기법이나 차이점의 분석을 통하여 매출의 증대나, 비용 절감 등의 효과를 줄 수 있다. 분석방법에는 정보의 다양한 분류기법 또한 다양한 각도나 영역의 관점을 통하여 분석할 수 있다. 연관규칙과 패턴의 분석은 대량의 데이터베이스에서 유용한 정보를 효과적으로 분석할 수 있다. 본 논문에서는 쇼핑몰의 상품을 데이터마이닝 분석 기법중의 하나인 연관규칙을 활용하여 분석하였다. 이를 통하여 기존상품 분류 및 분석에 따른 고객의 구매패턴을 분석하고, 전략적 마케팅 수립을 통해 접근할 수 있는 데이터마이닝 분석에 관한 사례를 연구하였다.

  • PDF

기본적인 연관평가기준 전부를 고려한 비선형 회귀모형에 의한 연관성 규칙 수의 결정 (Non-linear regression model considering all association thresholds for decision of association rule numbers)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권2호
    • /
    • pp.267-275
    • /
    • 2013
  • 데이터 마이닝 기법들 중에서도 연관성 규칙은 가장 최근에 개발된 기법으로 대용량 데이터베이스에서 각 항목들 간의 관련성을 찾아내며, 두 항목간의 관계를 명확히 수치화함으로써 두 개 이상의 항목간의 관련성을 표시하여 주기 때문에 현장에서 직접 적용이 가능하다. 일반적으로 연관성 규칙 생성 여부를 판단할 때, 각 항목간의 연관성을 반영하는 기준인 지지도, 신뢰도, 향상도 등의 흥미도 측도를 활용하게 된다. 실제적으로 연관성 규칙의 수를 결정하기 위해서는 이들 흥미도 측도들의 평가기준을 정하기 위해 반복적으로 조정 과정을 거쳐야 한다. 본 논문에서는 이러한 문제를 해결하기 위해 연관성 평가기준 모두를 일반적으로 많이 활용되고 있는 비선형 회귀모형에 적용하여 연관성 규칙의 수를 추정하는 방안을 강구하였다. 또한 분산팽창계수를 이용하여 다중공선성 문제를 진단하는 동시에 분산분석 결과와 수정 결정계수를 이용하여 각 모형의 기여도를 비교하여 가장 바람직한 회귀 모형을 구하였다.

흥미도 측도 관점에서 상대적 인과 강도의 고찰 (A study on the relatively causal strength measures in a viewpoint of interestingness measure)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권1호
    • /
    • pp.49-56
    • /
    • 2017
  • 빅 데이터를 분석하기 위한 기법 중에서 연관성 규칙은 여러 가지 연관성 평가 기준을 이용하여 항목들 간에 연관성 유무를 탐색하는 기법이다. 이러한 연관성 규칙 기법은 규칙의 생성 방향에 따라 정과 부, 그리고 역의 연관성 규칙 등이 있다. 본 논문에서는 여러 가지 상대적 인과 강도를 흥미도 측도의 관점에서 어떤 유형의 연관성 규칙에 적용 가능한 지를 탐색하는 동시에 기존의 기본적인 평가측도 증에서 여러 가지 유형의 신뢰도들과의 관계를 규명하고자 하였다. 그 결과, 후항변수가 발생할 비율이 0.5 이상이면 Good이 제안한 측도 ($RCS_{IJ1}$)가 Lewis가 제안한 측도 ($RCS_{LR1}$) 보다 값의 변화폭이 더 크므로 $RCS_{IJ1}$이 더 바람직한 측도가 되며, 그 비율이 0.5 미만이면 $RCS_{LR1}$이 더 바람직하다고 할 수 있다.