초록
데이터마이닝 기법 중에서 연관성 규칙은 연관성 평가 기준을 기반으로 하여 데이터베이스에 포함되어 있는 항목들 간의 관련성을 탐색하는 기법이다. 일반적인 연관성 규칙 기법과는 달리 역의 연관성 규칙은 하나의 항목집합이 발생하지 않으면 다른 항목집합도 발생하지 않는다는 규칙을 찾아내는 것이다. 이러한 역의 연관성 규칙을 일반적인 연관성 규칙과 함께 생성하면 기업체에서 특정 제품을 판매하기 위해서는 그 제품만의 마케팅뿐만 아니라 더 나아가 어떤 제품의 마케팅이 필요한 지에 대한 정보를 파악할 수 있다. 이를 위해 본 논문에서는 이러한 두 종류의 연관성 규칙에 적용 가능한 균형화된 기여 상대적 규칙 정확도를 연관성 평가 기준으로 제안하고자 한다. 또한 Piatetsky-Shapiro (1991)가 제안한 흥미도 측도가 가져야 할 조건들을 점검한 후, 예제를 통하여 제안된 측도와 연관성 규칙에 적용 가능한 의학진단분야의 평가 측도들의 유용성을 비교하였다. 그 결과, 기여 상대적 정확도와 역의 기여 상대적 정확도의 크기가 다르게 나타나면 연관성의 정도를 명확하게 설명하기가 어려우므로 이들 두 측도를 동시에 고려한 균형화된 기여 상대적 규칙 정확도를 이용하는 것이 가장 바람직하다는 사실을 확인하였다.
Data mining is the representative methodology to obtain meaningful information in the era of big data.By Wikipedia, association rule learning is a popular and well researched method for discovering interesting relationship between itemsets in large databases using association thresholds. It is intended to identify strong rules discovered in databases using different interestingness measures. Unlike general association rule, inverse association rule mining finds the rules that a special item does not occur if an item does not occur. If two types of association rule can be simultaneously considered, we can obtain the marketing information for some related products as well as the information of specific product marketing. In this paper, we propose a balanced attributable relative accuracy applicable to these association rule techniques, and then check the three conditions of interestingness measures by Piatetsky-Shapiro (1991). The comparative studies with rule accuracy, relative accuracy, attributable relative accuracy, and balanced attributable relative accuracy are shown by numerical example. The results show that balanced attributable relative accuracy is better than any other accuracy measures.