개념 계층 이용 흥미로운 부분 데이터의 탐색

Discovery of Interesting Knowlege using Concept Hierarchy

  • 홍정희 (포항공과대학교 전자컴퓨터공학부) ;
  • 김성민 (포항공과대학교 전자컴퓨터공학부) ;
  • 남도원 (포항공과대학교 전자컴퓨터공학부) ;
  • 이동하 (포항공과대학교) ;
  • 이전영 (포항공과대학교 전자컴퓨터공학부)
  • 발행 : 2000.04.01

초록

개념 계층(Concept Hierarchy)은 데이터베이스 분야에서 사용되는 대표적인 배경 지식(Background Knowledge)으로써, 데이터베이스에 내재되어 있는 구조적인 정보, 데이터의 분포, 영역전문가(Domain Expert)에 의해 주어지는 외부 지식 등이 반영되어 있다. 개념 계층의 특성상 부모(parent)-자식(child) 관계가 있는 두 노드가 있을 때, 한 노드의 값으로부터 다른 노드의 값을 추정할 수 있다. 이 추정된 값을 기대치라고 하고, 한 노드의 값으로부터 추정된 기대치와 실제치가 상당히 상이한 값을 보이는 노드가 있을 때, 이를 흥미롭다(interesting)라고 할 수 있다. 그러나 아직까지 개념계층상에서의 흥미로운 부분 탐색에 대한 연구가 없었으며, 흥미로움(interestingness)의 척도(measurement)에 대한 연구로서는 신뢰도(confidence), 리프트(lift), 컨빅션(conviction)등이 있다. 그러나 이런 흥미도의 척도에 관한 연구도 연관규칙에 한정되어 이루어졌으므로 개념계층상의 데이터에 적용하기 위해서는 약간의 수정 및 새로운 정의가 필요하다. 본 논문에서는 데이터의 특성에 따른 개념계층이 존재할 때, 이를 이용하여 기대치와 실제치가 상이한 흥미로운 부분을 발견하고자 하며, 이를 위하여 개념계층이 존재할 때, 이를 이용하여 기대치와 실제치가 상이한 흥미로운 부분을 발견하고자 하며, 이를 위하여 개념계층상에서의 흥미도의 척도를 제안하고 흥미로운 부분을 탐색하는 방법을 기술하고자 한다. 또한 데이터마이닝의 결과인 연관규칙을 개념계층에 적용하여 연관규칙을 통해 얻어질 수 있는 기대치를, 지지도(support), 신뢰도(confidence), 리프트(lift), 컨빅션(conviction)등의 관계를 통해 다양한 방법으로 모색해본다. 이 연구에서 제안하는 이러한 개념계층상의 흥미로운 부분의 탐색은, 전자 상거래에서의 CRM(Customer Relationship Management)나 틈새시장(niche market) 마케팅 등에 적용가능하리라 여겨진다.

키워드