• 제목/요약/키워드: interestingness measure

검색결과 24건 처리시간 0.019초

연관성 규칙 수의 추정을 위한 일반적인 비선형 회귀모형에서의 표준화 향상도 활용 방안 (Generally non-linear regression model containing standardized lift for association number estimation)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.629-638
    • /
    • 2016
  • 최근에 많이 활용되고 있는 데이터 분석을 위한 연관성 규칙 마이닝은 대용량 데이터베이스에 많이 활용되고 있는 서 두 항목간의 관계를 측도화 함으로써 두 개 이상의 항목간의 관련성을 표시하여 주는 기법이다. 연관성 규칙의 여부를 판단하기 위한 연관성 평가 기준에는 지지도, 신뢰도, 그리고 향상도 등이 있으며, 이들 세 가지 기준을 이용하여 연관성 규칙 생성 여부를 판단하게 된다. 이에 대한 기존의 연구 결과는 결정함수를 이용하는 방법과 회귀모형을 이용하는 방법으로 분류할 수 있다. 회귀모형을 이용하여 수행한 연구에는 지지도와 신뢰도에 의한 모형, 세 가지 평가 기준의 쌍에 의한 모형, 표준화 향상도를 포함한 세 가지 평가 기준의 쌍에 의한 모형, 그리고 세 가지 평가 기준 전부를 고려한 모형 등이 있다. 본 논문에서는 기존의 연구를 확장하는 의미에서 표준화 향상도를 포함한 세가지 평가 기준 전부를 고려한 비선형 회귀모형을 이용하여 연관성 규칙의 수를 추정하는 방안에 대해 강구하고자 한다. 또한 분산분석에서의 F 통계량과 수정 결정계수를 이용하여 각 모형의 유의한 정도를 비교하는 동시에 분산팽창계수에 의한 공선성 문제를 진단함으로써 가장 유용한 회귀 모형을 탐색하고자 한다.

연관 규칙 마이닝에서의 코사인 순수 신뢰도의 제안 (The proposition of cosine net confidence in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.97-106
    • /
    • 2014
  • 빅 데이터 기술의 발전은 다변화된 현대 사회를 보다 정확하게 예측하고 효율적으로 작동하도록 정보를 제공하는 동시에 과거에는 불가능 했던 기술을 가능케 하였다. 이러한 빅 데이터 분석 기법은 국가 차원에서의 사회, 경제, 정치, 문화, 과학 기술 등 여러 분야에 활용될 수 있다. 빅 데이터 분석을 위해서는 먼저 데이터 마이닝 기술로 방대한 양의 데이터 속에서 가치 있는 정보를 찾는 것이 선행 되어야 하는데, 빅 데이터와 관련된 데이터 마이닝 기법으로는 텍스트 마이닝, 평판 분석, 군집 분석, 연관성 규칙 등이 있다. 본 논문에서는 데이터 마이닝 기법 중에서 많이 활용되고 있는 연관성 규칙의 평가 기준으로 코사인 순수 신뢰도를 제안한 후, Piatetsky-Shapiro가 제안한 흥미도 측도의 기준에 대한 충족여부를 점검하는 동시에 여러 가지 특성을 살펴보았다. 또한 예제를 통하여 고찰한 결과, 기존의 신뢰도와 코사인 유사성 측도는 모두 양의 값을 가지므로 연관성의 방향을 알 수 없어서 그 값만으로는 양의 연관성이 있는지 아니면 음의 연관성이 있는지를 알 수 없었다. 그러나 본 논문에서 제안한 코사인 순수 신뢰도는 그 부호에 의해 연관성 규칙의 방향을 알 수 있으므로 신뢰도와 코사인 유사성 측도가 가지고 있는 약점을 보완할 수 있는 측도라는 사실을 확인하였다.

연관성 규칙에서 활용 가능한 대칭적 기여 순수 신뢰도의 개발 (The development of symmetrically and attributably pure confidence in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권3호
    • /
    • pp.601-609
    • /
    • 2014
  • 빅 데이터 분석을 위한 데이터마이닝 기법 중의 하나인 연관성 규칙은 지지도, 신뢰도, 향상도 등의 여러 가지 연관성 평가기준을 기반으로 하여 항목집합들 간의 관련성을 찾아내는 데 활용되고 있다. 기본적인 연관성 평가기준들 중에서 가장 많이 활용되고 있는 신뢰도는 연관성의 방향 (음 또는 양)을 알 수가 없다는 단점을 가지고 있다. 이를 보완하기 위한 측도로 순수 신뢰도 기여 순수 신뢰도가 제안되었으나, 이는 전항과 후항이 바뀌면 그 값이 달라지는 문제점이 있다. 본 논문에서는 기존의 신뢰도와 순수 신뢰도, 그리고 기여 순수 신뢰도의 단점을 보완한 연관성 평가 기준으로 네 가지의 대칭적 기여 순수 신뢰도를 제안하였다. 또한 신뢰도와 기여 순수 신뢰도, 그리고 네 가지의 대칭적 기여 순수 신뢰도를 예제를 통하여 비교 분석하였다. 그 결과, 대칭적 기여 순수 신뢰도는 그 부호에 의해 연관성 규칙의 방향을 파악할 수 있는 동시에 전항과 후항이 바뀌어도 그 값이 변하지 않으므로 연관성 규칙을 생성하는 데 매우 유익한 평가 기준이라는 사실을 확인할 수 있었다. 이들 네 가지 대칭적 기여 순수 신뢰도 중에서는 두 종류의 기여 순수 신뢰도의 분자의 합과 분모의 합의 비로 나타나는 측도가 가장 바람직한 것으로 예제를 통하여 확인하였다.

연관상품 추천을 위한 회귀분석모형 기반 연관 규칙 척도 결합기법 (A Regression-Model-based Method for Combining Interestingness Measures of Association Rule Mining)

  • 이동원
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.127-141
    • /
    • 2017
  • 인터넷과 모바일 관련 기술의 발전과 기기의 보급은 물리적 공간의 제약을 극복하게 하고, 다양한 상품과 서비스를 소비자에게 제공함으로써, 소비자에게 선택의 폭을 넓히는 기회를 제공하는 반면, 많은 시간과 노력을 기울이고도 소비자가 자신의 기호에 적합한 품목을 선택하기 힘들어지는 부작용을 낳았다. 이에 따라, 기업은 추천 시스템을 활용하여 소비자가 원하는 품목을 더 쉽게 찾는 수단을 제공하고 있다. 상품 간의 연관성을 통계적으로 분석하는 연관 규칙 마이닝 기법은 직관적인 형태의 척도를 규칙과 함께 제공함으로써, 이로부터 도출된 규칙에 포함된 품목 간의 관계를 이해하고, 이를 추천에 적용하기 쉽다는 강점을 갖는다. 그러나, 서로 다른 규칙의 척도가 일관되게 어느 한 쪽의 규칙이 더 우위에 있음을 알려주지 못한다면, 수많은 품목 중 추천에 적합한 품목을 적절히 선별해내기 힘든 상황이 발생한다. 본 연구에서는 추천 상품의 순위를 결정할 수 있도록 연관 규칙 마이닝 기법에 회귀분석모형을 보완적으로 적용하는 방안을 제시하고자 수행되었다. 연관 규칙 마이닝에서 보편적으로 사용되고 있는 지지도, 신뢰도, 향상도를 활용하여 모형을 구현함으로써, 직관적으로 이해하기 쉬울 뿐만 아니라, 실무에서도 활용하기 쉬운 방안을 제시하고자 하였다. 국내 최대규모의 온라인 쇼핑몰의 주문 데이터를 활용한 실험을 통해, 제안된 모형으로부터 얻어진 추천 점수를 기반으로 추천상품을 결정하고, 이를 추천에 적용함으로써 추천 적중률을 향상시킬 수 있음을 보였다. 특히, 최근 모바일 상거래가 빠르게 확산됨에 따라, 제한된 화면에 한정된 수의 추천 품목을 제시해야 하는 상황에서 적합한 추천 기법임을 확인할 수 있었다.