• 제목/요약/키워드: 규칙 생성과 평가

검색결과 196건 처리시간 0.029초

관심 항목의 발생 가능한 규칙의 수를 고려한 연관성 평가기준 (Association rule thresholds considering the number of possible rules of interest items)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.717-725
    • /
    • 2012
  • 데이터 마이닝은 데이터베이스로부터 쉽게 드러나지 않는 의미 있는 정보를 생성하는 기법이다. 이 중에서 연관성 규칙은 일반적으로 발생 여부를 나타내는 자료를 이용하여 지지도, 신뢰도, 향상도 등을 수치화함으로써 항목들 간의 관련성을 나타낸다. 기존의 연관성 규칙은 발생 빈도의 크기를 고려하지 않음으로써 정보 손실에 의한 오류를 범할 수 있다. 이를 위해 본 논문에서는 발생 가능한 규칙의 수를 고려한 연관성 평가 기준들을 제안하고 예제를 통하여 기존 연구와 비교한 후, 본 논문에서 제안한 연관성 평가 기준의 유용성을 살펴보았다. 실제 데이터를 통하여 분석한 결과, 기존의 연관성 규칙 평가 기준은 관심항목 수와 트랜잭션의 수를 2배로 하여도 지지도와 신뢰도, 향상도의 값이 동일한 반면에 본 논문에서 제안한 평가 기준은 발생 가능한 규칙의 수를 고려하기 때문에 각각의 평가 기준의 값들이 트랜잭션의 수에 따라 다르다는 것을 알 수 있었다. 또한 본 논문에서 제안하는 평가 기준이 기존의 연관성 규칙 평가 기준에 비해 좀 더 정확한 정보를 제공하는 것을 알 수 있다. 특히 본 논문에서 제안한 신뢰도의 범위가 기존 연관성 평가 기준에 비해 크므로 좀 더 비교 가능한 정보를 제공하는 동시에 향상도의 비교를 용이하게 한다고 할 수 있다.

분산 분할 방식의 퍼지 규칙 생성 및 추론 시스템 (Fuzzy Rules Generation and Inference System of Scatter Partition Method)

  • 박건준;장태수;김성훈;김용갑
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.35-36
    • /
    • 2012
  • 퍼지 모델링을 하기 위해서는 퍼지 규칙의 생성이 필연적이며, 일반적으로 차원이 증가할수록 규칙의 수가 지수적으로 증가하는 문제를 가지고 있다. 이를 해결하기 위해, 시스템 데이터를 이용하여 입력 공간을 분산 형태로 분할하는 FCM 클러스터링 알고리즘을 기반으로 하여 퍼지 규칙을 생성하고 추론하는 시스템을 소개한다. 퍼지 규칙의 전반부 파라미터는 FCM 클러스터링 알고리즘에 의한 소속행렬로 결정되며 퍼지 규칙의 후반부는 다항식 함수의 형태로 표현된다. 제안된 모델은 수치 데이터를 이용하여 평가한다.

  • PDF

프러스펙터의 분류 규칙 습득을 위한 유전자 알고리즘 기반 귀납적 학습 시스템 (A GA-based Inductive Learning System for Extracting the PROSPECTOR`s Classification Rules)

  • 김영준
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권11호
    • /
    • pp.822-832
    • /
    • 2001
  • 주어진 사례의 집합으로부터 그 사례들을 분류할 수 있는 프러스펙터 규칙 유형의 분류 규칙들을 습득하는 학습 시스템을 유전자 알고리즘을 이용하여 구현하였다. 유전자 알고리즘을 이용한 학습 시스템의 구현에서 개체 집단은 규칙 집합으로 구성되고 규칙 집합은 교배, 돌연 변이, 역치 연산자 등의 유전 연산자를 이용하여 규칙 집합내의 규칙을 교환함으로써 새로운 자식을 생성한다. 본 논문에서는 구현된 학습 환경을 분류 규칙의 구문 형태와 의미, 개체 집단의 구조 및 유전 연산자의 구현 등을 중심으로 설명한다. 효율적인 돌연변이 연산자의 구현을 위해 개발된 규칙 성능 평가 기법과 규칙생성 기법을 소개하고 분류 성능을 향상시키기 위한 기법으로 다수의 규칙 집합을 이용하여 분류 시스템을 구축하기 위한 기법을 소개한다. 본 연구를 통해 구현된 학습 시스템의 성능을 다양한 사례 집합을 이용하여 평가하고 이를 신경망, 결정 트리 등과 비교하였다.

  • PDF

가중치가 부여된 연관 규칙을 이용한 문서 분류 (Document Classification using Weighted Associative Classifier)

  • 김흥남;이기성;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.154-156
    • /
    • 2003
  • 인터넷의 급속한 성장과 더불어 많은 정보와 데이터들을 인터넷을 통하여 얻을 수 있게 되었으며 많은 단체들이 문서들을 웹을 통하여 이용 가능하게 만들고 있다. 이에 따라 다양한 정보와 데이터를 효과적으로 분류하고 검색하는 문서 분류 (Document Classification)에 대한 알고리즘이 다양한 분야에서 널리 연구되어 왔으며 본 논문에서 초점을 두고 있는 전자 도서관 (Digital Library) 분야에서도 활발히 연구되어지고 있다. 하지만 기존의 전자 도서관의 문서 분류 알고리즘들은 문서들의 각 단락의 비중을 고려하지 않은 채 단어들의 발생 빈도에 초점을 두어 많은 잡음 단어 (Noise Term)를 포함하고 그로 인하여 분류 성능이 떨어졌다. 본 논문에서는 문서 단락의 중요도에 따라 다른 .가중치를 부여하여 단어 지지도 (Term Support)가 높은 단어들을 추출하고 그 단어들로 연관 규칙 (Association Rules)을 이용하여 분류 규칙을 생성하는 방법을 제안한다. 제안된 방법의 성능평가를 위해 문서 분류에 널리 쓰이는 나이브 베이지안 분류자 (Na$\square$ve Bayesian Classifier) 및 기존의 단순 연관 규칙 분류자 (Associative Classifier)와 비교 평가하였다. 그 결과, 각 가중치가 부여된 연관 규칙 분류 방법이 나이브 베이지안 분류 방법과 단순 연관 규칙 분류 방법보다 높은 성능을 보였다.

  • PDF

수량적 속성과 시계열 분석에 의한 연관규칙 탐사 (Discovery of Association Rules Based on Data of Quantitative Attribute and Time Series)

  • 양신모;정광호;김진수;최성용;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.175-177
    • /
    • 2003
  • 연관규칙은 데이터 안에 존재하는 항목들간의 종속 관계를 찾아내는 것이다. 기존의 연구에서는 연관규칙 탐사 과정에서 발견항목 자체에만 관심을 두고 연구되어 왔다. 즉, 연관규칙 생성을 위한 후보 항목은 수량을 배제한 항목 대 수량비가 1:1인 상태에서 규칙을 발견하는 연구였다. 이것은 항목의 구매 수량에 관계없이 같은 가중치로 규칙을 발견하는 문제점을 갖고 있다. 두 번째 문제점은 연관규칙은 시간적 연장선상에서 발견되는 규칙이라 할 수 있다. 즉, 규칙을 발견하는 과정에서 모든 자료를 동일한 시간적 가중치를 두어 취급하는 것이다. 본 논문에서는 각각의 아이템을 (아이템, 수량)의 묶음 단위로 후보항목을 만들어 수량적 속성이 포함된 아이템 대 수량 비 1:n의 관계에서 규칙을 발견하는 방법을 제안한다. 또한 과거의 자료들을 이용하여 예측할 때 모든 자료를 동일하게 취급하기보다는 최근의 자료에 더 큰 비중을 주는 예측법을 사용하여 연관규칙 발견의 신뢰성을 높인다. 성능평가는 기존의 알고리즘과 비교하여 제안한 알고리즘의 성능향상 및 타당성을 보인다.

  • PDF

효과적인 빈발 항목 생성 알고리즘T (An Effective Large itemset Generation Algorithm)

  • 채덕진;황부현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.198-200
    • /
    • 2000
  • 대용량의 데이터베이스에서 여러 트랜잭션에 동시에 나타나는 항목들의 모임인 빈발 항목집합을 찾아내는 데이터 마이닝 방법을 연관 규칙 탐사라고 한다. 빈발 항목집합을 찾아내는 데이터 마이닝 방법을 연관 규칙 탐사라고 한다. 빈방 항목집합을 찾아내는 문제는 항목 집합들의 후보 집합을 생성하고 빈발 항목집합의 조건을 충족시키는 후보 집합을 추출함으로써 해결된다. 그리고 이러한 작업은 각각의 빈발 k-항목집합에 대해 k가 증가함에 따라 반복적으로 수행된다. 그러나 연관 규칙 탐사에 관한 기존의 연구는 주로 데이터베이스를 이루는 항목들의 수가 많거나 트랜잭션의 길이가 긴 경우의 대용량 데이터베이스에서 빈발 항목집합의 발견에 초점을 맞추고 있다. 본 논문에서는 데이터베이스를 이루는 전체 항목의 수가 적거나 트랜잭션의 크기가 작은 경우 효과적으로 빈발 항목집합을 찾을 수 있는 연관 규칙 탐사 방법을 제안한다. 그리고 성능 평가를 통하여 제안하는 방법의 성능 및 타당성을 보인다.

  • PDF

유전자 알고리즘을 이용한 타입-2 퍼지논리시스템의 설계 (Design of Type-2 Fuzzy Logic Systems Using Genetic Algorithms)

  • 박세환;이광형
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 춘계학술대회 학술발표 논문집
    • /
    • pp.220-223
    • /
    • 2000
  • 타입-2 퍼지집합을 이용하여 퍼지논리시스템(Fuzzy Logic System : FLS)을 구현하기 위한 연구들이 R. I John, N. Karnik, J. Mendel 등에 의해 현재 진행되고 있다. 타입-2 집합을 이용한 타입-2 FLS은 기존의 타입-1 FLS보다 제어규칙이나 소속함순가 가지고 있는 불확실성을 표현하는데 있어서 더 효과적이다. 그러나, 타입-2 FLS 역시 타입-1 FLS이 가지고 있는 문제점인 설계시 전문가에게 의존하여 시간과 비용이 많이 소요되고, 제어기의 구성요소들을 효율적으로 생성하기가 어렵다는 문제점을 더욱 심각하게 가지고 있다. 또한, 그 문제점을 해결하기 위한 연구들도 아직 미진한 상태이다. 본 논문에서는 타입-2 FLS의 설계를 위해 유전자 알고리즘을 사용하는 방법을 제안한다. 타입-2 FLS를 설계하기 위해서는 소속함수와 제어규칙을 생성하여야 한다. 본 논문에서는 유전자 알고리즘을 사용하여 타입-2 퍼지제어규칙과 소속함수를 설계하는 방법을 제안한다. 먼저, 유전자 알고리즘에서 사용할 수 있는 유전자의 형태로 타입-2 퍼지제어규칙과 소속함수를 표현하기 위한 인코딩방법을 제안하고, 각각의 염색체를 진화시키기 위한 교차 연산자와 돌연변이 연산자를 정의한다. 그리고, 제안된 방법을 함수근사문제에 적용하여 유효성과 성능을 평가, 검증한다.

  • PDF

상대적 규칙 정확도의 균형화에 의한 연관성 측도의 개발 (Development of association rule threshold by balancing of relative rule accuracy)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1345-1352
    • /
    • 2014
  • 데이터마이닝 기법 중에서 연관성 규칙은 연관성 평가 기준을 기반으로 하여 데이터베이스에 포함되어 있는 항목들 간의 관련성을 탐색하는 기법이다. 일반적인 연관성 규칙 기법과는 달리 역의 연관성 규칙은 하나의 항목집합이 발생하지 않으면 다른 항목집합도 발생하지 않는다는 규칙을 찾아내는 것이다. 이러한 역의 연관성 규칙을 일반적인 연관성 규칙과 함께 생성하면 기업체에서 특정 제품을 판매하기 위해서는 그 제품만의 마케팅뿐만 아니라 더 나아가 어떤 제품의 마케팅이 필요한 지에 대한 정보를 파악할 수 있다. 이를 위해 본 논문에서는 이러한 두 종류의 연관성 규칙에 적용 가능한 균형화된 기여 상대적 규칙 정확도를 연관성 평가 기준으로 제안하고자 한다. 또한 Piatetsky-Shapiro (1991)가 제안한 흥미도 측도가 가져야 할 조건들을 점검한 후, 예제를 통하여 제안된 측도와 연관성 규칙에 적용 가능한 의학진단분야의 평가 측도들의 유용성을 비교하였다. 그 결과, 기여 상대적 정확도와 역의 기여 상대적 정확도의 크기가 다르게 나타나면 연관성의 정도를 명확하게 설명하기가 어려우므로 이들 두 측도를 동시에 고려한 균형화된 기여 상대적 규칙 정확도를 이용하는 것이 가장 바람직하다는 사실을 확인하였다.

퍼지생성규칙을 위한 퍼지페트리네트표현에서 후진추론 (Backward Reasoning in Fuzzy Petri - net Representation for Fuzzy Production Rules)

  • 조상엽
    • 한국정보처리학회논문지
    • /
    • 제5권4호
    • /
    • pp.951-958
    • /
    • 1998
  • 본 논문에서는 퍼지생성규칙을 표현한 퍼지페트리네트에서 사용할 수 있는 후진추론 알고리즘을 제안한다. 퍼지페트리 네트워크표현은 근사추론 시스템을 모형화하거나 퍼지추론엔진을 구현하는데 사용할 수 있다. 본 논문이 제안한 알고리즘은 단순히 min과 max 게산만을 하는 기존의 알고리즘과는 달리 퍼지생성규칙의 전제부와 결론부에 퍼지개념의 유무에 따라 적절한 믿음값평가함수을 사용하여 보다 더 인간적인 추론을 한다. 후진추론 알고리즘은 목표노드에서 시작노드까지의 후진추론 통로를 구한 후에 믿음값평가함수를 이용하여 목표노드의 믿음값을 구한다.

  • PDF

RDA 테스트 분석을 통해 본 한국목록규칙의 테스트 방안에 관한 연구 (A Study on Testing the Korean Cataloguing Rules through Analyzing the RDA Test)

  • 이미화;현문수
    • 한국도서관정보학회지
    • /
    • 제46권1호
    • /
    • pp.155-176
    • /
    • 2015
  • 한국목록규칙의 개정과정에서 세미나 및 공청회를 통해 초안의 수정이나 문제점을 파악했던 기존 방식에서 벗어나 개정될 목록규칙의 문제점을 올바르게 파악하고, 도서관에서 새로운 목록규칙을 올바르게 적용할 수 있도록 한국목록규칙의 테스트 방안을 제안하였다. 연구방법으로는 문헌연구 및 사례조사를 바탕으로 하였으며, 사례조사는 RDA 테스트 조정위원회가 실시한 RDA 테스트를 바탕으로 분석하였다. 테스트의 평가항목으로 목록규칙 자체, 새로운 목록규칙을 적용한 레코드 생성 및 시스템 개발 측면, 이용자 측면, 비용 측면이었다. 개정될 한국목록규칙에 따라 서지 및 전거레코드를 생성하고, 설문조사를 실시하여 데이터를 수집할 것을 제안하였다. 설문조사는 기관용, 레코드를 생성한 사서용, 레코드를 사용하는 이용자용으로 구성되었다. 생성된 서지레코드의 목록규칙 적용 오류 및 서지레코드 구축시 규칙 적용의 문제점을 분석하여 앞으로 개정될 한국목록규칙 개정에 도움이 될 것이며, 신규 목록규칙의 서지레코드 입력시간 및 학습커브 등의 분석은 도서관이 새로운 목록규칙의 반영 여부를 결정하는데 도움이 될 것이다.