• 제목/요약/키워드: 집합-기반 알고리즘

검색결과 461건 처리시간 0.031초

L2-tree를 이용한 효율적인 빈발항목 집합 탐사 (An Efficient Algorithm for mining frequent itemsets using L2-tree)

  • 박인창;장중혁;이원석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.259-261
    • /
    • 2002
  • 데이터마이닝 분야에서 빈발항목집합 탐사에 관한 연구는 활발히 진행되어 왔지만 여전히 많은 메모리 공간과 시간을 필요로 한다. 특히 apriori 알고리즘에 기반한 방법들은 긴 패턴이 생성될수록 지수적으로 시간과 공간이 증가한다. 최근에 발표된 fp-growth는 일반적인 데이터 집합에서 우수한 성능을 보이나 희소 데이터 집합에서 효율적인 성능을 보여주지 못한다. 본 논문에서는 길이가 2인 빈발항목집합 L2에 기반한 L2-tree 구조를 제안한다. 또한 L2-tree에서 빈발항목집합을 탐사하는 L2-traverse 알고리즘을 제안한다. L2-tree는 L2를 기반으로 하기 때문에 L2가 상대적으로 적은 희소 데이터 집합 환경에서 적은 메모리 공간을 사용하게 된다. L2-traverse 알고리즘은 별도의 추출 데이터베이스를 생성하는 FP-growth와 달리 단순히 L2-tree를 오직 한번의 깊이 우선 탐사를 통해 빈발항목집합을 찾는다. 최적화 기법으로써 길이가 3인 빈발항목집합 L3가 되지 않는 L2 패턴들을 미리 제거하는 방법으로 C3-traverse 알고리즘을 제안하며 실험을 통해 기존 알고리즘과 비교 검증한다.

  • PDF

효율적인 밀집 및 희소 빈발 항목 집합 탐색 방법 (An Effective Method for Dense and Sparse Frequent Itemsets Mining)

  • 이경민;정석호;신동문;;이동규;손교용;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.375-376
    • /
    • 2009
  • 트리기반 빈발 항목 집합 알고리즘들은 전체적으로 밀집 빈발 항목 집합에는 효율적이고 빠르게 빈발 항목 집합을 탐색하나 희소 빈발 항목 집합에는 효율적이지 않고 빈발 항목 집합을 빠르게 탐색하지 못한다. 반면에 배열기반 빈발 항목 집합 알고리즘은 희소 빈발 항목 집합에 효율적이고 빠르게 빈발 항목 집합을 탐색하나 밀집 빈발 항목 집합에는 효율적이지 않고 빈발 항목 집합을 빠르게 탐색하지 못한다. 밀집 및 희소 빈발 항목 집합 모두 효율적으로 빈발 항목 집합을 탐색 하고자 하는 시도가 있었으나 두 가지 종류의 알고리즘을 동시에 사용하므로 각각의 알고리즘을 사용할 정확한 기준 제시가 어렵고, 두 가지 알고리즘의 단점을 내포한다. 따라서 본 논문에서는 단일 알고리즘을 사용하여 밀집 빈발 항목 집합 및 희소 빈발 항목 집합 모두에 대해 작은 메모리 공간을 사용하면서도 효율적이고 빠르게 빈발 항목 집합을 탐색할 수 있는 CPFP-Tree라는 새로운 자료구조와 탐색 방법을 제안한다.

적응형 계층적 공정 경쟁 유전자 알고리즘을 이용한 정보입자 기반 퍼지집합 퍼지모델의 최적화 (Optimization of IG_based Fuzzy Set Fuzzy Model by Means of Adaptive Hierarchical Fair Competition-based Genetic Algorithms)

  • 최정내;오성권
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 추계학술대회 학술발표 논문집 제16권 제2호
    • /
    • pp.366-369
    • /
    • 2006
  • 본 논문에서는 계층적 공정 경쟁 유전자 알고리즘을 통한 비선형시스템의 정보입자 기반 퍼지집합 퍼지집합 모델의 최적화 방법을 제안한다. 퍼지집합 모델은 주로 전문가의 경험에 기반을 두어 얻어지기 때문에 동정과 최적화 과정이 필요하며 GAs를 이용하여 퍼지모델을 최적화한 연구가 많이 있다. GAs는 전역 해를 찾을 수 있는 최적화 알고리즘으로 잘 알려져 있지만 조기 수렴 문제를 포함하고 있다. 병렬유전자 알고리즘(PGA)은 조기수렴를 더디게 하고 전역 해를 찾기 위한 진화알고리즘이다. 적응형 계층적 공정 경쟁기반 유전자 알고리즘(AHFCGA)을 이용하여 퍼지모델의 입력변수, 멤버쉽함수의 수, 멤버쉽함수의 정점 등의 전반부 구조와 파라미터를 동정하였고, LSE를 사용하여 후반부 파라미터를 동정하였으며 실험적 예제를 통하여 제안된 방법의 성능을 평가한다.

  • PDF

중복글자 구분을 지원하는 집합 기반 POI 검색 알고리즘 구현 (Implementation of A Set-based POI Search Algorithm Supporting Classifying Duplicate Characters)

  • 고은별;이종우
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권4호
    • /
    • pp.463-469
    • /
    • 2013
  • 집합 기반 POI 검색 기법은 부정확한 질의어 입력 시 검색결과의 재현율과 정확도가 현저히 떨어지는 기존 하드매칭 기법에 비해 우수한 성능을 보인다. 하지만 집합 개념을 바탕으로 했기 때문에 한 POI 레코드 내에 중복으로 포함된 동일 글자들을 구분하지 못하는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하여 한 POI 내에 동일 글자가 여러 개 등장해도 동작하는 개선된 집합 기반 POI 검색 기법을 제시하고 구현하였다. 또한 개선된 집합 기반 POI 검색 기법의 검색결과와 기존 집합 기반 POI 검색 기법의 검색결과를 비교하는 실험을 통해 레코드 내에 중복으로 포함된 동일 글자가 있는 레코드에 대한 검색 성능이 향상되었음을 확인하였다.

유전론적 최적 자기구성 퍼지 집합 기반 다항식 뉴럴네트워크 (Genetically Optimized Self-Organizing Fuzzy-Set based Polynomial Neural Networks)

  • 노석범;오성권
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.303-306
    • /
    • 2004
  • 기존의 퍼지 규칙에 기반을 둔 퍼지 다항식 뉴론(FPN)들로 구성된 SOFPNN은 데이터 수가 적고 비선형 요소가 많은 시스템에 대한 체계적이고 효율적인 최적 모델 을 구축할 수 있었으며 각 층 노드의 선택 입력을 변화시킴으로써 네트워크 구조 전체의 적응능력을 향상 시켰다. 유전자 알고리즘을 이용하여 자기구성 퍼지 다항식 뉴럴 네트워크의 입력변수의 수와 이에 해당되는 입력변수 그리고 규칙 후반부 다항식의 차수를 탐색하여 최적 의 자기구성 퍼지 다항식 뉴럴 네트워크를 구축한다. 그러나, SOFPNN의 기본 뉴론인 퍼지 규칙 기반 다항식 뉴론의 경우 입력변수가 많아질수록 규칙수가 기하급수적으로 증가한다는 단점을 가지고 있으나 본 노문에서 제안한 퍼지 집합 기반 다항식 뉴론(FSPN)의 규칙수는 입력 변수들이 서로 독립적이므로 규칙의 증가가 퍼지 규칙 기반 다항식 뉴런보다는 적다는 장점을 가지고 있다. 이러한 특성을 기반으로 기존의 SOFPNN의 노드에 퍼지 규칙 기반 다항식 뉴런 대신에 퍼지 집합 기반 다항식 뉴런을 적용한 SOFPNN을 제안하여 기존의 SOFPNN과 성능을 비교하였다. 최적의 자기 구성 퍼지 집합기반 다항식 뉴럴 네트워크를 구축하기 위하여 SOFPNN에서처럼 유전자 알고리즘을 이용하여 네트워크의 입력변수의 수와 이에 해당되는 입력변수 그리고 규칙 후반부 다항식의 차수를 탐색하였다.

  • PDF

베이지언 문서분류시스템을 위한 능동적 학습 기반의 학습문서집합 구성방법 (An Active Learning-based Method for Composing Training Document Set in Bayesian Text Classification Systems)

  • 김제욱;김한준;이상구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권12호
    • /
    • pp.966-978
    • /
    • 2002
  • 기계학습 기법을 이용한 문서분류시스템의 정확도를 결정하는 요인 중 가장 중요한 것은 학습문서 집합의 선택과 그것의 구성방법이다. 학습문서집합 선택의 문제란 임의의 문서공간에서 보다 정보량이 큰 적은 양의 문서집합을 골라서 학습문서로 채택하는 것을 말한다. 이렇게 선택한 학습문서집합을 재구성하여 보다 정확도가 높은 문서분류함수를 만드는 것이 학습문서집합 구성방법의 문제이다. 전자의 문제를 해결하는 대표적인 알고리즘이 능동적 학습(active learning) 알고리즘이고, 후자의 경우는 부스팅(boosting) 알고리즘이다. 본 논문에서는 이 두 알고리즘을 Naive Bayes 문서분류 알고리즘에 적응해보고, 이때 생기는 여러 가지 특징들을 분석하여 새로운 학습문서집합 구성방법인 AdaBUS 알고리즘을 제안한다. 이 알고리즘은 능동적 학습 알고리즘의 아이디어를 이용하여 최종 문서분류함수룰 만들기 위해 임시로 만든 여러 임시 문서분류함수(weak hypothesis)들 간의 변이(variance)를 높였다. 이를 통해 부스팅 알고리즘이 효과적으로 구동되기 위해 필요한 핵심 개념인 교란(perturbation)의 효과를 실현하여 문서분류의 정확도를 높일 수 있었다. Router-21578 문서집합을 이용한 경험적 실험을 통해, AdaBUS 알고리즘이 기존의 알고리즘에 비해 Naive Bayes 알고리즘에 기반한 문서분류시스템의 정확도를 보다 크게 향상시킨다는 사실을 입증한다.

다중 출력을 가지는 Interval Type-2 퍼지 집합 기반 퍼지 뉴럴 네트워크 최적 설계 (Optimal Design of Interval Type-2 Fuzzy Set-based Multi-Output Fuzzy Neural Networks)

  • 박건준;김용갑;오성권;김현기
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2011년도 제42회 하계학술대회
    • /
    • pp.1968-1969
    • /
    • 2011
  • 본 논문에서는 패턴 인식을 위한 다중 출력을 가지는 Interval Type-2 퍼지 집합을 이용한 퍼지 집합 기반 퍼지 뉴럴 네트워크를 소개한다. Interval Type-2 퍼지 집합 기반 퍼지 뉴럴 네트워크는 각 입력 변수에 따른 서로 분리된 입력 공간을 분할함으로서 네트워크 및 규칙을 구성한다. 규칙의 전반부는 퍼지 입력 공간을 개별적으로 분할하여 표현하고, 각 공간은 Interval Type-2 퍼지 집합으로 구성된다. 규칙의 후반부는 패턴 인식을 위한 다중 출력을 가지며 Interval 집합을 이용하여 다항식으로서 표현된다. 다항식의 계수인 연결가중치는 오류역 전파 알고리즘을 이용하여 학습한다. 또한 실수 코딩 유전자 알고리즘을 이용하여 제안된 네트워크를 최적화한다. 제안된 네트워크는 표준 모델로서 널리 사용되는 수치적인 예를 통하여 평가한다.

  • PDF

민감한 빈발항목집합을 숨기기 위한 경계기반 HSFI 알고리즘 (Border-based HSFI Algorithm for Hiding Sensitive Frequent Itemsets)

  • 이단영;안형근;고재진
    • 한국멀티미디어학회논문지
    • /
    • 제14권10호
    • /
    • pp.1323-1334
    • /
    • 2011
  • 민감한 정보 숨기기 알고리즘은 민감한 정보를 보호하기 위하여 트랜잭션 데이터베이스를 삭제한다. 데이터 변경은 삭제 접근 방법들 중 하나이다. 민감한 정보를 숨기는 이전 연구들은 결과 데이터베이스의 품질을 유지하기 위해 서로 다른 휴리스틱 알고리즘을 적용했다. 그러나 민감한 정보를 숨기는 과정에서 변경되는 항목집합에 대한 영향을 평가하거나 숨겨지는 항목을 감소시키는 연구들은 미흡하였다. 본 논문에서는 민감한 빈발 항목집합을 숨기기 위하여 경계기반의 HSFI(Hiding Sensitive Frequent Itemsets) 알고리즘을 제안한다. 본 알고리즘에서 FP-Tree의 노드 정보는 기존과는 다르게 빈발 항목집합 생성단계에서 트랜잭션 정보와 민감 정보, 경계 정보를 모두 구성하며, 숨기는 과정에서 비민감한 빈발 항목집합의 영향을 줄이기 위하여 경계를 사용하였다. 본 논문의 예시 트랜잭션 데이터베이스에 HSFI를 적용한 결과, 손실 항목을 크게 감소시킴으로써 기존 방법들에 비해 효과적임을 증명하였고, 보다 개선된 데이터베이스의 품질을 유지할 수가 있었다.

집합 기반 POI 검색을 이용한 문장 유사도 측정 기법 (Sentence Similarity Measurement Method Using a Set-based POI Data Search)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.711-716
    • /
    • 2014
  • 최근 논문 표절 논란과 지능형 텍스트 검색서비스에 대한 관심이 증가하면서 문장 유사도 측정의 필요성이 증가하고 있다. n-gram, 편집거리, LSA 등 기존의 다양한 방향으로 선행 연구가 있었지만 각 기법마다 장단점이 존재한다. 본 논문에서는 집합 기반 POI 검색 기법을 이용한 새로운 방향의 문장 유사도 측정 기법을 제안한다. 집합 기반 POI 검색 기법은 하드매칭에 비해 단어의 도치, 누락, 삽입, 변경에 현저한 성능 향상을 보인다. 이 기법을 이용하면 보다 정확하고 빠른 문장 유사도 측정이 가능하다. 제안하는 기법은 기존 집합 기반 POI 검색 기법의 데이터 로딩 알고리즘과 텍스트 검색 알고리즘을 변형하고 어절 연산 알고리즘을 추가하여 두 문장의 유사도를 백분율로 표현한다. 실험을 통해 본 논문에서 제시하는 기법이 정확도와 속도에서 n-gram과 기존 집합 기반 POI 검색 기법에 비해 우수함을 확인하였다.

조건부 확률에 기반한 범주형 자료의 거리 측정 (A distance metric of nominal attribute based on conditional probability)

  • 이재호;우종하;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 추계 학술대회 학술발표 논문집
    • /
    • pp.53-56
    • /
    • 2003
  • 유사도 혹은 자료간의 거리 개념은 많은 기계학습 알고리즘에서 사용되고 있는 중요한 측정개념이다 하지만 입력되는 자료의 속성들중 순서가 정의되지 않은 범주형 속성이 포함되어 있는 경우, 자료간의 유사도나 거리 측정에 어려움이 따른다. 비거리 기반의 알고리즘들의 경우-C4.5, CART-거리의 측정없이 작동할 수 있지만, 거리기반의 알고리즘들의 경우 범주형 속성의 거리 정보 결여로 효과적으로 적용될 수 없는 문제점을 갖고 있다. 본 논문에서는 이러한 범주형 자료들간 거리 측정을 자료 집합의 특성을 충분히 고려한 방법을 제안한다. 이를 위해 자료 집합의 선험적인 정보를 필요로 한다. 이런 선험적 정보인 조건부 확률을 기반으로한 거리 측정방법을 제시하고 오류 피드백을 통해서 속성 간 거리 측정을 최적화 하려고 노력한다. 주어진 자료 집합에 대해 서로 다른 두 범주형 값이 목적 속성에 대해서 유사한 분포를 보인다면 이들 값들은 비교적 가까운 거리로 결정한다 이렇게 결정된 거리를 기반으로 학습 단계를 진행하며 이때 발생한 오류들에 대해 피드백 작업을 진행한다. UCI Machine Learning Repository의 자료들을 이용한 실험 결과를 통해 제안한 거리 측정 방법의 우수한 성능을 확인하였다.

  • PDF