• 제목/요약/키워드: 빈발도

검색결과 464건 처리시간 0.038초

데이터 마이닝에서 IRG에 의한 효율적인 빈발항목 생성방법 (A New Method for Efficiently Generating of Frequent Items by IRG in Data Mining)

  • 허용도;이광형
    • 한국멀티미디어학회논문지
    • /
    • 제5권1호
    • /
    • pp.120-127
    • /
    • 2002
  • 기존의 데이터 마이닝 방법들은 공통적으로 최소지지도(minimal support) 값의 변경에 의한 빈발항목 탐사의 비효율성, 불필요한 연관규칙의 생성으로 인한 불편성, 그리고 새로운 트랜잭션을 추가하게 되면 이전탐사과정에서 발견한 결과를 재활용하기 어렵다는 문제점들을 가지고 있다. 본 연구에서는 이러한 문제점들을 해결할 수 있는 SPM-IRG 방법을 제안한다. SPM-IRG 방법은 최소지지도 값을 이용하지만 트랜잭션내의 각 항목에 대하여 다른 항목과의 직접적·간접적인 관련성을 파악한 후 빈발항목을 생성한다. 또한 관심있는 항목에 대해서만 빈발항목을 구성할 수 있기 때문에 기존의 방법에서 발생하는 비효율성을 최소화할 수 있다

  • PDF

확률 기법에 기반한 근접 빈발 패턴 마이닝 기법의 성능평가 (Performance evaluation of approximate frequent pattern mining based on probabilistic technique)

  • 편광범;윤은일
    • 인터넷정보학회논문지
    • /
    • 제14권1호
    • /
    • pp.63-69
    • /
    • 2013
  • 근접 빈발 패턴 마이닝은 향상된 효율성을 위해 정확한 패턴보다 허용되는 범위 안에서 근접 빈발 패턴을 마이닝한다. 데이터베이스의 크기가 증대함에 따라 거대한 데이터베이스를 처리하기 위해서 더 빠른 마이닝 기법이 필요하게 되고 있다. 또한, 노이지나 데이터의 다양성 때문에 패턴을 마이닝 하는 것에 대한 정확한 결과를 찾기가 더 어렵다. 이러한 경우들에 대해, 근접 빈발 패턴 마이닝을 함으로 실행시간, 메모리 사용량, 그리고 확장성의 관점에서 더 효율적인 마이닝을 수행할 수 있다. 이 논문에서는 확률 기법에 근간한 근접 패턴 마이닝 알고리즘에 대한 특성을 살펴보고 척도가 되는 확률 기법에 기반한 근접 패턴 마이닝 알고리즘에 대해 성능 평가를 한다. 최종적으로 성능의 향상을 위해 테스트 결과를 분석한다.

빈발 유전자 발현 패턴과 연쇄 규칙을 이용한 유전자 조절 네트워크 구축 (Constructing Gene Regulatory Networks using Frequent Gene Expression Pattern and Chain Rules)

  • 이헌규;류근호;정두영
    • 정보처리학회논문지D
    • /
    • 제14D권1호
    • /
    • pp.9-20
    • /
    • 2007
  • 유전자들의 그룹은 복잡한 상호작용들을 통해 세포의 기능이 조절되며 이러한 상호작용을 하는 유전자 그룹들을 유전자 조절 네트워크 (GRNs: Gene Regulatory Networks)라고 한다. 이전의 유전자 발현 분석 기법인 군집화와 분류는 단지 상동성에 의한 유전자들 사이의 소속을 결정하는 데에는 유용하나 분자 활동에서의 같은 클래스에서 발견되어지는 유전자들 사이의 조절 관계를 식별할 수 없다. 더욱이 유전자들이 어떻게 연관되는 지와 유전자들이 서로 어떻게 조절하는지에 대한 매커니즘의 이해가 필요하다. 따라서 이 논문에서는 시계열 마이크로어레이 데이터로부터의 유전자들의 조절 관계를 발견하기 위해서 빈발 패턴 마이닝과 연쇄 규칙을 이용한 새로운 접근법을 제안하였다. 이 기법에서는 먼저, 빈발 패턴 마이닝 적용을 위한 적절한 데이터 변환 방법을 제안하였고 FP-growth을 이용하여 유전자 발현 패턴들을 발견한다. 그런 다음, 연쇄 규칙을 이용하여 빈발한 유전자 패턴들로부터 유전자 조절 네트워크를 구축하였다. 마지막으로 제안된 기법의 검증은 공개된 유전자들의 조절 관계와 실험 결과의 일치함을 보임으로써 평가하였다.

병렬처리를 이용한 효율적인 수량 연관규칙 (Efficient Quantitative Association Rules with Parallel Processing)

  • 이혜정;홍민;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제10권8호
    • /
    • pp.945-957
    • /
    • 2007
  • 수량 연관규칙은 대량의 데이터베이스에 존재하는 데이터 중 수량적 속성이 강한 데이터를 항목으로 만들어 이진 연관규칙에 적용한다. 만약 중요한 의미를 내포하는 수량 데이터의 정의역 범위가 넓을 경우 정의역을 최소지지도에 만족하는 적정 구간으로 분할하여 빈발구간 항목을 생성하는 작업이 필요하다. 이러한 빈발구간 항목은 어떻게 생성되었느냐에 따라 생성된 규칙의 신뢰도에 큰 영향을 미치게 된다. 따라서 본 논문에서는 빈발구간 항목을 효율적으로 생성하는 방법을 제시한다. 본 논문에서 제안하는 방법은 기존 방법들에 비해 의미가 있는 구간을 분실하지 않고 최소지지도에 근접하는 세밀한 빈발구간을 생성하기 때문에 데이터가 가진 특성의 손실을 최소화할 수 있는 효율적인 방법이다. 또한 병합이 불필요한 곳에서는 병합을 시도하지 않고 빈도가 높은 구간만을 취해 병합하므로 수량의 정의역이 넓을 경우 기존 방법에 비해 실행속도가 월등히 빠른 효율적인 방법이다. 그리고 인구센서스와 같은 실제로 사용되는 데이터를 이용하여 클루닉스 HPC 시스템에서 병렬처리 수행을 통하여 제안 방법이 우수함을 보였다.

  • PDF

빈발 항목의 탐색 시간을 단축하기 위한 알고리즘 (An Algorithm for reducing the search time of Frequent Items)

  • 윤소영;윤성대
    • 한국정보통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.147-156
    • /
    • 2011
  • 최근 정보시스템의 활용도가 높아짐에 따라, 많은 데이터를 이용하여 필요한 상품을 빠르게 추출하는 방법들에 대한 연구가 활발히 이루어지고 있다. 숨겨진 패턴을 탐색하는 연관 규칙 탐색 기법들이 많은 관심을 받고 있으며, Apriroi 알고리즘은 대표적인 기법이다. 그러나 Apriori 알고리즘은 반복적인 스캔으로 인한 탐색시간 증가 문제를 가지고 있다. 본 논문에서는 빈발항목의 탐색시간을 단축하기 위한 알고리즘을 제안한다. 제안한 알고리즘은 트랜잭션 데이터베이스를 이용하여 매트릭스를 생성하고 매트릭스에서 트랜잭션들의 평균 항목 개수와 정의한 최소 지지도를 사용하여 빈발 항목을 탐색한다. 트랜잭션의 평균 항목 개수는 트랜잭션의 수를 줄이는데 사용되고 최소 지지도는 항목을 줄이는데 사용된다. 제안한 알고리즘의 성능 평가는 기존 알고리즘과의 탐색시간 비교와 정확도 비교로 이루어진다. 실험 결과는 제안한 알고리즘이 기존의 Apriori와 매트릭스 알고리즘보다 최종 빈발 항목의 추출에서 빠르고 효율적으로 탐색이 이루어지는 것을 확인하였다.

데이터 스트림에서 가중치 지지도 기반 빈발 패턴 추출 방법 (An Efficient Method for Mining Frequent Patterns based on Weighted Support over Data Streams)

  • 김영희;김원영;김응모
    • 한국산학기술학회논문지
    • /
    • 제10권8호
    • /
    • pp.1998-2004
    • /
    • 2009
  • 다양한 저장 장치의 발달과 네트워크의 발전은 대용량의 데이터를 연속적으로 빠르게 생성한다. 데이터 스트림에서의 데이터 마이닝은 처리 시간 및 메모리 사용에 제한적이다. 또한 생성된 데이터를 한 번의 스캔으로 유용한 패턴을 발견할 수 있어야 하고 정보 변화 가능성이 큰 데이터 속성을 갖는 경우 최근의 정보를 반영한 빠른 분석이 가능해야 한다. 기존의 지지도 기반 마이닝 방법들은 일정 기간 동안 미리 정의된 지지도 이상의 빈발 항목에 대하여만 고려하므로 중요도가 높은 항목들을 간과하는 문제점을 가지고 있다. 본 논문에서는 시간의 변화에 따른 가변성을 고려하여 가중치 지지도를 갖는 데이터 항목들에 대하여 보다 의미 있는 정보를 제공하기 위한 효율적인 빈발패턴 추출 방법을 제안하고자 한다. 제안된 WSFI-Mine(Weighted Support Frequent Itemsets Mine) 방법은 DCT(Data Stream Closed Pattern Tree) 데이터 구조를 이용하여 패쇄 빈발 항목을 탐사한다. 제안된 알고리즘은 DSM-FI와 THUI-Mine 알고리즘과 지지도 변화에 따른 성능을 비교하였고 그 결과 비교 알고리즘 보다 수행 시간이 우수함을 보였고, 빈발 항목을 생성하는 후보 항목의 수를 줄이므로 메모리 사용량을 효율적으로 사용할 수 있음을 보였다.

빈발도와 가중치를 적용한 엣지 디바이스의 최적 이동패턴 추출 (Extraction of Optimal Moving Patterns of Edge Devices Using Frequencies and Weights)

  • 이연식;장민석
    • 한국정보통신학회논문지
    • /
    • 제26권5호
    • /
    • pp.786-792
    • /
    • 2022
  • 최근 클라우드 환경의 서비스 지연문제 해결을 위하여 응용서비스의 사용자 근접성 확보 및 계산 오프로딩을 위한 FEC (Fog/Edge Computing) 패러다임에 대한 연구가 활발하다. 엣지 디바이스 (이동객체)들의 동적 위치변화 패턴 예측방법은 FEC 환경에서 컴퓨팅 리소스의 효율적 분배 및 배치를 위하여 중요한 역할을 한다. 본 논문은 엣지 디바이스들의 이동 빈발패턴에 대한 지지도의 임계값을 적용하여 선택된 경로들을 대상으로 임의의 가중치 (거리, 시간, 혼잡도)를 추가적으로 적용한 최적 이동패턴 추출방법을 제안한다. 실험을 통하여 제안 알고리즘은 빈발도만을 적용한 OPE_freq [8] 알고리즘과 A* 및 Dijkstra 알고리즘 등과 비교한 결과, 수행시간과 노드 접근횟수를 감소시키고 보다 정확한 경로를 추출함을 알 수 있다.

시간 단위 그룹핑을 이용한 빈발 아이템셋 마이닝 (Mining Frequent Itemsets using Time Unit Grouping)

  • 황정희
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.647-653
    • /
    • 2022
  • 데이터 마이닝은 데이터를 탐색하고 분석하여 데이터 사이의 관계나 패턴 등의 지식을 탐사하는 기법이다. 실세계에서 발생하는 데이터는 시간 속성을 포함한다. 시간 속성을 포함하는 데이터에서 유용한 지식을 찾아내기 위한 시간 데이터마이닝 연구는 미래를 예측할 수 있는 예측 판단에 효율적으로 활용될 수 있다. 본 논문은 데이터베이스를 일정한 시간 간격 단위로 구분하고, 시간 단위에서 빈발한 패턴 아이템셋을 발견하기 위한 시간 단위 그룹핑을 이용하는 알고리즘을 제안한다. 제안하는 알고리즘은 시간 단위에 포함된 트랜잭션과 아이템 정보를 매트릭스로 구성하고, 그룹핑을 통한 시간 단위에서의 빈발한 아이템셋을 발견한다. 성능평가의 실험 결과에서 수행시간은 기존의 알고리즘보다 1.2배 소요되지만, 2배 이상의 빈발 아이템셋이 탐사되었다.

트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법의 성능분석 (Performance analysis of Frequent Itemset Mining Technique based on Transaction Weight Constraints)

  • 윤은일;편광범
    • 인터넷정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.67-74
    • /
    • 2015
  • 최근, 아이템들의 가치를 고려한 빈발 아이템셋 마이닝 방법은 데이터 마이닝 분야에서 가장 중요한 이슈 중 하나로 활발히 연구되어왔다. 아이템들의 가치를 고려한 마이닝 기법들은 적용 방법에 따라 크게 가중화 빈발 아이템셋 마이닝, 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝, 유틸리티 아이템셋 마이닝으로 구분된다. 본 논문에서는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝들에 대해 실증적인 분석을 수행한다. 일반적으로 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법들은 데이터베이스 내 아이템들의 가치를 고려함으로써 트랜잭션 가중치를 계산한다. 또한, 그 기법들은 계산된 각 트랜잭션의 가중치를 바탕으로 가중화 빈발 아이템셋들을 마이닝 한다. 트랜잭션 가중치는 트랜잭션 내에 높은 가치의 아이템이 많이 포함 될수록 높은 값으로 나타나기 때문에 우리는 각 트랜잭션의 가중치의 분석을 통해 그 가치를 파악할 수 있다. 우리는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법 중에서 가장 유명한 알고리즘인 WIS와 WIT-FWIs, IT-FWIs-MODIFY, WIT-FWIs-DIFF의 장 단점을 분석하고 각각의 성능을 비교한다. WIS는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝의 개념과 그 기법이 처음 제안된 알고리즘이며, 전통적인 빈발 아이템셋 마이닝 기법인 Apriori를 기반으로 하고 있다. 또 다른 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 방법인 WIT-FWIs와 WIT-FWIs-MODIFY, WIT-FWIs-DIFF는 가중화된 빈발 아이템셋 마이닝을 더 효율적으로 수행하기 위해 격자구조(Lattice) 형태의 특별한 저장구조인 WIT-tree를 이용한다. WIT-tree의 각 노드에는 아이템셋 정보와 아이템셋이 포함된 트랜잭션의 ID들이 저장되며, 이 구조를 사용함으로써 아이템셋 마이닝 과정에서 발생되는 다수의 데이터베이스 스캔 과정이 감소된다. 특히, 전통적인 알고리즘들이 수많은 데이터베이스 스캔을 수행하는 반면에, 이 알고리즘들은 WIT-tree를 이용해 데이터베이스를 오직 한번만 읽음으로써 마이닝과정에서 발생 가능한 오버헤드 문제를 해결한다. 또한, 공통적으로 길이 N의 두 아이템셋을 이용해 길이 N+1의 새로운 아이템셋을 생성한다. 먼저, WIT-FWIs는 각 아이템셋이 동시에 발생되는 트랜잭션들의 정보를 활용하는 것이 특징이다. WIT-FWIs-MODIFY는 조합되는 아이템셋의 정보를 이용해 빈도수 계산에 필요한 연산을 줄인 알고리즘이다. WIT-FWIs-DIFF는 두 아이템셋 중 하나만 발생한 트랜잭션의 정보를 이용한다. 우리는 다양한 실험환경에서 각 알고리즘의 성능을 비교분석하기 위해 각 트랜잭션의 형태가 유사한 dense 데이터와 각 트랜잭션의 구성이 서로 다른 sparse 데이터를 이용해 마이닝 시간과 최대 메모리 사용량을 평가한다. 또한, 각 알고리즘의 안정성을 평가하기 위한 확장성 테스트를 수행한다. 결과적으로, dense 데이터에서는 WIT-FWIs와 WIT-FWIs-MODIFY가 다른 알고리즘들보다 좋은 성능을 보이고 sparse 데이터에서는 WIT-FWI-DIFF가 가장 좋은 효율성을 갖는다. WIS는 더 많은 연산을 수행하는 알고리즘을 기반으로 했기 때문에 평균적으로 가장 낮은 성능을 보인다.

수량 연관규칙 탐사를 위한 빈발구간 항목집합 생성방법 (A Large-Interval Itemsets Generation Method for Mining Quantitative Association Rules)

  • 박원환;박두순;유기형;손진곤
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.402-407
    • /
    • 2001
  • 대용량의 데이터베이스로부터 연관규칙을 발견하고자 하는 연구가 활발하며, 수량 데이터의 항복에도 적용할 수 있도록 이들 방법을 확장하는 연구가 최근에 소개되고 있다. 본 논문에서는 수량 데이터 항목을 이진 항목으로 변환하기 위하여 빈발구간 항목집합을 생성할 때, 수량 데이터 항목의 정의 영역 내에서 특정 영역에 집중하여 발생하는 특성인 지역성을 이용하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 세밀의 정도를 판단하여 활용할 수 있는 생성순서 정보도 포함하고 있어, 원 데이터가 가지고 있는 특성의 손실을 최소화한 수 있는 특징이 있다. 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF