• 제목/요약/키워드: 빈발 패턴 마이닝

검색결과 94건 처리시간 0.024초

순차 데이터 스트림에서 발생 간격 제한 조건을 활용한 빈발 순차 패턴 탐색 (Mining Frequent Sequential Patterns over Sequence Data Streams with a Gap-Constraint)

  • 장중혁
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권9호
    • /
    • pp.35-46
    • /
    • 2010
  • 순차 패턴 탐색은 데이터 마이닝의 주요 기법 중의 하나로서 웹기반 시스템, 전자상거래, 생물정보학 및 USN 환경 등과 같은 여러 컴퓨터 응용 분야에서 생성되는 데이터를 효율적으로 분석하기 위하여 널리 활용되고 있다. 한편 이들 응용 분야에서 생성되는 정보들은 근래들어 한정적인 데이터 집합이 아닌 구성요소가 지속적으로 생성되는 데이터 스트림 형태로 생성되고 있다. 이러한 상황을 고려하여 데이터 스트림에서 순차패턴 탐색에 대한 연구들도 활발히 진행되고 있다. 하지만 이전의 연구들은 주로 분석 대상 데이터 스트림에서 단순 순차패턴을 구하는 과정에서 마이닝 수행 시간이나 메모리 사용량 등을 줄이는데 초점을 맞추고 있으며, 따라서 해당 데이터 스트림의 특성을 효율적으로 표현할 수 있는 보다 중요하고 의미있는 패턴들을 탐색하기 위한 연구는 거의 진행되지 못하고 있다. 본 논문에서는 데이터 스트림에서 보다 의미있는 순차패턴을 탐색하기 위한 방법으로 구성요소의 발생 간격 제한 조건을 활용한 빈발 순차패턴 탐색 방법을 제안한다. 먼저 발생 간격 정의 기준 및 발생 간격제한 빈발 순차패턴의 개념을 제시하고, 이어서 데이터 스트림에서 발생 간격 제한 조건을 적용하여 빈발 순차패턴을 효율적으로 탐색할 수 있는 마이닝 방법을 제안한다.

전자상거래 추천을 위한 RFM기반의 점진적 빈발 패턴 마이닝 기법 (RFM based Incremental Frequent Patterns mining Method for Recommendation in e-Commerce)

  • 조영성;문송철;류근호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2012년도 제46차 하계학술발표논문집 20권2호
    • /
    • pp.135-137
    • /
    • 2012
  • 기존의 연관규칙을 이용한 추천시스템은 점진적으로 증가하는 트랜잭션 데이터를 처리하기 위해서 기존에 처리한 데이터를 재처리하는 비효율성의 문제가 있다. 본 논문에서는 전자상거래에서 RFM(Recency, Frequency, Monetary)기반의 점진적 빈발 패턴 마이닝을 이용한 추천기법을 제안한다. 제안 방법은 새로운 트랜잭션 데이터가 추가 되었을 때 보다 빠른 시간 내에 연관규칙을 추출이 가능하다.

  • PDF

생물학적 서열들에서 빈발한 연속 서열 패턴 마이닝 (Mining Frequent Contiguous Sequence Patterns in Biological Sequences)

  • 강태호;유재수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (B)
    • /
    • pp.27-31
    • /
    • 2007
  • 생물학적 서열 데이터는 크게 DNA 염기 서열과 단백질 아미노산 서열이 있다. 이들 서열은 일반적으로 많은 수의 항목들을 가지고 있어 그 길이가 매우 길다. 생물학적 데이터 서열들에는 보통 빈번하게 발생하는 부분 연속 서열들이 존재하는데 이들 서열들을 찾아내는 것은 다양한 서열 분석에서 유용하게 사용될 수 있다. 이를 위해 초기에는 Apriori 알고리즘을 기반으로 하는 순차패턴 마이닝 알고리즘들을 활용하는 방법들이 많이 제시되었다. 그중 PrefixSpan 알고리즘은 Apriori기반의 가장 효율적인 순차패턴 마이닝 기법이다. 하지만 이 알고리즘은 길이-1인 빈발 패턴들로부터 서열 패턴을 확장해나가는 방식으로 길이가 긴 연속 서열을 포함하는 생물학적 데이터 서열들에 대한 검색방법으로는 적합하지 않다. 최근에는 기존의 PrefixSpan방식을 이용하면서도 반복적인 처리과정을 줄인 MacosVSpan이 제안되었다. 하지만 이 알고리즘 또한 원본 데이터베이스보다 크기가 큰 별도의 프로젝션 데이터베이스를 사용함으로서 많은 비용부담이 발생하고 특히 길이가 긴 서열에 대해서는 더욱 효율적이지 못하다. 이에 본 논문에서 많은 양의 생물학적 데이터 서열들로부터 빈번한 연속서열을 고정길이 확장 트리를 이용하여 효과적으로 찾아내는 방법을 제안한다. 그리고 다양한 환경에서 실험을 통해 제안하는 방식이 MacosVSpan알고리즘에 비해 검색 성능이 우수함을 증명한다.

  • PDF

희소 데이터 집합에서 효율적인 빈발 항목집합 탐사 기법 (Efficient Mining of Frequent Itemsets in a Sparse Data Set)

  • 박인창;장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제12D권6호
    • /
    • pp.817-828
    • /
    • 2005
  • 빈발 항목집합 마이닝 분야의 주된 연구 주제는 수행과정에서의 메모리 사용량을 줄이고 짧은 수행 시간에 마이닝 결과 집합을 얻는 것으로서, 빈발항목 탐색을 위한 다수의 방법들은 Apriori 알고리즘에 기반을 둔 다중 탐색 방법들이다. 또한 최대 빈발 패턴의 길이가 길어질수록 마이닝 수행 시간이 급격히 증가되는 단점을 가진다. 이를 극복하기 위해서 이전의 연구에서 마이닝 수행 시간을 단축하기 위한 다양한 방법들이 제안되었다. 하지만, 다수의 이들 방법들은 희소 데이터 집합에서는 다소 비효율적인 성능을 나타낸다. 본 논문에서도 효율적인 빈발항목 탐색 방법을 제안하였다. 먼저 빈발항목 탐색을 위한 새로운 트리 구조인 $L_2$-tree 구조를 제안하였으며, 더불어 $L_2$-tree를 이용하여 빈발 항목집합을 탐색하는 $L_2$-traverse 알고리즘을 제안하였다. $L_2$-traverse 구조는 길이가 2인 빈발 항목집합 $L_2$에 기반하여 생성되는 것으로서 크기가 매우 작으며, 이를 활용한 $L_2$-traverse 알고리즘은 $L_2$-tree를 단순히 한번 탐색함으로써 전체 빈발 항목집합을 빠른 시간에 구한다. 또한 수행 시간을 보다 단축할 수 있는 방법으로 길이가 3인 빈발 항목집합 $L_3$가 될 수 없는 $L_2$ 패턴들을 미리 제거하는 $C_3$-traverse 알고리즘도 제안하였다. 다양한 실험을 통해 제안된 방법들은 특히 $L_2$가 상대적으로 적은 희소 데이터 집합 환경일 때 기존의 다른 방법들보다 우수함을 검증하였다.

적응형 웹 사이트 구축을 위한 연관규칙 알고리즘 개발과 적용 (Development and Application of An Adaptive Web Site Construction Algorithm)

  • 최윤희;전우천
    • 정보처리학회논문지D
    • /
    • 제16D권3호
    • /
    • pp.423-432
    • /
    • 2009
  • 컴퓨터의 보급과 인터넷의 발달로 인해 데이터의 유통은 증가하고 있으나 전통적인 방법으로는 가치 있고 의미 있는 정보를 획득하는 것은 어렵다. 또한, 정보화 사회에서의 많은 정보 중에서 자신에게 알맞은 정보를 탐사하는 데이터 마이닝의 필요성이 대두되고 있다. 또한 사용자들의 편리한 인터넷 항해를 돕고 적절한 정보를 제공할 수 있는 적응형 웹 사이트에 관한 연구도 필요하다. 본 연구의 목적은 사용자들에게 연관성이 있는 웹 페이지를 연결해 주는 적응형 웹 사이트 구축을 위해 웹 로그 분석을 통한 웹 사이트 사용자들의 행동 패턴을 발견하는 연관규칙 알고리즘의 개발에 있다. 데이터 마이닝의 기법 중에서 연관규칙은 웹 사이트에 접속하는 사용자들의 행동을 파악하는데 효과적이다. 본 논문에서는 웹 사용 마이닝을 이용하여 웹 서버의 로그 데이터를 분석하여 트랜잭션을 구성하고, 사용자들의 행동 패턴을 발견하기 위한 의미 있는 문서만을 추출하여 추출된 문서를 대상으로 발견한 빈발 항목으로 연결리스트를 구성하며, 빈발 패턴을 찾아 웹 페이지에 적용하는 일련의 알고리즘을 제안한다. 제안한 알고리즘의 특징은 첫째, 빈발패턴 발견을 위해 생성하는 연결리스트 이외에는 마이닝 과정에서 다른 중간생성물이 필요하지 않으므로 공간 사용면에 있어 효율적이다. 둘째, 기존의 연관규칙 알고리즘에 비해 데이터 베이스의 스캔 횟수를 줄이고, 시간복잡도를 개선하였다.

순차 패턴 알고리즘의 분류 및 분석 (Classification and Analysis of Sequential Pattern Algorithms)

  • 이양우;이헌규;김룡;서성보;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1587-1590
    • /
    • 2003
  • 순차 패턴 마이닝은 대량의 시퀀스 데이터베이스에서 빈발 서브 시퀀스를 찾는 기법이다. 지금까지 많은 순차 패턴 마이닝에 관한 연구들이 순차 패턴을 효율적으로 찾기 위하여 제안되었다. 그러나 제안된 방법들은 응용에 적용할 수 있도록 체계적으로 분류되어 있지 않다. 따라서 이 논문에서는 알고리즘에 대한 연구들을 분류하고 이들 중 대표적인 알고리즘들을 선정하여 각각에 대해 분석하였다. 그리고 각 응용 도메인에 적용한 연구들과 기술적인 문제를 해결하는 연구들에 대해 정리하였다. 마지막으로 성능 향상을 위한 기법이나 자로 구조에 대해 언급하고 향후 순차 패턴 마이닝의 연구 방향을 제시하였다. 이 연구는 실제 응용에 적합한 순차 패턴 마이닝 알고리즘의 선택과 향후 새로운 순차 패턴 알고리즘 연구의 기반을 제공할 것이다.

  • PDF

상위 K 하이 유틸리티 패턴 마이닝 기법 성능분석 (Performance Analysis of Top-K High Utility Pattern Mining Methods)

  • 양흥모;윤은일;김철홍
    • 인터넷정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.89-95
    • /
    • 2015
  • 전통적인 빈발 패턴 마이닝은 데이터베이스로부터 사용자 정의 최소 임계치 이상의 빈도수를 가지는 유효 패턴들을 식별한다. 적절한 임계치 설정은 해당 도메인에 대한 사전 지식을 요구하므로 쉬운 작업이 아니다. 따라서 임계치 설정을 통한 마이닝 결과의 정밀한 제어 불가능으로 인해 도메인 지식을 기반으로 하지 않는 패턴 마이닝 방법이 필요하게 되었다. 상위 K 빈발 패턴 마이닝은 이러한 문제를 해결하기 위해 제안되었으며, 임계치 설정 없이 상위 K개의 중요 패턴들을 마이닝 한다. 사용자는 이를 적용함으로써 데이터베이스에 상관없이 가장 높은 빈도수의 패턴부터 K번째로 높은 빈도수의 패턴까지 찾아낼 수 있다. 비록 상위 K 빈발 패턴 마이닝이 임계치 설정 없이 상위 K개의 중요 패턴들을 마이닝 하지만, 트랜잭션 내 아이템 수량과 데이터베이스 내 서로 다른 아이템 중요도를 고려하지 못하여 많은 실세계 응용의 요구에 부합하지 못한다. 하이 유틸리티 패턴 마이닝은 아이템 중요도가 포함된 비 바이너리 데이터베이스의 특성을 고려하기 위해 제안되었으나 최소 임계치를 필요로 한다. 최근 임계치 설정 없는 하이 유틸리티 패턴 마이닝을 위한 상위 K 하이 유틸리티 패턴 마이닝이 개발되었으며, 이를 통해 사용자는 사전 지식 없이 원하는 수의 패턴을 마이닝 할 수 있다. 본 논문은 상위 K 하이 유틸리티 패턴 마이닝을 위한 알고리즘을 분석한다. 최신 알고리즘에 대한 성능분석을 통해 개선사항 및 발전 방향에 대해 고찰한다.

이동 객체 데이터베이스에서 빈발 시퀀스 패턴 탐색 (Discovery of Frequent Sequence Pattern in Moving Object Databases)

  • ;이범주;류근호
    • 정보처리학회논문지D
    • /
    • 제15D권2호
    • /
    • pp.179-186
    • /
    • 2008
  • 위치 기반 장치의 발전과, GIS 기능의 확장 그리고 위치 정보기술들의 정확성과 가용성이 증가함에 따라서 위치 기반 서비스들의 새로운 영역에 대한 새로운 가능성이 나타나게 되었다. 데이터의 시간과 공간 형태에 따라서 정의되는 Relationship에 기인하여 시공간 데이터 마이닝 영역에서 공간에 대한 지식 검색이 증가할 경우 매우 큰 문제에 직면한다. 이 논문에서는 모바일 환경에서 시공간 패턴 마이닝을 위한 알고리즘들을 제안한다. 이동 패턴들은 All_MOP와 Max_MOP 두 개의 알고리즘을 활용하여 생성된다. 이 알고리즘들은 먼저 모든 빈발 패턴들을 탐사한 후 오직 최대의 빈발 패턴만을 탐사한다. 아울러, 제안한 기법과 기존의 DFS_MINE 기법의 수행 시간 비교를 통하여 제안한 기법이 수행시간에서 다소 우수한 것을 나타낸다. 이러한 제안접근법은 관광 서비스, 교통 서비스 등과 같은 위치 기반 서비스 등에 활용할 수 있다.

스트림 데이터에서 동적 가중치를 이용한 순차 패턴 탐사 기법 (A Sequential Pattern Mining based on Dynamic Weight in Data Stream)

  • 최필선;김환;김대인;황부현
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.137-144
    • /
    • 2013
  • 순차 패턴 탐사 기법은 순서를 갖는 패턴들의 집합 중에 빈발하게 발생하는 패턴을 탐사하는 기법이다. 순차 패턴 탐사 분야 중에 동적 가중치 순차 패턴 탐사는 가중치가 시간에 따라 변화하는 컴퓨팅 환경에 적용 가능한 탐사 기법으로 동적인 가중치 변화를 탐색 과정에 적용하여 다양한 환경에서 활용 가능하다. 이 논문에서는 다양한 순차 데이터가 들어오는 스트림 환경에서 동적 가중치를 적용하여 빈발한 이벤트들을 탐사하는 새로운 순차 패턴 탐사 기법을 제안한다. 제안하는 기법은 시간 순서에 의한 상대적인 동적 가중치를 사용하여 탐색해야 하는 후보 패턴을 줄여주고 해시 구조를 통한 데이터 입출력으로 빈발한 순차 패턴을 빠르게 탐사할 수 있다. 이 기법을 사용하면 기존 가중치를 적용하는 방식보다 메모리 사용과 처리 시간을 줄여줘 매우 효율적이다. 제안하는 기법은 다른 가중치 순차 패턴 탐사 기법과의 비교를 통해 동적 가중치 탐사 기법의 중요성을 보인다.