• 제목/요약/키워드: 순차탐색

검색결과 187건 처리시간 0.023초

퀀터티가 있는 순차 패턴을 찾는 깊이 우선 탐색 알고리즘 (An Efficient Depth First Algorithm for Mining Sequential Patterns with Quantities)

  • 김철연;심규석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.13-15
    • /
    • 2004
  • 순차 패턴을 찾는 것은 데이타 마이닝 응용분야에서 중요한 문제이다. 기존의 순차 패턴 마이닝 알고리즘들은 아이템으로만 이루어진 순차 패턴만을 취급하였으나 Apriori-QSP에서는 새롭게 퀀터티 정보에 대한 처리의 개념을 도입하였다. 전채 순차 패턴을 찾는 알고리즘들은 너비 우선 탐색과 깊이 우선 탐색 기법으로 분류할 수 있는데, 이러한 분류에서 Apriori-QSP알고리즘은 너비 우선 탐색 기법으로 분류할 수 있다. 본 논문에서는 퀀터티 정보를 처리하는 깊이 우선 탐색 기법을 제안하였다. Apriori-QSP에서 제안되었던 후보패턴 생성에 대한 필터링파 샘플링 기법을 깊이 우선 탐색의 탐색 기법으로 적용하였으며, 다양한 실험 결과들이 깊이 우선 탐색에서도 이러한 기법이 효율적임을 보여 주고 있다. 또한 길이가 긴 순차 패턴 마이닝의 경우 너비우선 탐색에 비해 향상된 성능을 보임을 확인하였다.

  • PDF

대용량 순차 데이터베이스에서 근사 순차패턴 탐색 (Mining Approximate Sequential Patterns in a Large Sequence Database)

  • 금혜정;장중혁
    • 정보처리학회논문지D
    • /
    • 제13D권2호
    • /
    • pp.199-206
    • /
    • 2006
  • 순차패턴 탐색은 다양한 응용 분야에서 매우 중요한 데이터 마이닝 작업으로 간주된다. 그러나 기존의 순차패턴 탐색 방법들은 길이가 긴 순차패턴이나 노이즈 정보를 다수 포함한 데이터베이스에 대한 마이닝에서는 한계가 있다. 해당 방법들은 매우 짧고 사소한 패턴들은 탐색하지만 다수의 순차 정보들에서 공유되는 중요 패턴들을 분석하는데 어려움을 겪는다. 본 논문에서는 이러한 문제를 해결하기 위한 방법으로 대용량 데이터베이스에 대한 근사 순차패턴 탐색 방법을 제안한다. 근사 순차패턴은 다수의 순차 정보들에서 근사적으로 공유되는 순차패턴을 의미한다. 제안된 방법은 두 과정으로 구분된다. 하나는 유사도에 따라 분석 대상 순차 정보들을 몇 개의 군집으로 나누는 과정이며, 다른 하나는 다중 정렬 방식을 적용하여 각 군집으로부터 대표 패턴을 찾는 과정이다. 이를 위해서 다수의 순차 정보들을 하나로 표현할 수 있는 가중치 순차패턴을 제시하며, 다수의 순차 정보들은 가중치 순차패턴 형태로 통합된다. 이렇게 통합된 정보를 가진 각 가중치 순차패턴을 이용하여 여러 순차 정보와 근사한 하나의 대표 패턴을 생성한다. 끝으로, 다양한 실험을 통해서 제안된 방법의 유용성을 검증한다.

순차 데이터 스트림에서 발생 간격 제한 조건을 활용한 빈발 순차 패턴 탐색 (Mining Frequent Sequential Patterns over Sequence Data Streams with a Gap-Constraint)

  • 장중혁
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권9호
    • /
    • pp.35-46
    • /
    • 2010
  • 순차 패턴 탐색은 데이터 마이닝의 주요 기법 중의 하나로서 웹기반 시스템, 전자상거래, 생물정보학 및 USN 환경 등과 같은 여러 컴퓨터 응용 분야에서 생성되는 데이터를 효율적으로 분석하기 위하여 널리 활용되고 있다. 한편 이들 응용 분야에서 생성되는 정보들은 근래들어 한정적인 데이터 집합이 아닌 구성요소가 지속적으로 생성되는 데이터 스트림 형태로 생성되고 있다. 이러한 상황을 고려하여 데이터 스트림에서 순차패턴 탐색에 대한 연구들도 활발히 진행되고 있다. 하지만 이전의 연구들은 주로 분석 대상 데이터 스트림에서 단순 순차패턴을 구하는 과정에서 마이닝 수행 시간이나 메모리 사용량 등을 줄이는데 초점을 맞추고 있으며, 따라서 해당 데이터 스트림의 특성을 효율적으로 표현할 수 있는 보다 중요하고 의미있는 패턴들을 탐색하기 위한 연구는 거의 진행되지 못하고 있다. 본 논문에서는 데이터 스트림에서 보다 의미있는 순차패턴을 탐색하기 위한 방법으로 구성요소의 발생 간격 제한 조건을 활용한 빈발 순차패턴 탐색 방법을 제안한다. 먼저 발생 간격 정의 기준 및 발생 간격제한 빈발 순차패턴의 개념을 제시하고, 이어서 데이터 스트림에서 발생 간격 제한 조건을 적용하여 빈발 순차패턴을 효율적으로 탐색할 수 있는 마이닝 방법을 제안한다.

SuffixSpan: 순차패턴 마이닝을 위한 형식적 접근방법 (SuffixSpan: A Formal Approach For Mining Sequential Patterns)

  • 조동영
    • 컴퓨터교육학회논문지
    • /
    • 제5권4호
    • /
    • pp.53-60
    • /
    • 2002
  • GSP와 같은 Apriori-like 순차패턴 마이닝 방법들은 마이닝 과정에서 많은 후보패턴들을 생성하고, 대용량 데이타베이스의 반복적인 탐색을 필요로 하는 문제점이 있다. 그리고 후보패턴들의 탐색공간을 줄이기 위해 단계별로 프레픽스-프로젝티드 (prefix-projected) 데이터베이스를 구성하는 PrefixSpan 방법은 탐색공간을 줄이지만 프로젝티드 데이터베이스의 구성비용이 문제가 된다. 효율적인 순차패턴 마이닝을 위해서는 후보패턴의 생성비용과 탐색공간을 모두 줄여야 한다. 본 논문에서는 이를 위한 새로운 순차패턴 마이닝 방법인 SuffixSpan(Suffix checked Sequential Pattern mining)을 설명하고, 이에 대한 형식적 접근을 보인다.

  • PDF

다중 클래스 데이터를 위한 분류오차 최소화기반 특징추출 기법 (Optimizing Feature Extractioin for Multiclass problems Based on Classification Error)

  • 최의선;이철희
    • 대한전자공학회논문지SP
    • /
    • 제37권2호
    • /
    • pp.39-49
    • /
    • 2000
  • 본 논문에서는 다중 클래스 데이터를 위한 특징 추출 방법을 최적화하는 기법을 제안한다 제안된 특징 추출 기법은 분류 오차에 기반한 방법으로 특징 공간(feature space)을 탐색하여 가우시안 최대우도 분류기 (Gaussian ML Classifier)의 분류오차(classification error)가 최소가 되도록 하는 특징벡터 집합을 구하는 방법이다 제안된 방법은 임의의 초기 특징벡터를 설정한 후 steepest descent 알고리즘을 적용하여 분류오차가 감소하는 방향으로 초기벡터를 갱신시킨다 본 논문에서는 순차탐색 및 전체탐색 두 가지의 방법을 제안하며 순차탐색은 추가로 특징벡터를 구하는 경우 이미 구해진 특징벡터를 포함하여 최소의 분류오차를 얻을 수 있는 특징벡터를 구한다 반면에 전체탐색 방법은 추가의 특징벡터를 구할 경우 새로운 초기 특징벡터 집합을 설정하여 이미 구해진 특징벡터를 포함하는 제약을 받지 않는다. 실험결과 제안된 두 가지 방법은 기존의 특징추출 방법보다 우수한 성능을 보여주고 있다.

  • PDF

순차패턴 마이닝에서 발생 간격 기반 가중치 부여 기법 (A Gap-based Weighting Approach in Mining Sequential Patterns)

  • 장중혁;신무종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.300-303
    • /
    • 2010
  • 순차패턴 마이닝에서 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서뿐만 아니라 구성요소의 가중치를 추가로 고려할 수 있다. 본 논문에서는 순차패턴 마이닝에서 가중치 순차패턴을 탐색하기 위한 가중치 계산 기법으로 발생 간격에 기반한 순차패턴 가중치 부여 기법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생 순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻도록 지원한다.

스트림 데이터에서 동적 가중치를 이용한 순차 패턴 탐사 기법 (A Sequential Pattern Mining based on Dynamic Weight in Data Stream)

  • 최필선;김환;김대인;황부현
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.137-144
    • /
    • 2013
  • 순차 패턴 탐사 기법은 순서를 갖는 패턴들의 집합 중에 빈발하게 발생하는 패턴을 탐사하는 기법이다. 순차 패턴 탐사 분야 중에 동적 가중치 순차 패턴 탐사는 가중치가 시간에 따라 변화하는 컴퓨팅 환경에 적용 가능한 탐사 기법으로 동적인 가중치 변화를 탐색 과정에 적용하여 다양한 환경에서 활용 가능하다. 이 논문에서는 다양한 순차 데이터가 들어오는 스트림 환경에서 동적 가중치를 적용하여 빈발한 이벤트들을 탐사하는 새로운 순차 패턴 탐사 기법을 제안한다. 제안하는 기법은 시간 순서에 의한 상대적인 동적 가중치를 사용하여 탐색해야 하는 후보 패턴을 줄여주고 해시 구조를 통한 데이터 입출력으로 빈발한 순차 패턴을 빠르게 탐사할 수 있다. 이 기법을 사용하면 기존 가중치를 적용하는 방식보다 메모리 사용과 처리 시간을 줄여줘 매우 효율적이다. 제안하는 기법은 다른 가중치 순차 패턴 탐사 기법과의 비교를 통해 동적 가중치 탐사 기법의 중요성을 보인다.

근사 알고리즘을 이용한 순차패턴 탐색 (Searching Sequential Patterns by Approximation Algorithm)

  • 산사볼트가람라흐차;황영섭
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권5호
    • /
    • pp.29-36
    • /
    • 2009
  • 서열데이터베이스에 있는 자주 발현하는 부분 서열을 패턴으로 찾아내는 순차패턴 탐색은 넓은 응용 분야를 가지는 중요한 데이터 마이닝 문제이다. DNA 서열에서 순차패턴이 모티프가 될 수 있으므로 DNA 서열에서 순차패턴을 찾는 것을 연구하였다. 대부분의 기존 마이닝 방법은 순차패턴의 정의에 따라 정확한 정합에 주력하여 노이즈가 있는 환경이나 실제 문제에서 발생하는 부정확한 데이터에 대하여 제대로 작동하지 않을 수 있다. 이러한 문제가 생물 데이터인 DNA 서열에서 자주 나타난다. 이러한 문제를 다루기 위한 근사 정합 방법을 연구하였다. 본 연구의 아이디어는 자주 발생하는 패턴을 근사 패턴이라 부르는 그룹으로 분류할 수 있다는 관찰에서 기반을 둔다. 기존의 Prefixspan 알고리즘은 주어진 긴 서열에서 순차패턴을 잘 찾을 수 있다. 본 연구는 Prefixspan 알고리즘을 개선하여 유사한 순차패턴을 찾을 수 있게 하였다. 실험 결과는 PreFixSpan보다 제안한 방법이 패턴 길이가 4일 때, 근사 순차패턴의 빈도가 5배 높아짐을 보였다.

발생 간격 기반 가중치 부여 기법을 활용한 데이터 스트림에서 가중치 순차패턴 탐색 (Finding Weighted Sequential Patterns over Data Streams via a Gap-based Weighting Approach)

  • 장중혁
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.55-75
    • /
    • 2010
  • 일반적인 순차패턴 마이닝에서는 분석 대상 데이터 집합에 포함되는 구성요소의 발생 순서만을 고려하며, 따라서 단순 순차패턴은 쉽게 찾을 수 있는 반면 실제 응용 분야에서 널리 활용될 수 있는 관심도가 큰 순차패턴을 탐색하는데 한계가 있다. 이러한 단점을 보완하기 위한 대표적인 연구 주제들 중의 하나가 가중치 순차패턴 탐색이다. 가중치 순차패턴 탐색에서는 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서 뿐만 아니라 구성요소의 가중치를 추가로 고려한다. 본 논문에서는 발생 간격에 기반 한 순차패턴 가중치 부여 기법 및 이를 활용한 순차 데이터 스트림에 대한 가중치 순차패턴 탐색 방법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻는데 도움이 된다. 한편, 근래 대부분의 컴퓨터 응용 분야에서는 한정적인 데이터 집합 형태가 아닌 데이터 스트림 형태로 정보를 발생시키고 있다. 이와 같은 데이터 생성 환경의 변화를 고려하여 본 논문에서는 순차 데이터 스트림을 마이닝 대상으로 고려하였다.

특징 선택을 위한 혼합형 유전 알고리즘과 분류 성능 비교 (Hybrid Genetic Algorithms for Feature Selection and Classification Performance Comparisons)

  • 오일석;이진선;문병로
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1113-1120
    • /
    • 2004
  • 이 논문은 특징 선택을 위한 새로운 혼합형 유전 알고리즘을 제안한다. 탐색을 미세 조정하기 위한 지역 연산을 고안하였고, 이들 연산을 유전 알고리즘에 삽입하였다. 연산의 미세 조정 강도를 조절할 수 있는 매개 변수를 설정하였으며, 이 변수에 따른 효과를 측정하였다. 다양한 표준 데이타 집합에 대해 실험한 결과, 제안한 혼합형 유전 알고리즘이 단순 유전 알고리즘과 순차 탐색 알고리즘에 비해 우수함을 확인하였다.