DOI QR코드

DOI QR Code

근사 알고리즘을 이용한 순차패턴 탐색

Searching Sequential Patterns by Approximation Algorithm

  • 발행 : 2009.05.31

초록

서열데이터베이스에 있는 자주 발현하는 부분 서열을 패턴으로 찾아내는 순차패턴 탐색은 넓은 응용 분야를 가지는 중요한 데이터 마이닝 문제이다. DNA 서열에서 순차패턴이 모티프가 될 수 있으므로 DNA 서열에서 순차패턴을 찾는 것을 연구하였다. 대부분의 기존 마이닝 방법은 순차패턴의 정의에 따라 정확한 정합에 주력하여 노이즈가 있는 환경이나 실제 문제에서 발생하는 부정확한 데이터에 대하여 제대로 작동하지 않을 수 있다. 이러한 문제가 생물 데이터인 DNA 서열에서 자주 나타난다. 이러한 문제를 다루기 위한 근사 정합 방법을 연구하였다. 본 연구의 아이디어는 자주 발생하는 패턴을 근사 패턴이라 부르는 그룹으로 분류할 수 있다는 관찰에서 기반을 둔다. 기존의 Prefixspan 알고리즘은 주어진 긴 서열에서 순차패턴을 잘 찾을 수 있다. 본 연구는 Prefixspan 알고리즘을 개선하여 유사한 순차패턴을 찾을 수 있게 하였다. 실험 결과는 PreFixSpan보다 제안한 방법이 패턴 길이가 4일 때, 근사 순차패턴의 빈도가 5배 높아짐을 보였다.

Sequential pattern mining, which discovers frequent subsequences as patterns in a sequence database, is an important data mining problem with broad applications. Since a sequential pattern in DNA sequences can be a motif, we studied to find sequential patterns in DNA sequences. Most previously proposed mining algorithms follow the exact matching with a sequential pattern definition. They are not able to work in noisy environments and inaccurate data in practice. Theses problems occurs frequently in DNA sequences which is a biological data. We investigated approximate matching method to deal with those cases. Our idea is based on the observation that all occurrences of a frequent pattern can be classified into groups, which we call approximated pattern. The existing PrefixSpan algorithm can successfully find sequential patterns in a long sequence. We improved the PrefixSpan algorithm to find approximate sequential patterns. The experimental results showed that the number of repeats from the proposed method was 5 times more than that of PrefixSpan when the pattern length is 4.

키워드

참고문헌

  1. R. Agrawal and R. Srikant. "Fast algorithms for mining association rules," In Proc. 1994 Int. Conf. VeryLarge Data, Bases (VLDB'94), pp.487-499, Santiago, Chile, Sept. 1994.
  2. Antunes C and Oliveira A.L.: "Generalization of Pattern-Growth Methods for Sequential Pattern Mining with Gap Constraints," in Int'l Conf Machine Learning and Data Mining, pp.239-251, 2003.
  3. J. Pei, J. Han, B. Mortazavi-Asl. J. Wang, H. Pinto, Q. Chen, U. Dayal, Mei-Chun Hsu "Mining Sequential Patterns by Pattern-Growth: The PrefixSpan Approach," IEEE Transactions on knowledge and engineering, Vol.16, No.10, pp.1424-1440, 2004. https://doi.org/10.1109/TKDE.2004.77
  4. J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal, and M.-C. Hsu, "PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth," Proc. 2001 Int. Conf. on Data Engineering (ICDE'01). Heidelberg, Germany. pp.215-224, April 2001.
  5. J. Han, J. Pei, B. Mortazavi-Asl, Q. Chen, U. Dayal, and M.-X. Hsu, "FreeSpan: Frequent Pattern-Projected Sequential Pattern Mining," Proc. 2000 Int. Conf. Knowledge Discovery and Data Mining (KDD'00), Boston, MA, pp.355-359, Aug. 2000.
  6. M. J. Zaki, "SPADE: An Efficient Algorithm for Mining Frequent Sequences," in Machine Learning Journal, special issue on Unsupervised Learning (Doug Fisher, ed.), pp.31-60, Vol.42(1/2), Jan/Feb 2001.
  7. J. Han, J. Pei, and Y. Yin, "Mining frequent patterns without candidate generation," In Proc. 2000 ACM-SIGMOD Int., Conf. Management of Data (SIGMOD'00), pp.1-12, Dallas, TX, May 2000.
  8. H.C. Kum, J. Pei, W. Wang, and D. Duncan. Approx-MAP:"Approximate Mining of Consensus Sequential Patterns," Technical Report TR02-031, UNC-CH, 2002.
  9. Antunes, C. and Oliveira, A.L., "Sequential Pattern Mining with Approximated Constraints," Int. Conf Applied Computing, IADIS, pp.131-138, 2004.
  10. 이병일, 이종연, 정순기, "클러스터링 분기를 이용한 다중 서열 정렬 알고리즘," 한국 컴퓨터정보학회 논문지, 제10권 제5호, 1-10쪽, 2005년 11월.
  11. 홍창범, 차정호, 이성훈, 신승우, 박근준, 박근용, "클러스터링 환경에서의 MPI 기반 병렬 서열 유사성 검색에 관한 연구," 한국 컴퓨터정보학회 논문지, 제11권 제6호, 69-78쪽, 2006년 12월.
  12. 남성혁, 김태경, 김경란, 조완섭, "서비스 지향 구조 기반의 EST 서열의 주해 시스템," 한국 컴퓨터정보학회 논문지, 제13권 제3호, 35-44쪽, 2008년 5월.
  13. 김학자, 황환규, "점진적인 순차 패턴 갱신 알고리즘," 전자공학회논문지, 제43권 제5호, 17-28쪽, 2006년 9월.
  14. 강태호, 유재수, "생물학적 서열들에서 빈발한 연속 서열 패턴 마이닝," 한국컴퓨터종합학술대회 논문집, Vol.34, No.1(B), 27-31쪽, 2007년 6월.
  15. 금혜정, 장중혁, "대용량 순차 데이터베이스에서 근사순차패턴 탐색," 정보처리학회논문지D, 제13-D권 제2호, 199-206쪽, 2006년 2월.
  16. 허용도, 조동영, 박두순, "서픽스 검사를 이용한 단계적 순차패턴 분할 탐사 방법," 멀티미디어학회 논문지, 제5권 제5호, 590-598쪽, 2002년 10월.