• 제목/요약/키워드: Frequent Patterns

검색결과 572건 처리시간 0.027초

맵리듀스 프레임웍 상에서 맵리듀스 함수 호출을 최적화하는 순차 패턴 마이닝 기법 (Sequential Pattern Mining with Optimization Calling MapReduce Function on MapReduce Framework)

  • 김진현;심규석
    • 정보처리학회논문지D
    • /
    • 제18D권2호
    • /
    • pp.81-88
    • /
    • 2011
  • 시퀀스(sequence) 데이터가 주어졌을 때 그 중에서 빈번(frequent)한 순차 패턴을 찾는 순차 패턴 마이닝(sequential pattern mining)은 여러 어플리케이션(application)에 사용되는 중요한 데이터마이닝 문제이다. 순차 패턴 마이닝은 웹 접속 패턴, 고객 구매 패턴, 특정 질병의 DNA 시퀀스를 찾는 등 광범위한 분야에서 사용된다. 본 논문에서는 맵리듀스(MapReduce) 프레임웍 상에서 맵리듀스 함수 호출을 최적화하는 순차 패턴 마이닝 알고리즘을 개발하였다. 이 알고리즘은 여러 대의 기계에 데이터들을 분산시켜 병렬적으로 빈번한 순차 패턴을 찾는다. 실험적으로 다양한 데이터를 이용하여 파라미터 값을 변화시켜가며 제안된 알고리즘의 성능을 종합적으로 확인하였다. 그리고 실험 결과를 통해 제안된 알고리즘은 기계 수에 대해 선형적인 속도 개선을 보인다는 것을 확인하였다.

가중치 순회로부터 빈발 순회패턴의 탐사 및 순회분할을 통한 성능향상 (Discovery of Frequent Traversal Patterns from Weighted Traversals and Performance Enhancement by Traversal Split)

  • 이성대;박휴찬
    • 한국정보통신학회논문지
    • /
    • 제11권5호
    • /
    • pp.940-948
    • /
    • 2007
  • 실세계의 많은 문제는 그래프와 그 그래프를 순회하는 트랜잭션으로 모델링 될 수 있다. 예를 들면, 웹페이지의 연결구조는 그래프로 표현될 수 있고, 사용자의 웹페이지 방문경로는 그 그래프를 순회하는 트랜잭션으로 모델링 될 수 있다. 이와 같이 그래프를 순회하는 트랜잭션들로부터 빈발 패턴과 같이 중요한 패턴을 찾아내는 것은 의미있는 일이다. 본 논문에서는, 방향 그래프와 그 그래프를 순회하는 가중치가 있는 트랜잭션들이 주어졌을 때, 빈발한 순회패턴을 탐사하는 알고리즘을 제안한다. 또한, 이 알고리즘의 성능향상을 위하여 순회를 분할하는 방법을 제안하고 실험을 통하여 검증한다.

한반도에 내습한 태풍의 확률강우 및 풍속의 시공적 분포 특성 (Time and Spatial Distribution of Probabilistic Typhoon Storms and Winds in Korean Peninsula)

  • 윤경덕;서승덕
    • 한국농공학회지
    • /
    • 제36권3호
    • /
    • pp.122-134
    • /
    • 1994
  • The objective of this study is to provide with the hydrometeological and probabilistic characteristics of the storms and winds of typhoons that have been passed through the Korea peninsula during the last twenty-three years since 1961. The paths and intensities of the typhoons were analyzed. Fifty weather stations were selected and the rainfall and wind data during typhoon periods were collected. Rainfall data were analyzed for the patterns and probabilistic distributions. The results were presented to describe the areal distributions of probabilistic characteristics. Wind data were also analysed for their probabilistic distributions. The results obtained from this study can be summarized as follows: 1. The most frequent typhoon path that have passed through the Korean peninsula was type E, which was followed by types CWE, W, WE, and S. The most frequent typhoon intensity was type B, that was followed by A, super A, and C types, respectively. 2. The third quartile typhoon rainfall patterns appear most frequently followed by the second, first, and quartiles, respectively, in Seoul, Pusan, Taegu, Kwangju and Taejon. The single typhoon rainfalls with long rainfall durations tended to show delayed type rainfall patterns predominantly compared to the single rainfalls with short rainfall durations. 3. The most frequent probabilistic distribution for typhoon rainfall event is Pearson type-III, followed by Two-parameter lognormal distribution, and Type-I extremal distribution. 4. The most frequent probability distribution model of seashore location was Pearson type-III distribution. The most frequent probability distribution model of inland location was two parameter lognormal distribution. 5. The most frequent probabilistic distribution for typhoon wind events was Type-I xtremal distribution, followed by Two-parameter lognormal distribution, and Normal distribution.

  • PDF

Overview of frequent pattern mining

  • Jurg Ott;Taesung Park
    • Genomics & Informatics
    • /
    • 제20권4호
    • /
    • pp.39.1-39.9
    • /
    • 2022
  • Various methods of frequent pattern mining have been applied to genetic problems, specifically, to the combined association of two genotypes (a genotype pattern, or diplotype) at different DNA variants with disease. These methods have the ability to come up with a selection of genotype patterns that are more common in affected than unaffected individuals, and the assessment of statistical significance for these selected patterns poses some unique problems, which are briefly outlined here.

타투 관련 인터넷 동호회 사이트에 나타난 타투 문양 분석 - 국내.외 사이트를 중심으로 - (Analysis on the Tattoo Patterns used among Tattoo-related Internet Communities - Focusing on the Domestic and International Web Sites -)

  • 정경희;이미숙
    • 복식
    • /
    • 제57권3호
    • /
    • pp.1-13
    • /
    • 2007
  • The Purpose of this study is to analyze the kinds and positions of tattoo patterns on the body in tattoo-related internet communities and professional web sites. for this purpose, 1,892 tattoo patterns were analyzed by sex(man and woman). The results were as fellows; First, animal patterns(30.2%) occupied most, followed by character patterns(24.1%), geometric patterns(13.0%), natural patterns(10.3%), plant patterns(4.7%), mixed patterns(2.5%), and artificial patterns(2.2%). In patterns, dragon(10.3%) occupied most, followed by star(8.7%), trival(8.6%), woman(7.6%), skeleton(4.9%), and letter(4.8%). Second, men's preference to pattern groups included animal patterns(30.8%), character patterns (28.3%), geometric patterns (14.6%), and natural patterns(6.0%). Among patterns, dragon(13.4%) was the most frequent, followed by trival(10.9%), woman(10.7%), and skeleton(7.1%). Women's preference to patterns groups included animal patterns(31.4%), natural patterns(17.3%), character patterns(17.2%), geometric patterns(10.5%), and plant patterns(10.0%). Among patterns, star(15.3%) was the most frequent, followed by butter- fly(10.5%), elf(9.2%), and dragon(9.2%). Third, the positions of tattoos on the body included upper arm(26.6%), shoulder(10.8%), back(10.5%), the wrist(10.0%), the calf(7.5%), back bottom(7.0%) and the breast(6.3%). While men's preference to pattern positions included upper arm(38.2%), the wrist(13.7%), back(10.5%), the calf(9.4%), and shoulder(8.0%), women's preference to positions included back bottom(17.7%), shoulder(15.5%), back(10.5%), front bottom(8.2%), and the breast(7.8%).

CONSTRUCTING GENE REGULATORY NETWORK USING FREQUENT GENE EXPRESSION PATTERN MINING AND CHAIN RULES

  • Park, Hong-Kyu;Lee, Heon-Gyu;Cho, Kyung-Hwan;Ryu, Keun-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 Proceedings of ISRS 2006 PORSEC Volume II
    • /
    • pp.623-626
    • /
    • 2006
  • Group of genes controls the functioning of a cell by complex interactions. These interacting gene groups are called Gene Regulatory Networks (GRNs). Two previous data mining approaches, clustering and classification have been used to analyze gene expression data. While these mining tools are useful for determining membership of genes by homology, they don't identify the regulatory relationships among genes found in the same class of molecular actions. Furthermore, we need to understand the mechanism of how genes relate and how they regulate one another. In order to detect regulatory relationships among genes from time-series Microarray data, we propose a novel approach using frequent pattern mining and chain rule. In this approach, we propose a method for transforming gene expression data to make suitable for frequent pattern mining, and detect gene expression patterns applying FP-growth algorithm. And then, we construct gene regulatory network from frequent gene patterns using chain rule. Finally, we validated our proposed method by showing that our experimental results are consistent with published results.

  • PDF

빈발 순회패턴 탐사에 기반한 확장된 동적 웹페이지 추천 알고리즘 (An Extended Dynamic Web Page Recommendation Algorithm Based on Mining Frequent Traversal Patterns)

  • 이근수;이창훈;윤선희;이상문;서정민
    • 한국멀티미디어학회논문지
    • /
    • 제8권9호
    • /
    • pp.1163-1176
    • /
    • 2005
  • 웹은 가장 커다란 분산 정보저장소로서 빠른 속도로 성장했으나, 웹의 정보를 읽고 이해하는 데는 본질적으로 한계가 있다. 웹의 이러한 환경에서 사용자의 순회패턴(traversal Patterns)을 탐사하는 것은 시스템 설계나 정보서비스 제공 측면에서 중요한 문제이다. 본 논문에서는 세션에 나타나는 페이지들간의 연관성 정보를 활용하여 빈발 k-페이지집합을 탐사하여 추천 페이지집합을 생성함으로써 효율적인 웹 정보서비스를 제공할 수 있는 Web Page Recommend(WebPR) 알고리즘[11]을 화장한다. 화장된 내용은 WebPRl(A) 알고리즘을 추가하였으며, WebPR(T)에서 윈도우 개념을 도입한 새로운 winWebPR(T) 알고리즘을 제안하고 있다. 두개의 화장된 알고리즘을 포함하여 두개의 실제 웹로그(Weblog) 데이터에 대해 실험 결과에서 알 수 있듯이 윈도우 개념을 도입한 winWebPR(T) 알고리즘이 세션에 나타나는 페이지들간의 모든 연관성 정보를 활용함으로써 가장 우수한 성능을 보였다.

  • PDF

생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝 (Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences)

  • 강태호;유재수
    • 정보처리학회논문지D
    • /
    • 제15D권2호
    • /
    • pp.155-162
    • /
    • 2008
  • DNA 염기 서열이나 단백질 아미노산 서열과 같은 생물학적 서열 데이터들은 일반적으로 많은 수의 항목들을 가지고 있다. 생물학적 데이터 서열들에는 보통 빈번하게 발생하는 수 백개의 항목으로 이루어진 연속된 서열들이 존재한다. 이들 서열들에서 빈번하게 발생하는 연속 서열을 검색하는 것은 생물학적 서열 분석에서 중요한 부분을 차지하고 있다. 이전에는 순차 패턴을 효과적으로 발견하고자 하는 많은 연구들이 수행되었으며 대부분의 기존 순차패턴 마이닝 기법들은 Apriori 알고리즘을 기반으로 한다. PrefixSpan 알고리즘은 Apriori 기반의 가장 효율적인 순차패턴 마이닝 기법이다. 하지만 이 알고리즘은 길이-1인 빈발 패턴들로 부터 서열 패턴을 확장해나가는 방식이다. 따라서 길이가 긴 연속 서열을 포함하는 생물학적 데이터서열들에 대한 검색방법으로는 적합하지 않다. 최근에는 기존의 PrefixSpan방식을 이용하면서도 반복적인 처리과정을 줄인 MacosVSpan이 제안되었다. 하지만 이 알고리즘 또한 길이가 긴 생물학적 데이터 서열들로부터 빈번하게 발생하는 연속 서열들을 검색하기에는 효율적이지 않다. 본 논문에서는 많은 양의 생물학적 데이터 서열들로부터 빈번한 연속서열을 고정길이 확장 트리를 이용하여 효과적으로 찾아내는 방법을 제안한다. 그리고 다양한 환경에서 실험을 통해 제안하는 방식이 MacosVSpan알고리즘에 비해 검색성능이 보다 우수함을 보인다.

라벨 트리 데이터의 빈번하게 발생하는 정보 추출 (Frequently Occurred Information Extraction from a Collection of Labeled Trees)

  • 백주련;남정현;안성준;김응모
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.65-78
    • /
    • 2009
  • 트리 데이터로부터 유용한 정보들을 추출하는 가장 일반적인 방식은 빈번하게 자주 발생하는 서브트리 패턴들을 얻는 것이다. XML 마이닝, 웹 사용 마이닝, 바이오인포매틱스, 네트워크 멀티캐스트 라우팅 등 빈번 트리 패턴 마이닝은 여러 다양한 영역에서 광범위하게 이용되고 있기 때문에, 해당 패턴들을 추출하기 위한 많은 알고리즘들이 제안되어 왔다. 하지만, 현재까지 제안된 대부분의 트리 마이닝 알고리즘들은 여러 가지 심각한 문제점들을 내포하고 있는데 이는 특히 대량의 트리 데이터 집합을 대상으로 했을 때는 더 심각해진다. 주요하게 발생하는 문제점들로는, (1) 계층적 트리 구조의 데이터 모델링, (2) 후보군 유지를 위한 고비용 계산, (3) 반복적인 입력 데이터 집합 스캔, (4) 높은 메모리 의존성이 대표적이다. 이런 문제점들을 발생하게 하는 주요 원인은, 대부분의 기존 알고리즘들이 apriori 방식에 근거하고 있다는 점과 후보군 생성과 빈발 횟수 집계에 anti-monotone 원리를 적용한다는 점에 기인한다. 언급한 문제들을 해결하기 위해, 본 저자들은 apriori 방식 대신 pattern-growth 방식을 기반으로 하며, 빈번 서브트리 추출 대신 최대 빈번 서브트리 추출을 목적으로 한다. 이를 통해 제안된 방법은, 빈번하지 않은 서브트리들을 제거하는 과정 자체를 배제할 뿐만 아니라, 후보군 트리들을 생성하는 과정 또한 전혀 수행하지 않음으로써 전체 마이닝 과정을 상당히 개선한다.

  • PDF

Anomalous Event Detection in Traffic Video Based on Sequential Temporal Patterns of Spatial Interval Events

  • Ashok Kumar, P.M.;Vaidehi, V.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권1호
    • /
    • pp.169-189
    • /
    • 2015
  • Detection of anomalous events from video streams is a challenging problem in many video surveillance applications. One such application that has received significant attention from the computer vision community is traffic video surveillance. In this paper, a Lossy Count based Sequential Temporal Pattern mining approach (LC-STP) is proposed for detecting spatio-temporal abnormal events (such as a traffic violation at junction) from sequences of video streams. The proposed approach relies mainly on spatial abstractions of each object, mining frequent temporal patterns in a sequence of video frames to form a regular temporal pattern. In order to detect each object in every frame, the input video is first pre-processed by applying Gaussian Mixture Models. After the detection of foreground objects, the tracking is carried out using block motion estimation by the three-step search method. The primitive events of the object are represented by assigning spatial and temporal symbols corresponding to their location and time information. These primitive events are analyzed to form a temporal pattern in a sequence of video frames, representing temporal relation between various object's primitive events. This is repeated for each window of sequences, and the support for temporal sequence is obtained based on LC-STP to discover regular patterns of normal events. Events deviating from these patterns are identified as anomalies. Unlike the traditional frequent item set mining methods, the proposed method generates maximal frequent patterns without candidate generation. Furthermore, experimental results show that the proposed method performs well and can detect video anomalies in real traffic video data.