• 제목/요약/키워드: Sequential patterns

검색결과 258건 처리시간 0.024초

확률적 다차원 연속패턴의 생성을 위한 효율적인 마이닝 알고리즘 (An Efficient Mining Algorithm for Generating Probabilistic Multidimensional Sequential Patterns)

  • 이창환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권2호
    • /
    • pp.75-84
    • /
    • 2005
  • 연속패턴은 다양한 분야에서 사용되는 데이타 마이닝 기법의 한 종류이다. 하지만 현재의 연속 패턴 방법은 한개의 속성내에서의 패턴만을 감지할 수 있으며 속성간의 패턴을 생성할 수 없다. 다차원의 연속패턴은 일차원에 비하여 훤씬 유용한 정보를 제공할 수 있다. 본 연구에서는 Hellinger 엔트로피 함수를 사용하여 다차원의 연속패턴을 생성하는 방법을 게시한다 기존의 연속패턴방법과 달리 본 방법에서는 각 연속패턴의 중요도를 자동으로 계산할 수 있다. 또한 계산의 복잡도를 감소시키기 위한 다수의 법칙이 개발되었으며 다수의 실험 결과를 제시하였다.

정량 정보를 포함한 순차 패턴 마이닝 알고리즘 (Sequential Pattern Mining Algorithms with Quantities)

  • 김철연;임종화;;심규석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.453-462
    • /
    • 2006
  • 순차 패턴을 찾는 것은 데이타마이닝 응용분야에서 중요한 문제이다. 기존의 순차 패턴 마이닝 알고리즘들은 아이템으로만 이루어진 순차 패턴만을 취급하였으나 경제나 과학분야와 같은 많은 분야에서는 정량 정보가 아이템과 같이 기록되어 있으며, 기존의 알고리즘이 처리하지 못하는 이러한 정량 정보는 사용자에게 보다 유용한 정보를 전달하여 줄 수 있다. 본 논문에서는 정량 정보를 포함한 순차패턴 마이닝 문제를 제안하였다. 기존의 순차패턴 알고리즘에 대한 단순한 확장으로는 모든 정량에 대한 후보 패턴들을 모두 생성하기 때문에 확대된 탐색 공간을 효율적으로 탐색할 수 없음을 보이고, 이러한 단순한 확장 알고리즘의 성능을 대폭 향상시키기 위하여 정량 정보에 대해 해쉬 필터링과 정량 샘플링 기법을 제안하였다. 다양한 실험 결과들은 제안된 기법들이 단순히 확장된 알고리즘과 비교하여 수행시간을 매우 단축시켜 줄 뿐만 아니라, 데이타베이스 크기에 대한 확장성 또한 향상시켜줌을 보여 준다.

근사 알고리즘을 이용한 순차패턴 탐색 (Searching Sequential Patterns by Approximation Algorithm)

  • 산사볼트가람라흐차;황영섭
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권5호
    • /
    • pp.29-36
    • /
    • 2009
  • 서열데이터베이스에 있는 자주 발현하는 부분 서열을 패턴으로 찾아내는 순차패턴 탐색은 넓은 응용 분야를 가지는 중요한 데이터 마이닝 문제이다. DNA 서열에서 순차패턴이 모티프가 될 수 있으므로 DNA 서열에서 순차패턴을 찾는 것을 연구하였다. 대부분의 기존 마이닝 방법은 순차패턴의 정의에 따라 정확한 정합에 주력하여 노이즈가 있는 환경이나 실제 문제에서 발생하는 부정확한 데이터에 대하여 제대로 작동하지 않을 수 있다. 이러한 문제가 생물 데이터인 DNA 서열에서 자주 나타난다. 이러한 문제를 다루기 위한 근사 정합 방법을 연구하였다. 본 연구의 아이디어는 자주 발생하는 패턴을 근사 패턴이라 부르는 그룹으로 분류할 수 있다는 관찰에서 기반을 둔다. 기존의 Prefixspan 알고리즘은 주어진 긴 서열에서 순차패턴을 잘 찾을 수 있다. 본 연구는 Prefixspan 알고리즘을 개선하여 유사한 순차패턴을 찾을 수 있게 하였다. 실험 결과는 PreFixSpan보다 제안한 방법이 패턴 길이가 4일 때, 근사 순차패턴의 빈도가 5배 높아짐을 보였다.

치매 노인환자와 간호사의 대화 분석: 대화의 구조와 연속체 형태를 중심으로 (Analysis of Conversation between Elderly Patients with Dementia and Nurses: Focusing on Structure and Sequential Patterns)

  • 이명선
    • 대한간호학회지
    • /
    • 제39권2호
    • /
    • pp.166-176
    • /
    • 2009
  • Purpose: The purpose of the study was to identify functional structure and patterns of dialogue sequence in conversations between elderly patients with dementia and nurses in a long-term care facility. Methods: Conversation analysis was used to analyze the data which were collected using video-camera to capture non-verbal as well as verbal behaviors. Data collection was done during February 2005. Results: Introduction, assessment, intervention, and closing phases were identified as functional structure. Essential parts of the conversation were the assessment and intervention phases. In the assessment phase three sequential patterns of nurse-initiated dialogue and four sequential patterns of patient-initiated dialogue were identified. Also four sequential patterns were identified in nurse-initiated and three in patient-initiated dialogues in the intervention phase. In general, "ask question", "advise", and "directive" were the most frequently used utterance by nurses in nurse-initiated dialogue, indicating nurses' domination of the conversation. At the same time, "ask back", "refute", "escape", or "false promise" were used often by nurses to discourage patients from talking when patients were raising questions or demanding. Conclusion: It is important for nurses to encourage patient-initiated dialogue to counterbalance nurse-dominated conversation which results from imbalance between nurses and patients in terms of knowledge and task in healthcare institutions for elders.

서픽스 검사를 이용한 단계적 순차패턴 분할 탐사 방법 (A Partition Mining Method of Sequential Patterns using Suffix Checking)

  • 허용도;조동영;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제5권5호
    • /
    • pp.590-598
    • /
    • 2002
  • 효율적인 순차패턴 마이닝을 위해서는 후보패턴의 생성 비용을 줄이고 동시에 생성된 후보패턴에 대한 탐색공간을 줄여야 한다. 그러나 이전에 개발된 알고리즘들은 이러한 문제들을 효율적으로 해결하지 못하고 있다. 특히 Apriori-like 방법들은 알고리즘은 단순하지만 많은 크기의 후보패턴 집합생성, 대용량 데이터 베이스의 반복적인 탐사 등의 문제점이 있고, PrefixSpan[2]은 단계별로 분할된 프레픽스 프로젝티드(prefix projected) 데이터 베이스들을 구성 하여 후보패턴의 지지도 계산을 위한 탐색 공간을 줄이지만 프로젝티드 데이타베이스들의 구성비용이 크다는 문제점이 있다. 이러한 문제점들의 개선을 위해 본 논문에서는 새로운 순차패턴 마이닝 방법인 Suffixspan(Suffix Checked Sequential Pattern mining)을 제 안한다. Suffixspan은 순차패턴 집합의 단계별 분할특성과 서픽스(suffix) 특성을 이용하여 적은 비용으로 작은 크기의 후보패턴 집합을 생성하고, 1-프레픽스 프로젝티드 데이타베이스를 구성하여 후보패턴 검사를 위한 탐색공간을 줄인다.

  • PDF

대용량 순차 데이터베이스에서 근사 순차패턴 탐색 (Mining Approximate Sequential Patterns in a Large Sequence Database)

  • 금혜정;장중혁
    • 정보처리학회논문지D
    • /
    • 제13D권2호
    • /
    • pp.199-206
    • /
    • 2006
  • 순차패턴 탐색은 다양한 응용 분야에서 매우 중요한 데이터 마이닝 작업으로 간주된다. 그러나 기존의 순차패턴 탐색 방법들은 길이가 긴 순차패턴이나 노이즈 정보를 다수 포함한 데이터베이스에 대한 마이닝에서는 한계가 있다. 해당 방법들은 매우 짧고 사소한 패턴들은 탐색하지만 다수의 순차 정보들에서 공유되는 중요 패턴들을 분석하는데 어려움을 겪는다. 본 논문에서는 이러한 문제를 해결하기 위한 방법으로 대용량 데이터베이스에 대한 근사 순차패턴 탐색 방법을 제안한다. 근사 순차패턴은 다수의 순차 정보들에서 근사적으로 공유되는 순차패턴을 의미한다. 제안된 방법은 두 과정으로 구분된다. 하나는 유사도에 따라 분석 대상 순차 정보들을 몇 개의 군집으로 나누는 과정이며, 다른 하나는 다중 정렬 방식을 적용하여 각 군집으로부터 대표 패턴을 찾는 과정이다. 이를 위해서 다수의 순차 정보들을 하나로 표현할 수 있는 가중치 순차패턴을 제시하며, 다수의 순차 정보들은 가중치 순차패턴 형태로 통합된다. 이렇게 통합된 정보를 가진 각 가중치 순차패턴을 이용하여 여러 순차 정보와 근사한 하나의 대표 패턴을 생성한다. 끝으로, 다양한 실험을 통해서 제안된 방법의 유용성을 검증한다.

유아의 사회적 능력에 따른 사회적 놀이의 연속적 변화 패턴 (Sequential Transition Patterns of Social Play by Children's Social Competence)

  • 김순정;김희진
    • 아동학회지
    • /
    • 제28권1호
    • /
    • pp.17-35
    • /
    • 2007
  • This study examined whether sequential transition patterns of social play differed by children's social competence. The social competence of sixty 5-year-old children was rated by their teachers using the Social Competence Scale(NICHD Early Child Research Network, 1996). Children's social play was observed during free play and coded by criteria developed by Robinson et al(2003). Results showed differences in children's social play behaviors by social competence and differences in the transition patterns of children's social play level by social competence. Children with higher social competence showed a transition pattern moving toward cooperative-social interaction, whereas children with lower social competence showed a transition pattern moving backward to solitary or onlooker behavior.

  • PDF

Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences

  • Kang, Tae-Ho;Yoo, Jae-Soo;Kim, Hak-Yong;Lee, Byoung-Yup
    • International Journal of Contents
    • /
    • 제3권2호
    • /
    • pp.18-24
    • /
    • 2007
  • Biological sequences such as DNA and amino acid sequences typically contain a large number of items. They have contiguous sequences that ordinarily consist of more than hundreds of frequent items. In biological sequences analysis(BSA), a frequent contiguous sequence search is one of the most important operations. Many studies have been done for mining sequential patterns efficiently. Most of the existing methods for mining sequential patterns are based on the Apriori algorithm. In particular, the prefixSpan algorithm is one of the most efficient sequential pattern mining schemes based on the Apriori algorithm. However, since the algorithm expands the sequential patterns from frequent patterns with length-1, it is not suitable for biological datasets with long frequent contiguous sequences. In recent years, the MacosVSpan algorithm was proposed based on the idea of the prefixSpan algorithm to significantly reduce its recursive process. However, the algorithm is still inefficient for mining frequent contiguous sequences from long biological data sequences. In this paper, we propose an efficient method to mine maximal frequent contiguous sequences in large biological data sequences by constructing the spanning tree with a fixed length. To verify the superiority of the proposed method, we perform experiments in various environments. The experiments show that the proposed method is much more efficient than MacosVSpan in terms of retrieval performance.

시계열 데이터로부터의 경향성 기반 순차패턴 탐색 (Trend-based Sequential Pattern Discovery from Time-Series Data)

  • 오용생;이동하;남도원;이전영
    • 지능정보연구
    • /
    • 제7권1호
    • /
    • pp.27-45
    • /
    • 2001
  • 데이터마이닝에서 시계열 데이터로부터 순차패턴을 발견하는 연구는 사건이나 아이템이 주로 연구되어왔지만, 최근에는 설비의 상태를 알 수 있는 센서와 같은 수치 값의 형태를 가지는 분야에 관심을 가지게 되었다. 그러나 수치 형태의 데이터는 패턴을 만드는 동안 동일한 값을 가지는 경우가 거의 없기 때문에 기존의 사건이나 아이템 등으로 변환될 수 있는 패턴요소의 특징을 만드는 것이 가장 중요하다. 이러한 패턴요소를 발견하는 지금가지 방법은 이동 윈도우와 클러스터링을 사용하는 방법을 적용하였는데, 이러한 방법은 다양한 윈도우의 크기와 클러스터 값을 적용하여 반복적으로 작업을 하며, 찾아진 결과를 해석하는데도 많은 문제가 있다. 본 연구는 수치 값을 가진 데이터를 벡터의 형태로 만들어 패턴요소를 만드는 방법을 제시한다. 이렇게 만들어진 패턴요소는 전체 데이터를 사용하는 것 보다 이해되기 쉽고 보다 빠르게 순차패턴을 찾을 수 있다. 벡터로 변환된 패턴요소는 각도와 크기를 가지는데 우리는 이들 벡터들의 상호 연관성을 정의하고, 이들 연관성을 이용하여 순차패턴을 찾는 방법을 제시한다.

  • PDF

Multiple-Group Latent Transition Model for the Analysis of Sequential Patterns of Early-Onset Drinking Behaviors among U.S. Adolescents

  • Chung, Hwan
    • 응용통계연구
    • /
    • 제24권4호
    • /
    • pp.709-719
    • /
    • 2011
  • We investigate the latent stage-sequential patterns of drinking behaviors of U.S. adolescents who have started to drink by age 14 years (seven years before the legal drinking age). A multiple-group latent transition analysis(LTA) with logistic regression is employed to identify the subsequent patterns of drinking behaviors among early-onset drinkers. A sample of 1407 early-onset adolescents from the National Longitudinal Survey of Youth(NLSY97) is analyzed using maximum-likelihood estimation. The analysis demonstrates that early-onset adolescents' drinking behaviors can be represented by four latent classes and their prevalence and transition are influenced by demographic factors of gender, age, and race.