• Title/Summary/Keyword: 순차패턴 분석

Search Result 118, Processing Time 0.037 seconds

A Data Based Methodology for Estimating the Unconditional Model of the Latent Growth Modeling (잠재성장모형의 무조건적 모델 추정을 위한 데이터 기반 방법론)

  • Cho, Yeong Bin
    • Journal of Digital Convergence
    • /
    • v.16 no.6
    • /
    • pp.85-93
    • /
    • 2018
  • The Latent Growth Modeling(LGM) is known as the arising analysis method of longitudinal data and it could be classified into unconditional model and conditional model. Unconditional model requires estimated value of intercept and slope to complete a model of fitness. However, the existing LGM is in absence of a structured methodology to estimate slope when longitudinal data is neither simple linear function nor the pre-defined function. This study used Sequential Pattern of Association Rule Mining to calculate slope of unconditional model. The applied dataset is 'the Youth Panel 2001-2006' from Korea Employment Information Service. The proposed methodology was able to identify increasing fitness of the model comparing to the existing simple linear function and visualizing process of slope estimation.

Web document prediction using forward reference path traversal patterns (전 방향 참조 경로 탐사 패턴을 이용한 웹 문서 예측)

  • 김양규;손기락
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.112-114
    • /
    • 2004
  • 오늘날 웹을 이용하는 사용자들의 웹 검색 형태를 저장한 웹 로그 데이터들은 데이터 마이닝을 위한 중요한 자료가 되고 있다. 이들 웹 로그들로부터 사용자의 현재 행동을 기반으로 사용자가 다음에 요청할 요구를 예측할 수 있는 예측 모델을 만들 수 있다. 하지만 이들 웹 로그들은 크기가 매우 크고 분석하기가 어렵다. 이런 문제를 해결하기 위해 이미 않은 방법이 제안되었다. 그 중에서 효과적으로 예측할 수 있도록 제안된 순차적 분류 기반에 연관법칙을 적용한 예측 기법이 있다. 본 논문에서는 전방향 참조 경로 탐사 패턴 알고리즘을 적용하여 연관규칙에 기반 한 웹 문서 예측 기법을 향상시키는 모델을 제안한다.

  • PDF

A Web Application Design based-on UML with Note and Stereotype (노트와 스테레오타입을 이용한 UML 기반 웹 어플리케이션 설계 사례)

  • 엄태훈;최윤석;정기원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.658-660
    • /
    • 2001
  • 본 논문에서는 사건흐름을 기능 별로 묶어 패턴화하는 방법을 통해 사건흐름 명세서를 표기하고, UML의 노트표기를 이용해 패턴 번호를 순차도에 적용하는 방법을 제시한다. 이와 더불어 설계 산출물 상에 표시되는 웹 페이지의 표현을 스테레오타입을 이용해 표기함으로써 시스템에 대한 이해도를 높이도록 하였고, 요구사항 명세서에 요구사항에 따른 사용사례와 사용자와의 관계를 표시하여 요구사항이 어떻게 반영되었는지를 쉽게 추적할 수 있게 하였다. 제안한 방법은 실제 영화 예매 시스템의 분석 및 설계 사례를 통해 그 사용 예를 보였다.

  • PDF

A Sequential Association Rules Searching Methods for Web-Usage Patterns Based On Frequent-Pattern Tree (FP-Tree를 기반으로 한 웹 사용 패턴에 대한 순차적 연관성 탐색 기법 .)

  • 김영희;강우준;김응모
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.25-27
    • /
    • 2004
  • 대용량 웹 데이터베이스로부터 필요한 관련 정보를 탐색하고, 다양한 형태의 정보로부터 지식을 창출하는 일은 매우 어려운 일이다. 본 논문은 복잡하고 다양한 형태의 패턴이 존재하고, 연속된 입력을 갖는 웹 데이터베이스에서 발생되는 빈발 패턴들을 효과적으로 저장할 수 있는 FP-Tree를 기반으로 하여 변화된 정보들을 능동적으로 유지하고 새로운 정보들에 U해 FP-Tree를 재구성하여 웹 페이지에 대한 유용한 패턴 정보와 사용자의 웹 사용 패턴 분석을 용이하게 한다. 그 결과 새로이 발견된 웹 사용 패턴들을 통해 웹 페이지의 구조적 정보와 구조적 연판 정보를 효과적으로 얻을 수 있다.

  • PDF

Genome Analysis Pipeline I/O Workload Analysis (유전체 분석 파이프라인의 I/O 워크로드 분석)

  • Lim, Kyeongyeol;Kim, Dongoh;Kim, Hongyeon;Park, Geehan;Choi, Minseok;Won, Youjip
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.2
    • /
    • pp.123-130
    • /
    • 2013
  • As size of genomic data is increasing rapidly, the needs for high-performance computing system to process and store genomic data is also increasing. In this paper, we captured I/O trace of a system which analyzed 500 million sequence reads data in Genome analysis pipeline for 86 hours. The workload created 630 file with size of 1031.7 Gbyte and deleted 535 file with size of 91.4 GByte. What is interesting in this workload is that 80% of all accesses are from only two files among 654 files in the system. Size of read and write request in the workload was larger than 512 KByte and 1 Mbyte, respectively. Majority of read write operations show random and sequential patterns, respectively. Throughput and bandwidth observed in each processing phase was different from each other.

Dynamic Cache Management Scheme on Demand-Based FTL Considering Data Access Pattern (데이터 접근 패턴을 고려한 요구 기반 FTL 내 캐시의 동적 관리 기법)

  • Lee, Bit-Na;Song, Nae-Young;Koh, Kern
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.547-550
    • /
    • 2011
  • 플래시 메모리는 낮은 전력 소비와 높은 성능으로 인해 휴대용 기기에 널리 사용되고 있다. FTL은 플래시 내 자료를 관리하는 소프트웨어 계층으로 플래시 전체의 성능에 영향을 끼친다. 그 중 페이지 레벨 매핑 기법을 적용한 FTL은 유연성이 높고 속도가 빠르나 주소 변환 테이블의 크기가 큰 단점이 있다. 이를 해결하기 위해 자주 접근되는 영역의 매핑 주소만을 매핑 테이블 캐시에 올려놓는 Demand-based FTL(DFTL)이 제안되었다. DFTL 에서는 CMT(Cache Mapping Table)의 참조율이 떨어지는 경우 빈번한 플래시 메모리 접근 오버헤드가 발생하게 된다. 이러한 문제는 흔히 발생하는 일반적인 순차 접근에서조차 문제가 된다. 이에 본 논문에서는 저장 장치의 접근 패턴을 예측하여 CMT의 참조 엔트리를 미리 읽어오는 기법을 제안한다. 제안하는 기법은 저장 장치 접근 패턴의 순차성을 판단하여 연속된 매핑 주소를 미리 CMT에 올려놓고, 읽어오는 매핑 주소 엔트리의 양은 동적으로 관리한다. 추가적으로 CMT에서 발생하는 스래싱(thrashing) 을 파악하기 위해 쫓겨나는 희생 엔트리의 접근 여부를 분석하여 이를 활용하였다. 실험 결과에서 본 기법은 기존의 DFTL에 비해 약간의 공간 오버헤드와 함께 평균 50% 증가한 참조율을 보였다.

Linking DNA Sequence Motifs with Gene Expression Patterns Based on a Low-Dimensional Mapping (저차원공간으로의 매핑에 기반한 DNA서열 요소 및 유전자 발현 패턴간 관련성 분석)

  • Lee Jongwoo;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.235-237
    • /
    • 2005
  • 마이크로 어레이(micro array)로 표현되는 유전자 발현 패턴(gene expression pattern)들과 해당 유전자의 upstream에 위치한 DNA 서열 요소(motif)들은 유전자 발현에 밀접한 관련을 맺고 있는데 이들간의 매핑관계를 알아내는 것은 생물전산학 분야에서 중요한 문제 중 하나이다. 본 고에서는 유전자 발현 패턴 데이터와 해당 DNA에 포함된 것으로 알려진 모티프 프로파일에 대해 대응분석(correspondence analysis)을 수행하고 2차원 평면에 매핑하여 특정 유전자 발현과 밀접하게 관련된다고 여겨지는 후보 모티프를 시각적으로 직관적으로 동정하는 방법을 제시한다. 또한 유전자 발현 패턴은 일정한 길이로 나누어 가능한 모든 패턴에 대해 클러스터링을 행하여 이에 대한 인덱스로 데이터를 표현하여 패턴의 인식성과 발현 순차성을 높이는 반면 복잡도를 줄이도록 하였다. 실험에서 두가지 형태의 모티프 프로파일과 효모 Saccharomyces cerevisiae 포자형성 데이터 집합에 대하여 대응 분석을 통한 시각화된 결과를 이용해 유전자 발현과 깊게 관련되는 것으로 알려진 모티프들이 대응 유전자 발현과의 상관성이 잘 동정되고 있음을 알 수가 있다.

  • PDF

Design and implementation of a cache manager for pipeline time-series data (배관 시계열 데이터를 위한 캐시 관리자의 설계 및 구현)

  • Kim, Seon-Hyo;Kim, Won-Sik;Shin, Je-Yong;Han, Wook-Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.109-112
    • /
    • 2005
  • 배관에 생기는 구멍이나 틈은 대형 사고의 원인이 될 수 있다. 이러한 배관의 결함을 찾기 위해서는 먼저 센서를 부착한 배관 탐사 장비를 배관에 통과시키고, 배관을 통과하는 중에 센서가 읽은 정보들을 배관 탐사 장비의 하드 디스크에 저장한다. 배관 통과가 완료된 후, 분석가는 분석 프로그램을 사용하여 탐사 장비에서 얻은 데이터에서 결함을 수동적으로 찾는다. 분석가가 데이터를 분석할 때 일반적으로 두 가지 패턴이 존재한다. 첫 번째 패턴은 일정한 구간의 센서 데이터를 순차적으로 분석하는 패턴이고, 두 번째 패턴은 현재 구간에서 이전 구간으로 되돌아가서 다시 분석하는 반복적인 패턴이다. 현재까지 만족할 만 한 수준으로 자동적으로 분석이 되지 않으므로, 분석가는 수작업으로 분석을 하는 경우가 많은데 이로 인해 최근에 읽은 부분을 전후 반복해서 액세스하는 반복적인 패턴이 많이 사용된다. 반복적 패턴의 경우 시스템의 성능을 향상시키기 위해, 이전에 읽은 배관 센서 데이터를 캐싱 할 필요가 있다. 그러나 기존의 분석 소프트웨어에는 캐싱 기능이 없으므로 반복적 패턴일 경우 데이터베이스에서 동일한 데이터를 반복적으로 읽는 문제를 가지고 있다. 본 논문에서는 배관 센서 데이터를 효율적으로 관리하는 캐쉬 관리자를 설계하고 구현하였다. 세부적으로는, 배관 센서 데이터를 시계열 데이터로 간주하고, 시계열 데이터에 대한 캐시 관리자를 제안하였다. 본 논문은 배관 탐사 장비에서 획득한 데이터들을 시계열 데이터로 간주하여 데이터베이스 측면에서 이러한 문제들을 접근하였다는 점에서 의미가 있으며, 향후 이 분야에 대한 많은 연구들이 나올 것으로 기대한다.

  • PDF

데이터마이닝을 활용한 반도체 수율개선시스템

  • 백동현;남정곤
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2002.05a
    • /
    • pp.293-300
    • /
    • 2002
  • 반도체 공정은 웨이퍼가 투입되어 완제품이 생산되기까지 수백개의 제고공정을 수개월에 걸쳐 진행해야 하는 매우 복잡하고 긴 공정으로 구성되어 있다. 대부분의 공정들은 먼저가 철저히 통제되는 클린 룸에서 진행되지만 아주 미세한 먼지 하나도 반도체 칩의 성능과 수율 을 저하시키는 요인이 된다. 반도체 칩의 불량은 특정 생산장비에서의 이물질 발생, 생산장비의 잘 못된 파라미터 값 설정 등 다양한 요인에 의해 발생될 수 있으며 불량의 원인을 요인별로 파악하여 신속하게 대처하는 것이 수율 개선의 핵심이 된다. 이를 위해 SPC 시스템, MES 그리고 6-시그마 등의 활용을 통한 다양한 수율개선 노력이 있었으나 공정의 복잡성과 대용량의 수집 데이터로 인해 기존의 통계적 방법이나 엔지니어의 경험적 분석방법으로는 미처 파악하지 못 하는 수율 저하 요인이 상당 수 존재한다. 본 논문은 군집화/분류, 순차패턴 등의 데이터마이닝 기법과 다차원분석(OLAP)도구를 활용하여 수율저하의 원인이 되는 문제공정, 문제장비, 그리고 잘못된 파리미터 값 설정 등을 신속하고 정화하게 파악하여 수율 개선을 지원하는 방법을 소개하며, 반도체Fabrication공정을 대상으로 실제 구현된 수율개선 시스템(Y-PLUS)을 설명한다.

  • PDF

Association Rules Reflected Temporal Information (시정보 반영을 통한 연관규칙의 신뢰도 측정)

  • Ok, Jee-Woong;Paik, Ju-Ryon;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.353-356
    • /
    • 2006
  • 연관규칙 (Association rule) 마이닝은 무수히 많은 데이터로부터 유용한 정보만을 뽑아내어 실생활에 적용하여 이점을 얻게 하는 데이터마이닝의 가장 핵심적인 연구분야이다. 마켓 기반 데이터들로부터 고객들의 구매유형을 분석하여 적절한 판매전략을 세우거나 기업 데이터로부터 특정 업무와 관련된 의사결정을 지원하는 등의 일이 모두 연관규칙을 기반으로 한다. 그러나 대부분의 연관규칙들은 시간을 고려하지 않는 않거나, 순차패턴만을 고려해왔다. 따라서 하루중 특정 규칙이 발생되지 않는 시간대에도 그 규칙에 대한 불필요한 노력이 있었다. 본 논문에서는 추출된 연관규칙들과 각 트랜잭션에 부여한 시간 정보를 분석하여 특정 항목 (Item) 집합들 간의 연관규칙이 빈번하게 발생하는 시간대를 추출한다. 추출되 시간 정보를 이용하여 시간대별 유용한 판매 전략을 세움으로써, 상품 판매를 극대화하고자 한다.

  • PDF