• 제목/요약/키워드: 순차패턴 분석

검색결과 118건 처리시간 0.025초

잠재성장모형의 무조건적 모델 추정을 위한 데이터 기반 방법론 (A Data Based Methodology for Estimating the Unconditional Model of the Latent Growth Modeling)

  • 조영빈
    • 디지털융복합연구
    • /
    • 제16권6호
    • /
    • pp.85-93
    • /
    • 2018
  • 대표적인 종단자료 분석방법인 잠재성장모형(Latent Growth Modeling)은 무조건적 모델과 조건적 모델로 구분되는데, 이중 무조건적 모델은 초기값과 기울기를 추정하여 적합도가 높은 모델을 추정해야 한다. 그렇지만 기존 잠재성장모형에는 종단자료의 형태가 단순선형함수 등 특정 함수가 아닐 경우 기울기를 추정하는 체계적인 방법론이 없었다. 본 연구에서는 뮤조건적 모델의 기울기를 추정하는데 연관규칙(Association Rule Mining)의 순차패턴(Sequential Pattern)을 사용하였다. 데이터는 한국고용정보원의 2001년~2006년에 조사한 청년 패널 데이터를 사용하였다. 제안한 방법론은 기존 단순선형함수를 가정할 때와 비교하여 적합도가 상승하는 것을 확인할 수 있었으며, 기울기 추정 과정을 시각화할 수 있는 부수적인 장점이 있었다.

전 방향 참조 경로 탐사 패턴을 이용한 웹 문서 예측 (Web document prediction using forward reference path traversal patterns)

  • 김양규;손기락
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.112-114
    • /
    • 2004
  • 오늘날 웹을 이용하는 사용자들의 웹 검색 형태를 저장한 웹 로그 데이터들은 데이터 마이닝을 위한 중요한 자료가 되고 있다. 이들 웹 로그들로부터 사용자의 현재 행동을 기반으로 사용자가 다음에 요청할 요구를 예측할 수 있는 예측 모델을 만들 수 있다. 하지만 이들 웹 로그들은 크기가 매우 크고 분석하기가 어렵다. 이런 문제를 해결하기 위해 이미 않은 방법이 제안되었다. 그 중에서 효과적으로 예측할 수 있도록 제안된 순차적 분류 기반에 연관법칙을 적용한 예측 기법이 있다. 본 논문에서는 전방향 참조 경로 탐사 패턴 알고리즘을 적용하여 연관규칙에 기반 한 웹 문서 예측 기법을 향상시키는 모델을 제안한다.

  • PDF

노트와 스테레오타입을 이용한 UML 기반 웹 어플리케이션 설계 사례 (A Web Application Design based-on UML with Note and Stereotype)

  • 엄태훈;최윤석;정기원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.658-660
    • /
    • 2001
  • 본 논문에서는 사건흐름을 기능 별로 묶어 패턴화하는 방법을 통해 사건흐름 명세서를 표기하고, UML의 노트표기를 이용해 패턴 번호를 순차도에 적용하는 방법을 제시한다. 이와 더불어 설계 산출물 상에 표시되는 웹 페이지의 표현을 스테레오타입을 이용해 표기함으로써 시스템에 대한 이해도를 높이도록 하였고, 요구사항 명세서에 요구사항에 따른 사용사례와 사용자와의 관계를 표시하여 요구사항이 어떻게 반영되었는지를 쉽게 추적할 수 있게 하였다. 제안한 방법은 실제 영화 예매 시스템의 분석 및 설계 사례를 통해 그 사용 예를 보였다.

  • PDF

FP-Tree를 기반으로 한 웹 사용 패턴에 대한 순차적 연관성 탐색 기법 . (A Sequential Association Rules Searching Methods for Web-Usage Patterns Based On Frequent-Pattern Tree)

  • 김영희;강우준;김응모
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.25-27
    • /
    • 2004
  • 대용량 웹 데이터베이스로부터 필요한 관련 정보를 탐색하고, 다양한 형태의 정보로부터 지식을 창출하는 일은 매우 어려운 일이다. 본 논문은 복잡하고 다양한 형태의 패턴이 존재하고, 연속된 입력을 갖는 웹 데이터베이스에서 발생되는 빈발 패턴들을 효과적으로 저장할 수 있는 FP-Tree를 기반으로 하여 변화된 정보들을 능동적으로 유지하고 새로운 정보들에 U해 FP-Tree를 재구성하여 웹 페이지에 대한 유용한 패턴 정보와 사용자의 웹 사용 패턴 분석을 용이하게 한다. 그 결과 새로이 발견된 웹 사용 패턴들을 통해 웹 페이지의 구조적 정보와 구조적 연판 정보를 효과적으로 얻을 수 있다.

  • PDF

유전체 분석 파이프라인의 I/O 워크로드 분석 (Genome Analysis Pipeline I/O Workload Analysis)

  • 임경열;김동오;김홍연;박기한;최민석;원유집
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.123-130
    • /
    • 2013
  • 최근 유전체 데이터의 급격한 증가로 인해 이를 처리하기 위한 고성능 컴퓨팅 시스템이 필요로 하게 되었으며 대량의 유전체 데이터를 저장 관리할 수 있는 고성능 저장 시스템이 필요하게 되었다. 본 논문에서는 대략 5억 개 정도의 시퀀스 리드 데이터를 분석하는 유전체 분석 파이프라인의 I/O워크로드를 수집 및 분석하였다. 실험은 86시간 동안 수행되었다. 1031.7 GByte 크기의 630개 파일이 생성되었으며 91.4 GByte 크기의 535개의 파일이 삭제되었다. 전체 654개의 파일 중 0.3%인 2개의 파일이 전체 접근 빈도의 80%를 차지하여 전체 파일 중 일부분의 파일이 대부분의 I/O를 발생시킨다는 것을 알 수 있다. 요청 크기 단위로는 읽기에서 주로 512 KByte 크기 이상의 요청이 발생했고 쓰기에서 주로 1 MByte 크기 이상의 요청이 발생했다. 파일이 열려있는 동안의 접근 패턴은 읽기와 쓰기 연산에서 각각 임의와 순차패턴을 보였다. IOPS와 대역폭은 각 단계마다 고유한 패턴을 보였다.

데이터 접근 패턴을 고려한 요구 기반 FTL 내 캐시의 동적 관리 기법 (Dynamic Cache Management Scheme on Demand-Based FTL Considering Data Access Pattern)

  • 이빛나;송내영;고건
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.547-550
    • /
    • 2011
  • 플래시 메모리는 낮은 전력 소비와 높은 성능으로 인해 휴대용 기기에 널리 사용되고 있다. FTL은 플래시 내 자료를 관리하는 소프트웨어 계층으로 플래시 전체의 성능에 영향을 끼친다. 그 중 페이지 레벨 매핑 기법을 적용한 FTL은 유연성이 높고 속도가 빠르나 주소 변환 테이블의 크기가 큰 단점이 있다. 이를 해결하기 위해 자주 접근되는 영역의 매핑 주소만을 매핑 테이블 캐시에 올려놓는 Demand-based FTL(DFTL)이 제안되었다. DFTL 에서는 CMT(Cache Mapping Table)의 참조율이 떨어지는 경우 빈번한 플래시 메모리 접근 오버헤드가 발생하게 된다. 이러한 문제는 흔히 발생하는 일반적인 순차 접근에서조차 문제가 된다. 이에 본 논문에서는 저장 장치의 접근 패턴을 예측하여 CMT의 참조 엔트리를 미리 읽어오는 기법을 제안한다. 제안하는 기법은 저장 장치 접근 패턴의 순차성을 판단하여 연속된 매핑 주소를 미리 CMT에 올려놓고, 읽어오는 매핑 주소 엔트리의 양은 동적으로 관리한다. 추가적으로 CMT에서 발생하는 스래싱(thrashing) 을 파악하기 위해 쫓겨나는 희생 엔트리의 접근 여부를 분석하여 이를 활용하였다. 실험 결과에서 본 기법은 기존의 DFTL에 비해 약간의 공간 오버헤드와 함께 평균 50% 증가한 참조율을 보였다.

저차원공간으로의 매핑에 기반한 DNA서열 요소 및 유전자 발현 패턴간 관련성 분석 (Linking DNA Sequence Motifs with Gene Expression Patterns Based on a Low-Dimensional Mapping)

  • 이종우;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.235-237
    • /
    • 2005
  • 마이크로 어레이(micro array)로 표현되는 유전자 발현 패턴(gene expression pattern)들과 해당 유전자의 upstream에 위치한 DNA 서열 요소(motif)들은 유전자 발현에 밀접한 관련을 맺고 있는데 이들간의 매핑관계를 알아내는 것은 생물전산학 분야에서 중요한 문제 중 하나이다. 본 고에서는 유전자 발현 패턴 데이터와 해당 DNA에 포함된 것으로 알려진 모티프 프로파일에 대해 대응분석(correspondence analysis)을 수행하고 2차원 평면에 매핑하여 특정 유전자 발현과 밀접하게 관련된다고 여겨지는 후보 모티프를 시각적으로 직관적으로 동정하는 방법을 제시한다. 또한 유전자 발현 패턴은 일정한 길이로 나누어 가능한 모든 패턴에 대해 클러스터링을 행하여 이에 대한 인덱스로 데이터를 표현하여 패턴의 인식성과 발현 순차성을 높이는 반면 복잡도를 줄이도록 하였다. 실험에서 두가지 형태의 모티프 프로파일과 효모 Saccharomyces cerevisiae 포자형성 데이터 집합에 대하여 대응 분석을 통한 시각화된 결과를 이용해 유전자 발현과 깊게 관련되는 것으로 알려진 모티프들이 대응 유전자 발현과의 상관성이 잘 동정되고 있음을 알 수가 있다.

  • PDF

배관 시계열 데이터를 위한 캐시 관리자의 설계 및 구현 (Design and implementation of a cache manager for pipeline time-series data)

  • 김선효;김원식;신제용;한욱신
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.109-112
    • /
    • 2005
  • 배관에 생기는 구멍이나 틈은 대형 사고의 원인이 될 수 있다. 이러한 배관의 결함을 찾기 위해서는 먼저 센서를 부착한 배관 탐사 장비를 배관에 통과시키고, 배관을 통과하는 중에 센서가 읽은 정보들을 배관 탐사 장비의 하드 디스크에 저장한다. 배관 통과가 완료된 후, 분석가는 분석 프로그램을 사용하여 탐사 장비에서 얻은 데이터에서 결함을 수동적으로 찾는다. 분석가가 데이터를 분석할 때 일반적으로 두 가지 패턴이 존재한다. 첫 번째 패턴은 일정한 구간의 센서 데이터를 순차적으로 분석하는 패턴이고, 두 번째 패턴은 현재 구간에서 이전 구간으로 되돌아가서 다시 분석하는 반복적인 패턴이다. 현재까지 만족할 만 한 수준으로 자동적으로 분석이 되지 않으므로, 분석가는 수작업으로 분석을 하는 경우가 많은데 이로 인해 최근에 읽은 부분을 전후 반복해서 액세스하는 반복적인 패턴이 많이 사용된다. 반복적 패턴의 경우 시스템의 성능을 향상시키기 위해, 이전에 읽은 배관 센서 데이터를 캐싱 할 필요가 있다. 그러나 기존의 분석 소프트웨어에는 캐싱 기능이 없으므로 반복적 패턴일 경우 데이터베이스에서 동일한 데이터를 반복적으로 읽는 문제를 가지고 있다. 본 논문에서는 배관 센서 데이터를 효율적으로 관리하는 캐쉬 관리자를 설계하고 구현하였다. 세부적으로는, 배관 센서 데이터를 시계열 데이터로 간주하고, 시계열 데이터에 대한 캐시 관리자를 제안하였다. 본 논문은 배관 탐사 장비에서 획득한 데이터들을 시계열 데이터로 간주하여 데이터베이스 측면에서 이러한 문제들을 접근하였다는 점에서 의미가 있으며, 향후 이 분야에 대한 많은 연구들이 나올 것으로 기대한다.

  • PDF

데이터마이닝을 활용한 반도체 수율개선시스템

  • 백동현;남정곤
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2002년도 춘계공동학술대회
    • /
    • pp.293-300
    • /
    • 2002
  • 반도체 공정은 웨이퍼가 투입되어 완제품이 생산되기까지 수백개의 제고공정을 수개월에 걸쳐 진행해야 하는 매우 복잡하고 긴 공정으로 구성되어 있다. 대부분의 공정들은 먼저가 철저히 통제되는 클린 룸에서 진행되지만 아주 미세한 먼지 하나도 반도체 칩의 성능과 수율 을 저하시키는 요인이 된다. 반도체 칩의 불량은 특정 생산장비에서의 이물질 발생, 생산장비의 잘 못된 파라미터 값 설정 등 다양한 요인에 의해 발생될 수 있으며 불량의 원인을 요인별로 파악하여 신속하게 대처하는 것이 수율 개선의 핵심이 된다. 이를 위해 SPC 시스템, MES 그리고 6-시그마 등의 활용을 통한 다양한 수율개선 노력이 있었으나 공정의 복잡성과 대용량의 수집 데이터로 인해 기존의 통계적 방법이나 엔지니어의 경험적 분석방법으로는 미처 파악하지 못 하는 수율 저하 요인이 상당 수 존재한다. 본 논문은 군집화/분류, 순차패턴 등의 데이터마이닝 기법과 다차원분석(OLAP)도구를 활용하여 수율저하의 원인이 되는 문제공정, 문제장비, 그리고 잘못된 파리미터 값 설정 등을 신속하고 정화하게 파악하여 수율 개선을 지원하는 방법을 소개하며, 반도체Fabrication공정을 대상으로 실제 구현된 수율개선 시스템(Y-PLUS)을 설명한다.

  • PDF

시정보 반영을 통한 연관규칙의 신뢰도 측정 (Association Rules Reflected Temporal Information)

  • 옥지웅;백주련;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.353-356
    • /
    • 2006
  • 연관규칙 (Association rule) 마이닝은 무수히 많은 데이터로부터 유용한 정보만을 뽑아내어 실생활에 적용하여 이점을 얻게 하는 데이터마이닝의 가장 핵심적인 연구분야이다. 마켓 기반 데이터들로부터 고객들의 구매유형을 분석하여 적절한 판매전략을 세우거나 기업 데이터로부터 특정 업무와 관련된 의사결정을 지원하는 등의 일이 모두 연관규칙을 기반으로 한다. 그러나 대부분의 연관규칙들은 시간을 고려하지 않는 않거나, 순차패턴만을 고려해왔다. 따라서 하루중 특정 규칙이 발생되지 않는 시간대에도 그 규칙에 대한 불필요한 노력이 있었다. 본 논문에서는 추출된 연관규칙들과 각 트랜잭션에 부여한 시간 정보를 분석하여 특정 항목 (Item) 집합들 간의 연관규칙이 빈번하게 발생하는 시간대를 추출한다. 추출되 시간 정보를 이용하여 시간대별 유용한 판매 전략을 세움으로써, 상품 판매를 극대화하고자 한다.

  • PDF