• 제목/요약/키워드: 시퀀스 데이터

검색결과 409건 처리시간 0.026초

시퀀스 유사도에 기반한 유전체 데이터베이스 압축 및 영향 분석 (The Analysis of Genome Database Compaction based on Sequence Similarity)

  • 권선영;이병한;박승현;조정희;윤성로
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권4호
    • /
    • pp.250-255
    • /
    • 2017
  • 유전체 데이터의 급증 및 정밀의료 등 응용 분야 확대에 따라 유전체 데이터베이스의 효율적 관리에 대한 중요성이 커지고 있다. 전통적인 압축 기법을 통해 유전체 데이터를 압축할 경우, 압축효과는 크지만, 압축된 상태에서 데이터베이스를 비교하거나 검색하는 등의 작업이 용이하지 않게 된다. 유전체 데이터 분석에 소요되는 시간은 데이터베이스에 존재하는 시퀀스 수에 비례하며, 중복되거나 유사한 시퀀스가 다수 존재한다는 점에 착안하여, 본 논문에서는 유전체 데이터베이스 상에 존재하는 유사 시퀀스를 제거함으로써 전체 데이터베이스 크기를 줄이는 기법을 제안한다. 실험을 통해 시퀀스 유사도 1% 기준으로도 전체의 약 84% 시퀀스가 제거되며, 약 10배 빠른 분류분석이 가능함을 보인다. 또한 큰 폭의 압축효과에도 불구하고, 범주 다양성 및 분류 분석 등에 미치는 변화가 미미함을 확인함으로써, 시퀀스 유사도 기반의 제안 압축 기법이 유전체 데이터베이스 압축에 효과적인 방법임을 제시한다.

집합 유사 시퀀스 매칭의 성능 향상을 위한 인덱스 기반 검색 방법 (An Index-Based Search Method for Performance Improvement of Set-Based Similar Sequence Matching)

  • 이주원;임효상
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.507-520
    • /
    • 2017
  • 집합 유사 시퀀스 매칭 방법은 유사한 정도를 나타내는 척도로 교집합을 기반으로 한 유사도를 사용한다. 그러나 교집합 크기를 계산하는 과정에 시간이 오래 걸릴 뿐만 아니라, 유사한 시퀀스를 찾기 위해서 수많은 집합 간 교집합 크기를 구해야 하므로 수행 시간이 오래 걸리는 성능상의 문제가 있다. 본 논문에서는 이러한 성능상의 문제를 해결하기 위해 인덱스 기반의 검색 방법을 사용하여 집합 기반 유사 시퀀스 매칭을 빠르게 수행하는 방법을 제안한다. 제안하는 방법은 크게 두가지로 구분된다. 첫 번째로 집합 시퀀스 유사도 문제를 교집합의 크기 비교 문제로 정형적으로 변환하고, 교집합의 크기를 빠르게 찾을 수 있는 인덱스 구조를 제안한다. 두 번째로 제안한 인덱스 구조를 사용하여 집합 기반 유사 시퀀스 매칭을 효율적으로 수행할 수 있는 방법을 제안한다. 성능 평가 결과, 제안하는 방법이 기존 방법에 비해 최대 30배에서 50배의 수행 시간 단축이 있음을 보인다. 또한 데이터 시퀀스의 개수가 증가할수록 수행시간의 차이가 점점 커지므로, 대용량 데이터 처리에 적절함을 보인다.

범주형 시퀀스들에 대한 확장성 있는 클러스터링 방법 (A Scalable Clustering Method for Categorical Sequences)

  • 오승준;김재련
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.136-141
    • /
    • 2004
  • 소매점 거래 데이터와 단백질 시퀀스, 웹 로그 등과 같은 상업적이거나 과학적인 데이터의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 그러나, 순서적인 면을 고려한 클러스터링 알고리듬은 소수이다. 따라서, 본 연구에서는 시퀀스 데이터들을 클러스터링 하는 방법을 연구한다. 시퀀스들 간의 유사도를 계산하기 위한 새로운 유사도를 제안한다. 또한, 유사도를 효율적으로 계산하기 위한 방법과 클러스터링 방법도 제안한다. 계층적 클러스터링 알고리듬은 높은 계산량을 가지고 있기에, 새로운 클러스터링 방법이 요구된다. 그러므로, 본 연구에서는 샘플링과 k-nn 방법을 이용한 확장성 있는 클러스터링 방법을 제안한다. 실제 데이터 셋과 합성 데이터 셋을 이용하여, 본 연구에서 제안하는 방법이 기존 방법보다 성능이 우수함을 보여준다.

Contextual LSTM 기반 변분 오토인코더를 이용한 이동 경로 예측 (Trajectory Prediction by Using Contextual LSTM based Variational AutoEncoder)

  • 조광호;차재혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.587-590
    • /
    • 2020
  • 스마트폰, GPS 장비, 위치 기반 소셜네트워크의 발달로 방대한 이동 경로 데이터 수집이 가능하게 됐다. 이를 통해 다양한 분야에서 GPS 데이터를 가지고 사람의 이동성을 분석하고 POI를 예측하는 기회가 많아졌다. 실생활에서 사람의 이동성은 다양한 상황에 영향을 받지만, 실제 GPS 데이터는 위치, 시간 정보의 수준이다. 따라서 다양한 상황을 내재하는 정보가 사람의 이동성 분석과 POI 예측에 필요하다. 본 논문에서는 POI의 순위, 사용자의 POI 활동, 카테고리 선호도 같은 맥락적 특징을 이용하여 이에 관련된 상황에 맞는 POI 시퀀스를 예측하는 Contextual LSTM 기반 딥러닝 기법을 제안한다. Contextual LSTM은 사람의 이동성에 영향을 주는 시퀀스의 맥락적 특징을 모델에 통합하기 위해 LSTM을 확장한다. 제안된 기법은 HITS 알고리즘과 여러 제약조건 기반으로 추출한 맥락적 특징별로 딥 러닝 모델에 통합하여 각각 POI 시퀀스를 검출했으며, 다양한 맥락적 특징에 대해서 공공 데이터와 수집한 데이터로 평가하였다.

이원성 기반 시계열 서브시퀀스 매칭의 인덱스 검색을 위한 최적의 기법 (An Optimal Way to Index Searching of Duality-Based Time-Series Subsequence Matching)

  • 김상욱;박대현;이헌길
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1003-1010
    • /
    • 2004
  • 본 논문에서는 시계열 데이터베이스에서 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 먼저, 본 논문에서는 서브시퀀스 매칭을 위한 기존 기법의 인덱스 검색에서 발생하는 성능상의 문제점들을 지적하고, 이들을 해결할 수 있는 새로운 방법을 제시한다. 제안된 기법은 서브시퀀스 매칭의 인덱스 검색 문제를 윈도우-조인이라는 일종의 공간 조인 문제로 새롭게 해석하는 것에서 출발한다. 윈도우-조인의 빠른 처리를 위하여 제안된 기법에서는 서브시퀀스 매칭을 시작할 때 질의 시퀀스를 위한 R*-트리를 주기억장치 내에 구성한다. 또한, 제안된 기법은 데이터 시퀀스들을 위한 디스크 상의 R*-트리와 질의 시퀀스를 위한 주기억장치 상의 R*-트리를 효과적으로 조인할 수 있는 새로운 알고리즘을 포함한다. 이 알고리즘은 데이터 시퀀스들을 위한 R*-트리 페이지들을 인덱스 단계의 착오 채택 없이 단 한번만 디스크로부터 액세스하므로 디스크 액세스 측면에서 최적의 기법임이 증명된다. 또한, 다양한 실험을 통한 성능 평가를 통하여 제안된 기법의 우수성을 정량적으로 규명한다.

인덱스 보간법에 기반한 효율적인 서브시퀀스 매칭 기법 (An Efficient Subsequence Matching Method Based on Index Interpolation)

  • 노웅기;김상욱
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.345-354
    • /
    • 2005
  • 서브시퀀스 매칭은 데이터 마이닝 분야에서 중요한 연산 중의 하나이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하며, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하된다. 본 논문에서는 이러한 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 먼저 사전 실험을 통하여 서브시퀀스 매칭을 수행하는 데에 있어 질의 시퀀스 길이와 윈도우 크기 간의 차이로 인한 성능의 변화를 관찰하고, 이 관찰을 통하여 물리적 데이터베이스 설계 관점에서 질의 시퀀스의 길이 분포에 따른 검색 비용 공식을 산출한다. 다음에, 윈도우 크기 효과에 의한 성능 저하를 개선하기 위해 인덱스 보간법에 기반한 새로운 검색 기법을 제안한다. 또한, 검색 비용 공식에 기반하여 제안된 검색 기법의 성능을 최적화할 수 있도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터와 합성 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 검증한다.

Seed기반의 short read aligner 구현에 관한 연구

  • 지민근;김정규;이강만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1107-1109
    • /
    • 2019
  • 차세대 게놈 시퀀싱(NGS) 기술이 발전하면서 방대하게 축적된 유전체 데이터를 분석하기 위해 다양한 시퀀스 정렬 연구가 진행되고 있다. 시퀀스 정렬 중 잘 알려진 BLAST에서는 휴리스틱 기반의 시퀀스 정렬을 수행하여 긴 리드 시퀀스에 대해 속도와 안정성이 보장되지만 짧은 리드 시퀀스에 대해서는 성능이 저하되는 문제가 있다. 이 문제를 해결하기 위해 본 논문에서는 레퍼런스 시퀀스와 쿼리 시퀀스를 Seed 기반으로 분리하여 정렬을 수행한다. 최종적으로는 contig를 추출하고 레퍼런스-쿼리간 유효한 contig만 선별하여 빠르게 짧은 리드 시퀀스들의 정렬을 수행할 수 있는 정렬기를 구현하고자 한다.

클래스 활성화 맵을 이용한 카테고리 의존적 요약 (Category-wise Neural Summarizer with Class Activation Map)

  • 김소언;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.287-292
    • /
    • 2019
  • 다양한 매체를 통해 텍스트 데이터가 빠르게 생성되면서 요약된 텍스트에 대한 수요가 증가하고 있다. 시퀀스-투-시퀀스 모델의 등장과 attention 기법의 출현은 추상적 요약의 난도를 낮추고 성능을 상승시켰다. 그러나 그동안 진행되어 온 attention 기반의 시퀀스-투-시퀀스 모델을 통한 요약 관련 연구들은 요약 시 텍스트의 카테고리 정보를 이용하지 않았다. 텍스트의 카테고리 정보는 Class Activation Map(CAM)을 통해 얻을 수 있는데, 텍스트를 요약할 때 핵심이 되는 단어와 CAM에서 높은 수치를 보이는 단어가 상당수 일치한다는 사실은 요약문 생성이 텍스트의 카테고리에 의존적일 필요가 있음을 증명한다. 본 논문에서는 요약문 생성 시 집중 정도에 대한 정보를 CAM을 통해 전달하여 attention matrix를 보강할 수 있는 모델을 제안하였다. 해당 모델을 사용하여 요약문을 생성하고 대표적인 요약 성능 지표인 ROUGE로 측정한 결과, attention 기반의 시퀀스-투-시퀀스 모델이 질이 떨어지는 요약문을 생성할 때 attention의 성능을 보강하여 요약문의 질을 높일 수 있음을 알 수 있었다.

  • PDF

시퀀스 유틸리티 리스트를 사용하여 높은 유틸리티 순차 패턴 탐사 기법 (Mining High Utility Sequential Patterns Using Sequence Utility Lists)

  • 박종수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권2호
    • /
    • pp.51-62
    • /
    • 2018
  • 높은 유틸리티 순차 패턴 탐사는 데이터 마이닝에서 중요한 연구 주제로 간주되고 있다. 이 주제에 대해 몇 개의 알고리즘들이 제안되었지만, 그것들은 높은 유틸리티 순차 패턴 탐사의 탐색 공간이 커지는 문제에 부딪히게 된다. 한 시퀀스의 더 엄격한 유틸리티 상한 값은 탐색 공간에서 초기에 유망하지 않은 패턴들을 더 가지치기할 수 있다. 본 논문에서 새로운 유틸리티 상한 값을 제안하는데, 그것은 한 시퀀스와 그 자손 시퀀스들의 최대 예상 유틸리티인 sequence expected utility (SEU)이다. 높은 유틸리티 순차 패턴들을 탐사하는데 필수적인 정보를 유지하기 위해 각 패턴에 대한 시퀀스 유틸리티 리스트를 새로운 자료구조로 사용한다. SEU를 활용하여 높은 유틸리티 순차 패턴들을 찾아내는 알고리즘인 High Sequence Utility List-Span (HSUL-Span)을 제안한다. 서로 다른 영역의 합성 데이터세트와 실제 데이터세트에 대한 실험 결과는 HSUL-Span이 상당히 적은 수의 후보 패턴들을 생성하고 실행 시간 면에서 다른 알고리즘들보다 우수한 것을 보여준다.

시계열 거리 계산에서 미리 버림 효과의 최대화 (Maximizing the Early Abandon Effect in Time-Series Distance Computation)

  • 이정곤;김상필;문양세
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1226-1228
    • /
    • 2011
  • 본 논문에서는 유사 시퀀스 매칭에서 미리 버림 계산의 효율적인 방법을 제안한다. 미리 버림은 유사 시퀀스 매칭에서 유클리디안 거리 계산 도중 거리 계산 값이 허용치보다 큰 경우 나머지 거리 계산을 하지 않는 방법이다. 기존의 방법은 시퀀스 첫 엔트리를 시작으로 하여 유클리디안 거리 계산을 진행한다. 이 방법은 데이터 고려 없이 계산이 진행되기 때문에 데이터의 특성에 따라 효과가 크게 다른 점을 보인다. 본 논문에서는 미리 버림의 효과를 최대화 시키기 위해 유클리디안 거리 계산 시작점을 오프셋이라 정의하고, 이를 데이터 특성에 맞게 조절하는 방법을 제안한다. 실험 결과, 제안한 오프셋 조절 미리 버림 방법이 대용량의 데이터 베이스 기반 시스템에서 기존 기법에 비해 좋은 성능 향상시킨 것으로 나타났다.