• Title/Summary/Keyword: 데이터 시퀀스

Search Result 409, Processing Time 0.028 seconds

A parallel SNP detection algorithm for RNA-Seq data (RNA 시퀀싱 데이터를 이용한 병렬 SNP 추출 알고리즘)

  • Kim, Deok-Keun;Lee, Deok-Hae;Kong, Jin-Hwa;Lee, Un-Joo;Yoon, Jee-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1260-1263
    • /
    • 2011
  • 최근 차세대 시퀀싱 (Next Generation Sequencing, NGS) 기술이 발전하면서 DNA, RNA 등의 시퀀싱 데이터를 이용한 유전체 분석 방식에 관한 연구가 활발히 이루어지고 있다. 차세대 시퀀싱 데이터를 이용한 유전체 분석 방식은 마이크로어레이 혹은 EST/cDNA 데이터를 이용한 기존의 분석 방식에 비하여 비용이 적게 들고 정확한 결과를 얻을 수 있다는 장점이 있다. 그러나 이 들 DNA, RNA 시퀀싱 데이터는 각 시퀀스의 길이가 짧고 전체 용량은 매우 커서 이 들 데이터로부터 정확한 분석 결과를 추출하는 데에 많은 어려움이 있다. 본 연구에서는 클라우드 컴퓨팅 기술을 기반으로 하여 대용량의 RNA 시퀀싱 데이터를 고속으로 처리하는 병렬 SNP 추출 알고리즘을 제안한다. 전체 게놈 데이터 중 유전자 영역만을 high coverage로 시퀀싱하여 얻어지는 RNA 시퀀싱 데이터는 유전자 변이 추출을 목적으로 분석되며, SNP(Single Nucleotide Polymorphism)와 같은 유전자 변이는 질병의 원인 규명 및 치료법 개발에 직접 이용된다. 제안된 알고리즘은 동시에 실행되는 다수의 Map/Reduce 함수에 의해서 대규모 RNA 시퀀스를 병렬로 처리하며, 레퍼런스 시퀀스에 매핑된 각 염기의 출현 빈도와 품질점수를 이용하여 SNP를 추출한다. 또한 이 들 SNP 추출 결과에 대한 시각적 분석 도구를 제공하여 SNP 추출 과정 및 근거를 시각적으로 확인/검증할 수 있도록 지원한다.

Efficient Range Search Method for Multi-dimensional Sequence Database (다차원 시퀀스 데이터베이스를 위한 효율적인 범위 검색 기법)

  • Lee, Sang-Jun;Kim, Beom-Su;Lee, Seok-Ho
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.5
    • /
    • pp.613-620
    • /
    • 1999
  • 시간의 흐름에 따라 순차적으로 생성되는 연속적인 데이터의 모임을 시퀀스라 한다. 저장된 시퀀스에서 질의로 주어진 시퀀스와 유사한 것을 찾는 문제에 대한 기존의 연구는 대부분 하나의 속성만을 대상으로 한것이며, 여러 속성으로 구성된 다차원 시퀀스에 대해서는 아직까지 활발한 연구가 이루어지지않고 있다. 본 논문에서는 유사도에 기반한 다차원 시퀀스의 범위 검색 문제를 정의하고 세 가지 검색 기법을 기술한다. 순차 검색 기법, 속성별 인덱스 구조, 차원 감소 기법을 이용한 다차원 시퀀스의 검색 기법을 기술하고 질의에 대해 어떤 검색 기법이 효율적인지 실험을 통해 보인다.

Optimizing the Post-Processing Step of Subsequence Matching in Time-Series Databases (시계열 데이터베이스를 위한 서브시퀀스 매칭 후처리 과정의 최적화)

  • Kim, Sang-Wook;Park, Dae-Hyun;Lee, Heon-Gil;Jung, Byong-Dae;Son, Sung-Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.39-42
    • /
    • 2001
  • 본 논문에서는 시계열 데이터베이스에서 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 먼저, 서브시퀀스 매칭의 후처리 과정에서 발생하는 기존 기법의 문제점을 지적하고, 이를 해결할 수 있는 최적의 기법을 제안하였다. 제안된 기법은 이진 트리 내에 후보 시퀀스에 대한 정보를 삽입해 둠으로써 같은 시퀀스에 속하는 후보 윈도우들과 같은 서브시퀀스에 속하는 후보 윈도우들을 연속적으로 처리하는 방식을 사용한다. 이 결과, 디스크 액세스와 서브시퀀스 비교의 측면에서 중복 작업을 완전히 제거할 수 있다. 제안된 기법의 성능 개선 효과를 검증하기 위하여 실제 주식 데이터를 위한 성능 평가를 수행하였다. 실험 결과에 의하면, 제안된 기법은 기존의 기법과 비교하여 전체적으로 55배에서 156배까지의 성능 개선 효과가 있는 것으로 나타났다.

  • PDF

Denoising Response Generation for Learning Korean Conversational Model (한국어 대화 모델 학습을 위한 디노이징 응답 생성)

  • Kim, Tae-Hyeong;Noh, Yunseok;Park, Seong-Bae;Park, Se-Yeong
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.29-34
    • /
    • 2017
  • 챗봇 혹은 대화 시스템은 특정 질문이나 발화에 대해 적절한 응답을 해주는 시스템으로 자연어처리 분야에서 활발히 연구되고 있는 주제 중 하나이다. 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 프레임워크가 많이 이용되고 있다. 하지만 해당 방식을 적용한 모델의 경우 학습 데이터에 나타나지 않은 다양한 형태의 질의문에 대해 응답을 잘 못해주는 문제가 있다. 이 논문에서는 이러한 문제점을 해결하기 위하여 디노이징 응답 생성 모델을 제안한다. 제안하는 방법은 다양한 형태의 노이즈가 임의로 가미된 질의문을 모델 학습 시에 경험시킴으로써 강건한 응답 생성이 가능한 모델을 얻을 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 질의-응답 쌍으로 구성된 한국어 대화 데이터에 대해 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델에 비해 정량 평가인 ROUGE 점수와 사람이 직접 평가한 정성 평가 모두에서 더 우수한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

Denoising Response Generation for Learning Korean Conversational Model (한국어 대화 모델 학습을 위한 디노이징 응답 생성)

  • Kim, Tae-Hyeong;Noh, Yunseok;Park, Seong-Bae;Park, Se-Yeong
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.29-34
    • /
    • 2017
  • 챗봇 혹은 대화 시스템은 특정 질문이나 발화에 대해 적절한 응답을 해주는 시스템으로 자연어처리 분야에서 활발히 연구되고 있는 주제 중 하나이다. 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 프레임워크가 많이 이용되고 있다. 하지만 해당 방식을 적용한 모델의 경우 학습 데이터에 나타나지 않은 다양한 형태의 질의문에 대해 응답을 잘 못해주는 문제가 있다. 이 논문에서는 이러한 문제점을 해결하기 위하여 디노이징 응답 생성 모델을 제안한다. 제안하는 방법은 다양한 형태의 노이즈가 임의로 가미된 질의문을 모델 학습 시에 경험시킴으로써 강건한 응답 생성이 가능한 모델을 얻을 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 질의-응답 쌍으로 구성된 한국어 대화 데이터에 대해 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델에 비해 정량 평가인 ROUGE 점수와 사람이 직접 평가한 정성 평가 모두에서 더 우수한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

Automatic Synthesis of Dancing Motions Matching to Ad-lib Musical Performances (즉흥 음악 연주에 따른 춤 동작 자동 생성)

  • Kang, Kyung-Kyu;Choung, Yu-Jean;Kim, Jung-A;Li, Xianji;Kim, Dong-Ho
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02c
    • /
    • pp.176-182
    • /
    • 2007
  • 본 연구에서는 사용자가 즉석에서 연주한 곡에 대응하는 춤 동작을 자동으로 생성하는 기술을 제안한다. 본 기법은 먼저 댄서로부터 모션 캡쳐 받은 춤 시퀀스를 분절화한 후 사용자가 신디사이저를 통해 직접 연주하여 얻은 MIDI 데이터를 분석해 음악에서의 특징점을 추출한다. 그리고 분절화 한 모션의 세그먼트들을 음악에 맞춰 다시 배열하여 새로운 춤 시퀀스를 생성함으로써 사용자가 연주한 음악과 어울리는 춤 동작을 자동으로 생성한다. 이를 위해 세 단계의 작업을 수행하게 되는데, 첫 번째 단계에서 모션 캡쳐를 통해 얻게 된 데이터에서 캐릭터의 위치와 자세를 기준으로 하여 긴 시퀀스를 의미 있는 작은 춤 동작으로 분절화한다. 두 번째 단계에서는 사용자의 연주를 통해 획득한 MIDI를 분석하여 특징점을 추출하고, 마지막 단계에서는 이를 바탕으로 음악에 기반한 음악과 동작을 합성한다. 본 연구는 음악과 댄스의 리듬감이 파괴되지 않도록 합성함으로써 우리의 연구는 기존 연구에 비해서 훨씬 자연스러운 춤 시퀀스를 결과물로 만들어 낸다.

  • PDF

An Efficient Suffix Trie Index Structure for Genomic Databases (유전체 데이터베이스를 위한 효율적인 접미어 트라이 인덱스 구조)

  • Park, Jin-Man;Won, Jung-Im;Yoon, Jee-Hee;Park, Sang-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1583-1586
    • /
    • 2003
  • DNA 시퀀스는 A, C, G, T 네 개의 문자로 구성된 매우 긴 시퀀스로 볼 수 있다. 고속으로 유사 DNA 시퀀스를 검색하기 위하여 인덱싱 기술을 이용하는 것이 일반적이다. 그러나 검색 대상의 유전체 데이터베이스는 그 크기가 매우 크며, 또한 지수 함수적으로 크기가 급속히 증가하고 있으므로, 기존의 인덱싱 기법을 그대로 적용할 경우, 실용성에 한계가 있다. 본 논문에서는 이와 같은 문제점을 해결할 수 있는 대규모 유전체 데이터베이스를 위한 효율적인 인덱싱 기법과 질의처리 기법을 제안한다. 기본 구조로서 접미어 트라이를 사용하며, 접미어 트리 인덱스 구조의 최대 단점인 인덱스 크기를 줄일 수 있는 데이터 압축 표현 방식을 제안한다. 또한 제안된 데이터 압축 표현 방식의 디스크 기반 인덱스 구성 알고리즘과 이를 활용한 부분 시퀀스 검색 알고리즘을 보이고, 그 저장 성능의 비교 평가결과를 보인다.

  • PDF

Discovering and Matching Elastic Rules in Sequence Databases (시퀀스 데이터베이스에서 유연 규칙의 탐사 및 매칭)

  • ;Wesley Chu
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.7A
    • /
    • pp.1162-1169
    • /
    • 2001
  • 유연 패턴은 시간 축으로 확장 및 수축할 수 있는 요소들의 순서화된 리스트이다. 유연 패턴은 서로 다른 샘플링 비율을 갖는 데이터 시퀀스들로부터 규칙들을 찾아내는데 유용하게 사용된다. 본 연구에서는 헤드(head: 규칙의 왼쪽 부분)와 바디(body: 규칙의 오른쪽 부분)가 모두 유연 패턴으로 구성된 규칙들을 신속하게 찾도록 하기 위하여 데이터 시퀀스로부터 서픽스 트리(suffix tree)를 구성한다. 이 서픽스 트리는 유연 규칙들의 압축된 표현이며, 타깃 헤드 시퀀스와 매치되는 규칙을 찾기 위한 인덱스 구조로서 사용된다. 만일, 매치되는 규칙을 찾을 수 없는 경우에는 규칙 완화(rule relaxation)의 개념을 이용한다. 클러스터 계층(cluster hierarchy)과 완화 오차(relaxation error)를 사용하여 타깃 헤드 시퀀스의 고유한 정보를 대부분 포함하고 있는 최소한으로 완화된 규칙을 찾는다. 다양한 실험을 통한 성능 평가를 통하여 제안한 기법의 우수성을 검증한다.

  • PDF

Matching of Elastic Rules in Sequence Databases (시퀀스 데이터베이스를 위한 유연 규칙 매칭)

  • Park, Sang-Hyun;Chu, Wesley W.;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04a
    • /
    • pp.57-60
    • /
    • 2001
  • 본 논문에서는 유연 패턴(elastic pattern)을 갖는 규칙(rule)을 탐사하고 매칭하는 기법에 대해 논의한다. 유연 패턴은 시간 축으로 확장 및 수축할 수 있는 요소들의 순서화된 리스트이다. 유연 패턴은 서로 다른 샘플링 비율을 갖는 데이터 시퀀스들로부터 규칙들을 찾아내는데 유용하게 사용된다. 본 연구에서는 헤드(head: 규칙의 왼쪽 부분)와 바디(body: 규칙의 오른쪽 부분)가 모두 유연 패턴으로 구성된 규칙들을 신속하게 찾도록 하기 위하여 데이터 시퀀스로부터 서픽스 트리(suffix tree)를 구성한다. 이 서픽스 트리는 유연 규칙들의 압축된 표현이며, 타깃 헤드 시퀀스와 매치되는 규칙을 찾기 위한 인덱스 구조로서 사용된다. 만일, 매치되는 규칙을 찾을 수 없는 경우에는 규칙 완화(rule relaxation)의 개념을 이용한다. 클러스터 계층(cluster hierarchy)과 완화 오차(relaxation error)를 사용하여 타깃 헤드 시퀀스의 고유한 정보를 대부분 포함하고 있는 최소한으로 완화된 규칙을 찾는다. 다양한 실험을 통한 성능 평가를 통하여 제안한 기법의 우수성을 검증한다.

  • PDF

A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases (시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭)

  • Moon Yang-Sae;Kim Jin-Ho;Loh Woong-Kee
    • The KIPS Transactions:PartD
    • /
    • v.13D no.4 s.107
    • /
    • pp.513-524
    • /
    • 2006
  • Normalization transform is very useful for finding the overall trend of the time-series data since it enables finding sequences with similar fluctuation patterns. The previous subsequence matching method with normalization transform, however, would incur index overhead both in storage space and in update maintenance since it should build multiple indexes for supporting arbitrary length of query sequences. To solve this problem, we propose a single index approach for the normalization transformed subsequence matching that supports arbitrary length of query sequences. For the single index approach, we first provide the notion of inclusion-normalization transform by generalizing the original definition of normalization transform. The inclusion-normalization transform normalizes a window by using the mean and the standard deviation of a subsequence that includes the window. Next, we formally prove correctness of the proposed method that uses the inclusion-normalization transform for the normalization transformed subsequence matching. We then propose subsequence matching and index building algorithms to implement the proposed method. Experimental results for real stock data show that our method improves performance by up to $2.5{\sim}2.8$ times over the previous method. Our approach has an additional advantage of being generalized to support many sorts of other transforms as well as normalization transform. Therefore, we believe our work will be widely used in many sorts of transform-based subsequence matching methods.