• 제목/요약/키워드: 시퀀스 데이터

검색결과 409건 처리시간 0.039초

RNA 시퀀싱 데이터를 이용한 병렬 SNP 추출 알고리즘 (A parallel SNP detection algorithm for RNA-Seq data)

  • 김덕근;이덕해;공진화;이은주;윤지희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1260-1263
    • /
    • 2011
  • 최근 차세대 시퀀싱 (Next Generation Sequencing, NGS) 기술이 발전하면서 DNA, RNA 등의 시퀀싱 데이터를 이용한 유전체 분석 방식에 관한 연구가 활발히 이루어지고 있다. 차세대 시퀀싱 데이터를 이용한 유전체 분석 방식은 마이크로어레이 혹은 EST/cDNA 데이터를 이용한 기존의 분석 방식에 비하여 비용이 적게 들고 정확한 결과를 얻을 수 있다는 장점이 있다. 그러나 이 들 DNA, RNA 시퀀싱 데이터는 각 시퀀스의 길이가 짧고 전체 용량은 매우 커서 이 들 데이터로부터 정확한 분석 결과를 추출하는 데에 많은 어려움이 있다. 본 연구에서는 클라우드 컴퓨팅 기술을 기반으로 하여 대용량의 RNA 시퀀싱 데이터를 고속으로 처리하는 병렬 SNP 추출 알고리즘을 제안한다. 전체 게놈 데이터 중 유전자 영역만을 high coverage로 시퀀싱하여 얻어지는 RNA 시퀀싱 데이터는 유전자 변이 추출을 목적으로 분석되며, SNP(Single Nucleotide Polymorphism)와 같은 유전자 변이는 질병의 원인 규명 및 치료법 개발에 직접 이용된다. 제안된 알고리즘은 동시에 실행되는 다수의 Map/Reduce 함수에 의해서 대규모 RNA 시퀀스를 병렬로 처리하며, 레퍼런스 시퀀스에 매핑된 각 염기의 출현 빈도와 품질점수를 이용하여 SNP를 추출한다. 또한 이 들 SNP 추출 결과에 대한 시각적 분석 도구를 제공하여 SNP 추출 과정 및 근거를 시각적으로 확인/검증할 수 있도록 지원한다.

다차원 시퀀스 데이터베이스를 위한 효율적인 범위 검색 기법 (Efficient Range Search Method for Multi-dimensional Sequence Database)

  • 이상준;김범수;이석호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권5호
    • /
    • pp.613-620
    • /
    • 1999
  • 시간의 흐름에 따라 순차적으로 생성되는 연속적인 데이터의 모임을 시퀀스라 한다. 저장된 시퀀스에서 질의로 주어진 시퀀스와 유사한 것을 찾는 문제에 대한 기존의 연구는 대부분 하나의 속성만을 대상으로 한것이며, 여러 속성으로 구성된 다차원 시퀀스에 대해서는 아직까지 활발한 연구가 이루어지지않고 있다. 본 논문에서는 유사도에 기반한 다차원 시퀀스의 범위 검색 문제를 정의하고 세 가지 검색 기법을 기술한다. 순차 검색 기법, 속성별 인덱스 구조, 차원 감소 기법을 이용한 다차원 시퀀스의 검색 기법을 기술하고 질의에 대해 어떤 검색 기법이 효율적인지 실험을 통해 보인다.

시계열 데이터베이스를 위한 서브시퀀스 매칭 후처리 과정의 최적화 (Optimizing the Post-Processing Step of Subsequence Matching in Time-Series Databases)

  • 김상욱;박대현;이헌길;정병대;손성용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.39-42
    • /
    • 2001
  • 본 논문에서는 시계열 데이터베이스에서 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 먼저, 서브시퀀스 매칭의 후처리 과정에서 발생하는 기존 기법의 문제점을 지적하고, 이를 해결할 수 있는 최적의 기법을 제안하였다. 제안된 기법은 이진 트리 내에 후보 시퀀스에 대한 정보를 삽입해 둠으로써 같은 시퀀스에 속하는 후보 윈도우들과 같은 서브시퀀스에 속하는 후보 윈도우들을 연속적으로 처리하는 방식을 사용한다. 이 결과, 디스크 액세스와 서브시퀀스 비교의 측면에서 중복 작업을 완전히 제거할 수 있다. 제안된 기법의 성능 개선 효과를 검증하기 위하여 실제 주식 데이터를 위한 성능 평가를 수행하였다. 실험 결과에 의하면, 제안된 기법은 기존의 기법과 비교하여 전체적으로 55배에서 156배까지의 성능 개선 효과가 있는 것으로 나타났다.

  • PDF

한국어 대화 모델 학습을 위한 디노이징 응답 생성 (Denoising Response Generation for Learning Korean Conversational Model)

  • 김태형;노윤석;박성배;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.29-34
    • /
    • 2017
  • 챗봇 혹은 대화 시스템은 특정 질문이나 발화에 대해 적절한 응답을 해주는 시스템으로 자연어처리 분야에서 활발히 연구되고 있는 주제 중 하나이다. 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 프레임워크가 많이 이용되고 있다. 하지만 해당 방식을 적용한 모델의 경우 학습 데이터에 나타나지 않은 다양한 형태의 질의문에 대해 응답을 잘 못해주는 문제가 있다. 이 논문에서는 이러한 문제점을 해결하기 위하여 디노이징 응답 생성 모델을 제안한다. 제안하는 방법은 다양한 형태의 노이즈가 임의로 가미된 질의문을 모델 학습 시에 경험시킴으로써 강건한 응답 생성이 가능한 모델을 얻을 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 질의-응답 쌍으로 구성된 한국어 대화 데이터에 대해 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델에 비해 정량 평가인 ROUGE 점수와 사람이 직접 평가한 정성 평가 모두에서 더 우수한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

한국어 대화 모델 학습을 위한 디노이징 응답 생성 (Denoising Response Generation for Learning Korean Conversational Model)

  • 김태형;노윤석;박성배;박세영
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.29-34
    • /
    • 2017
  • 챗봇 혹은 대화 시스템은 특정 질문이나 발화에 대해 적절한 응답을 해주는 시스템으로 자연어처리 분야에서 활발히 연구되고 있는 주제 중 하나이다. 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 프레임워크가 많이 이용되고 있다. 하지만 해당 방식을 적용한 모델의 경우 학습 데이터에 나타나지 않은 다양한 형태의 질의문에 대해 응답을 잘 못해주는 문제가 있다. 이 논문에서는 이러한 문제점을 해결하기 위하여 디노이징 응답 생성 모델을 제안한다. 제안하는 방법은 다양한 형태의 노이즈가 임의로 가미된 질의문을 모델 학습 시에 경험시킴으로써 강건한 응답 생성이 가능한 모델을 얻을 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 질의-응답 쌍으로 구성된 한국어 대화 데이터에 대해 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델에 비해 정량 평가인 ROUGE 점수와 사람이 직접 평가한 정성 평가 모두에서 더 우수한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

즉흥 음악 연주에 따른 춤 동작 자동 생성 (Automatic Synthesis of Dancing Motions Matching to Ad-lib Musical Performances)

  • 강경규;정유진;김정아;리현희;김동호
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 3부
    • /
    • pp.176-182
    • /
    • 2007
  • 본 연구에서는 사용자가 즉석에서 연주한 곡에 대응하는 춤 동작을 자동으로 생성하는 기술을 제안한다. 본 기법은 먼저 댄서로부터 모션 캡쳐 받은 춤 시퀀스를 분절화한 후 사용자가 신디사이저를 통해 직접 연주하여 얻은 MIDI 데이터를 분석해 음악에서의 특징점을 추출한다. 그리고 분절화 한 모션의 세그먼트들을 음악에 맞춰 다시 배열하여 새로운 춤 시퀀스를 생성함으로써 사용자가 연주한 음악과 어울리는 춤 동작을 자동으로 생성한다. 이를 위해 세 단계의 작업을 수행하게 되는데, 첫 번째 단계에서 모션 캡쳐를 통해 얻게 된 데이터에서 캐릭터의 위치와 자세를 기준으로 하여 긴 시퀀스를 의미 있는 작은 춤 동작으로 분절화한다. 두 번째 단계에서는 사용자의 연주를 통해 획득한 MIDI를 분석하여 특징점을 추출하고, 마지막 단계에서는 이를 바탕으로 음악에 기반한 음악과 동작을 합성한다. 본 연구는 음악과 댄스의 리듬감이 파괴되지 않도록 합성함으로써 우리의 연구는 기존 연구에 비해서 훨씬 자연스러운 춤 시퀀스를 결과물로 만들어 낸다.

  • PDF

유전체 데이터베이스를 위한 효율적인 접미어 트라이 인덱스 구조 (An Efficient Suffix Trie Index Structure for Genomic Databases)

  • 박진만;원정임;윤지희;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1583-1586
    • /
    • 2003
  • DNA 시퀀스는 A, C, G, T 네 개의 문자로 구성된 매우 긴 시퀀스로 볼 수 있다. 고속으로 유사 DNA 시퀀스를 검색하기 위하여 인덱싱 기술을 이용하는 것이 일반적이다. 그러나 검색 대상의 유전체 데이터베이스는 그 크기가 매우 크며, 또한 지수 함수적으로 크기가 급속히 증가하고 있으므로, 기존의 인덱싱 기법을 그대로 적용할 경우, 실용성에 한계가 있다. 본 논문에서는 이와 같은 문제점을 해결할 수 있는 대규모 유전체 데이터베이스를 위한 효율적인 인덱싱 기법과 질의처리 기법을 제안한다. 기본 구조로서 접미어 트라이를 사용하며, 접미어 트리 인덱스 구조의 최대 단점인 인덱스 크기를 줄일 수 있는 데이터 압축 표현 방식을 제안한다. 또한 제안된 데이터 압축 표현 방식의 디스크 기반 인덱스 구성 알고리즘과 이를 활용한 부분 시퀀스 검색 알고리즘을 보이고, 그 저장 성능의 비교 평가결과를 보인다.

  • PDF

시퀀스 데이터베이스에서 유연 규칙의 탐사 및 매칭 (Discovering and Matching Elastic Rules in Sequence Databases)

  • 박상현;;김상욱
    • 한국통신학회논문지
    • /
    • 제26권7A호
    • /
    • pp.1162-1169
    • /
    • 2001
  • 유연 패턴은 시간 축으로 확장 및 수축할 수 있는 요소들의 순서화된 리스트이다. 유연 패턴은 서로 다른 샘플링 비율을 갖는 데이터 시퀀스들로부터 규칙들을 찾아내는데 유용하게 사용된다. 본 연구에서는 헤드(head: 규칙의 왼쪽 부분)와 바디(body: 규칙의 오른쪽 부분)가 모두 유연 패턴으로 구성된 규칙들을 신속하게 찾도록 하기 위하여 데이터 시퀀스로부터 서픽스 트리(suffix tree)를 구성한다. 이 서픽스 트리는 유연 규칙들의 압축된 표현이며, 타깃 헤드 시퀀스와 매치되는 규칙을 찾기 위한 인덱스 구조로서 사용된다. 만일, 매치되는 규칙을 찾을 수 없는 경우에는 규칙 완화(rule relaxation)의 개념을 이용한다. 클러스터 계층(cluster hierarchy)과 완화 오차(relaxation error)를 사용하여 타깃 헤드 시퀀스의 고유한 정보를 대부분 포함하고 있는 최소한으로 완화된 규칙을 찾는다. 다양한 실험을 통한 성능 평가를 통하여 제안한 기법의 우수성을 검증한다.

  • PDF

시퀀스 데이터베이스를 위한 유연 규칙 매칭 (Matching of Elastic Rules in Sequence Databases)

  • 박상현;;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (상)
    • /
    • pp.57-60
    • /
    • 2001
  • 본 논문에서는 유연 패턴(elastic pattern)을 갖는 규칙(rule)을 탐사하고 매칭하는 기법에 대해 논의한다. 유연 패턴은 시간 축으로 확장 및 수축할 수 있는 요소들의 순서화된 리스트이다. 유연 패턴은 서로 다른 샘플링 비율을 갖는 데이터 시퀀스들로부터 규칙들을 찾아내는데 유용하게 사용된다. 본 연구에서는 헤드(head: 규칙의 왼쪽 부분)와 바디(body: 규칙의 오른쪽 부분)가 모두 유연 패턴으로 구성된 규칙들을 신속하게 찾도록 하기 위하여 데이터 시퀀스로부터 서픽스 트리(suffix tree)를 구성한다. 이 서픽스 트리는 유연 규칙들의 압축된 표현이며, 타깃 헤드 시퀀스와 매치되는 규칙을 찾기 위한 인덱스 구조로서 사용된다. 만일, 매치되는 규칙을 찾을 수 없는 경우에는 규칙 완화(rule relaxation)의 개념을 이용한다. 클러스터 계층(cluster hierarchy)과 완화 오차(relaxation error)를 사용하여 타깃 헤드 시퀀스의 고유한 정보를 대부분 포함하고 있는 최소한으로 완화된 규칙을 찾는다. 다양한 실험을 통한 성능 평가를 통하여 제안한 기법의 우수성을 검증한다.

  • PDF

시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 (A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases)

  • 문양세;김진호;노웅기
    • 정보처리학회논문지D
    • /
    • 제13D권4호
    • /
    • pp.513-524
    • /
    • 2006
  • 정규화 변환은 시계열 시퀀스를 구성하는 엔트리들의 전체적인 패턴을 분석하는데 매우 유용하다. 본 논문에서는 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 방법을 제안한다. 기존의 정규화 변환 지원 서브시퀀스 매칭 방법은 다양한 길이의 질의 시퀀스를 지원하기 위하여 여러 개의 색인을 생성해야 하고, 이에 따라 색인 저장 공간의 오버헤드와 색인 관리의 오버헤드가 발생한다. 본 논문에서는 하나의 색인을 사용하면서도 다양한 길이의 질의 시퀀스에 대한 정규화 변환을 지원하는 효율적인 서브시퀀스 매칭 방법을 제안한다. 이를 위하여, 우선 정규화 변환을 일반화한 포함-정규화 변환(inclusion-normalization transform) 개념을 제시한다. 포함 정규화 변환이란 색인에 저장할 윈도우에 대해서 해당 윈도우를 포함하는 서브시퀀스의 평균과 표준편차로 정규화하는 것으로서, 기본적인 정규화 변환을 윈도우 및 서브시퀀스 개념을 사용하여 확장한 것이다. 다음으로, 포함-정규화 변환을 기존 서브시퀀스 매칭 연구에 적용하기 위한 이론적 근거를 정리로서 제시하고 증명한다. 그리고, 이 방안을 구현하기 위한 색인 구성 알고리즘 및 서브시퀀스 매칭 알고리즘을 각각 제시한다. 실제 주식 데이터에 대한 실험 결과, 제안한 방법은 기존 방법에 비해 최대 $2.5{\sim}2.8$배까지 성능을 향상 시킨 것으로 나타났다. 본 논문에서 제안한 정규화 변환 지원 서브시퀀스 매칭은 정규화 변환 이외의 다른 변환을 지원하는 서브시퀀스 매칭으로 일반화 될 수 있다. 따라서, 제안한 방법은 정규화 변환을 포함하는 많은 다른 종류의 변환을 지원하는 서브시퀀스 매칭에 폭넓게 적용될 수 있는 좋은 연구결과라 사료된다.