• 제목/요약/키워드: Sequence pattern analysis

검색결과 318건 처리시간 0.029초

A Pattern Summary System Using BLAST for Sequence Analysis

  • Choi, Han-Suk;Kim, Dong-Wook;Ryu, Tae-W.
    • Genomics & Informatics
    • /
    • 제4권4호
    • /
    • pp.173-181
    • /
    • 2006
  • Pattern finding is one of the important tasks in a protein or DNA sequence analysis. Alignment is the widely used technique for finding patterns in sequence analysis. BLAST (Basic Local Alignment Search Tool) is one of the most popularly used tools in bio-informatics to explore available DNA or protein sequence databases. BLAST may generate a huge output for a large sequence data that contains various sequence patterns. However, BLAST does not provide a tool to summarize and analyze the patterns or matched alignments in the BLAST output file. BLAST lacks of general and robust parsing tools to extract the essential information out from its output. This paper presents a pattern summary system which is a powerful and comprehensive tool for discovering pattern structures in huge amount of sequence data in the BLAST. The pattern summary system can identify clusters of patterns, extract the cluster pattern sequences from the subject database of BLAST, and display the clusters graphically to show the distribution of clusters in the subject database.

여성취업이행 경로의 생애과정 씨퀀스(sequence) 분석 (Sequence Analysis in Women's Work Transition)

  • 은기수;박수미
    • 한국인구학
    • /
    • 제25권2호
    • /
    • pp.107-138
    • /
    • 2002
  • 여성들의 경제활동 상태는 '가족주기'와 같은 '생애과정'과 밀접히 관련되어 있기 때문에, 경력단절 경향이 강하다. 이 연구는 한국여성의 취업유형을 규명하는 데, 특히 여성들의 생애과정 씨퀀스(sequence)가 갖는 효과를 중심으로 여성들의 취업 이행 과정을 분석하고 있다. 여성들의 경제활동상의 지위 변화에는 과거의 일회적인 사건의 효과 이상으로 과거 생애과정에 축적된 연계의 효과가 중요하기 때문이다. 이 연구의 연구가설은 두 가지이다. 첫 번째 연구가설은, 생애과정 씨퀀스별로 구분되는 여성들의 네 개의 취업경력 유형들 사이에 유의미한 사회.인구학적 차이가 있을 것이라는 점이다. 두 번째 연구가설은, 생애과정 씨퀀스의 배열 순서에 따라 여성들의 취업 이행 과정은 매우 다를 것이라는 점이다. 이 연구가설을 검증하기 위해서 여성취업실태조사자료 가운데 취업력 및 생활사에 대한 종단적 자료를 일원변량분석 및 사건사분석(event history analysis)방법으로 분석하였다. 분석 결과, 취업경력 유형에 따라 구분된 '연속취업형', '불연속취업형', '비경제활동형', '결혼후 퇴장형'의 네 집단간에는 연령, 학력, 자격증 소지 여부, 부모의 인적자본, 건강 상태 등에서 유의미한 차이가 존재함을 발견하였다. 또한 생애과정 씨퀀스의 배열 순서에 따라 구분된'취업후 결혼형'과'결혼후 취업형'은 취업 진입과 취업 단절 행위에서 매우 구별되는 집단임을 확인하였다. 이와 같은 분석 결과를 통해서, 여성들 내부의 경제활동상의 이질적인 집단의 구분과 각 집단 내부 여성들의 다양한 취업 경로를 규명하는 데, 생애과정 씨퀀스가 중요한 설명변수로 작용함을 경험적으로 입증하였다.

발생 간격 기반 가중치 부여 기법을 활용한 데이터 스트림에서 가중치 순차패턴 탐색 (Finding Weighted Sequential Patterns over Data Streams via a Gap-based Weighting Approach)

  • 장중혁
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.55-75
    • /
    • 2010
  • 일반적인 순차패턴 마이닝에서는 분석 대상 데이터 집합에 포함되는 구성요소의 발생 순서만을 고려하며, 따라서 단순 순차패턴은 쉽게 찾을 수 있는 반면 실제 응용 분야에서 널리 활용될 수 있는 관심도가 큰 순차패턴을 탐색하는데 한계가 있다. 이러한 단점을 보완하기 위한 대표적인 연구 주제들 중의 하나가 가중치 순차패턴 탐색이다. 가중치 순차패턴 탐색에서는 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서 뿐만 아니라 구성요소의 가중치를 추가로 고려한다. 본 논문에서는 발생 간격에 기반 한 순차패턴 가중치 부여 기법 및 이를 활용한 순차 데이터 스트림에 대한 가중치 순차패턴 탐색 방법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻는데 도움이 된다. 한편, 근래 대부분의 컴퓨터 응용 분야에서는 한정적인 데이터 집합 형태가 아닌 데이터 스트림 형태로 정보를 발생시키고 있다. 이와 같은 데이터 생성 환경의 변화를 고려하여 본 논문에서는 순차 데이터 스트림을 마이닝 대상으로 고려하였다.

A Pattern Matching Extended Compression Algorithm for DNA Sequences

  • Murugan., A;Punitha., K
    • International Journal of Computer Science & Network Security
    • /
    • 제21권8호
    • /
    • pp.196-202
    • /
    • 2021
  • DNA sequencing provides fundamental data in genomics, bioinformatics, biology and many other research areas. With the emergent evolution in DNA sequencing technology, a massive amount of genomic data is produced every day, mainly DNA sequences, craving for more storage and bandwidth. Unfortunately, managing, analyzing and specifically storing these large amounts of data become a major scientific challenge for bioinformatics. Those large volumes of data also require a fast transmission, effective storage, superior functionality and provision of quick access to any record. Data storage costs have a considerable proportion of total cost in the formation and analysis of DNA sequences. In particular, there is a need of highly control of disk storage capacity of DNA sequences but the standard compression techniques unsuccessful to compress these sequences. Several specialized techniques were introduced for this purpose. Therefore, to overcome all these above challenges, lossless compression techniques have become necessary. In this paper, it is described a new DNA compression mechanism of pattern matching extended Compression algorithm that read the input sequence as segments and find the matching pattern and store it in a permanent or temporary table based on number of bases. The remaining unmatched sequence is been converted into the binary form and then it is been grouped into binary bits i.e. of seven bits and gain these bits are been converted into an ASCII form. Finally, the proposed algorithm dynamically calculates the compression ratio. Thus the results show that pattern matching extended Compression algorithm outperforms cutting-edge compressors and proves its efficiency in terms of compression ratio regardless of the file size of the data.

택시 기종점 빈번 순차 패턴 분석 (Frequent Origin-Destination Sequence Pattern Analysis from Taxi Trajectories)

  • 이태영;전승배;정명훈;최연웅
    • 대한토목학회논문집
    • /
    • 제39권3호
    • /
    • pp.461-467
    • /
    • 2019
  • IoT (Internet of Things) 기술과 위치기반 기술의 발전은 대용량의 이동데이터를 급속하게 생성하고 있다. 대용량 이동 데이터의 분석은 도시 이동의 흐름 및 교통 계획 등에 활용되고 있다. 본 연구에서는 불규칙한 공간적 및 시간적 해상도의 택시 승차 정보로부터 빈번 승차 패턴을 분석하였다. 택시 승차 지점을 중심으로 군집 분석을 실시한 후 군집분석에 기반한 영역을 기준으로 순차패턴 분석을 적용하여 택시 승차 지점이 빈번하게 일어나는 패턴을 분석하였다. 실험용 데이터는 서울특별시 택시 운행 정보로부터 아침 출근 시간인 7시부터 9시 사이의 승차 정보를 분석하였다. 분석 결과는 아침 출근 시간대에 가장 빈도가 높게 발생하는 승차 순차 패턴은 강남 지역 안에서 많이 발생하였으며 지역과의 연계에 있어서는 강남으로부터 서울 시청 지역으로의 이동이 많이 발생하였다. 또한 본 연구는 순차 패턴 분석을 위한 기본 단위로 행정동 경계를 기준으로 분석하였다. 하지만 행정동 경계 기반의 분석은 지역간의 이동 패턴을 찾기가 어려웠다. 본 연구 결과는 향후 택시 공차율 감소와 도시 흐름관리를 위하여 활용할 수 있을 것으로 사료된다.

부분방전 해석 방법으로 PSA(Pulse Sequence Analysis)의 문제점에 대한 고찰 (Some Considerations on the Problems of PSA(Pulse Sequence Analysis) as a Partial Discharge Analysis Method)

  • 김정태;이호근
    • 한국전기전자재료학회:학술대회논문집
    • /
    • 한국전기전자재료학회 2004년도 추계학술대회 논문집 Vol.17
    • /
    • pp.327-330
    • /
    • 2004
  • Because of its effectiveness for the PD(partial discharge) pattern recognition, PSA(Pulse Sequence Analysis) has been considered as a new analytic method instead of conventional PRPDA(Phase Resolved Partial Discharge Analysis). However, PSA has a big problem that can misanalyze patterns in case of data missing resulting from poor sensitivity because it analyses the correlation between sequential pulses, which leads to hesitate to apply it to on-site. Therefore, in this paper, the problems of PSA such as data missing and noise adding cases were investigated. For the purpose, PD data obtained from various defects including noise adding data were used and analysed, The result showed that both cases can cause fatal errors in recognizing PD patterns. In case of the data missing, the error depends on the kinds of defect and the degree of degradation. Also, it could be noticed that the error due to adding noises was larger than that due to some data missing.

  • PDF

부분방전 해석 방법으로 PSA(Pulse Sequence Analysis)의 현장 적용성에 대한 고찰 (Some Considerations on the On-site Applicability of PSA(Pulse Sequence Analysis) as a Partial Discharge Analysis Method)

  • 김정태;이호근
    • 한국전기전자재료학회논문지
    • /
    • 제18권5호
    • /
    • pp.484-489
    • /
    • 2005
  • Because of its effectiveness for the PD(Partial Discharge) pattern recognition, PSA(Pulse Sequence Analysis) has been considered as a new analytic method instead of conventional PRPDA(Phase Resolved Partial Discharge Analysis). However, it is generally thought that PSA has some possibility to misjudge patterns in case of data-missing resulting from poor sensitivity because it analyses the correlation between sequential pulses, which leads to hesitate to apply it to on-site. Therefore, in this paper, the problems of PSA such as data-missing and noise-adding cases were investigated. for the purpose, PD data obtained from various defects including noise-adding data were used and analyzed. As a result, it was shown that both cases could cause fatal errors in recognizing PD patterns. In case of the data missing, the error was dependant on the kinds of defect and the degree of degradation Also, it could be noticed that the error due to adding noises was larger than that due to some data missing.

형태소분석에 기초한 수화영상변환시스템에 관한 연구 (Sign Language Transformation System based on a Morpheme Analysis)

  • 이용동;김형근;정운달
    • 한국음향학회지
    • /
    • 제15권6호
    • /
    • pp.90-98
    • /
    • 1996
  • 본 논문에서는 한글의 형태소 분석에 기초한 청각장애자용 수화영상 변환시스템을 제안하였다. 제안된 시스템은 입력 문자열에 대해 형태소 분석에 의한 음운성분과 접속정보를 추출한 다음, 이에 대응한 수화영상을 구축된 수화영상 데이터베이스를 통하여 정확히 출력한다. 효과적인 수화영상변환을 위해 입력문자열에 대한 형태소 분석부와 수화패턴 참조를 위한 수화언어기술부로 이루어진 언어정보기술사전을 구성하였다. 수화패턴은 중복을 피하기 위해 기본수화, 복합수화 그리고 유사수화단어로 분류하여 작성하였으며, 실험을 통해 제안된 시스템의 유용성을 확인하였다.

  • PDF

Biogeography and Distribution Pattern of a Korean Wood-eating Cockroach Species, Cryptocercus kyebangensis, Based on Genetic Network Analysis and DNA Sequence Information

  • Park, Yung-Chul;Choe, Jae-Chun
    • Journal of Ecology and Environment
    • /
    • 제30권4호
    • /
    • pp.331-340
    • /
    • 2007
  • We examined the evolutionary and ecological processes shaping current geographical distributions of a Korean wood-eating cockroach species, Cryptocercus kyebangensis. Our research aims were to understand evolutionary pattern of DNA sequences, to construct genetic network of Cryptocercus kyebangensis local populations and to understand evolutionary and ecological processes shaping their current geographical distribution patterns via DNA sequence information and genetic networks, using sequence data of two genes (ITS-2 and AT region) from local populations of C. kyebangensis. The results suggest that the ITS-2 and AT region are appropriate molecular markers for elucidating C. kyebangensis geographic patterns at the population level. The MSN-A based on the ITS-2 showed two possible routes, the Hwaak-san and Myeongji-san route and the Seorak-san and Gyebang-san route, for migration of ancestral C. kyebangensis into South Korea. The MSNs (MSN-A and -B) elucidate migration routes well within South Korea, especially the route of Group I and Group II.

스트링 B-트리를 이용한 게놈 서열 분석 시스템 (An Analysis System for Whole Genomic Sequence Using String B-Tree)

  • 최정현;조환규
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.509-516
    • /
    • 2001
  • 생명 과학의 발전과 많은 게놈(genome) 프로젝트의 결과로 여러 종의 게놈 서열이 밝혀지고 있다. 생물체의 서열을 분석하는 방법은 전역정렬(global alignment), 지역정렬(local alignment) 등 여러 가지 방법이 있는데, 그 중 하나가 k-mer 분석이다. k-mer는 유전자의 염기 서열내의 길이가 k인 연속된 염기 서열로서 k-mer 분석은 염기서열이 가진 k-mer들의 빈도 분포나 대칭성 등을 탐색하는 것이다. 그런데 게놈의 염기 서열은 대용량 텍스트이고 k가 클 때 기존의 온메모리 알고리즘으로는 처리가 불가능하므로 효율적인 자료구조와 알고리즘이 필요하다. 스트링 B-트리는 패턴 일치(pattern matching)에 적합하고 외부 메모리를 지원하는 좋은 자료구조이다. 본 논문에서는 스트링 B-트리(string B-tree)를 k-mer 분석에 효율적인 구조로 개선하여, C. elegans 외의 30개의 게놈 서열에 대해 분석한다. k-mer들의 빈도 분포와 대칭성을 보여주기 위해 CGR(Chaotic Game Representation)을 이용한 가시화 시스템을 제시한다. 게놈 서열과 매우 유사한 서열 상의 어떤 부분을 시그니쳐(signature)라 하고, 높은 유사도를 가지는 최소 길이의 시그니쳐를 찾는 알고리즘을 제시한다.

  • PDF