• 제목/요약/키워드: burrows-wheeler transform

검색결과 5건 처리시간 0.01초

확장된 버로우즈-휠러 변환을 이용한 개선된 한글 초성 탐색 (Improved First-Phoneme Searches Using an Extended Burrows-Wheeler Transform)

  • 김성환;조환규
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.682-687
    • /
    • 2014
  • 한글 초성 질의는 내비게이션 시스템이나 모바일 기기와 같이 입력 환경에 제약이 있어 오류가 빈번한 인터페이스 상에서 사용자 편의성 향상을 위하여 제공되는 중요한 기능이다. 본 논문에서는 한글 문자열을 자소 단위로 분해하여 재배열하여 환형 문자열로 변환한 후, 확장된 버로우즈-휠러 변환을 이용하여 색인함으로써 초성 질의 탐색을 위한 시공간 효율적인 자료구조를 제안한다. 또한 실험을 통하여 기존 기법에 비하여 더 적은 공간만을 사용하면서도 보다 다양한 형태의 질의를 처리할 수 있으며, 특히 질의어의 길이가 짧고, 초성의 비율이 높을수록 탐색 속도가 향상됨을 확인하였다.

대역분할과 GAP를 이용한 BWT기반의 무손실 영상 압축 (Burrows-Wheeler Transform based Lossless Image Compression using Subband Decomposition and Gradient Adjusted Prediction)

  • 윤정오;고승권;성우석;황찬식
    • 한국통신학회논문지
    • /
    • 제26권9B호
    • /
    • pp.1259-1266
    • /
    • 2001
  • 최근에 텍스트 압축에 뛰어난 성능을 가지는 블록 정렬 알고리즘인 BW변환 (Burrows-Wheeler Transform)이 소개되었다. 그러나 영상 압축에 BW변환을 직접 적용하면 영상과 텍스트가 갖는 상관성이 서로 다르기 때문에 만족할 만한 압축효과를 기대할 수 없게 된다. 따라서 본 논문에서는 가역의 L-SSKF(Lossless Symmetric Short Kernel Filter)를 사용한 계층적 대역분할로 영상화소 사이의 상관성을 줄인 후 BW변환을 하는 방법과 GAP(Gradient Adjusted Prediction)를 사용하여 LL 대역에 많이 분포된 상관성을 줄인 후 BW변환을 하는 방법을 제안한다. 실험결과 제안한 방법이 기존의 무손실 JPEG 표준안과 LZ 기반의 압축방법(PKZIP) 등에 비해 압축성능이 개선됨을 확인할 수 있었다.

  • PDF

Integrative Comparison of Burrows-Wheeler Transform-Based Mapping Algorithm with de Bruijn Graph for Identification of Lung/Liver Cancer-Specific Gene

  • Ajaykumar, Atul;Yang, Jung Jin
    • Journal of Microbiology and Biotechnology
    • /
    • 제32권2호
    • /
    • pp.149-159
    • /
    • 2022
  • Cancers of the lung and liver are the top 10 leading causes of cancer death worldwide. Thus, it is essential to identify the genes specifically expressed in these two cancer types to develop new therapeutics. Although many messenger RNA (mRNA) sequencing data related to these cancer cells are available due to the advancement of next-generation sequencing (NGS) technologies, optimized data processing methods need to be developed to identify the novel cancer-specific genes. Here, we conducted an analytical comparison between Bowtie2, a Burrows-Wheeler transform-based alignment tool, and Kallisto, which adopts pseudo alignment based on a transcriptome de Bruijn graph using mRNA sequencing data on normal cells and lung/liver cancer tissues. Before using cancer data, simulated mRNA sequencing reads were generated, and the high Transcripts Per Million (TPM) values were compared. mRNA sequencing reads data on lung/liver cancer cells were also extracted and quantified. While Kallisto could directly give the output in TPM values, Bowtie2 provided the counts. Thus, TPM values were calculated by processing the Sequence Alignment Map (SAM) file in R using package Rsubread and subsequently in python. The analysis of the simulated sequencing data revealed that Kallisto could detect more transcripts and had a higher overlap over Bowtie2. The evaluation of these two data processing methods using the known lung cancer biomarkers concludes that in standard settings without any dedicated quality control, Kallisto is more effective at producing faster and more accurate results than Bowtie2. Such conclusions were also drawn and confirmed with the known biomarkers specific to liver cancer.

대역분할과 BW 변환을 이용한 무손실 영상압축 (Lossless image compression using subband decomposition and BW transform)

  • 윤정오;박영호;황찬식
    • 한국산업정보학회논문지
    • /
    • 제5권1호
    • /
    • pp.102-107
    • /
    • 2000
  • 일반적으로 문자와 영상이 갖는 특성이 서로 다르기 때문에 문자 압축 기법들을 영상 압축에 직접 사용하지 않는다. 최근 문자 압축에 뛰어난 결과를 얻을 수 있는 블록 정렬 알고리즘인 BW 변환이 소개되었으나 BW 변환을 직접 영상에 적용하면 만족할 만한 결과를 얻을 수가 없다. 따라서 BW 변환을 영상에 적용할 때 무손실 압축성능 개선을 위한 새로운 방법을 제안한다. 제안한 방법의 구성은 3단계로 나누어지며 SSKF 필터에 의한 10개 영역으로 계층적 대역 분할을 하고 BW 변환에 의한 블록 정렬 알고리즘을 수행하여 적응적 산술 부호화에 의한 중복성를 제거한다. 실험 결과 제안한 방법이 무손실 JPEG 표준안과 LZ계열의 PKZIP 보다 뛰어난 압축 성능을 가졌다.

  • PDF

부분표절구간 검출을 위한 질의문서의 분할 및 탐색 기법 (A Fragmentation and Search Method of Query Document for Partially Plagiarized Section Detection)

  • 옥창석;서종규;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.586-589
    • /
    • 2012
  • 표절과 관련된 이슈가 주목받고 있는 상황에서 표절을 검출하는 방법에 대한 연구가 활발히 진행되고 있다. 일반적으로 표절구간 검출을 위해 복잡한 자연어처리와 같은 의미론적 접근방법이 아닌 비교적 단순한 어휘기반의 문자열 처리 방법을 사용한다. 대표적인 방법으로는 지문법 (Fingerprinting)과 서열정렬 (Sequence alignment) 등이 있다. 하지만 이 방법들을 이용하여 대용량 문서에 대한 표절검사를 수행하기에는 시공간적 복잡도의 문제가 발생한다. 본 논문에서는 이러한 단점을 극복하기 위해 NGS (Next Generation Sequencing)에서 사용하는 BWT (Burrows-Wheeler Transform)[1]를 이용한 탐색방법을 응용한다. 또한 부분표절구간을 검출하고 정확도를 향상시키기 위해 질의문서를 분할하여 작은 조각으로 만든 뒤, 조각들에 대한 질의탐색을 수행한다. 본 논문에서는 질의문서를 분할하는 두 가지 방법을 소개한다. 두 가지 방법은 k-mer analysis를 이용한 방법과 random-split analysis를 이용한 방법으로, 각 방법의 장단점을 실험을 통해 분석하고 실제 부분표절구간의 검출 정확도를 측정하였다.