• 제목/요약/키워드: substring

검색결과 23건 처리시간 0.034초

N-Block substring 가중 선형모형을 이용한 단백질 CDS의 특징 추출 및 분류 (Feature Selection and Classification of Protein CDS Using n-Block substring weighted Linear Model)

  • 최성용;김진수;한승진;최준혁;임기욱;이정현
    • 한국지능시스템학회논문지
    • /
    • 제19권5호
    • /
    • pp.730-736
    • /
    • 2009
  • 방대한 유전 정보를 분석, 가공하는 생명정보학의 중요성은 더욱 높아지고 있다. 본 논문에서는 단백질의 1차 구조만으로 단백질의 구조와 기능을 예측하는 새로운 데이터마이닝 방법을 제안한다. 단백질 서열만으로 특징 추출시 발생할 수 있는 문제점인 방대한 탐색공간을 효과적으로 축소하기 위해 n-Block substring 탐색 알고리즘을 제안한다. 또한 선별된 각 substring의 도메인 연관도를 결정하는 가중치를 구하여 가중 선형모형을 구축함으로써 구조와 기능에 관련이 있을 것으로 예상되는 단백질 도메인의 특징을 추출하고 분류에 효과적임을 보인다. 도메인에 포함되는 각각의 CDS(coding sequence)에 대해 모형으로부터 구한 점수를 통해 해당 도메인과의 연관성의 정도를 추정하며, 분류 효율을 더욱 향상시킬 수 있음을 보인다.

문자열의 최장 공통 부분문자열과 최대 반복자를 구하기 위한 상수시간 RMESH 알고리즘 (Constant Time RMESH Algorithm for Computing Longest Common Substring and Maximal Repeat of String)

  • 한선미;우진운
    • 정보처리학회논문지A
    • /
    • 제16A권5호
    • /
    • pp.319-326
    • /
    • 2009
  • 문자열 연산이 계산 생물학 분야에 응용되면서 효율적인 문자열 연산을 위한 다양한 자료구조와 알고리즘이 연구되고 있다. 최장 공통 부분 문자열 문제는 두 개 이상의 문자열에서 가장 길게 일치하는 부분문자열을 찾는 연산이며, 최대 반복자 문제는 하나의 문자열에서 두 번 이상 반복되는 부분문자열을 찾는 연산이다. 이 연산은 패턴 매칭, 유사도 측정 등의 문자열 처리 분야에서 중요하게 사용되고 있다. 본 논문에서는 RMESH(Reconfigurable MESH) 구조에서 3-차원 $n{\times}n{\times}n$ 프로세서를 사용하여 두 문자열의 최장 공통 부분문자열을 구하는 알고리즘과 주어진 문자열의 최대 반복자를 찾는 알고리즘을 제안하며, 이 알고리즘들은 모두 O(1) 시간 복잡도를 갖는다.

생물학 서열 데이타베이스에서 부분 문자열의 선적도 추정 (Estimation of Substring Selectivity in Biological Sequence Database)

  • 배진욱;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권2호
    • /
    • pp.168-175
    • /
    • 2003
  • 지금까지 문자열 데이타에 대한 선택도 추정은 문자열들의 등장 회수에 대한 정보를 저장하고 있는 '카운트 서픽스 트리'를 생성한 뒤, 이 트리를 이용하여 부분 문자열들의 선택도를 추정하는 방법으로 이루어졌다. 그런데, 문자열 데이타가 생물학 서열처럼 매우 길어질 경우 카운트 서픽스 트리를 생성하는 일은 거의 불가능해진다는 문제점이 발생한다. 이 논문에서는 길이가 q인 부분 문자열들만을 삽입한 '카운트 큐그램 트리'를 제안한다. 카운트 큐그램 트리는 서열 내의 길이가 q 이하인 모든 부분 문자열(큐그램) 들의 정확한 등장 회수를 저장하고 있으며, 문자열의 전체 길이 N에 상관없는 크기로, O(N) 시간에 생성 가능하다. 또한, 이 논문에서는 카운트 큐그램 트리를 이용한 'k번째 최대겹침' 추정 방법을 제시한다. 이 추정 방법은 질의 문자열을 길이 q인 부분 문자열로 나눌 때 부분 문자열들의 겹치는 정도 k를 선택할 수 있도록 한 방법으로 이전 연구에서 제시한 '최대겹침' 방법을 확장하였다. q와 k를 변화시키며 진행한 실험 올 통해 대부분의 경우에 매우 정확하게 선택도를 추정할 수 있음을 확인하였다.

의학용어의 구조 검색을 지원하는 SNOMED CT 브라우저 시스템 (A SNOMED CT Browser System Supporting Structural Search of Clinical Terminology)

  • 류우석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.353-355
    • /
    • 2015
  • SNOMED CT 브라우저는 SNOMED CT 의학 용어 체계에 포함된 용어들을 검색하는 검색 브라우저이다. 이 용어들은 서로 다양한 관계를 통해 구조화되어 있는 특징이 있는데 기존의 브라우저들은 그 구조를 이용하지 않고 단지 문자열 매칭에 의한 결과 목록만을 제시하는 문제가 있다. 본 논문에서는 검색 결과를 서브그래프 형태로 표시함으로써 용어의 구조 검색을 가능하게 하는 브라우저 시스템을 제안하고 이를 구현하였다. 구현된 시스템은 문자열 기반 검색, 트리 기반 검색 결과 구조화, 컨셉 조회 히스토리 등의 기능을 포함하는 특징이 있다.

  • PDF

부분 문자열 선택도 추정을 위한 서픽스트리 변환 기법 (A Suffix Tree Transform Technique for Substring Selectivity Estimation)

  • 이홍래;심규석;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권2호
    • /
    • pp.141-152
    • /
    • 2007
  • 선택도 추측은 관계형 데이타베이스에서 질의 최적화의 한 중요한 요소이다. 숫자 데이타에 대한 조건식에 대하여 이 주제는 많은 연구가 되어 왔으나 부분문자열에 대한 조건식은 최근에 이르러서야 관심의 초점이 되고 있다. 우리는 이 논문에서 이 문제를 위한 새로운 서픽스 트리 변환 알고리즘을 제시한다. 제안하는 기법은 서픽스 트리의 노드들을 단순히 잘라 없애 버리기 보다는 기본적으로 비슷한 카운트를 갖는 노드들을 구조적 정보를 유지하면서 병합하여 전체 크기를 줄인다. 본 논문은 여러 제약 사항하에서 서픽스 트리를 그 크기를 줄이도록 변환을 하는 알고리즘을 제시하고 실생활 데이타를 대상으로 실험을 수행하여 우리가 제안하는 알고리즘이 기존의 알고리즘들보다 우수한 평균 상대 에러와 에러 분포 특성을 지니고 있음을 보인다.

LR(k) 서브 스트링 인식과 완성 (LR(k) Substring Recognition and Completion)

  • 김상헌;박용관;유재우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.62-67
    • /
    • 2000
  • 편집 환경에서 입력되는 구문은 완전한 문장으로 입력되기보다는 문장의 일부가 부분적으로 입력되면서 점진적으로 프로그램을 완성하게 된다. 본 논문에서는 부분적인 문장의 입력을 분석하여 문장의 부족한 부분을 예측하여 서브 스트링에 대한 파스트리를 완성할 수 있는 방법을 제시한다.

  • PDF

단백질 시퀀스와 가중치 스트링에 대한 탐색 알고리즘 (Searching Algorithms for Protein Sequences and Weighted Strings)

  • 김성권
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권8호
    • /
    • pp.456-462
    • /
    • 2002
  • 단백질 시퀀스처럼 가중치를 가지는 스트링에 대한 탐색 알고리즘을 개발한다. ${\sum}$를 알파벳이라 하고 모든 $a{\in}{\sum}$에 대해서 무게 ${\mu}(a)$가 주어진다고 하자. 스트링 $A=a_1a_2…a_n\; 에서 (단, 모든 ai{\in}{\sum})$, 서브스트링 $A(i.j)=a_ia_{i+1}…a_j$로 정의하면, 이것의 무게는 ${\in}(A(i.j))={\in}(a_i)+{\in}(a_i+1)+…+{\in}(a_j)$가 된다. 다루고자하는 문제는 스트링 A를 사전 처리하여 탐색 자료구조를 만드는데, 이 자료구조는 나중에 질문 무게 M이 주어진 경우, $M={\in}(A(i,j))$인 서브스트링 A(i,j)가 있는가 라는 질문에 응답하는데 사용된다. 본 논문에서는 기존의 결과를 향상시키는 알고리즘을 제시한다. 기존의 알고리즘의 경우 O(n) 만큼의 메모리를 사용하는 탐색 자료구조를 이용하여 $0(\frac{nlog\;logn}{log\; n})$ 시간에 질문응답을 하였으나, 본 논문의 알고리즘은 질문 응답시간은 그대로 유지하면서 메모리만 $0(\frac{n}{log\; n})$으로 줄인다.

DNA 분석에 효율적인 서픽스 트리 재구성 알고리즘 (An Efficient Suffix Tree Reconstructing Algorithm for Biological Sequence Analysis)

  • 최해원;정영석;김상진
    • 디지털융복합연구
    • /
    • 제12권12호
    • /
    • pp.265-275
    • /
    • 2014
  • 서픽스 트리는 주어진 모든 문자열의 모든 서픽스를 트리 형태로 나타내는 자료구조로서 선형시간에 구성할 수 있으며 문자열에 대한 많은 문제를 효율적으로 해결할 수 있다. 하지만 이런 효용성에도 불구하고 서픽스 트리로 구성한 문자열을 삽입/삭제하는 경우 트리를 구성하는데 상당히 많은 시간이 소비된다. 본 논문은 이러한 문제를 해결하기 위한 서픽스 트리 재구성 알고리즘을 제안한다. 제안하는 알고리즘은 부 문자열을 삽입하는 경우와 삭제하는 경우로 나눈 다음, 발생할 수 있는 모든 경우의 수를 감안해서 설계했다. 알고리즘의 성능을 평가하기 위해서 기존의 Ukkonen 알고리즘과 비교실험 해 본 결과 서픽스 트리 재구성 시 30% 이상 시간이 절약됨을 알 수 있었다.

Automatic Generation of Training Character Samples for OCR Systems

  • Le, Ha;Kim, Soo-Hyung;Na, In-Seop;Do, Yen;Park, Sang-Cheol;Jeong, Sun-Hwa
    • International Journal of Contents
    • /
    • 제8권3호
    • /
    • pp.83-93
    • /
    • 2012
  • In this paper, we propose a novel method that automatically generates real character images to familiarize existing OCR systems with new fonts. At first, we generate synthetic character images using a simple degradation model. The synthetic data is used to train an OCR engine, and the trained OCR is used to recognize and label real character images that are segmented from ideal document images. Since the OCR engine is unable to recognize accurately all real character images, a substring matching method is employed to fix wrongly labeled characters by comparing two strings; one is the string grouped by recognized characters in an ideal document image, and the other is the ordered string of characters which we are considering to train and recognize. Based on our method, we build a system that automatically generates 2350 most common Korean and 117 alphanumeric characters from new fonts. The ideal document images used in the system are postal envelope images with characters printed in ascending order of their codes. The proposed system achieved a labeling accuracy of 99%. Therefore, we believe that our system is effective in facilitating the generation of numerous character samples to enhance the recognition rate of existing OCR systems for fonts that have never been trained.

블럭정렬과 VF형 산술부호에 의한 오류제어 기능을 갖는 데이터 압축 (Data Compression Capable of Error Control Using Block-sorting and VF Arithmetic Code)

  • 이진호;조숙희;박지환;강병욱
    • 한국정보처리학회논문지
    • /
    • 제2권5호
    • /
    • pp.677-690
    • /
    • 1995
  • 본 논문에서는 블럭정렬과 선두 이동법에 의해 처리된 계열을 VF(Variable to Fixed)형 산술부호로 압축하는 방법을 제시한다. 길이 N으로 분해된 부분열을 1기호씩 순회시킨 후 사전식 순서로 정렬한다. 순회정렬된 부분열은 국소적으로 유사기호가 밀 집되기 때문에 이 성질을 활용하기 위하여 선두 이동법을 적용한다. 이와 같이 전처리 된 계열에 대해 오류전파를 1 부호어 이내로 제한할 수 있는 VF형 산술부호 로 엔트 로피 부호화한다. VF형 산술부호의 효율은 고정 크기의 부호어 집합을 어떻게 분할하 는가가 관건이다. 제안하는 VFAC(VF Arithmetic Code)는 새로 설정되는 정보원 기호에 대하여 완전분할을 이루게 하고, 반복적인 그레이 변환을 이용하여 발생기호의 확률을 효과적으로 나타낸다. 제안 방식의 성능을 컴퓨터 시뮬레이션을 통하여 엔트로피, 압 축율 및 처리속도의 측면에서 기존의 방식과 비교 분석한다.

  • PDF