• 제목/요약/키워드: 서열 버전

검색결과 7건 처리시간 0.023초

로컬 서열 정렬과 트리거 기반의 단백질 버전 정보 관리 기법 (A management Technique for Protein Version Information based on Local Sequence Alignment and Trigger)

  • 정광수;박성희;류근호
    • 정보처리학회논문지D
    • /
    • 제12D권1호
    • /
    • pp.51-62
    • /
    • 2005
  • 하나의 아미노산 서열의 기능이 밝혀지면, 그와 유사한 서열 구조를 가지고 있는 서열의 기능도 유추해 낼 수 있다. 또한 기능이 밝혀진 단백질의 아미노산 서열을 변화시키거나 유용한 단백질을 만드는 것도 가능하다. 이 과정에서 하나의 원본 단백질 서열에 대하여 다른 서열 구성을 가지고 있는 여러 가지 단백질 서열이 생겨 날 수 있다. 여기서, 원본 단백질을 변화시켜 만든 단백질 버전 서열과 단백질의 주석정보를 저장 및 관리하는 체계적인 기법이 요구된다. 따라서 이 논문에서는 로컬 서열 정렬 기법을 적용한 단백질 아미노산 서열의 버전관리 기법과 트리거를 적용한 단백질 주석데이터의 이력 관리 기법을 제시하였다. 제안된 기법을 통하여 원본 서열과 버전서열의 유사도 측정 및 버전 관리의 자동화와 저장 공간을 감소시킬 수 있다. 또한 단백질 정보의 이력을 저장하고 서열 변화 정보를 분석하여 돌연변이 연구에 의한 유용한 단백질 개발 및 신약 개발이 가능하다.

BSML 기반 능동 트리거 규칙을 이용한 염기서열정보관리시스템의 구현 (Implementation of an Information Management System for Nucleotide Sequences based on BSML using Active Trigger Rules)

  • 박성희;정광수;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권1호
    • /
    • pp.24-42
    • /
    • 2005
  • 유전체 서열을 포함하는 생물정보는 지속적으로 변화하며 이질적이고 다양하다는 특성을 갖는다. 이러한 생물 정보의 특성을 반영한 관리시스템이 요구되지만 현재 대부분의 기존 생물정보 데이타베이스는 생물 데이타에 대한 저장소로만 이용된다. 따라서 이 논문에서는 생물학 연구실 수준에서 시퀀싱 실험을 통해 생산되거나 다양한 공개용 데이타베이스로부터 수집된 염기 서열 데이타를 파일 포맷 변환, 편집, 저장 및 검색을 수행하는 서열정보관리 시스템을 제시한다. 이질적인 서열 포맷간의 파일 변환을 위하여 XML기반 BSML을 공통 포맷으로 이용한다. 서열 저장관리에서는 동일한 DNA 조각에 대한 서열 구성의 변경정보를 저장하기 위해 서열 버전을 정의하고 능동 트리거 규칙을 이용하여 변경 정보 검출 및 생성 방법을 보여준다. 트리거 기능을 이용하여 서열의 변경 정보를 자동적으로 데이타베이스에서 저장관리 할 수 있음을 보이고 성능을 평가하였다.

실험실 레벨의 유전체 생물학 데이터베이스 관리시스템 구축 (Building a Biological Genomic Database Management System in Laboratory Level)

  • 차효성;정광수;박성희;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.28-30
    • /
    • 2004
  • 대부분의 생물학 실험실에서는 스퀸싱 실험으로 얻어진 서열조각에 대해 어셈블리 과정을 통해 획득된 일치된 서열을 서열 실험파일 형태로 저장한다. 이러한 서열 파일형태로 서열 데이터를 저장하면 사용자의 임의로 서열 정보 수정 및 서열 정보의 중복 등 서열 데이터에 대한 일관성 있고 무결성 있는 저장 관리가 어렵다 또한 이질적 데이터 및 포맷을 통한 다양한 생물학적 분석이 요구된다. 따라서 이 논문에서는 시퀸싱을 통해 생성된 유전체 및 단백질 서열 데이터의 자장관리를 위해 서열 정보의 편집, 저장 및 검색과 서열 파일 포멧 변환을 수행하는 서열 정보관리 시스템의 구현을 목적으로 한다. 서열 저장시 서열 버전의 생성 및 검출을 위해 능동 데이터베이스의 트리거를 이용하여 시스템의 성능을 향상시킨다. 또한 서열정보 분석을 위해 이질적인 서열 포맷간의 포맷 변환은 서열 및 관련된 정보를 XML로 표현하고 포맷간의 매핑정보를 XML의 스타일 언어인 XSL을 적용하여 수행한다. 그러므로 원시 소스 변경시 영향을 적게 받으므로 이질적인 포맷간의 파서를 이용한 포맷 변환 보다 효율적이다.

  • PDF

극대 증가 부분서열을 찾는 선형 알고리즘 (Linear-time algorithms for computing a maximal increasing subsequence)

  • 나중채
    • 스마트미디어저널
    • /
    • 제12권6호
    • /
    • pp.9-14
    • /
    • 2023
  • 최장 증가 부분서열(longest increasing subsequence)은 컴퓨터 과학 분야에서 오랫동안 연구되어온 주요 문제이다. 본 논문에서는 최장 조건을 극대로 완화한 극대 증가 부분서열(maximal increasing subsequence) 문제를 고려한다. 본 논문에서는 두 가지 버전의 증가 개념(단조증가, 순증가)에 대해, 알파벳 Σ 에 대한 서열의 극대 증가 부분서열을 구하는 선형시간 알고리즘을 제안한다. 극대 단조증가 부분서열을 구하는 알고리즘은 O(1) 공간을 사용하고, 극대 순증가 부분서열을 구하는 알고리즘은 O(|Σ|) 공간을 사용한다.

Fact constellation 스키마와 트리 기반 XML 모델을 적용한 실험실 레벨의 단백질 데이터 통합 기법 (An Approach for Integrated Modeling of Protein Data using a Fact Constellation Schema and a Tree based XML Model)

  • 박성희;이영화;류근호
    • 정보처리학회논문지D
    • /
    • 제11D권3호
    • /
    • pp.519-532
    • /
    • 2004
  • 유전자 및 단백질간의 복잡한 상호작용에 의해 기능이 결정되는 생명정보 데이터의 특성으로 인하여 생명정보 데이터 분석을 위해서는 이질적인 데이터를 통합적으로 분석할 수 있는 통합시스템이 요구된다. 따라서 이 논문에서는 생물학 실험실 레벨에서 단백질 구조 관련 데이터를 통합할 수 있도록 XML 모델기반에 웨어하우스 미디에이터 통합시스템을 제안한다. 제안 시스템은 fact constellation 모델을 기반하여 이질적인 소스에 대한 통합 모델링을 진행하고 통합 스키마를 XML 스키마로 변환하여 유지한다. 또한 통합 데이터베이스에 포함된 소스 데이터의 변경 및 출처에 대한 추적 관리를 위해 데이터의 점진적 갱신방법과 서열에 대한 버전관리를 이용한다. 실제로 이 시스템을 단백질 구조(PDB), 서열(Swiss-Prot)과 도메인 분류데이터(CATH) 통합에 적용한 통합 모델링 과정을 보여준다.

정적 주요 경로 API 시퀀스를 이용한 소프트웨어 유사성 검사 (Detecting Software Similarity Using API Sequences on Static Major Paths)

  • 박성수;한환수
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1007-1012
    • /
    • 2014
  • 소스코드가 없이 실행코드만으로 소프트웨어 간의 유사성을 비교하기위해 소프트웨어 버스마크를 이용한다. 소프트웨어 버스마크란 그 소프트웨어만의 고유한 특징으로 소프트웨어 식별에 사용된다. 본 논문에서는 정적 주요경로 상의 API 함수 시퀀스를 이용하여 소프트웨어 간의 유사성을 산정하는 방법을 제시한다. 바이너리코드에서 소프트웨어의 특성이 뚜렷하게 나타나는 API 함수만을 사용하여 소프트웨어 유사성 검사의 신뢰성을 높이고, 정적 분석 기법에 동적 분석 기법의 특징을 적용하여 강인성을 높이는 방법을 모색하였다. 정적 분석으로 바이너리코드의 주요경로를 추출하고, API 함수 시퀀스 간의 효과적인 유사성 측정을 위해 서열정렬 알고리즘인 Smith-Waterman 알고리즘을 이용한 유사성 척도를 제안한다. 버스마크의 신뢰성을 평가하기 위하여 같은 프로그램의 여러 버전을 대상으로 실험하였고, 강인성을 평가하기 위해 오픈소스 소프트웨어의 소스코드를 다양한 컴파일환경으로 바꾸어 실험하였다.

일배체형 재조합을 위한 MCIH 모델과 WMLF/GI 모델의 정확도 비교 (The Correctness Comparison of MCIH Model and WMLF/GI Model for the Individual Haplotyping Reconstruction)

  • 정인선;강승호;임형석
    • 정보처리학회논문지B
    • /
    • 제16B권2호
    • /
    • pp.157-161
    • /
    • 2009
  • 일배체형 조합 문제를 해결하기 위해 제시된 MLF(Minimum Letter Flips) 모델이나 WMLF(Weighted Minimum Letter Flips) 모델은 유전자형 정보를 도입함으로써 오류와 손실이 많을 때에도 높은 정확도를 얻을 수 있다. 그리고 MLF 모델에 비해 가중치 버전인 WMLF모델의 정확도가 높다는 사실도 밝혀졌다. 본 논문에서는 유전자형 정보상의 동형(homozygous)의 분포 비율과 유전자 서열판독기계의 성능에 따른 신뢰도의 차이를 매개변수로 하여 두 모델을 구체적으로 비교, 분석한다. 두 모델의 성능 비교를 위해 신경망과 유전자 알고리즘을 사용한다. 실험결과 동형의 비율이 크고 판독기계의 성능이 좋으면 특히 손실율과 오류율이 높은 경우에 WMLF/GI 모델의 정확도가 더 우수함을 보인다.