• 제목/요약/키워드: 유전자 데이터베이스

검색결과 182건 처리시간 0.028초

생의학 문헌에서의 관계 정보 추출 시스템 (A Relational Information Extraction System from Biomedical Literature)

  • 임준호;임재수;장현철;박수준
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.932-937
    • /
    • 2007
  • 생의학 분야 문헌의 양이 빠르게 증가함에 따라, 생의학 연구자들이 필요로 하는 정보를 얻기가 어렵게 되었다. 이를 해결하기 위해, 인간-컴퓨터 상호작용 분야에서는 생의학 문헌 검색 시스템, 또는 생의학 문헌의 정보 추출 시스템 등에 대한 연구가 진행되고 있다. 본 논문에서는 생의학 문헌으로부터 정보를 자동으로 추출하기 위한 관계정보 추출 시스템에 대해 소개한다. 소개하는 시스템은 크게 요약 수집 모듈, 관계 추출 모듈, 관계 가시화 모듈로 구성되어 있다. 우선, 요약 수집 모듈에서는 특정 주제의 문헌들을 검색 및 수집한다. 그리고, 관계 추출 모듈에서는 수집된 문헌들에 대해서, 단백질/유전자 등의 생물학 개체를 인식하고, 구문분석을 통하여 인식된 개체들 사이의 관계를 추출한다. 마지막으로, 관계 가시화 모듈에서는 추출된 관계를 통합하여 네트워크 형태로 가시화한다. 이 시스템은 생물학 실험 이전의 문헌 기반 타당성 검사, 단백질-단백질 상호작용 또는 특정 질병과 유전자의 조절관계 분석, 또는 대용량 문헌 처리를 통한 패스웨이 데이터베이스 구축 등에 활용될 수 있다.

  • PDF

효율적인 군집화 시스템의 개발을 위해 유전자 알고리즘의 적용 (Application of Gene Algorithm for the development of efficient clustering system)

  • 이호현;조범준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.277-280
    • /
    • 2003
  • 현재 많은 관심의 대상이 되고 있는 데이터 마이닝은 대용량의 데이터베이스로부터 일정한 패턴을 분류하여 지식의 형태로 추출하는 작업이다. 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고 군집들간의 유사성을 최소화시키도록 데이터 집합을 분할하는 것이다. 데이터 마이닝에서 군집화는 대용량 데이터를 다루기 때문에 원시 데이터에 대한 접근횟수를 줄이고 알고리즘이 다루어야 할 데이터 구조의 크기를 줄이는 군집화 기법이 활발하게 사용된다. 그런데 기존의 군집화 알고리즘은 잡음에 매우 민감하고, local minima에 반응한다. 또한 사전에 군집의 개수를 미리 결정해야 하고, initialization 값에 다라 군집의 성능이 좌우되는 문제점이 있다. 본 연구에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 군집화 알고리즘을 제안하고, 여기서 제시하는 적합도 함수의 최적화된 군집을 찾아내어 조금더 효율적인 알고리즘을 만들어 대용량 데이터를 다루는 데이터 마이닝에 적용해 보려한다.

  • PDF

웹2.0 기반 DNA서열 분석도구 구현에 대한 연구 (A Study on Implementation of DNA Sequence Analysis Tool in Web2.0)

  • 김명관;조충효
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (B)
    • /
    • pp.11-16
    • /
    • 2007
  • 최근 컴퓨터를 이용한 유전자 해석 기술이 급속히 발전함에 따라 DNA서열분석도구의 필요성도 늘어나고 있다. 그러나 DNA서열분석에 필요한 데이터베이스는 다양한 형태의 포맷이 제공되어 지고 있고, 유전자 서열 데이터의 처리를 위한 애플리케이션에서도 서로 다른 양식의 포맷이 사용되고 있다. 이로 인해 다른 형태의 포맷이 필요한 경우 별도의 파서를 구현 하는 문제가 발생한다. 이러한 단점을 보안하는 하나의 방법으로 GenBank에서 제공되는 XML파일을 이용한 웹2.0 환경인 RIA(Rich Internet Application)개발방식을 제안한다. RIA개발방식은 XML파서와 XML을 처리할 수 있는 E4X(ECMAScript for XML)와 같은 API를 제공 하여 XML로 리턴 되는 데이터를 쉽게 처리하여 화면으로 보여준다.

  • PDF

Stand-Alone BLAST를 이용한 향상된 통합 서열분석시스템의 설계 및 구현 (Design and Implementation of Advanced Sequence Analysis System using the Stand -Alone BLAST)

  • 박춘구;허정호;최지인;박윤주;정동수;남홍길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.268-270
    • /
    • 2002
  • 오늘날 급속하게 발전하는 유전자 분석기술은 유전자 서열(sequence), 단백질의 기능(function) 및 구조(structure)정보와 같은 생명현상의 연구에 필수적인 정보들을 제공하게 되었다. 특히, 인간 유전체 프로젝트의 완성 이후 염기 및 단백질의 서열데이터를 이용하여 유사한 서열데이터의 검색 및 관련 단백질의 기능, 구조 정보들과 같은 생물정보의 종합적인 검색이 요구되고 있다. 하지만 기존 대부분의 통합서열분석시스템들은 단지 관련 정보를 포함하는 데이터 베이스들에 접근하며 서열유사성을 분석한 후, 그 결과를 단순히 디스플레이 하는 것이 대부분 이였다. 부연하면, 기존 통합 서열분석시스템들은 각 데이터베이스로부터 검색된 결과들 간의 명확한 관계를 설명하지 못하여 종합적인 생물정보를 제공하지 못하고 있다. 따라서 본 논문에서는 염기 및 단백질의 서열데이터로부터 서열유사성 검색 및 관련 단백질의 기능, 구조정보에 해당하는 종합적 인 생물정보를 효과적으로 검색, 서비스 할 수 있는 통합 서열분석시스템의 설계, 구현에 관해 기술한다.

  • PDF

GWB: 유전자 서열 데이터의 관리와 분석을 위한 통합 소프트웨어 시스템 (GWB: An integrated software system for Managing and Analyzing Genomic Sequences)

  • 김인철;진훈
    • 인터넷정보학회논문지
    • /
    • 제5권5호
    • /
    • pp.1-15
    • /
    • 2004
  • 본 논문에서는 효율적인 유전자 서열 데이터의 관리와 분석을 위한 웹 기반의 통합 시스템인 GWB(Gene WorkBench)의 설계와 구현에 대해 설명한다. 유전자 서열을 다루는 기존의 시스템들은 서열 데이터의 관리 기능과 분석 기능을 동시에 지원하는 경우가 드물고, 또한 분석 기능 역시 일부 혹은 단일 분석 기능만을 제공하는 단위 프로그램들이 대부분이다. 또 이러한 분석 프로그램들마저 서로 분산되어 있고 다른 수행환경을 필요로 한다. 따라서 이러한 프로그램들을 함께 이용하기 위해서는 많은 수작업과 변환작업을 필요로 하는 등 유전자 서열 데이터를 다루는 많은 생명과학 연구자들이 불편을 겪어왔다. 본 논문에서는 기존 시스템들의 단점을 보완하고 유전자 서열 연구에 효과적으로 도움을 줄 수 있는 보다 편리한 시스템을 구현하고자, 서열 데이터베이스 관리 기능과 다양한 분석 기능들을 하나의 시스템인 GWB로 동합하였다. GWB 시스템 설계의 가상 중요한 이슈는 서로 상이한 분석 프로그램들을 어떻게 하나의 시스템으로 통합할 것이며, 또 이들 프로그램들이 요구하는 서로 다른 서열 데이터 및 서열 데이터베이스 형태를 어떻게 제공할 수 있느냐는 것이다. GWB는 이 문제들을 해결하기 위해 공통의 입출력 인터페이스인 포장기를 이용하여 서로 다른 분석 프로그램들을 시스템에 통합시켰고, 공통 서열 데이터 형식인 KSF를 제안하였으며, 로컬 서열 데이터베이스를 관계형 데이터베이스부분과 색인 순차파일부분으로 나누어 구성하였고, 서로 상이한 서열 데이터 형식간의 변환 기능과 XML 파일로의 변환 기능을 제공하도록 하였다.유의하게 높았다 (P<0.01). 고형물질별 피복지수는 red clover는 V나 V+T(1 : 1)로 피복한 종자에서 높았으며 tall fescue는 T, V, V + T(1 : 1로 피복한 종자)에서 가장 높게 나타났다(P<0.01). 종자피복에 있어서 red clover와 tall fescue 공히 접착제는 CF나 PVA로 하고 고형물질은 V나 V+T(1:1)로 피복함으로서 가장 좋은 피복효과를 얻을 수 있었다.. 쟁점 및 과제들이 제시되었다. cells of these species contained considerable to large amount of neutral mucin, and small to considerable amount of acid mucin, Most of the medium sized and small mucous cells contained neutral mucin and sialomucin, but a few mucous cells contained neutral mucin and strongly sulfomucin or neutral combined with strongly sulfomucin and sialomucin. Most of the esophageal mucous cells pf Bryzoichthys lysimus contained small amount of neutral mucin, while on the other hand a feww mucous cells contained small amount of neutral mucin and minimal

  • PDF

효율적인 유전자 서열 비고를 위한 데이타베이스 검색 모델 (A Database Retrieval Model for Efficient Gene Sequence Alignment)

  • 김민준;임성화;김재훈;이원태;정진원
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권3호
    • /
    • pp.243-251
    • /
    • 2004
  • 대부분의 생물정보학의 프로그램들은 데이타베이스로부터 유전자 등의 데이타를 검색하고 처리하여 생화학자와 생물학자에게 서비스를 제공한다. 이때 각각 클라이언트의 요청마다 데이타베이스의 검색을 수행한다면 많은 디스크 접근 시간이 소요된다. 또한 서버에 과부하를 초래하여 응답시간이 길어질 수 있다. 본 논문에서는 생물정보학에서 서열 검색 프로그램의 데이타베이스 사용 패턴을 이용하여 많은 데이타베이스 요청에 대하여 데이타베이스의 검색을 위한 디스크 접근을 공유하는 그룹핑 기법을 제안한다. 또한, 사용자 요청을 대기 시간 없이 처리중인 작업과 동시에 데이타베이스의 검색을 위한 디스크 접근을 공유하여 시스템 처리율을 높이고 빠른 응답시간을 가지는 카플 방식을 제안한다. 제안된 기법은 수학적 분석과 시뮬레이션을 통하여 성능을 검증하였다.

유전자 알고리즘을 이용한 강인한 Support vector machine 설계 (Design of Robust Support Vector Machine Using Genetic Algorithm)

  • 이희성;홍성준;이병윤;김은태
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.375-379
    • /
    • 2010
  • Support vector machine (SVM)은 튼튼한 이론적 배경을 가지고 있고 구조적 위험을 성공적으로 최소화하기 때문에 추천가 시스템과 같은 다양한 패턴 인식 분야에서 사용되고 있다. 하지만 SVM이 초평면을 결정할 때 이상점들은 margin 손실들을 가지고 있기 때문에 이들은 초평면을 결정하는데 매우 중요한 역할을 하고 있다. 그 이유로 SVM은 이상점들에게 매우 민감한 문제점을 갖는다. 강인한 SVM을 위해 우리는 이상점들의 margin 손실의 최대치를 제한하지만 이것은 non-convex 최적화 문제를 포함한다. 따라서 본 논문에서는 non-convex 최적화 문제에 적합한 유전자 알고리즘을 이용하여 강인한 SVM을 설계하는 방법을 제안한다. 제안하는 알고리즘의 우수성을 보여주기 위하여 UCI repository에서 선택된 여러 데이터베이스들을 이용한 실험을 수행하였다.

DNA 서열의 위치 정보를 이용한 효율적인 유사성 검색 알고리즘 (An Efficient Algorithm for Similarity Search using Positional Information of DNA Sequences)

  • 정인선;박경욱;임형석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.970-972
    • /
    • 2005
  • 유전자 데이터베이스의 서열의 길이가 수백만에서 수백억 정도의 대용량 텍스트이기 때문에 기존의 Smith-waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 매우 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 이러한 방법들은 질의 서열과 일치될 가능성이 높은 후보들만을 추출한 후 이들 각각에 대하여 질의 서열과의 일치 여부를 조사하므로 빠르게 유사성 검색을 할 수 있다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정확도가 Smith-Waterman 알고리즘에 비해 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 인덱싱함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은 문자 빈도만을 사용하는 알고리즘에 비해 $5\~15\%$정도 정확성이 향상되었다.

  • PDF

전파 잡음 데이터베이스 구축을 위한 프로그램 개발 (Development of a Program for Constructing Electromagnetic Noise Database)

  • 육재림;허문만;윤현보
    • 한국전자파학회논문지
    • /
    • 제15권9호
    • /
    • pp.856-862
    • /
    • 2004
  • 유전자 알고리즘을 사용하여 전파 잡음의 통계적 모형(APD: amplitude probability distribution)으로부터 최적파라미터를 추출, 데이터베이스화하는 프로그램을 개발하였다. 제안된 파라미터 추출 방법은 기존의 시행 착오법과 비교하여 추출 시간이 단축되고 추출과정의 자동화가 가능하며 각 파라미터별로 국부적 최적화가 아닌 전역적 최적화를 시행할 수 있다는 장점을 가지고 있다.

생물 정보 저장용 XML 데이터를 위한 유연한 RDB 스키마 생성 규칙 (A Flexible RDB Schema Generating Rule for Biological XML Data)

  • 정석훈;박성준;한동수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.271-273
    • /
    • 2005
  • 유전자, 단백질 등의 생물정보를 이용하는 여러 툴은 효율성의 극대화를 위하여 각각의 시스템에 맞는 데이터 에이스 스키마 구성 및 필요한 정보의 선택적 저장이 필요하다. 하지만 구조 복잡성, 동일한 객체 데이터의 분산 등, 생물 정보 XML의 일반적인 특성 때문에 기존의 XML정보 저장 기법으로는 유연한 데이터베이스 스키마구성에 한계를 지닌다. 이 때문에 생물정보 XML로부터 로컬 데이터베이스를 구성하는 과정은 1:1파서를 구현하여 진행하고 있어 많은 시간과 비용이 소모된다. 본 논문에서는 생물정보 XML 의 특성과 그에 따른 유연한 RDB 스키마 구성의 제약에 대해 논하고, 이를 극복한 자유로운 RDB 스키마 구성을 위한 규칙을 소개한다. 본 규칙은 사용자가 원하는 RDB 스키마를 구성하여 생물정보 XML의 데이터를 저장하게 해주며, SQL 형태를 따르고 있어 사용자에게 익숙하다. 또한 분산된 생물정보 XML의 통합에도 유리하다.

  • PDF