• 제목/요약/키워드: 유전자 발현 데이터

검색결과 190건 처리시간 0.03초

GELIM: 유전자 네트워크 분석과 데이터 관리를 위한 통합 시스템 (GELIM: An Integrated System with Genetic Network Analyzer and LIMS)

  • Kim, Hye-Jung;Cho, Hwan-Gue;Park, Seon-Hee;Shin, Mi-Young;Jung, Ho-Youl;Lee, Kyung-Shin
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2004년도 The 3rd Annual Conference for The Korean Society for Bioinformatics Association of Asian Societies for Bioinformatics 2004 Symposium
    • /
    • pp.286-295
    • /
    • 2004
  • 생물학적으로 의미 있는 결과를 도출하기 위해서는 많은 실험 데이터가 필요하다. 최근에는 마이크로 어레이 실험 기술이 발달함에 따라 대량의 데이터를 얻을 수 있게 되었고, 이로 인해서 데이터를 체계적으로 관리하고 필요한 정보를 습득할 수 있는 시스템이 필요하게 되었다. LIMS(Laboratory Information Management System) 는 이러한 요구 조건을 충족시키기 위한 시스템으로 기존의 파일 시스템에 의존해서 비효율적으로 실험 데이터를 관리해 오던 것을 체계적이고 효율적으로 관리해 주기 위한 시스템이다. 대량의 유전자 발현 데이터의 생산은 유전자의 조절 네트워크 예측을 가능하게 하였다. 유전자간의 상호 작용을 분석하는 것은 세포의 활동을 이해하는데 매우 중요한 요소라고 할 수 있다. 본 논문에서는 기존의 LIMS 기능과 유전자 조절 네트워크 분석 시스템을 통합하여 사용자가 쉽게 데이터를 공유 및 습득할 수 있으며 편리한 사용자 인터페이스를 이용하여 컴퓨터에 익숙하지 않은 실험들도 쉽게 사용할 수 있는 GELIM(an Integrated system with GEnetic network analyzer and LIMs) 을 소개한다.

  • PDF

안정적 유전자 특징 선택을 위한 유전자 발현량 데이터의 부트스트랩 기반 Lasso 회귀 분석 (Lasso Regression of RNA-Seq Data based on Bootstrapping for Robust Feature Selection)

  • 조정희;윤성로
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권9호
    • /
    • pp.557-563
    • /
    • 2017
  • 많은 수의 유전자 데이터를 이용해서 Lasso 회귀 분석을 할 때, 유전자 발현량 값들 사이의 높은 상관성으로 인하여 회귀 계수의 추정값이 회귀 분석의 반복 시행마다 달라질 수 있다. L1 정규화에 의해 축소되는 회귀 계수의 불안정성은 변수 선택을 어렵게 하는 요인이 된다. 본 연구에서는 이러한 문제를 해결하기 위하여 부트스트랩 단계를 반복 시행하여 높은 빈도로 선택된 유전자들을 이용한 회귀 모형들을 만들고, 각 모형들에서 안정적으로 선택되는 특징 유전자들을 찾고, 그 유전자들이 위양성 결과가 아님을 입증하였다. 또한, 회귀모형 별 예측지수의 정확도를 실제지수와의 상관관계를 이용해 측정하였는데, 선택된 특징 유전자들의 회귀계수 부호의 분포가 정확도와 관련성을 보임을 확인하였다.

마이크로어레이 데이터의 부공간 대조 샘플집단 마이닝 (Mining of Subspace Contrasting Sample Groups in Microarray Data)

  • 이경미;이건명
    • 한국지능시스템학회논문지
    • /
    • 제21권5호
    • /
    • pp.569-574
    • /
    • 2011
  • 이 논문에서는 마이크로어레이 데이터에 대한 분석 문제로서 부공간 대조집단 식별 문제를 소개하고, 이를 해결하는 방법을 제안한다. 제안한 방법은 부공간에서 속성값이 대조적인 집단의 쌍들을 식별하기 위해, 먼저 각 속성에 대해서 분석자가 지정한 대조영역의 값을 갖는 두 개의 샘플집단을 선택한 다음, 연관규칙 마이닝과 유사한 형태의 방법으로 부공간의 차원을 점진적으로 확대해 가면서 대조집단을 추출한다. 마이크로어레이 데이터는 수천개 이상의 유전자에 대한 발현정보를 포함할 수 있는 다차원 데이터이기 때문에, 대조적인 발현특성을 갖는 유전자집합에 대한 샘플집단의 쌍을 모두 부차원에 대해서 질의를 통해 식별하는 것은 부담이 되지만, 제안한 방법을 사용하면 분석자가 지정한 대조영역 값의 범위를 기준으로 하여 모든 가능한 부공간에서의 대조집단을 효과적으로 추출할 수 있다.

단백질 상호작용 네트워크를 통한 유전체 단위반복변이와 트랜스유전자 발현과의 연관성 분석 (Genome-Wide Association Study between Copy Number Variation and Trans-Gene Expression by Protein-Protein Interaction-Network)

  • 박치현;안재균;윤영미;박상현
    • 정보처리학회논문지D
    • /
    • 제18D권2호
    • /
    • pp.89-100
    • /
    • 2011
  • 인간 유전체에 존재하는 유전적 구조 변이(genetic structural variation) 중 하나인 유전체 단위반복변이(Copy Number Variation, CNV)은 유전자의 기능 발현과 밀접한 관련이 있다. 특히 특정 유전 질병이 있는 사람들을 대상으로 CNV와 유전자발현의 관계를 밝히는 연구가 계속 진행되고 있지만, 정상인 유전체에 대한 CNV의 기능적 분석은 아직 활발히 이루어지고 있지 않다. 본 논문에서는 다수의 정상인 샘플에서 찾아낸 공통된 CNV에 대하여 유전자들과의 기능적 관계를 유전자의 분자적 위치와 상관없이 밝힐 수 있는 분석 방법을 제시한다. 이를 위해 서로 다른 이질적인 생물학데이터를 통합하는 방법을 제시하고 공통된 CNV와 유전자와의 연관성을 분자적 위치와 상관없이 계산할 수 있는 새로운 방법을 제시한다. 제안된 방법의 유의성을 보이기 위해서 유전자 온톨로지 (Gene Ontology) 데이터베이스를 이용한 다양한 검증 실험들을 수행하였다. 실험결과 새롭게 제안된 연관성 측정방법은 유의성이 있으며 공통된 CNV와 강한 연관성을 갖는 유전적 기능의 후보들을 시스템적으로 제시할 수 있는 것으로 나타났다.

정보력 있는 유전자 선택 방법 조합을 이용한 마이크로어레이 분류 시스템 구현 (The Implement of System on Microarry Classification Using Combination of Signigicant Gene Selection Method)

  • 박수영;정채영
    • 한국정보통신학회논문지
    • /
    • 제12권2호
    • /
    • pp.315-320
    • /
    • 2008
  • 오늘날 인간 genome프로젝트와 같은 종합적인 연구의 궁극적 목적을 달성하기 위해서는 이들 연구로부터 획득한 대량의 관련 데이터에 대해 새로운 현실적 의미를 부여할 수 있어야 한다. 이러한 맥락에서 유전자 발현 분석 시스템과 염기 서열 분석 시스템의 구축이 포스트 genome 시대를 맞이하여 새롭게 주복을 받고 있다. 최근에는 종양의 특정 부 클래스가 특정 염색체와 관련되어 있다는 사실이 밝혀지면서, 마이크로어레이는 유전자 발현 정보를 기반으로 암의 분류와 예측을 통한 진단 분야에도 활용되기 시작했다. 본 논문에서는 암에 걸린 흰쥐 외피 기간 세포 분화 실험에서 얻어진 3840 유전자의 마이크로어레이 cDNA를 이용하여 데이터의 정규화를 거쳐 정보력 있는 유전자 목록을 별도로 추출할 수 있는 시스템을 고안하고 보다 정보력 있는 유전자를 선택하기 위해 조합 방법을 제안하였다. 그리고 제안한 시스템과 방법론의 가능성을 실험을 통해 검증하였다. 그 결과 PC-ED 조합이 98.74%의 정확도와 0.04%의 MSE를 보여 단일 유사성 척도를 사용하여 유전자 목록을 생성하고 실험을 수행한 경우보다 분류 성능이 향상되었다.

Nonstandard Machine Learning Algorithms for Microarray Data Mining

  • Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보 워크샵 (DNA Chip Bioinformatics)
    • /
    • pp.165-196
    • /
    • 2001
  • DNA chip 또는 microarray는 다수의 유전자 또는 유전자 조각을 (보통 수천내지 수만 개)칩상에 고정시켜 놓고 DNA hybridization 반응을 이용하여 유전자들의 발현 양상을 분석할 수 있는 기술이다. 이러한 high-throughput기술은 예전에는 생각하지 못했던 여러가지 분자생물학의 문제에 대한 해답을 제시해 줄 수 있을 뿐 만 아니라, 분자수준에서의 질병 진단, 신약 개발, 환경 오염 문제의 해결 등 그 응용 가능성이 무한하다. 이 기술의 실용적인 적용을 위해서는 DNA chip을 제작하기 위한 하드웨어/웻웨어 기술 외에도 이러한 데이터로부터 최대한 유용하고 새로운 지식을 창출하기 위한 bioinformatics 기술이 핵심이라고 할 수 있다. 유전자 발현 패턴을 데이터마이닝하는 문제는 크게 clustering, classification, dependency analysis로 구분할 수 있으며 이러한 기술은 통계학과인공지능 기계학습에 기반을 두고 있다. 주로 사용된 기법으로는 principal component analysis, hierarchical clustering, k-means, self-organizing maps, decision trees, multilayer perceptron neural networks, association rules 등이다. 본 세미나에서는 이러한 기본적인 기계학습 기술 외에 최근에 연구되고 있는 새로운 학습 기술로서 probabilistic graphical model (PGM)을 소개하고 이를 DNA chip 데이터 분석에 응용하는 연구를 살펴본다. PGM은 인공신경망, 그래프 이론, 확률 이론이 결합되어 형성된 기계학습 모델로서 인간 두뇌의 기억과 학습 기작에 기반을 두고 있으며 다른 기계학습 모델과의 큰 차이점 중의 하나는 generative model이라는 것이다. 즉 일단 모델이 만들어지면 이것으로부터 새로운 데이터를 생성할 수 있는 능력이 있어서, 만들어진 모델을 검증하고 이로부터 새로운 사실을 추론해 낼 수 있어 biological data mining 문제에서와 같이 새로운 지식을 발견하는 exploratory analysis에 적합하다. 또한probabilistic graphical model은 기존의 신경망 모델과는 달리 deterministic한의사결정이 아니라 확률에 기반한 soft inference를 하고 학습된 모델로부터 관련된 요인들간의 인과관계(causal relationship) 또는 상호의존관계(dependency)를 분석하기에 적합한 장점이 있다. 군체적인 PGM 모델의 예로서, Bayesian network, nonnegative matrix factorization (NMF), generative topographic mapping (GTM)의 구조와 학습 및 추론알고리즘을소개하고 이를 DNA칩 데이터 분석 평가 대회인 CAMDA-2000과 CAMDA-2001에서 사용된cancer diagnosis 문제와 gene-drug dependency analysis 문제에 적용한 결과를 살펴본다.

  • PDF

DNA chip 데이터 분석을 위한 Web-Bioconductor System 설계 (Design of Web-Bioconductor System for DNA chip data analysis)

  • 신동훈;박준형;강병철;신창진;김철민
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.251-254
    • /
    • 2004
  • Web-Bioconductor System은 유전자 분석에 대한 통계적 모듈과 그래픽 환경을 제공하는 R언어와 DNA chip 데이터의 분석을 수행하는 Bioconductor 패키지를 이용하여 웹으로 DNA chip 데이터를 분석할 수 있도록 설계한 시스템이다. 본 시스템은 DNA chip 데이터의 분석을 위해 사용자 계정 모듈, 데이터 입력 모듈, 전 처리 모듈, 유전자 차등 발현 분석 모듈, 결과 출력 모듈로 구성되어 있으며, 분석된 결과물은 HTML, 이미지, XLS 파일 형태로 제공된다. 웹을 이용하여 DNA chip 분석을 수행함으로써 인터넷이 가능한 곳이면 시간과 장소의 구분이 없이 DNA chip 데이터 분석이 가능하며, 인터넷으로 DNA chip 데이터 분석 자료를 공유할 수 있음으로 연구자들의 상호 의견 교환을 바탕으로 효율적인 분석이 가능할 것이다. 또한 기존의 R언어와 Bioconductor가 전산 지식이 부족한 사람들에게는 접근하기 어려운 점을 웹 인터페이스로 간단하게 구현함으로써 DNA chip 데이터 분석에 있어 용이성과 효율성을 중대하고 있다.

  • PDF

RNA-Seq 데이터를 이용한 선택 스플라이싱 유형 분석 (Alternative Splicing Pattern Analysis from RNA-Seq data)

  • 공진화;이종근;이은주;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.37-40
    • /
    • 2011
  • 선택 스플라이싱 (alternative splicing)은 mRNA (messenger RNA)의 전구체인 pre-mRNA가 mRNA로 전사될 때 pre-mRNA의 엑손 영역들 (exons)이 여러 가지 유형 (pattern)으로 다시 연결되는 과정을 말한다. 선택 스플라이싱에 의해 하나의 유전자로부터 서로 다른 mRNA가 만들어 지고 서로 다른 이소형의 단백질 (protein isoforms)이 생성된다. 현재까지 알려진 선택 스플라이싱의 유형은 약 7가지 종류가 있으며, 유전자의 돌연변이 및 질병과 밀접한 연관성을 가지고 있는 것으로 알려져 있다. 본 연구에서는 차세대 시퀀싱 (Next Generation Sequencing : NGS) 기술로 생성된 RNA-Seq 데이터로부터 각 유전자 영역에 대한 선택 스플라이싱 유형을 분류/추출하는 새로운 알고리즘을 제안한다. 제안된 알고리즘에서는 RNA-Seq 데이터를 DNA 시퀀스와 mRNA 트랜스크립트 시퀀스에 동시 매핑하고, 각 엑손 영역에 정렬된 RNA-Seq 데이터의 커버리지 정보 및 엑손의 접합 (junction) 정보를 이용하여 발현된 트랜스크립트 (transcript)의 종류와 양을 측정한다. 알고리즘의 유효성을 보이기 위하여 시뮬레이션 데이터를 이용한 인간 유전자 영역에서의 선택 스플라이싱 유형 추출 실험을 수행하였으며, 검증된 선택 스플라이싱 DB와 비교, 검증하였다.

다중 진화 알고리즘에 의한 유전자 조절 네트워크의 효율적인 탐색 (Efficient Identification of Gene Regulatory Networks by Multi-Stage Evolutionary Algorithms)

  • 김기영;조동연;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.277-279
    • /
    • 2005
  • DNA 마이크로어레이 기술의 발전으로 유전자 발현에 대한 많은 양의 정보가 쏟아지게 되었고, 이러한 정보들을 이용하여 유전자 조절 네트워크를 수학적으로 모델링하는 것이 시스템 생물학의 중요 관심사로 떠오르고 있다. 본 논문에서는 실험에서 얻어낸 데이터를 유전 프로그래밍을 이용한 기호 회귀를 통해 데이터 지점을 조정하고 유전 프로그래밍의 결과 함수를 이용해 각 지점에서의 미분값을 얻어내었다. 그 뒤, 불리안 네트워크를 표현하는 이진 배열과 S-시스템을 표현하는 실수 배열을 결합한 해를 사용하는 유전 알고리즘으로 앞에서 얻은 데이터를 이용해 원하는 S-시스템의 구조와 매개변수를 구해내었다.

  • PDF

Gene Set and Pathway Analysis of Microarray Data

  • 김선영
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2006년도 Principles and Practice of Microarray for Biomedical Researchers
    • /
    • pp.20-28
    • /
    • 2006
  • 최근의 microarray 기술의 발달로 인해 점점 더 많은 양의 mRNA 발현 데이터가 쌓여 가고 있다. 이제는 데이터를 만드는 단계보다는 데이터로부터 중요한 생물학적 의미를 끌어내는 것이 더욱 중요한 일이 되었다. micorarray 기술이 처음 도입된 이후로, 많은 앨고리즘과 소프트웨어가 개발되어, 실험자들이 microarray 데이터로부터 생물학적 의미를 끌어내는 작업을 도와주어 왔다. 그런데, 이전의 데이터 마이닝 방법들은 거의 예외 없이 전체 데이터로부터 선택된 몇 십, 몇 백 개의 유전자 리스트로부터 출발한다. 그런데, 이러한 방법 (over-representation analysis, ORA로 줄임)은 몇 가지 한계를 가지고 있어서, 최근에는 전체 데이터로부터 의미 있는 유전자 세트 (gene set)를 찾아내는 방법들이 도입되었다. 본 세미나는 이런 방법들, 줄여서 gene set analysis라 함, 에 사용되는 앨고리즘들과 소프트웨어들을 비교, 검토하고자 한다.

  • PDF