• 제목/요약/키워드: 유전자 발현 데이터

검색결과 190건 처리시간 0.046초

재귀적 적응 분할 방식을 사용한 생물학적 네트워크의 구축 (Construction of a biological network using recursive adaptive partitioning)

  • 이선영;이민혁;강영선;석준희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.624-626
    • /
    • 2016
  • 본 논문에서는 생물학적 네트워크 구성을 개선하기 위해서 노이즈의 영향으로 상관관계가 명확하게 나타나지 않았던 기존의 방법을 보완할 수 있는 새로운 방법을 제안한다. 제안된 방법은 재귀적응분할 방법으로 상관행렬에서 노이즈의 영향을 줄여 표본간의 상관관계를 명확히 보여 줄 수 있다. 시뮬레이션 결과 네트워크 구성의 오류를 15% 줄여 기존의 방법보다 향상된 결과가 나타났다. 또한, 유전자 발현 데이터를 이용한 실례 연구에서는 원 데이터에 잘 나타나지 않았던 조건별 네트워크 구성이 제안된 방법으로는 잘 분리되어 있는 것을 확인 할 수 있었다. 본 논문에서 제안된 방법은 유전자 발현 데이터 분석 등의 생물학적 네트워크 구성에 활용될 수 있을 것으로 기대한다.

진화 신경망을 이용한 DNA Microarray 데이터 분석 (Analysis of DNA Microarray Data Using Evolutionary Neural Networks)

  • 김경중;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.733-735
    • /
    • 2003
  • DNA Microarray 기술은 유전자의 발현여부를 매우 빠르게 검사할 수 있는 도구이며 각종 질병의 발생여부를 예측하기 위한 정보를 제공한다. 유전자 발현 데이터로부터 암의 발생 여부를 예측하기 위해서는 기존의 접근방법과 다른 기계학습 기법이 요구된다. 일반적으로 샘플의 개수가 극히 적은 반면에 특징의 개수는 수천에서 수만 개가 존재하기 때문에 문제의 특성에 맞는 분류기의 구조를 결정하는 것이 매우 어려운 일이기 때문이다. 진화 신경망은 신경망의 구조와 가중치를 동시에 학습하며 사용자는 각 개체의 적합도를 평가할 수 있는 방법만 제공해 주면된다. 특히 신경망의 구조를 사전에 고정하지 않아도 되는 장점이 있기 때문에 전문적인 지식이 없는 사용자라도 이용가능하다. 대장암 데이터에 대한 실험결과 제안하는 분류기 모델이 다층 퍼셉트론, SVM (support vector machine), 최근접 이웃 방법에 비해 향상된 성능을 보였다.

  • PDF

페이지랭크를 이용한 암환자의 이질적인 예후 유전자 식별 및 예후 예측 (Identification of Heterogeneous Prognostic Genes and Prediction of Cancer Outcome using PageRank)

  • 최종환;안재균
    • 정보과학회 논문지
    • /
    • 제45권1호
    • /
    • pp.61-68
    • /
    • 2018
  • 암환자의 예후 예측에 기여하는 유전자를 찾는 것은 환자에게 보다 적합한 치료를 제공하기 위한 도전 과제 중 하나이다. 예후 유전자를 찾기 위해 유전자 발현 데이터를 이용한 분류 모델 개발 연구가 많이 이루어지고 있다. 하지만 암의 이질성으로 인해 예후 예측의 정확도 향상에 한계가 있다는 문제가 있다. 본 논문에서는 유방암을 비롯한 6개의 암에 대한 암환자의 마이크로어레이 데이터와 생물학적 네트워크 데이터를 이용하여 페이지랭크 알고리즘을 통해 예후 유전자들을 식별하고, K-Nearest Neighbor 알고리즘을 사용하여 암 환자의 예후를 예측하는 모델을 제안한다. 그리고 페이지랭크를 사용하기 전에 K-Means 클러스터링으로 유전자 발현 패턴이 비슷한 샘플들을 나누어 이질성을 극복하고자 한다. 본 논문에서 제안한 방법은 기존의 유전자 바이오마커를 찾는 알고리즘보다 높은 예측 정확도를 보여 주었으며, GO 검증을 통해 클러스터에 특이적인 생물학적 기능을 확인하였다.

대장균에서 사람 ALDH2 유전자의 발현 (Expression of Human ALDH2 Gene in escherichia coli)

  • 곽보연;이기환;정한승
    • 한국식품영양학회지
    • /
    • 제10권2호
    • /
    • pp.268-271
    • /
    • 1997
  • 사람의 미토콘드리아에 있는 aldehyde dehydrogenase(ALDH2)는 체내에서 알코올 대사 과정 중에 생성되는 아세트알데히드를 산화시키는 주된 역할을 담당하고 있다. 이 ALDH2가 알코올 대사에 미치는 영향을 연구하기 위하여 가용화된 효소가 필요하다. 알려져 있는 유전자의 염기서열 데이터를 바탕으로 ALDH2의 cDNA는 cDNA 라이브러리에서 선별하였으며, 이를 여러 가지 대장균 발현벡터에 연결하였다. 제조한 발현벡터를 형질전환시킨 대장균을 사용하여 단백질의 발현을 확인한 결과 대부분의 계에서 ALDH가 과발현되고 있었다. 그러나 발현된 단백질의 대부분은 inclusion body로 형성되어, 실제로 가용화된 효소의 양은 전체 발현된 양의 5% 이하 였고 이들 몇 가지 발현 system으로 재조합 미오2DML 발현을 확인하였다.

  • PDF

유전자 프로그래밍을 이용한 RNA 구조 문법 학습 (Learning of RNA Structural Grammar using Genetic Programming)

  • 남진우;정제균;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.425-427
    • /
    • 2003
  • RNA는 세포내에서 유전자 발현에 직, 간접적으로 중요한 역할을 하며, RNA 구조는 세포 내에서의 기능과 깊은 연관이 있기 때문에 RNA 구조를 예측하는 것은 중요한 의미를 갖는다, 본 논문에서는 진화연산의 한가지인 유전자 프로그래밍(genetic programming) 방법을 사용하여 염기서열 정보를 참고하는 RNA 구조 문법의 학습 방법을 보여 준다. 이 RNA 구조를 의미하는 문법을 트리(tree)형태의 함수로 코드화(encoding) 한 후 이것을 유전자 프로그래밍 방법으로 진화시킨다. 진화를 통해 최적의 적합도를 갖는 트리의 문법을 테스트 데이터를 통해 평가한 결과 0.893의 특이도(speicificity)와 0.752의 민감도(sensitivity)를 보였다.

  • PDF

다양한 종분화 진화 신경망을 결합한 대장암 분류 (Classifying Colon Cancer by Integrating Diverse Speciated Evolutionary Neural Networks)

  • 김경중;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.583-585
    • /
    • 2004
  • 암의 발병을 조기에 예측하고 진단하는 것은 매우 중요하지만 그 과정이 매우 복잡하고 많은 노력이 필요하다. 암이 발생하는 원인은 매우 다양하지만 근본적으로 단백질을 형성하는 유전자에 변화가 오기 때문으로 생각해 볼 수 있다. 유전자 발현 정보로부터 기계적으로 암을 예측하기 위한 과정은 중요한 유전자의 선택, 모델의 학습, 모델을 이용한 예측과정으로 나뉘어 진다. 본 논문에서는 대장암 여부를 유전자 발현 데이터로부터 예측하기 위한 종분화 진화 신경망을 제안한다. 종분화 진화 신경망은 진화 알고리즘을 사용하여 신경망의 구조를 결정하고 종분화 알고리즘을 사용하여 다양한 개체의 생성을 유도한 후 모델의 앙상블을 통해 보다 높은 성능을 내는 방법이다 실험 결과 제안하는 방법이 대장암 예측 cross validation 테스트에서 96.5%의 높은 성능을 보였다.

  • PDF

표준화 기반 표지 유전자를 이용한 난소암 마이크로어레이 데이타 분류 시스템 (Ovarian Cancer Microarray Data Classification System Using Marker Genes Based on Normalization)

  • 박수영;정채영
    • 한국정보통신학회논문지
    • /
    • 제15권9호
    • /
    • pp.2032-2037
    • /
    • 2011
  • 표지 유전자는 특정한 실험 조건의 특성을 나타내주는 발현수준의 유전자를 의미한다. 이 유전자들은 여러 집단간의 발현수준에서 유의한 차이를 보여주며, 실제로 집단 간의 차이를 유발하는 유전자일 확률이 높아 특정 생물학적 현상과 관련 있는 표지 유전자를 찾는 연구에 이용될 수 있다. 본 논문에서는, 먼저 그 동안 제안된 여러 표준화 방법들 중에서 가장 널리 사용되고 있는 방법들을 이용하여 데이터를 표준화 한 후 통계에 따라 유전자의 우선순위를 정함으로써 표지유전자를 추출할 수 있는 시스템을 제안하였다. 다층퍼셉트론 신경망 분류기를 이용하여 각 표준화 방법들의 성능을 비교분석하였다. 그 결과 Lowess 표준화 후 ANOVA를 이용하여 선택된 8개의 표지 유전자를 포함하는 마이크로어레이 데이터 셋에 MLP 알고리즘을 적용한 결과 99.32%의 가장 높은 분류 정확도와 가장 낮은 예측 에러 추정치를 나타내었다.

전산 클로닝을 위한 Clustered EST 데이터베이스 구축 (Buliding Clustered EST database for In Silico Cloning)

  • 이진관;최은선;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.105-108
    • /
    • 2001
  • cDNA(complementary DNA)를 복제(cloneing)하여 염기 서열화 한 EST(Expressed Sequence Tag) 데이터는 여러 생물체들의 염기서열 정보들과 비교를 통해 유사점을 찾거나 기능적 부위 검색을 통해 유전자 기능을 추정한 수 있어 기능 유전체 연구에 많이 사용되고 있다. EST 데이터를 식물은 특정종(Species)별로, 동물의 경우 종의 조직별로 클러스터링 함으로써 아직 알려지지 않은 종의 유전자를 밝혀낼 수 있음은 물론 유전자의 발현에 따른 단백질의 기능도 알아낼 수 있다. 따라서 이 논문에서는 NCBI에서 flatfile 형태로 제공하는 EST 데이터를 분석하여 관계형 데이터베이스로 모델링하고 구축하였다. 또한 EST 데이터의 효율적인 사용을 위하여 데이터를 특정 종의 조직별로 클러스터링하여 제공하는 시스템을 설계하고 구현하였다.

  • PDF

cDNA 마이크로어레이 데이터의 분석과 관리 시스템: cMAMS (cDNA Microarray data Analysis and Management System: cMAMS)

  • 김상배;김효미;이은정;김영진;박정선;박윤주;정호열;고인송
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.247-249
    • /
    • 2004
  • 마이크로어레이 기술은 근래에 개발된 신기술로써 동시에 수천-수만 개의 유전자 발현을 측정할 수 있어 다양한 생물학적 연구에 이용되고 있다. 여러 단계의 실험 과정과 이를 통해 얻은 다량의 데이터를 처리하기 위해서는 이를 효율적으로 관리. 저장, 분석할 수 있는 통할 정보 관리 시스템을 필요로 한다. 현재 외국에서는 몇몇 관리시스템이 개발되어 있고. 국내에서도 WEMA 등이 있지만 아직 데이터 관리부분에 기능이 치우쳐 있다. 따라서 우리는 복잡한 자료구조를 가지는 마이크로어레이의 실험 정보와 각 단계별 처리 정보 등을 사용자의 관점에서 효과적이고 체계적으로 관리할 수 있고, 데이터 정규화 및 다양한 통계적 분석 기능을 갖춰 불필요한 시간과 비용을 줄임으로써 마이크로어레이 연구에 도움을 주고자 통합 분석관리 시스템 cMAMS (cDNA Microarray Analysis and Management System)를 개발하였다. 웹 기반으로 구현된 cMAMS는 데이터를 저장, 관리하는 부분과 데이터를 분석하는 부분, 그리고 모든 관련 점보가 저장되는 데이터베이스 부분으로 구성되어 있다 데이터관리부분에서는 WEMA의 계층적 데이터구조론 도입해 관리의 효율성을 높이고 시스템의 이용자를 시스템운영자, 프로젝트관리자, 일반사용자로 구분하여 데이터 접근을 제한함으로써 보안성을 높였다. 통계처리 언어 R로 구현된 데이터분석 부분은 7 단계의 다양한 분석(전처리 정규화, 가시화, 군집분석. 판별분석, 특이적 발현 유전자 선뿐, 마이크로어레이 간의 상판분석)이 가능하도록 구현하였고, 분석결과는 데이터베이스에 저장되어 추후에 검토 및 연구자간의 공유가 가능하도록 하였다. 데이터베이스는 실험정보가 저장된 데이터베이스, 분석결과가 저장된 데이터베이스, 그리고 유전자 정보 탐색을 위한 데이터베이스로 분류해 데이터를 효율적으로 관리할 수 있게 하였다. 본 시스템은 LiNUX를 운영체계로 하고 데이터베이스는 MYSQL로 하여 JSP, Perl. 통계처리 언어인 R로 구현되었다.

  • PDF

바이오 디지털 콘텐츠를 이용한 독성의 분석 (Analysis of toxicity using bio-digital contents)

  • 강진석
    • 디지털콘텐츠학회 논문지
    • /
    • 제11권1호
    • /
    • pp.99-104
    • /
    • 2010
  • 화학물질은 생체에 들어오면 여러 가지 독성반응을 나타내는데, 독성반응에 따른 유전자 발현을 분석하기 위해 바이오 칩 등을 이용한 신기술이 확산되면서 바이오 디지털 콘텐츠가 다량으로 생성되고 있다. 이 콘텐츠는 그 자체로는 의미가 적고 컴퓨터를 이용한 분석과 보정과정을 거쳐 생물학적으로 의미 있는 값들을 선별하여야 한다. 이런 콘텐츠에는 유전자들의 발현 양상 측정을 목적으로 하는 유전체학(genomics), 유전자의 발현 양상을 측정하는 전사체학(transcriptomics), 단백질의 발현을 측정하는 단백체학(proteomics), 대사체의 발현을 측정하는 대사체학(metabolomics) 등이 있으며, 이를 통칭하여 오믹스(omics)라고 부른다. 오믹스 기술을 독성을 연구하는 분야에 접목한 것이 독성유전체학(toxicogenomics)이며, 이에 대한 콘텐츠를 분석함으로써 독성을 예측하고 독성기전을 규명할 수 있다. 독성분석에 있어서 초기 단계의 분석은 향후 만성독성의 예측에 있어서 중요한 부분을 차지하고 있다. 바이오 디지털 콘텐츠를 이용하여 독성을 예측함에 있어 기존의 방법보다 더 빠르고 정확하게 예측하기 위해서는 많은 정보에 대한 분석기술의 진보가 필요하다. 또, 바이오 디지털 콘텐츠를 이용한 독성예측에 있어서 전체세포보다는 생물학적 현상을 일으키는 특이세포에서 이런 정보를 얻는 것이 중요하다고 생각된다. 또, 향후 바이오 디지털 콘텐츠 분석은 전략적 실험설계에 의한 데이터가 분석되고 축적되어야 하고, 분석알고리즘을 통한 네트워크 분석이 이루어져야 하며, 통합적 데이터 구축을 통해 이루어져야 할 것으로 생각된다.