• 제목/요약/키워드: 생물학적 데이터 탐색

검색결과 18건 처리시간 0.031초

진화연산 기반 계층적 하이퍼네트워크 모델에 의한 암 특이적 microRNA-mRNA 상호작용 탐색 (Exploring Cancer-Specific microRNA-mRNA Interactions by Evolutionary Layered Hypernetwork Models)

  • 김수진;하정우;장병탁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권10호
    • /
    • pp.980-984
    • /
    • 2010
  • microRNA (miRNA)와 mRNA 조절 상호작용 탐색은 다양한 생물학적 현상에 있어 새로운 시야를 제공해 줄 수 있다. 최근 생물학적 프로세스에서 miRNA는 유전자 발현을 제어하고 세포를 기능적으로 조절하는 중요한 역할을 하는 요소로 밝혀졌다. 이에 복잡한 생물학 시스템에서 miRNA의 기능적 활동을 이해하기 위해서는 miRNA와 mRNA간 상호작용 분석은 필수적이다. 그러나 아직까지 복잡한 miRNA와 mRNA간 상호작용 관계를 추론하는 것은 어려운 문제이기 때문에 많은 연구자들이 실험적, 전산학적 접근 방법을 제안하며 활발한 연구를 진행하고 있다. 본 논문에서는 이종의 발현 데이터로부터 기능적으로 상호작용하는 miRNA-mRNA 조합을 탐색하기 위한 진화 연산 기반의 새로운 하이퍼네트워크 모델을 제안한다. 이에 실험결과로 제안하는 방법을 인간 암 관련 miRNA와 mRNA 발현 데이터에 적용하여 암 특이적 miRNA-mRNA 상호작용 집합을 탐색하고 발견한 miRNA-mRNA 상호작용 관계가 생물학적으로 유의함을 제시한다.

인간 miRNA 전구체 탐색을 위한 계산학적 방법 (Computational Method for Searching Human miRNA Precursors)

  • Nam, Jin-Wu;Joung, Je-Gun;Lee, Wha-Jin;Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.288-297
    • /
    • 2003
  • 본 논문은 진화 알고리즘(Evolutionary algorithm)의 기법중의 하나인 유전자 프로그래밍(Genetic programming)을 이용하여 miRNA 유전자를 발굴하기 위한 알고리즘을 소개하고 있다 miRNA는 세포내에서 유전자의 전사를 중지시킴으로써 유전자의 발현을 직접적으로 조절하게 되는 작은 RNA 집단 중의 하나이다. 그러므로 miRNA를 유전체 데이터에서 동정해내는 작업은 생물학적으로 상당히 중요하다. 한편 유전체 데이터에서 miRNA를 동정해내는 알고리즘은 생물학적 실험에서의 시간과 비용을 상당히 절감할 수 있으며, 생물학적으로 miRNA를 동정하는 많은 어려움을 덜어주게 된다. 하지만 계산학적으로 miRNA의 동정은 1차 염기서열상의 통계적인 중요도가 부족하여 기존의 유전자 예측 알고리즘을 적용하기에는 어려움이 있다. 따라서 본 연구에서는 miRNA의 염기서열보다는 2차구조에서 더 많은 유사성을 갖는다는 점을 착안하여, 2차구조내에서 공통적인 구조를 찾아내고, 그 정보를 이용하여 miRNA를 동정해내는 방법으로 접근하였다. 이 알고리즘의 성능평가를 위해 우리는 test set을 이용하여 학습된 모델의 특이도(= 34/38)와 민감도(= 38/67)를 계산하였다. 평가결과 본 알고리즘이 기존의 miRNA 예측 프로그램보다 높은 특이도를 갖고 있으며, 유사한 수준의 민감도를 갖고 있음을 보여 주고 있다.

  • PDF

바이오그리드 컴퓨팅과 생명과학 연구에의 활용 (Bio Grid Computing and Biosciences Research Application)

  • 김태호;김의용;염재범;고원규;곽희철;주현
    • Bioinformatics and Biosystems
    • /
    • 제2권2호
    • /
    • pp.37-45
    • /
    • 2007
  • 생물정보학은 컴퓨터를 이용하여 방대한 양의 생물학적 데이터를 처리하고 그 결과를 분석하는 학문으로서 IT의 고속성장과 맞물려 점차 그 활용도를 넓혀가고 있다. 특히 의학, 생명과학 연구에 사용되는 데이터는 그 종류도 다양하고 크기가 매우 큰 것이 일반적인데, 이의 처리를 위해서는 고속 네트워크가 바탕이 된 그리드-컴퓨팅(Grid-Computing) 기술 접목이 필연적이다. 고속 네트워크 기술의 발전은 슈퍼컴퓨터를 대체해 컴퓨터 풀 내에 분산된 시스템들을 하나로 묶을 수 있는 그리드-컴퓨팅 분야를 선도하고 있다. 최근 생물정보학 분야에서도 이처럼 발전된 고성능 분산 컴퓨팅 기술을 이용하여 데이터의 신속한 처리와 관리의 효율성을 증대시키고 있는 추세이다. 그리드-컴퓨팅 기술은 크게 데이터 가공을 위한 응용 프로그램 개발과 데이터 관리를 위한 데이터베이스 구축으로 구분 지을 수 있다. 전자에 해당하는 생물정보 연구용 프로그램들은 mpiBLAST, ClustalW-MPI와 같은 MSA서열정렬 프로그램들을 꼽을 수 있으며, BioSimGrid, Taverna와 같은 프로젝트는 그리드-데이터베이스 (Grid-Database)기술을 바탕으로 개발되었다. 본 고에서는 미지의 생명현상을 탐구하고 연구하기 위하여 현재까지 개발된 그리드-컴퓨팅 환경과 의생명과학 연구를 위한 응용 프로그램들, 그리고 그리드-데이터베이스 기술 등을 소개한다.

  • PDF

에이전트를 이용한 사용자 중심의 개인용 생물학 검색시스템 (User-Centric Personal Biological Retrieval System Using Agents)

  • 김영억;정광수;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.76-78
    • /
    • 2005
  • 생명정보 분야의 발전과 더불어 과거 축적되어 온 방대한 양의 생물학 데이터들이 이질적인 형태로 데이터베이스화 되어있다 특히, 인간게놈프로젝트의 완료 후에 유전자 및 단백질의 기능을 밝히기 위한 지노믹스 및 프로테오믹스 연구가 활발해졌다. 새로운 생물학적 과정을 탐색하기 위해서는 기존에 존재하는 생물학 데이터베이스의 데이터를 수집하기 위한 기술적인 검색 능력이 필요하다. 전산지식이 부족한 대부분의 생물학자들은 공개용 데이터베이스로부터 필요한 정보를 획득하는데 어려움을 격고 있다. 각 분야의 생물학자들이 공개용 데이터베이스로부터 자신의 분야에 관련된 데이터를 검색?추출하는 작업을 수월하게 해 줄 검색 시스템이 필요하다. 따라서, 에이전트를 이용하여 공개용 데이터베이스로부터 정보를 수집하는 사용자 중심의 개인용 검색시스템을 제안하고자 한다. 또한, 검색시스템을 이용하여 생물학자가 지노믹스와 프로테오믹스의 실험적인 접근을 위해 원하는 많은 양의 특정 도메인의 데이터를 검색하고 질의된 결과를 개인 컴퓨터에 2차 데이터베이스를 만들어 저장한다. 사용자에 의해 생성된 특정 분야의 도메인인 2차 데이터베이스를 통해 데이터의 접근의 편리성과 생물학 정보의 분석의 용이성을 얻을 수 있다.

  • PDF

은닉변수학습 모형에 기반한 시간적 프로파일을 이용한 조절 유전자군의 탐색 (Searching for the regulated gene groups through temporal profiling of microarray expressions based on the latent variable learning model)

  • 양진산;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.40-42
    • /
    • 2006
  • 유전자 발현에 있어서의 조절작용은 유전자간의 복합적인 상호작용의 결과에 기인한다. 따라서 이러한 현상으로부터 기능적으로 연관된 유전자 군을 식별하기 위해서는 단일 유전자보다는 복수의 유전자군의 발현패턴을 대상으로 하게 된다. 이 경우 발현패턴의 시간에 따른 다양하고 복잡한 특징들은 은닉변수학습 모형을 이용하므로서 보다 명확하게 표현될 수 있고, 유사한 기능을 가진 유전자 군을 탐색 하는데에 효과적으로 이용될 수 있다. 본 논문에서 제시된 은닉변수학습 모형은 이스트 Cell Cycle 데이터에 적용한 결과 특정 조절유전자에 대하여 생물학적으로 연관된 유전자 군을 찾는 데에 다른 방법과 비교하여 효과적임을 보일 수 있었다.

  • PDF

낙동강 본류 측정소들의 생물학적 산소요구량 수치에 대한 비모수적 회귀분석과 특이점분석 (Lowess and outlier analysis of biological oxygen demand on Nakdong main stream river)

  • 김종태
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.119-130
    • /
    • 2014
  • 본 연구는 국립환경과학원의 물환경정보시스템에서 제공한 자료를 사용하였다. 자료는 낙동강 본류 (낙본, nb)의 수질측정소 A지역에서 측정소 N지역까지 2003년 1월부터 2013년 8월까지 측정한 월별 수질데이터를 이용하였다. 생물학적 산소요구량 BOD (biological oxygen demand)의 통계학적 수질분석은 월별, 연도별, 지역별로 R 프로그래밍을 이용하여 구체화 하였다. 낙본지역 측정소들의 BOD에 대하여 탐색적 자료분석 (exploratory data analysis) 방법과 비모수 회귀분석방법 중 하나인 Lowess (locally weighted scatter plot smoother) 경향분석법을 이용하여 장기수질경향과 지역별 수질분포의 현황을 분석하였다. 그리고 특이점 (outlier)이 가장 많이 발생하는 시기와 낙본 측정지역들을 분석하였다. 그 결과 낙본하류지역인 부산광역시 강서구 명지동 측정소 nbM의 BOD 수질환경 보다 낙본중류지역인 대구광역시 달성군 구지면의 측정소 nbG와 경상남도 창원시의 측정소 nbI 지역의 수질오염이 보다 심각한 문제점들이 있는 것으로 나타난다.

단백질 구조 정보 분석을 위한 바이오 온톨로지 (Bio-ontology for Analyzing Protein Structure Information)

  • 남덕우;예형석;진훈;김인철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.799-801
    • /
    • 2003
  • 생물정보학 분야에서의 온톨로지는 다양한 생물학적 의미들을 표현하는 구조로 되어 있으며, 생물학 데이터의 의미를 효과적으로 해석할 수 있는 매우 중요한 기술로 인식되고 있다. 특히 바이오 온톨로지는 생물학 데이터베이스로부터 정보에 대한 탐색과 추론 등 의미 전달 과정에서 중심적인 역할을 수행한다. 본 논문에서는 단백질 구조 예측을 지원하는 다중 에이전트시스템인 APSS내에서 각 구성원 에이전트들간에 온톨로지에 기초한 정확한 구조 정보의 전달을 통해 효과적인 단백질 구조 예측 작업을 지원하고자 한다. 이를 위하여 먼저 단백질 구조 관련 바이오 온톨로지의 설계방법을 제시하고, 이것에 기초한 실제 바이오 온톨로지의 설계에 대해 설명한다. 그리고 이렇게 구축된 단백질 구조 온톨로지를 APSS시스템 안에서 어떻게 응용하였는가에 대해서도 설명한다.

  • PDF

단백질 상호작용 네트워크예서 상동성 기반 바이오 콤플렉스 예측 (A Homology-Based Prediction of Biological Complexes in a Protein-Protein Interaction Network)

  • 최재훈;박종민;박수준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.64-66
    • /
    • 2006
  • 본 논문에서는 생물학적 실험에 의해 추출된 이종의 단백질 콤플렉스를 통해 대상 종의 콤플렉스를 단백질 상호적용 네트워크에서 예측할 수 있는 방법을 제안한다. 이 예측은 먼저 이종사이에 단백질의 비교를 통해 상동성을 색인한 다음, 이 상동성을 이용하여 이종의 콤플렉스를 대상 종으로 변형하고 그 형태를 단백질 상호작용 네트워크에서 탐색하는 과정으로 수행된다. Swiss-Prot 데이터 베이스의 단백질들을 대상으로 상동성 색인을 색인하였으며, 콤플렉스 형태를 분석하기 위해 DIP의 단백질 상호작용 네트워크를 이용하였다.

  • PDF

cDNA 마이크로어레이 데이터의 분석과 관리 시스템: cMAMS (cDNA Microarray data Analysis and Management System: cMAMS)

  • 김상배;김효미;이은정;김영진;박정선;박윤주;정호열;고인송
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.247-249
    • /
    • 2004
  • 마이크로어레이 기술은 근래에 개발된 신기술로써 동시에 수천-수만 개의 유전자 발현을 측정할 수 있어 다양한 생물학적 연구에 이용되고 있다. 여러 단계의 실험 과정과 이를 통해 얻은 다량의 데이터를 처리하기 위해서는 이를 효율적으로 관리. 저장, 분석할 수 있는 통할 정보 관리 시스템을 필요로 한다. 현재 외국에서는 몇몇 관리시스템이 개발되어 있고. 국내에서도 WEMA 등이 있지만 아직 데이터 관리부분에 기능이 치우쳐 있다. 따라서 우리는 복잡한 자료구조를 가지는 마이크로어레이의 실험 정보와 각 단계별 처리 정보 등을 사용자의 관점에서 효과적이고 체계적으로 관리할 수 있고, 데이터 정규화 및 다양한 통계적 분석 기능을 갖춰 불필요한 시간과 비용을 줄임으로써 마이크로어레이 연구에 도움을 주고자 통합 분석관리 시스템 cMAMS (cDNA Microarray Analysis and Management System)를 개발하였다. 웹 기반으로 구현된 cMAMS는 데이터를 저장, 관리하는 부분과 데이터를 분석하는 부분, 그리고 모든 관련 점보가 저장되는 데이터베이스 부분으로 구성되어 있다 데이터관리부분에서는 WEMA의 계층적 데이터구조론 도입해 관리의 효율성을 높이고 시스템의 이용자를 시스템운영자, 프로젝트관리자, 일반사용자로 구분하여 데이터 접근을 제한함으로써 보안성을 높였다. 통계처리 언어 R로 구현된 데이터분석 부분은 7 단계의 다양한 분석(전처리 정규화, 가시화, 군집분석. 판별분석, 특이적 발현 유전자 선뿐, 마이크로어레이 간의 상판분석)이 가능하도록 구현하였고, 분석결과는 데이터베이스에 저장되어 추후에 검토 및 연구자간의 공유가 가능하도록 하였다. 데이터베이스는 실험정보가 저장된 데이터베이스, 분석결과가 저장된 데이터베이스, 그리고 유전자 정보 탐색을 위한 데이터베이스로 분류해 데이터를 효율적으로 관리할 수 있게 하였다. 본 시스템은 LiNUX를 운영체계로 하고 데이터베이스는 MYSQL로 하여 JSP, Perl. 통계처리 언어인 R로 구현되었다.

  • PDF

RNA 시퀀싱 기법으로 생성된 빅데이터 분석 (Big Data Analytics in RNA-sequencing)

  • 우성훈;정병출
    • 대한임상검사과학회지
    • /
    • 제55권4호
    • /
    • pp.235-243
    • /
    • 2023
  • 차세대 염기서열 분석이 개발되고 널리 사용됨에 따라 RNA-시퀀싱(RNA-sequencing, RNA-seq)이 글로벌 전사체 프로파일링을 검증하기 위한 도구의 첫번째 선택으로 급부상하게 되었다. RNA-seq의 상당한 발전으로 다양한 유형의 RNA-seq가 생물정보학(bioinformatics) 발전과 함께 진화했으나, 다양한 RNA-seq 기법 및 생물정보학에 대한 전반적인 이해 없이는 RNA-seq의 복잡한 데이터를 해석하여 생물학적 의미를 도출하기는 어렵다. 이와 관련하여 본 리뷰에서는 RNA-seq의 두 가지 주요 섹션을 논의하고 있다. 첫째, Standard RNA-seq과 주요하게 자주 사용되는 두 가지 RNA-seq variant method를 비교하였다. 이 비교는 어떤 RNA-seq 방법이 연구 목적에 가장 적절한지에 대한 시사점을 제공한다. 둘째, 가장 널리 사용되는 RNA-seq에서 생성된 데이터 분석; (1) 탐색적 자료 분석 및 (2) enriched pathway 분석에 대해 논의하였다. 데이터 세트의 전반적인 추세를 제공할 수 있는 주 성분 분석, Heatmap 및 Volcano plot과 같이 RNA-seq에 대해 가장 널리 사용되는 탐색적 자료 분석을 소개하였다. Enriched pathway 분석 섹션에서는 3가지 세대의 enriched pathway 분석에 대해 소개하고 각 세대가 어떤 식으로 RNA-seq 데이터 세트로부터 enriched pathway를 도출하는지를 소개하였다.