• Title/Summary/Keyword: 유전자 분류

Search Result 744, Processing Time 0.025 seconds

Development of a Gene's Functional Classifying System for a Microarray Data using a Gene Ontology (유전자 온톨로지를 이용한 마이크로어레이 데이터의 유전자 기능 분석 시스템의 개발)

  • Lee, Jong-Keun;Park, S.S.;Hong, D.W.;Yoon, J.H.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.246-251
    • /
    • 2006
  • 마이크로어레이 실험은 수 천에서 수 만개의 유전자 발현 결과를 동시에 측정할 수 있어 질병의 발현 형질 분류 등에 유용하게 이용되고 있다. 그러나 마이크로어레이 실험은 동일한 플랫폼의 실험이라 할지라도 환경 등에 따라 그 실험 결과에 차이가 나는 등 오차를 항상 포함하고 있다. 또한 마이크로어레이 실험은 아직 고가의 실험으로 분류되어 다수의 샘플에 대한 반복 실험 결과를 얻기 어려운 상황이다. 따라서 이종의 플랫폼, 데이터 포맷, 정규화 기법 등이 서로 다른 데이터를 효율적으로 통합하여 유용한 정보를 추출하는 새로운 방식의 개발이 필요하다. 본 논문은 이와 같은 문제를 해결하기 위한 기초 단계 연구 결과이다. 마이크로어레이 실험 데이터로부터 통계적 방법을 이용하여 유의(informative) 유전자를 추출하고 유전자 온톨로지(Gene Ontology : GO)와의 연계를 통하여 유전자 정보의 기능적 분류 결과를 사용자에게 제공하는 유전자 기능 분석 시스템의 설계 및 구현 방안을 보인다. 본 시스템의 실험방법에서는 3-Fold Filtering 기법을 통하여 발현 차가 큰 유전자를 추출하고, t-검정 기법에 의하여 이들 유전자를 순위화 하였으며, 이 중 상위 100개의 유전자를 유의 유전자로 추출하였다. 다음, 이 들 유의 유전자의 t-검정 값을 GO의 유전자 기능을 나타내는 해당 텀 (term)에 가중치로 부과하여 각 유전자들과 기능적으로 연관성이 높은 텀들을 추출한다. 또한 본 연구의 유효성을 검증하기 위하여 본 시스템에 의한 마이크로어레이 데이터 분석 결과를 전문가에 의한 유전자 기능 분석 결과와 비교한다.투명성 있는 서비스를 제공하고 높은 신뢰성과 안정성이 확보될 수 있도록 구성하고자 한다. Query 수행을 여러 서버로 분산처리하게 함으로써 성능에 대한 신뢰성을 향상 시킬 수 있는 Load Balancing System을 제안한다.할 때 가장 효과적인 라우팅 프로토콜이라고 할 수 있다.iRNA 상의 의존관계를 분석할 수 있었다.수안보 등 지역에서 나타난다 이러한 이상대 주변에는 대개 온천이 발달되어 있었거나 새로 개발되어 있는 곳이다. 온천에 이용하고 있는 시추공의 자료는 배제하였으나 온천이응으로 직접적으로 영향을 받지 않은 시추공의 자료는 사용하였다 이러한 온천 주변 지역이라 하더라도 실제는 온천의 pumping 으로 인한 대류현상으로 주변 일대의 온도를 올려놓았기 때문에 비교적 높은 지열류량 값을 보인다. 한편 한반도 남동부 일대는 이번 추가된 자료에 의해 새로운 지열류량 분포 변화가 나타났다 강원 북부 오색온천지역 부근에서 높은 지열류량 분포를 보이며 또한 우리나라 대단층 중의 하나인 양산단층과 같은 방향으로 발달한 밀양단층, 모량단층, 동래단층 등 주변부로 NNE-SSW 방향의 지열류량 이상대가 발달한다. 이것으로 볼 때 지열류량은 지질구조와 무관하지 않음을 파악할 수 있다. 특히 이러한 단층대 주변은 지열수의 순환이 깊은 심도까지 가능하므로 이러한 대류현상으로 지표부근까지 높은 지온 전달이 되어 나타나는 것으로 판단된다.의 안정된 방사성표지효율을 보였다. $^{99m}Tc$-transferrin을 이용한 감염영상을 성공적으로 얻을 수 있었으며, $^{67}Ga$-citrate

  • PDF

Inference of Gene Phylogenetic Tree based on Decision Tree (결정트리 분류기법 기반 유전자 계통수 추론)

  • 김신석;황부현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.280-282
    • /
    • 2001
  • 분자생물학의 급진적 발전은 현대 계통분류학에 큰 변혁을 가져왔다. 특히 유전의 근원물질인 DNA나 RNA를 분리.조작.분석하는 기술의 발전으로 이를 이용만 계통수 제작은 계통생물학의 중요한 실험방법으로 자리잡고 있다. 그 중 염기서열 비교 방법은 현재 유전자 계통수 제작에 가장 널리 이용되는 방법이다. 하지만 이러만 계통수는 각 객체간의 거리만을 표현하고, 객체군간의 차이는 설명하기 힘들다. 본 연구에서는 염기서열의 상대적인 특징(유사도)을 대신하는 염기서열의 총량과 염기 함량 등을 이용해 새로이 분류 기법 중 결정트리 방법에 적응하고, 종 분류의 유전적 모델을 설계한다. 또한 결정트리의 클래스인 종은 상위 클래스들을 포함하고 있어, 본 논문에서는 기존의 결정트리 분류자를 수정한 단계적 결정트기 분류자를 제안한다.

  • PDF

User Modeling in E-Mail Classification System with Genetic Algorithm (유전자 알고리즘을 이용한 전자메일분류 시스템에서의 사용자선호도 추출모델링)

  • 안희국;노희영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.673-675
    • /
    • 2002
  • 본 논문에서는 전자메일을 사용자 적합도(선호도)를 기준으로 분류함에 있어 좀더 사용자 선호도를 반영할 수 있는 시스템 구조를 제안한다. 사용자 선호도는 2단계에 걸쳐서 반영되는데, 1단계에서는 사용자 관련메일로 판단된 메일정보추출어구(MIWs)들로부터 사용자 동적 시소러스(DS)의 갱신을 통해 이뤄지며, 2단계에서는 DS로부터 추출된 키워드들을 갖고 유전자 알고리즘을 작동시킬 때, 사용자선호도 feedback을 받음으로서 이뤄진다. 테스트는 kaist뉴스그룹으로부터 임의로 추출된 5개 분야 10개씩의 메일을 sample로 사용하였으며, DS로부터 추출된 키워드가 유전자알고리즘 모듈을 통해 사용자 feedback을 받았을 때, 세대가 거듭함에 따라 사용자가 요구하는 threshold 값에 근사하게 관련키워드들이 수집되었다. 그 결과 사용자 전자메일분류시스템(PECS)의 성능도 폴더정보키워드(FIWs)의 변화에 따라 향상될 수 있음을 확인하였다.

  • PDF

Implementation of Reusable Class Library based on CORBA using Genetic Algorithm (유전자 알고리즘을 이용한 CORBA 기반의 재사용 클래스 라이브러리 구현)

  • Lee, Byeong-Jeong;Mun, Byeong-Ro;U, Chi-Su
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.5 no.2
    • /
    • pp.209-222
    • /
    • 1999
  • 개발 과정의 생산성과 프로그램의 신뢰성을 향상시키기 위하여 소프트웨어 재사용이 매우 중요하며 , 효과적인 재사용을 위해서 세밀한 분류 방법과 정확한 검색 방법에 기반한 객체 지향 재사용 라이브러리가 필수적이다. 본 연구에서는 재사용 라이브러리의 다중 클러스터링(multi-way clustering) 분류 방법과 클러스터 기반 선형 검색(cluster-based linear retrieval) 방법에 유전자 알고리즘(genetic algorithm)을 적용한다. 다중 클러스터링은 부품들이 할당된 클러스터 개수, 클러스터 내부 유사도 그리고 클러스터들 사이의 유사도를 최적화하는 클러스터링을 찾아 부품을 세밀히 분류하는 것이고, 클러스터 기반 선형 검색은 주어진 질의와 유사한 부품을 많이 포함하는 클러스터를 검색하는 것이다. 본 논문에서는 유전자 알고리즘이 시뮬레이티드 어닐링 알고리즘(simulated annealing algorithm) 보다 우수한 해를 찾는 것을 실험을 통하여 보이고, 또한 본 알고리즘을 이용한 CORBA 기반의 재사용 클래스 라이브러리(RCL)를 기술한다.

Multi-Class Classification Model Using Gene Expression Data Clustering (유전자 발현량 데이터의 클러스터링을 이용한 다중 클래스 분류 모델)

  • Kim, Hyun Jin;Ahn, Jaegyoon;Park, Chihyun;Yoon, Youngmi;Park, Sanghyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.1240-1242
    • /
    • 2011
  • 본 논문에서는 여러 개의 클래스가 존재할 때, 각 클래스 내에서 샘플들을 클러스터링하고 서로 다른 클래스들과 분산도를 비교하여 클러스터가 가장 겹치지 않는 유전자 쌍들을 찾는다. 각 유전자 쌍에서 테스트 샘플과 가장 가까운 클러스터를 찾음으로써 클래스를 분류하고, 최종적으로 과반수 의결(Majority vote)하여 가장 많이 분류된 클래스를 최종 클래스로 확정한다. 그 결과, 해당 모델이 여러 개의 클래스를 가진 데이터에서 다른 비교 알고리즘의 모델들보다 높은 정확도를 나타내었다.

Cancer driver gene using multi-omics data and biological network information (멀티 오믹스 데이터 및 생물학적 네트워크 정보를 이용한 드라이버 유전자 분류)

  • Jeong-Ho Park;Kyuri Jo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.490-492
    • /
    • 2023
  • 시퀀싱(sequencing) 기술의 발달로 다양한 오믹스(omics) 데이터의 축적과 인공 지능 기술의 발달로 인하여 다양한 드라이버 유전자 분류기법이 제안되어왔다. 최근에는 암 데이터가 대용량으로 축적되며 기계 학습 기반의 다양한 기법들이 활발히 제안되었다. 특히 다양한 오믹스 데이터를 결합한 고차원 데이터에서 높은 정확도를 확보하기 위한 시도가 활발히 이루어지고 있다. 본 논문에서는 멀티 오믹스와 네트워크 관련 특징을 기반으로 암의 증식 및 발생에 중요한 역할을 하는 드라이버 유전자를 분류하는 딥러닝 모델을 제시한다. 또한 The Cancer Genome Atlas(TCGA) 데이터를 통해서 모델 학습 후 기존 통계 및 머신러닝 기반 기법과 비교하여 성능이 개선되었음을 확인하였다.

Detection of Conserved Genes in Proteobacteria by using a COG Algorithm (COG 알고리즘을 통한 Proteobacteria의 보존적 유전자 파악)

  • 이동근;강호영;이재화;김철민
    • KSBB Journal
    • /
    • v.17 no.6
    • /
    • pp.560-565
    • /
    • 2002
  • A COG(clusters of orthologous groups of proteins) algorithm was used to detect conserved genes within Proteobacteria and to figure out their relationships. Restricting comparison to the sequences of 42 procaryotes, 33 eubacteria and 16 Proteobacteria, the number of conserved genes was increased. All analyzed procaryotes shared 75 COGs. COG0195, COG0358 and COG0528 were only represented by the 42 procaryotes. Sixtyfour COGs were added as conserved genes in 33 eubacteria. Each Proteobacteria group has a unique repertoire of COGs. Metabolic COGs were more diverse in the beta Proteobacteria group than in the other groups. These results could be used to determine the origins and the evolutionary relationships of Proteobacteria. The possibilities of detecting new biological molecules is high in phylogenetically related organisms, hence the identification of useful proteins by using this algorithm is possible.

Classification of Archaebacteria and Bacteria using a Gene Content Tree Approach (Gene Content Tree를 이용한 Archaebacteria와 Bacteria 분류)

  • 이동근;김수호;이상현;김철민;김상진;이재화
    • KSBB Journal
    • /
    • v.18 no.1
    • /
    • pp.39-44
    • /
    • 2003
  • A Gene content phylogenetic tree and a 16s rRNA based phylogenetic tree were compared for 33 whole-genome sequenced procaryotes, neighbor joining and bootstrap methods (n=1,000). Ratio of conserved COG (clusters of orthologous groups of proteins) to orthologs revealed that they were within the range of 4.60% (Mezorhizobium loti) or 56.57% (Mycopiasma genitalium). This meant that the ratio was diverse among analyzed procaryotes and indicated the possibility of searching for useful genes. Over 20% of orthologs were independent among the same species. The gene content tree and the 16s rDNA tree showed coincidence and discordance in Archaeabacteria, Proteobacteria and Firmicutes. This might have resulted from non-conservative genes in the gene content phylogenetic tree and horizontal gene transfer. The COG based gene content tree could be regarded as a midway phylogeny based on biochemical tests and nucleotide sequences.

The Implement of System on Microarry Classification Using Combination of Signigicant Gene Selection Method (정보력 있는 유전자 선택 방법 조합을 이용한 마이크로어레이 분류 시스템 구현)

  • Park, Su-Young;Jung, Chai-Yeoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.12 no.2
    • /
    • pp.315-320
    • /
    • 2008
  • Nowadays, a lot of related data obtained from these research could be given a new present meaning to accomplish the original purpose of the whole research as a human genome project. In such a thread, construction of gene expression analysis system and a basis rank analysis system is being watched newly. Recently, being identified fact that particular sub-class of tumor be related with particular chromosome, microarray started to be used in diagnosis field by doing cancer classification and predication based on gene expression information. In this thesis, we used cDNA microarrays of 3840 genes obtained from neuronal differentiation experiment of cortical stem cells on white mouse with cancer, created system that can extract informative gene list through normalization separately and proposed combination method for selecting more significant genes. And possibility of proposed system and method is verified through experiment. That result is that PC-ED combination represent 98.74% accurate and 0.04% MSE, which show that it improve classification performance than case to experiment after generating gene list using single similarity scale.

Classification of Gene Data Using Membership Function and Neural Network (소속 함수와 유전자 정보의 신경망을 이용한 유전자 타입의 분류)

  • Yeom, Hae-Young;Kim, Jae-Hyup;Moon, Young-Shik
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.42 no.4 s.304
    • /
    • pp.33-42
    • /
    • 2005
  • This paper proposes a classification method for gene expression data, using membership function and neural network. The gene expression is a process to produce mRNA and protains which generate a living body, and the gene expression data is important to find out the functions and correlations of genes. Such gene expression data can be obtained from DNA 칩 massively and quickly. However, thousands of gene expression data may not be useful until it is well organized. Therefore a classification method is necessary to find the characteristics of gene data acquired from the gene expression. In the proposed method, a set of gene data is extracted according to the fisher's criterion, because we assume that selected gene data is the well-classified data sample. However, the selected gene data does not guarantee well-classified data sample and we calculate feature values using membership function to reduce the influence of outliers in gene data. Feature vectors estimated from the selected feature values are used to train back propagation neural network. The experimental results show that the clustering performance of the proposed method has been improved compared to other existing methods in various gene expression data.