• Title/Summary/Keyword: 마이크로어레이 데이터

Search Result 103, Processing Time 0.029 seconds

Candidate Significant Gene Recommendation with Symbolic Encoding of Microarray Data (마이크로어레이 데이터의 기호코딩을 통한 유의한 후보 유전자 검출)

  • Lee, Geon-Myeong;Lee, Hye-Ri;Kim, Won-Jae;Yun, Seok-Jung;Kim, Yong-Jun;Jeong, Pil-Du;Kim, Eun-Jeong
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.04a
    • /
    • pp.417-420
    • /
    • 2007
  • 마이크로어레이는 생명과학 분야에서 사용되는 대규모의 유전자 발현정도를 동시에 측정할 수 있는 도구이다. 마이크로어레이 실험은 많은 양의 데이터를 생성하기 때문에, 자동화된 효과적인 분석기법이 필요하다. 이 논문에서는 약물의 영향 분석을 위해 약물의 투여량 및 투여후의 시간대별로 샘플을 추출하여, 마이크로어레이를 이용하여 유전자의 발현량을 분석하는 경우에, 약물에 대해서 반응하는 유전자를 추출하는 데이터 마이닝 기법을 제안한다. 제안한 방법에서는 유전자의 발현정도값을 이전 시간의 값을 기준값으로 하여 증가, 감소, 답보에 해당하는 기호로 매핑하여, 분석자가 원하는 패턴을 보이는 유전자를 추천한다. 한편, 유전자의 상호간에 많은 영향을 주고 받기 때문에 특정 약물을 투여할 때, 이에 직접적인 영향을 받는 것도 있지만, 이와는 전혀 상관없이 동작하는 것도 있기 때문에, 제안한 방법에서는 이러한 약물 투여와 유의성이 있을 가능성이 있는 유전자만을 전처리과정을 통해서 필터링하는 기법을 활용한다. 제안한 방법은 실제 약물 투여 실험 샘플에 대한 마이크로어레이 데이터에 적용하여 활용가능성을 확인하였다.

  • PDF

cDNA Microarray data Analysis and Management System: cMAMS (cDNA 마이크로어레이 데이터의 분석과 관리 시스템: cMAMS)

  • 김상배;김효미;이은정;김영진;박정선;박윤주;정호열;고인송
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.247-249
    • /
    • 2004
  • 마이크로어레이 기술은 근래에 개발된 신기술로써 동시에 수천-수만 개의 유전자 발현을 측정할 수 있어 다양한 생물학적 연구에 이용되고 있다. 여러 단계의 실험 과정과 이를 통해 얻은 다량의 데이터를 처리하기 위해서는 이를 효율적으로 관리. 저장, 분석할 수 있는 통할 정보 관리 시스템을 필요로 한다. 현재 외국에서는 몇몇 관리시스템이 개발되어 있고. 국내에서도 WEMA 등이 있지만 아직 데이터 관리부분에 기능이 치우쳐 있다. 따라서 우리는 복잡한 자료구조를 가지는 마이크로어레이의 실험 정보와 각 단계별 처리 정보 등을 사용자의 관점에서 효과적이고 체계적으로 관리할 수 있고, 데이터 정규화 및 다양한 통계적 분석 기능을 갖춰 불필요한 시간과 비용을 줄임으로써 마이크로어레이 연구에 도움을 주고자 통합 분석관리 시스템 cMAMS (cDNA Microarray Analysis and Management System)를 개발하였다. 웹 기반으로 구현된 cMAMS는 데이터를 저장, 관리하는 부분과 데이터를 분석하는 부분, 그리고 모든 관련 점보가 저장되는 데이터베이스 부분으로 구성되어 있다 데이터관리부분에서는 WEMA의 계층적 데이터구조론 도입해 관리의 효율성을 높이고 시스템의 이용자를 시스템운영자, 프로젝트관리자, 일반사용자로 구분하여 데이터 접근을 제한함으로써 보안성을 높였다. 통계처리 언어 R로 구현된 데이터분석 부분은 7 단계의 다양한 분석(전처리 정규화, 가시화, 군집분석. 판별분석, 특이적 발현 유전자 선뿐, 마이크로어레이 간의 상판분석)이 가능하도록 구현하였고, 분석결과는 데이터베이스에 저장되어 추후에 검토 및 연구자간의 공유가 가능하도록 하였다. 데이터베이스는 실험정보가 저장된 데이터베이스, 분석결과가 저장된 데이터베이스, 그리고 유전자 정보 탐색을 위한 데이터베이스로 분류해 데이터를 효율적으로 관리할 수 있게 하였다. 본 시스템은 LiNUX를 운영체계로 하고 데이터베이스는 MYSQL로 하여 JSP, Perl. 통계처리 언어인 R로 구현되었다.

  • PDF

Dimension Reduction in Time-series Gene Expression Data using incremental PCA (점진적 주성분 분석을 이용한 시계열 유전자 발현 데이터의 효율적인 차원 축소)

  • Kim, Sun-Hee;Kim, Man-Sun;Yang, Hyung-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.733-736
    • /
    • 2007
  • 최근 생명 공학 기술의 발달로 마이크로 단위의 실험이 가능해지고 하나의 칩상에 수 만개의 유전자들의 발현 양상을 보다 쉽게 관찰할 수 있게 되었다. DNA 칩 기술에 의해 얻어지는 마이크로어레이(microarray) 데이터는 세포나 조직 내의 유전자 발현도(expression level)를 측정한 것으로 질병 진단이나 유전자 기능 예측 등에 이용되고 있다. 본 논문에서는 대량의 시계열 마이크로어레이 데이터 분석을 위해 효율적으로 데이터의 차원을 판단하는 점진적 주성분 분석을 이용하여 데이터의 차원을 축소 한다. 제안된 방법은 실제 시계열 마이크로어레이 데이터인 yeast cell cycle 데이터에 적용되었고, 데이터 차원 축소에 대한 효율성을 검증하기 위해 클러스터링을 수행하였다. 그 결과 데이터를 축소하여 클러스터링을 수행한 경우 학습 성능이 향상 된 결과를 보였다.

  • PDF

Trend Pattern Extraction from Microarray Data with Symbolic Encoding (기호코딩을 통한 마이크로어레이 데이터의 추이 패턴 추출)

  • Lee, Sun-A;Lee, Keon-Myung;Kim, Wun-Jae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.1
    • /
    • pp.14-19
    • /
    • 2008
  • 대규모로 유전자 발현정도를 동시에 측정하는 마이크로어레이 실험은 많은 양의 데이터를 생성하기 때문에, 자동화된 효과적인 분석기법이 필요하다. 이 논문에서는 약물의 영향 분석을 위해 약물의 투여량 및 투여후의 시간대별로 샘플을 추출하여, 마이크로어레이를 이용하여 유전자의 발현량을 분석하는 경우에, 약물에 대해서 반응하는 유전자를 추출하는 데이터마이닝 기법을 제안한다. 제안한 방법에서는 유전자의 발현 정도값을 이전 비교대상의 값을 기준값으로 하여 증가, 감소, 답보에 해당하는 기호로 매핑하여, 분석자가 원하는 패턴을 보이는 유전자를 추천한다. 한편, 유전자의 상호간에 많은 영향을 주고받기 때문에 특정 약물을 투여할 때, 이에 직접적인 영향을 받는 것도 있지만, 이와는 전혀 상관없이 동작하는 것도 있기 때문에, 제안한 방법에서는 이러한 약물 투여와 유의성이 있을 가능성이 있는 유전자만을 전처리과정을 통해서 필터링하는 기법을 활용한다.

A fast feature selection technique for microarray data (마이크로어레이 데이터 분석을 위한 선형 특징 선별 기법)

  • Lee, Jae-Seong;Kim, Dae-Won
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.188-189
    • /
    • 2008
  • 마이크로어레이 데이터는 대량의 유전자들을 짧은 시간에 테스트 하여 얻은 대량의 데이터로 구성되어 있다. 그러나 이렇게 얻은 대량의 데이터에서 특징으로 표현되는 유전자의 수가 매우 많고, 각각의 유전자는 서로에 대해 독립적이지 않기 때문에 전통적인 데이터 마이닝 기법을 적용하여 바이오마커를 찾아내는 작업이 용이하지 않다. 마이크로어레이 데이터에서 나타나는 이러한 특성과 여기에서 파생되는 문제점들을 극복하기 위해 다양한 특징 선별 방법론들이 등장하였으나 다소의 문제점을 가지고 있어 실제 세계의 문제에 적용하기 어렵다. 본 논문에서는 코사인 내적 행렬과 행렬식을 이용하여 직교하지 않는 특징들을 제거하는 방법에 대해 소개하고, 그 결과를 분석하였다.

  • PDF

A gene filtering method based on fuzzy pattern matching for whole genome microarray data analysis (마이크로어레이 데이터의 게놈수준 분석을 위한 퍼지 패턴 매칭에 의한 유전자 필터링 방법)

  • Lee, Seon-A;Lee, Geon-Myeong;Lee, Seung-Ju;Kim, Won-Jae;Kim, Yong-Jun;Bae, Seok-Cheol
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.145-148
    • /
    • 2007
  • 생명과학분야에서 마이크로어레이 기술은 세포에서의 RNA 발현 프로파일을 관찰할 수 있도록 함으로써 생명현상의 규명 및 약물개발 둥에서 분자수준의 생명현상에 대한 관찰과 분석이 가능 해지고 있다. 마이크로어레이 데이터분석에서는 특정한 처리나 과정에서 현저한 특성을 보이는 유전자를 식별하기 위한 분석뿐만 아니라 유전자 전체인 게놈수준에서의 분석도 이루어진다. 최근 유전자의 발현이 다양한 조절, 신호전달 및 대사경로에 의해서 영향을 받고 있다는 관점에서 게놈수준의 분석에 관심이 증가하고 있다. 약물반응 실험에서는 약물에 대한 게놈수준의 발현 프로파일을 관찰하는 것도 많은 정보를 제공할 수 있다. 약물실험에서는 대조군과 실험군들간에 관심 있는 상대적인 발현특성을 갖는 유전자군을 전체적으로 추출하는 것이 필요한 경우가 있다. 예를 들면 정상군은 두개의 실험군에 대해서 중간청도의 발현정도를 갖는 유전자군을 식별하는 분석을 하는 경우, 생물학적인 데이터의 특성상 절대값을 비교하는 방법으로는 유용한 유전자들을 효과적으로 식별해 낼 수 없다. 이 논문에서는 정상군과 실험군들의 발현정도값의 경향을 판단하기 위해서 각 유전자에 대해서 집단별 대표값을 선정하여 퍼지집합으로 집단의 값의 범위를 결정하고, 이를 이용하여 특정 패턴을 갖는 유전자들을 식별해내는 방법을 제안하고, 실제 데이터를 통해서 실험한 결과를 보인다.

  • PDF

Mining of Subspace Contrasting Sample Groups in Microarray Data (마이크로어레이 데이터의 부공간 대조 샘플집단 마이닝)

  • Lee, Kyung-Mi;Lee, Keon-Myung
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.21 no.5
    • /
    • pp.569-574
    • /
    • 2011
  • In this paper, we introduce the subspace contrasting group identification problem and propose an algorithm to solve the problem. In order to identify contrasting groups, the algorithm first determines two groups of which attribute values are in one of the contrasting ranges specified by the analyst, and searches for the contrasting groups while increasing the dimension of subspaces with an association rule mining strategy. Because the dimension of microarray data is likely to be tens of thousands, it is burdensome to find all contrasting groups over all possible subspaces by query generation. It is very useful in the sense that the proposed method allows to find those contrasting groups without analyst's involvement.

Design of Efficient Storage Exploiting Structural Similarity in Microarray Data (마이크로어레이 데이터의 구조적 유사성을 이용한 효율적인 저장 구조의 설계)

  • Yun, Jong-Han;Shin, Dong-Kyu;Shin, Dong-Il
    • The KIPS Transactions:PartD
    • /
    • v.16D no.5
    • /
    • pp.643-650
    • /
    • 2009
  • As one of typical techniques for acquiring bio-information, microarray has contributed greatly to development of bioinformatics. Although it is established as a core technology in bioinformatics, it has difficulty in sharing and storing data because data from experiments has huge and complex type. In this paper, we propose a new method which uses the feature that microarray data format in MAGE-ML, a standard format for exchanging data, has frequent structurally similar patterns. This method constructs compact database by simplifying MAGE-ML schema. In this method, Inlining techniques and newly proposed classification techniques using structural similarity of elements are used. The structure of database becomes simpler and number of table-joins is reduced, performance is enhanced using this method.

Microarray Data Retrieval Using Fuzzy Signature Sets (퍼지 시그너쳐 집합을 이용한 마이크로어레이 데이터 검색)

  • Lee, Sun-A;Lee, Keon-Myung;Ryu, Keun-Ho
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.19 no.4
    • /
    • pp.545-549
    • /
    • 2009
  • Microarray data sets could contain thousands of gene expression levels and have been considered as an important source from which meaningful patterns could be extracted for further analysis in biological studies. It is sometimes necessary to retrieve out specific genes or samples of analyst's interest in an effective way. This paper is concerned with a method to make use of fuzzy signature set in order to filter out genes or samples which satisfy complicated constraints as well as simple ones. Fuzzy signatures are an extension of vector valued fuzzy sets, in which elements of the vector are allowed to have a vector. Fuzzy signature sets are similar to fuzzy signatures except that their leaf elements are fuzzy sets defined on the interval [0,1]. This paper introduces an extension of fuzzy signature sets which specifies aggregation operators at each internal node and comparison operators for aggregation. It also shows how to use the extended fuzzy signature sets in microarray data retrieval and some examples of its usage.

Classification of Ovarian Cancer Microarray Data based on Intelligent Systems with Marker gene (선별 시스템 기반 표지 유전자를 포함한 난소암 마이크로어레이 데이터 분류)

  • Park, Su-Young;Jung, Chai-Yeoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.15 no.3
    • /
    • pp.747-752
    • /
    • 2011
  • Microarray classification typically possesses two striking attributes: (1) classifier design and error estimation are based on remarkably small samples and (2) cross-validation error estimation is employed in the majority of the papers. A Microarray data of ovarian cancer consists of the expressions of thens of thousands of genes, and there is no systematic procedure to analyze this information instantaneously. In this paper, gene markers are selected by ranking genes according to statistics, popular classification rules - linear discriminant analysis, k-nearest-neighbor and decision trees - has been performed comparing classification accuracy of data selecting gene markers and not selecting gene markers. The Result that apply linear classification analysis at Microarray data set including marker gene that are selected using ANOVA method represent the highest classification accuracy of 97.78% and the lowest prediction error estimate.