• 제목/요약/키워드: 유전자 분류

검색결과 744건 처리시간 0.028초

유전자의 기능분류를 위한 클러스터링 알고리즘 연구 (Research for clustering algorithm for the functional classification of genes)

  • 한석현;이강만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1149-1151
    • /
    • 2015
  • 차세대 유전정보 분석기 시퀀서의 개발은 양질의 시퀀싱 데이터를 증가시켰다. 수많은 유전정보는 유전자 분석의 새로운 연구 방향을 제시하였다. 본 논문은 유전자 분석 중에서 기존의 유전정보를 활용하여 유전자의 기능예측을 하고자 한다. 클러스터링 알고리즘의 정확도를 높이기 위해서 본 논문에서는 데이터 유사성 조절이 가능한 클러스터링 알고리즘을 적용하였다. 그 결과 데이터 유사성 조절을 할 경우에 그렇지 않을 경우보다 유전자 기능 예측의 정확도가 높아졌다. 따라서 제안된 데이터 유사성 조절 기법은 유전자 기능을 예측하는 방법에 정확도를 높일 수 있을 것으로 기대된다.

SOX 유전자의 다양성 (Multiple Facets of Sox Gene)

  • 홍경원;김희수
    • 생명과학회지
    • /
    • 제14권4호
    • /
    • pp.716-725
    • /
    • 2004
  • Sox 패밀리는 동물계 전체에서 찾아지는 전사인자이고, HMG라는 특이적인 DNA결합 도메인을 가진다. 이 Sox 패밀리는 HMG 도메인의 아미노산 서열을 바탕으로 현재 10개의 그룹으로 분류된다. 각 그룹의 오소로그한 Sox 단백질들은 선충에서 인간까지 상당한 보존성을 보인다. HMG 도메인은 전사 촉진 좌위에 결합하고 다른 전사인자들의 결합을 조절함으로써 동물 발생과정의 다양한 세포에서 발현되어 그들의 분화에 결정적인 영향을 미친다. 최근 많은 분자 생물학자들이 Sox 유전자와 관련된 질병, 진화, 그리고 계통 분류 등에 많은 관심을 보이고 있다. 특히, 줄기세포에서 Sox 유전자의 연구는 그들의 생물학적인 기능을 이해하기 위해 꼭 필요한 분야이다. 아마도 이 Sox 유전자들을 이해함으로써, 인간의 유전적 질병과 인간을 포함한 전체 동물계의 진화를 이해할 수 있는 열쇠가 될 것이라 생각한다.

데이터마이닝을 활용한 유전자 질병 분석을 위한 MKSV시스템 구현 (For Gene Disease Analysis using Data Mining Implement MKSV System)

  • 정유정;최광미
    • 한국전자통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.781-786
    • /
    • 2019
  • 오늘날 다양한 생명현상을 다루고있는 질병연구와 같은 효율적인 목적을 달성하기 위해서는 이들 연구로부터 획득한 빅데이터를 처리하여 효과적인 현실적 가치를 부여할 수 있어야 한다. 본 논문에서 제안한 MKSV알고리즘은 최적의 확률분포를 추정하여 입력패턴을 결정 한 후 데이터마이닝 기법으로 분류한 결과 효율적인 계산량과 인식률을 획득할 수 있었다. MKSV 알고리즘은 유전자 데이터의 확률적 흐름을 시뮬레이션하여 빅데이터의 데이터마이닝 과정을 통해 데이터를 분류하여 빠르고 효과적인 성능 향상을 보임으로써 현 사회에 급증하는 질병과 유전자의 관련성을 연구하는 데 유용할 것이다.

자동 색인을 이용한 문서의 분류 (Classification of Documents using Automatic Indexing)

  • 신진섭;장수진
    • 한국컴퓨터정보학회논문지
    • /
    • 제4권1호
    • /
    • pp.21-27
    • /
    • 1999
  • 본 논문은 단어들의 유사도를 이용하여 문서들을 자동으로 분류하는 새로운 방법을 제안한다. 단어들 중에서 의미있는 단어들을 찾아내기 위하여 자동색인 방법을 이용하였으며. 두 번째로 본 논문에서 제안한 확률 모델을 이용하여 각 단어들의 문서와의 연관관계를 분석하였다. 이를 토대로 분류를 가능하게 하기 위한 프로파일을 생성한다. 본 논문에서는 유전자 알고리즘과 신경망에 관련된 10개의 문서에 대하여 실험하여 유전자 알고리즘과 신경망에 해당하는 프로파일을 생성하였다.

  • PDF

퍼지로직과 유전 알고리즘을 이용한 영상 인식 (Image Recognition by Fuzzy Logic and Genetic Algorithms)

  • 류상진;나철훈
    • 한국정보통신학회논문지
    • /
    • 제11권5호
    • /
    • pp.969-976
    • /
    • 2007
  • 유전자 알고리즘을 이용한 다양한 특징의 분석이 필요한 퍼지 분류기의 설계 방법을 제안한다. 본 논문에서 제안한 퍼지 분류기는 퍼지 논리를 이용한 분류 부분과 유전자 알고리즘을 이용한 규칙 생성 부분으로 구성된다. 유전자 알고리즘을 이용한 규칙 생성 부분에서는 최적의 퍼지 멤버쉽 함수를 결정하고, 각 특징이 규칙에 포함되는지 포함되지 않는지의 여부도 결정하게 된다. 또한, 특정 대상에 대한 인식률을 분석하여 큰 오인식률을 갖는 부분에 세부 특징을 추가하는 방법과 문자열과 population의 최소 크기, 인식률 개선을 위한 반복적 분석 방법을 사용한다. 제안된 퍼지 분류기의 적용 예로서, 아이리스 데이터와 갑상선 종양 세포의 식별을 든다. 본 논문에서 제안한 퍼지 분류기는 아이리스 데이터에 대해 98.67%의 인식률을, 갑상선 종양 세포에 대해서 98.25%의 인식률을 얻었다.

균형 표본 유전 알고리즘과 극한 기계학습에 기반한 바이오표지자 검출기와 파킨슨 병 진단 접근법 (Bio-marker Detector and Parkinson's disease diagnosis Approach based on Samples Balanced Genetic Algorithm and Extreme Learning Machine)

  • ;;최용수
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권6호
    • /
    • pp.509-521
    • /
    • 2016
  • 본 논문에서는 파킨슨 병 진단 및 바이오 표지자 검출을 위한 극한 기계학습을 결합하는 새로운 균형 표본 유전 알고리즘(SBGA-ELM)을 제안하였다. 접근법은 정확한 파킨슨 병 진단 및 바이오 표지자 검출을 위해 공개 파킨슨 병 데이터베이스로부터 22,283개의 유전자의 발현 데이터를 사용하며 다음의 두 가지 주요 단계를 포함하였다 : 1. 특징(유전자) 선택과 2. 분류단계이다. 특징 선택 단계에서는 제안된 균형 표본 유전 알고리즘에 기반하고 파킨스병 데이터베이스(ParkDB)의 유전자 발현 데이터를 위해 고안되었다. 제안된 제안 된 SBGA는 추가적 분석을 위해 ParkDB에서 활용 가능한 22,283개의 유전자 중에서 강인한 서브셋을 찾는다. 특징분류 단계에서는 정확한 파킨슨 병 진단을 위해 선택된 유전자 세트가 극한 기계학습의 훈련에 사용된다. 발견 된 강인한 유전자 서브세트는 안정된 일반화 성능으로 파킨슨 병 진단을 할 수 있는 ELM 분류기를 생성하게 된다. 제안된 연구에서 강인한 유전자 서브셋은 파킨슨병을 관장할 것으로 예측되는 24개의 바이오 표지자를 발견하는 데도 사용된다. 논문을 통해 발견된 강인 유전자 하위 집합은 SVM이나 PBL-McRBFN과 같은 기존의 파킨슨 병 진단 방법들을 통해 검증되었다. 실시된 두 가지 방법(SVM과 PBL-McRBFN)에 대해 모두 최대 일반화 성능을 나타내었다.

메타분석을 통한 반려견 분변 박테리아 군집 조사 (A Meta-Analysis of Fecal Bacterial Diversity in Dogs)

  • 정진영;김민석
    • 한국산학기술학회논문지
    • /
    • 제18권1호
    • /
    • pp.141-147
    • /
    • 2017
  • 본 연구에서는 클로닝과 생어 염기서열 분석으로 획득된 16S rRNA 유전자 염기서열을 메타분석하여 반려견 분변 박테리아를 조사하였다. 이러한 메타분석을 위해서 RDP 데이터베이스(Release 11, Update 3)에 등록되어 있는 반려견 분변 박테리아 유래 16S rRNA 유전자 염기서열 검색하여 획득하였다. RDP 데이터베이스에서 총 420개의 반려견 분변 박테리아 유래 16S rRNA 유전자 염기서열이 확인되었고, 그 중에서 42개 유전자 염기서열이 배양가능한 박테리아에서 유래한 것으로 확인되었다. 이러한 420개의 유전자 염기서열은 박테리아 분류학상의 '문'(phylum)에서 총 5개(Firmicutes, Bacteroidetes, Actinobacteria, Fusobacteria, Proteobacteria)로 분류되었다. 그 중에서 Firmicutes가 가장 우점하는 '문'이었고, 총 420개 유전자 중에서 55.2%를 차지하였다. Bacteroidetes는 32.1%로 두 번째로 우점하는 '문'이였고, 다음으로 Actinobacteria(6.4%), Fusobacteria(3.8%), Proteobacteria(2.4%)가 우점하였다. 박테리아 분류학상의 '속'(genus)에서는 Bacteroidetes의 하위 단계인 Bacteroides가 가장 우점하였고 총 420개 유전자 중에서 30.0%를 차지하였다. 반면에 Firmicutes의 하위 단계인 Clostridium XI는 두 번째로 우점하는 '속'으로 총 420개 유전자 중에서 27.4%를 차지하였다. 추정상의 '종'(species)인 Operational taxonomic units의 수는 82개로 확인되었다. 본 연구의 결과는 반려견 분변 내 미생물 다양성을 이해하는데 도움을 줄 수 있을 것이고, 향후 반려견의 건강과 웰빙에 관한 연구에 활용될 수 있을 것이다.

COG 알고리즘을 통한 해양성 Euryarchaeota의 유전적 조성 분석 (Genetic Composition Analysis of Marine-Origin Euryarchaeota by using a COG Algorithm)

  • 이재화;이동근;김철민;이은열
    • 생명과학회지
    • /
    • 제13권3호
    • /
    • pp.298-307
    • /
    • 2003
  • 고세균 (Archaea)의 보존적 유전자를 파악하고 각 분류 단계별로 추가되는 보존적 유전자를 밝히기 위해 그리고 해양성 Euryarchaeota와 육지성 Euryarchaeota의 유전자 조성을 비교하기위해 COG (clusters of orthologous groups of proteins) 알고리즘을 이용하였다. 총 9종의 고세균이 공통적으로 보유하는 보존적 유전자는 340개로 나타났고 8종의 Euryarchaeota는 388개의 유전자가 보존적이었다. Euryarchaeota 각 종이 보유하는 orthologous에 대한 보존적 유전자의 비율은 20.73∼31.54%로 나타났다. 세균과 S.cerevisiae에는 없고 고세균 수준에서만 공통적인 265개 COG의 조성은 유전정보의 보존과 처리에 관여하는 COG가 94개 (35.5%)이고 대사에 관여하는 COG가 82개 (30.9%)로 유전정보와 물질대사와 관여하는 COG의 보존성이 높은 것으로 나타나 고세균이 독특한 생명체계를 이루고 있는 것으로 사료되었다. Euryarchaeota를 Crenarchaeota와 비교하면 핵산대사에서는 상당한 차이를 보이며 유전정보의 저장과 처리에서는 큰 차이가 없는 것으로 판단되었다. 해양성 Euryarchaeota의 보존적 COG는 기능분류별 종류가 육지성 Euryarchaeota와 달랐고 물질대사 관련 COG의 경우 육지성이 해양성보다 다양한 것을 알 수 있었다. 그리고 육지성과 해양성 Euryarchaeota는 탄수화물대사 등을 비롯한 생리적 측면에서 서로 차이가 있을 가능성이 높을 것으로 사료되었다. 본 연구는 해양 극한미생물인 해양성 Euryarchaeota의 기원과 분류단계에 따른 보존적 유전자를 파악하는데 도움을 줄뿐만 아니라 향후 해양미생물 등의 유용유전자 탐색 등에서도 Manco (Arch. Biochem. Biophy. 373, 182 (2000)) 등의 보고와 같이 충분한 연구가치가 있는 것으로 사료되었다.

유전자 알고리즘을 이용한 데이터 마이닝의 분류 시스템에 관한 연구 (Using Genetic Rule-Based Classifier System for Data Mining)

  • 한명묵
    • 인터넷정보학회논문지
    • /
    • 제1권1호
    • /
    • pp.63-72
    • /
    • 2000
  • 데이터마이닝은 방대한 데이터 자료로부터 숨어있는 지식이나 유용한 정보를 추출하는 과정이다. 이러한 데이터 마이닝 알고리즘은 통계학, 전자계산학, 그리고 기계학습 분야에서의 오랜 기간동안 이루어진 연구 결과의 산물이다. 어느 특정한 상황에 적용하는 특정한 기술들의 선택은 구현되어야 하는 데이터 마이닝 임무의 성격과 가용한 데이터의 성격에 의존한다. 데이터 마이닝에는 여러 임무가 있으며, 그 중에서 가장 대표적인 임무가 분류라고 (classification) 볼 수 있다. 분류는 인간 사고의 기본적인 요소이기 때문에 여러 응용 분야에서 많은 연구가 진행되어 왔으며, 문제 분석의 첫 단계라고 볼 수 있다. 본 논문에서는 학습문제에서 강건성(robust)을 갖는 유전자 알고리즘 기반의 분류시스템을 제안하고, 데이터 마이닝에서 중요한 분류기능에 관련된 문제인 nDmC에 응용해서 그 유효성을 검증한다.

  • PDF

EPIC 센서 신호의 제스처 인식을 위한 이산 웨이블릿 변환과 유전자 알고리즘 기반 특징 추출 (Feature extraction based on DWT and GA for Gesture Recognition of EPIC Sensor Signals)

  • 지상훈;양형정;김수형;김영철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.612-615
    • /
    • 2016
  • 본 논문에서는 EPIC(Electric Potential Integrated Circuit) 센서를 통해 추출된 동작신호에 대해 이산 웨이블릿 변환(Discrete Wavelet Transform : DWT)과 선형 판별분석(Linear Discriminant Analysis : LDA), Support Vector Machine(SVM)을 사용하는 동작 분류 시스템을 제안한다. EPIC 센서 신호에 대해 이산 웨이블릿 변환을 사용하여 웨이블릿 계수인 근사계수(approximation coefficients)와 상세계수(detail coefficients)를 구한 후, 각각의 웨이블릿 계수에 대해 특징 파라미터를 추출한다. 이 때, 특징 파라미터는 14개의 통계적 특징 추출 파라미터 중에 유전자 알고리즘(Genetic Algorithm : GA)을 통하여 선택한 우수한 특징 파라미터이다. 웨이블릿 계수들에서 추출한 특징 파라미터는 선형 판별분석을 적용하여 차원을 축소하고 SVM의 훈련 및 분류에 사용한다. 실험결과, 4가지 동작에 대한 EPIC 센서 신호분류에서 제안된 방법의 분류율이 99.75%로 원신호에 대한 HMM 분류율 97% 보다 높은 정확률을 보여주었다.