• 제목/요약/키워드: Sequence Mining

검색결과 163건 처리시간 0.03초

출현 시퀀스 마이닝 기반의 단백질 2 차 구조 예측 (Predict Protein Secondary Structure based on Emerging Sequence Mining)

  • ;이헌규;;손호선;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.379-382
    • /
    • 2009
  • 최근 단백질 기능 예측을 위한 서열비교와 구조비교 기법들은 정확한 분류가 가능한 반면, 새로운 단백질 기능 분류를 함에 있어서 많은 복잡도가 따른다. 따라서 이 논문에서는 보다 빠른 단백질의 구조 분류 및 예측을 위하여 출현 시퀀스(emerging sequence)를 기반으로 하는 분류기법을 제안하였다. 이 기법에서는 먼저, 출현 시퀀스 마이닝 알고리즘을 이용하여 단백질 서열 데이터로부터 4 가지의 단백질 2 차 구조 출현 시퀀스를 발견하고, SVM을 이용하여 단백질의 출현 시퀀스 속성으로부터 단백질의 2 차 구조를 예측하였다.

Risk assessment of karst collapse using an integrated fuzzy analytic hierarchy process and grey relational analysis model

  • Ding, Hanghang;Wu, Qiang;Zhao, Dekang;Mu, Wenping;Yu, Shuai
    • Geomechanics and Engineering
    • /
    • 제18권5호
    • /
    • pp.515-525
    • /
    • 2019
  • A karst collapse, as a natural hazard, is totally different to a normal collapse. In recent years, karst collapses have caused substantial economic losses and even threatened human safety. A risk assessment model for karst collapse was developed based on the fuzzy analytic hierarchy process (FAHP) and grey relational analysis (GRA), which is a simple and effective mathematical algorithm. An evaluation index played an important role in the process of completing the risk assessment model. In this study, the proposed model was applied to Jiaobai village in southwest China. First, the main controlling factors were summarized as an evaluation index of the model based on an investigation and statistical analysis of the natural formation law of karst collapse. Second, the FAHP was used to determine the relative weights and GRA was used to calculate the grey relational coefficient among the indices. Finally, the relational sequence of evaluation objects was established by calculating the grey weighted relational degree. According to the maximum relational rule, the greater the relational degree the better the relational degree with the hierarchy set. The results showed that the model accurately simulated the field condition. It is also demonstrated the contribution of various control factors to the process of karst collapse and the degree of collapse in the study area.

In silico analysis of candidate genes involved in light sensing and signal transduction pathways in soybean

  • Quecini, V.;Zucchi, M.I.;Pinheiro, J.B.;Vello, N.A.
    • Plant Biotechnology Reports
    • /
    • 제2권1호
    • /
    • pp.59-73
    • /
    • 2008
  • Several aspects of photoperception and light signal transduction have been elucidated by studies with model plants. However, the information available for economically important crops, such as Fabaceae species, is scarce. In order to incorporate the existing genomic tools into a strategy to advance soybean research, we have investigated publicly available expressed sequence tag (EST) sequence databases in order to identify Glycine max sequences related to genes involved in light-regulated developmental control in model plants. Approximately 38,000 sequences from open-access databases were investigated, and all bona fide and putative photoreceptor gene families were found in soybean sequence databases. We have identified G. max orthologs for several families of transcriptional regulators and cytoplasmic proteins mediating photoreceptor-induced responses, although some important Arabidopsis phytochrome-signaling components are absent. Moreover, soybean and Arabidopsis genefamily homologs appear to have undergone a distinct expansion process in some cases. We propose a working model of light perception, signal transduction and response-eliciting in G. max, based on the identified key components from Arabidopsis. These results demonstrate the power of comparative genomics between model systems and crop species to elucidate several aspects of plant physiology and metabolism.

EPs-TFP 마이닝 기법을 이용한 단백질 Disorder/Order 지역 분류 (Protein Disorder/Order Region Classification Using EPs-TFP Mining Method)

  • 이헌규;신용호
    • 한국산업정보학회논문지
    • /
    • 제17권6호
    • /
    • pp.59-72
    • /
    • 2012
  • 단백질은 서열의 disorder 구역이 생물학적 반응을 일으켜 order로 변하는 과정에서 그 기능을 하게 되므로 서열 데이터에서 disorder 구역과 order 구역을 분리하는 것은 단백질의 3차 구조 및 특성을 예측하는데 반드시 필요하다. 따라서 이 논문에서는 효율적인 disorder와 order 구역 분류를 위해서 단백질의 특정 특징에 치우치지 않는 분류 결과를 얻으면서, 분류 속도를 향상 시킬 수 있도록 서열 데이터를 이용한 분류/예측 기법을 제안한다. 출현패턴 기반의 EPs-TFP 기법은 중복 출현패턴이 제거된 필수 출현패턴만을 이용하는 분류/예측 기법이다. 이 분류 기법은 disorder 구역의 서열 출현패턴들을 발견하며, 이러한 서열 출현패턴은 disorder 구역에서는 빈발하지만 order 구역에서는 상대적으로 빈발하지 않는 패턴들이다. 또한 제안 알고리즘의 성능 향상을 위해서 기존의 P-tree, T-tree 개념의 TFP 기법을 확장하여 분류/예측 기법으로 적용하였다. EPs-TFP 기법의 성능평가를 위해서 Disprot 4.9와 CASP 7 데이터를 활용하였고, disorder/order 구역을 분류한 결과, 민감도 73.6, 특이도 69.5, 정확도 74.2를 보였다.

단백질 구조 예측을 위한 서열 연관 규칙 탐사 (Discovering Sequence Association Rules for Protein Structure Prediction)

  • 김정자;이도헌;백윤주
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.553-560
    • /
    • 2001
  • 바이오정보학(bioinformatic)은 생물학 분야 특히 분자 수준의 유전체 연구에서 발생하는 데이터를 저장, 관리, 분석하여 실험 프로젝트를 지원함은 물론, 기능 예측 및 조절에 대한 실험 설계를 가능하게 하는 제반 컴퓨터 기술을 의미한다. 유전체 연구의 다양한 접근 방식 중 단백체학(proteomics)는 유전체의 최종 산물인 단백질을 직접적으로 다룬다는 측면에서 그 효용성에 대해 많은 기대를 모으고 있다. 본 논문에서는 단백질의 기능을 결정하는 가장 중요한 요소 중 하나인 단백질의 구조를 예측하기 위한 데이터 마이닝 기법을 제안한다. 단백질의 일차 구조인 아미노산 서열에 타나나는 부서열간의 연관성이 해당 단백질의 이차 혹은 삼차 구조를 결정하는 중요한 단서임을 설명하고, 아미노산 부서열간의 연관성을 표현하기 위한 모델로서 서열 연관 규직을 정의한다. 서열 연관 규칙의 유용성을 평가하기 위한 지지도와 신뢰도를 새롭게 정의하고, 주어진 단백질 집단으로부터 유용한 서열 연관 규칙을 발견하기 위한 기법을 제안한다. 아울러, SWISS-PROT 단백질 데이터베이스로부터 입수한 단백질 서열 데이터를 이용하여 제안한 기법의 성능을 평가한다.

  • PDF

Identification of Ectomycorrhizal Fungi from Pinus densiflora Seedlings at an Abandoned Coal Mining Spoils

  • Park, Sang-Hyeon;Jeong, Hyeon-Suk;Lee, Yoo-Mee;Eom, Ahn-Heum;Lee, Chang-Seok
    • Journal of Ecology and Environment
    • /
    • 제29권2호
    • /
    • pp.143-149
    • /
    • 2006
  • This study was conducted to identify native ectomycorrhizal (ECM) fungi colonizing Pinus densiflora for revegetation of abandoned coal mines in Korea. Seedlings of P. densiflora growing on coal mining spoils of a study site in Samcheok were collected. ECM roots were observed under stereomicroscope and their DNA were extracted from each root tip for a seedling for molecular identification. A PCR primer pair specific to fungi, ITS1F and ITS4, was used to amplify fungal DNA. Restriction enzymes, Alul and Hinfl were used for restriction fragment length polymorphism (RFLP). Combined with RFLP profiles and sequence analysis, total twenty one taxa were identified from the ECM root tips. Basidiomycetous fungi including Thelephoraceae, Pezizales, Laccaria, Pisolithus and Ascomycetous fungi including ericoid mycorrhizal fungi were identified from this study. Results showed that the most frequently found in the study sites was a species in Thelephoraceae. A possible use of ECM fungi identified in this study for the revegetation of abandoned coal mines with P. densiflora was discussed.

전자빔 drip 용해횟수가 Mo 잉고트 특성에 미치는 영향 (Effect of the Number of Electron Beam Drip Melting on the Characteristics of Molybdenum ingot)

  • 최국선;이강인;이동희
    • 한국주조공학회지
    • /
    • 제15권3호
    • /
    • pp.283-290
    • /
    • 1995
  • Molybdenum ingot of 50mm in diameter were obtained from sintered Mo bars by EB drip melting technique. Macroscopic observation of EB remelted ingot indicates that coarse and columnar grains grow in the direction parallel to ingot pulling direction. This can be explained by slow solidification (3mm/min), large temperature gradient and heat flow to this direction. The orientation of columnar structure was found to be <110>, <200> and <211> by the analysis of X-ray diffraction patterns. The contents of typical metallic impurities in Mo sintered bar are 1.2ppm Cr, 3ppm Fe, 44ppm Zr, 150ppm W. Most of metallic impurities were reduced below the order of ppm except zirconium and tungsten by the selective evaporation. In the removal of nonmetallic impurities, oxygen and carbon impurities were lowered from 120 to 6ppm and from 157 to 106ppm, respectively, after first melting. Although the purification effect was not significant with the number of remelting, Vickers hardness was reduced from 217 to 195 and 184 in sequence with increasing the number of remelting.

  • PDF

로그 데이터를 이용한 기업 정보 시스템의 사용 패턴 분석 (Utilization Pattern Analysis of an Enterprise Information System using Event Log Data)

  • 한관희
    • 한국콘텐츠학회논문지
    • /
    • 제22권10호
    • /
    • pp.723-732
    • /
    • 2022
  • 최근 들어 기업정보 시스템의 성공적인 활용은 기업의 효과적인 전략 수행과 기업 경영 목적 달성에 핵심적인 역할을 하고 있다. 기업정보 시스템의 도입 성공 여부를 결정하는 인자 중의 하나가 시스템 활용도로서, 정보시스템 활용도를 측정하는 효과적인 방안을 마련하는 것은 기업 경영에서 매우 중요하다. 본 연구에서는 프로세스 마이닝 기법을 이용한 로그 데이터 분석을 통해 정보 시스템 활용도를 평가한다. 즉, 기본적인 접속 로그 통계뿐만 아니라 정보시스템을 실제로 사용하는 순서를 패턴화하고 유사 사용 기능을 군집화하여, 정보시스템 설계시에 예상하였던 시스템 사용 순서/기능과 실제 현황을 비교함으로써 기존 정보시스템을 개선하거나 확장하는데 피드백을 제공하고자 한다.

텍스트마이닝 방법론을 활용한 웨어러블 관련 키워드의 트렌드 분석 (Analyzing the Trend of Wearable Keywords using Text-mining Methodology)

  • 김민정
    • 디지털융복합연구
    • /
    • 제18권9호
    • /
    • pp.181-190
    • /
    • 2020
  • 본 연구는 신문기사로부터 수집한 웨어러블 관련 텍스트를 대상으로 텍스트마이닝을 수행하여 웨어러블 관련 키워드의 트렌드를 분석하였다. 이를 위해 1992년부터 2019년까지 신문기사 11,952건을 수집하여 빈도분석과 바이그램 분석을 적용하였다. 빈도분석 결과 삼성전자, LG전자, 애플이 최상위 빈도어로 추출되었으며 스마트워치, 스마트밴드가 기기 측면에서 지속적으로 등장하였음을 알 수 있었다. 또한 IT전시회가 매년 고빈도어로 나타났으며 차세대 기술 관련 키워드와 융합된 내용이 기사화되는 것을 볼 수 있었다. 바이그램 분석 결과, 세계-최초, 세계-최대 같은 단어 묶음이 지속적으로 등장하였으며 이슈나 이벤트가 발생할 때마다 관련된 새로운 단어 묶음이 도출됨을 확인할 수 있었다. 이러한 웨어러블 관련 키워드의 트렌드 추이 파악은 웨어러블 동향과 향후 방향성을 이해하는데 유용할 것이다.

이동 객체 데이터베이스에서 빈발 시퀀스 패턴 탐색 (Discovery of Frequent Sequence Pattern in Moving Object Databases)

  • ;이범주;류근호
    • 정보처리학회논문지D
    • /
    • 제15D권2호
    • /
    • pp.179-186
    • /
    • 2008
  • 위치 기반 장치의 발전과, GIS 기능의 확장 그리고 위치 정보기술들의 정확성과 가용성이 증가함에 따라서 위치 기반 서비스들의 새로운 영역에 대한 새로운 가능성이 나타나게 되었다. 데이터의 시간과 공간 형태에 따라서 정의되는 Relationship에 기인하여 시공간 데이터 마이닝 영역에서 공간에 대한 지식 검색이 증가할 경우 매우 큰 문제에 직면한다. 이 논문에서는 모바일 환경에서 시공간 패턴 마이닝을 위한 알고리즘들을 제안한다. 이동 패턴들은 All_MOP와 Max_MOP 두 개의 알고리즘을 활용하여 생성된다. 이 알고리즘들은 먼저 모든 빈발 패턴들을 탐사한 후 오직 최대의 빈발 패턴만을 탐사한다. 아울러, 제안한 기법과 기존의 DFS_MINE 기법의 수행 시간 비교를 통하여 제안한 기법이 수행시간에서 다소 우수한 것을 나타낸다. 이러한 제안접근법은 관광 서비스, 교통 서비스 등과 같은 위치 기반 서비스 등에 활용할 수 있다.