• 제목/요약/키워드: biological dataset

검색결과 126건 처리시간 0.032초

특징 추출과 분석 기법에 기반한 단백질 상호작용 데이터 신뢰도 향상 시스템 (Protein-Protein Interaction Reliability Enhancement System based on Feature Selection and Classification Technique)

  • 이민수;박승수;이상호;용환승;강성희
    • 정보처리학회논문지B
    • /
    • 제13B권7호
    • /
    • pp.679-688
    • /
    • 2006
  • 대용량 실험으로부터 산출된 단백질 상호작용 데이터는 위양성(false positive) 데이터의 비율이 높다는 단점을 가지고 있다. 본 논문에서는 오류가 섞여있는 단백질 상호작용 데이터를 입력으로 받아 각 단백질 상호작용의 신뢰도를 검증하는 시스템을 제안하고 구현하였다. 제안 시스템은 단백질 상호작용 데이터에 상호작용의 근거로서 사용될 수 있는 다양한 생물학적 특징들에 관한 데이터를 통합하고 특징 선택 방법을 사용하여 통합된 속성들 중 위양성 여부를 판별하는데 가장 적합한 특징들을 선택한 후 데이터 마이닝 분류 알고리즘을 적용하여 대용량 실험으로부터 산출된 단백질 상호작용 데이터의 신뢰도를 평가한다. 특징 선택의 결과와 분류 기법의 성능은 데이터 특성에 매우 의존하므로, 제안시스템에 가장 적합한 속성 부분집합과 가장 좋은 성능을 내는 분류 알고리즘을 찾기 위해 다양한 특징 선택 방법과 데이터 마이닝 분류 알고리즘들을 적용하고 그 성능을 다각적으로 비교분석 하였다. 실험 결과, 특징 선택 방법과 분류 알고리즘을 결합시킨 제안 시스템은 오류 데이터가 섞여있는 단백질 상호작용 데이터에서 실제로 상호작용하는 단백질 쌍을 골라내는 작업에 있어 기존 연구들에 비해 매우 뛰어난 성능을 보여줬다. 또한 본 연구를 통해 단백질 상호작용 데이터의 신뢰도를 검증함에 있어서 다양한 특징 선택 방법들과 분류 알고리즘들이 성능에 미치는 영향에 관해서도 정리할 수 있었다.

제한절편 길이 다형성(RFLP) 분자마커를 이용한 납자루아과 담수어류 3종의 난과 치어 종 동정 기법 개발 (Development of a Species Identification Method for the Egg and Fry of the Three Korean Bitterling Fishes (Pisces: Acheilognathinae) using RFLP (Restriction Fragment Length Polymorphism) Markers)

  • 최희규;이혁제
    • 환경생물
    • /
    • 제36권3호
    • /
    • pp.352-358
    • /
    • 2018
  • 본 연구는 PCR 기반 RFLP (Restriction Fragment Length Polymorphism; 제한절편 길이 다형성) 분자기법을 활용하여 난 및 치어 대상 납자루아과 어류 3종의 동정을 좀 더 빠르고 정확하게 파악하고 납자루아과 어류의 종별 산란양상 및 번식생태 이해에 대한 기여가 목적이다. 본 연구를 위해 기존 선행된 문헌자료를 확인하고 납자루아과 어류가 2종 이상 동서하고 있는 지역을 확인하여 현지조사를 수행하였다. 현지조사 결과 확인된 납자루아과 어류는 묵납자루(Acheilognathus signifer), 줄납자루(A. yamatsutae) 및 각시붕어(Rhodeus uyekii)로 총 3종이 확인되었으며, 확인된 납자루아과 어류와 동서하고 있는 숙주조개(작은말조개; Unio douglasiae sinuolatus)를 채집하여 숙주조개 속 납자루아과 어류의 난 및 치어를 확보하였다. 현지조사 결과 확인된 납자루아과 어류 3종을 대상으로 미토콘드리아 DNA COI과 cyt b 유전자 염기서열을 비교하여 각각 종별로 특이성을 지닌 부위(단일염기변이; Single Nucleotide Variation: SNV)에 맞는 제한효소를 선정하였고, 숙주조개 속 난 및 치어를 대상으로 genomic DNA를 추출하여 PCR-RFLP 실험을 수행한 결과 현지조사 시 확인된 납자루아과 어류 3종의 독특한 제한절편 길이 양상을 전기영동을 통하여 확인하였다. 본 연구를 통해 묵납자루, 줄납자루 및 각시붕어의 종을 판별할 수 있는 RFLP 마커를 개발하였으며, 숙주조개 난 및 치어를 대상으로 정확한 종의 동정을 보다 빠르고 효과적으로 수행하여 각각 납자루아과 종별 산란양상을 보다 정확히 규명하고 향후 이들 자연개체군의 효과적인 유지, 관리 및 보전 방법 개발에 유용하게 활용될 수 있을 것으로 판단된다.

영산강 수계의 이화학적 수질에 관한 시공간적 변이 분석 (Spatio-temporal Variation Analysis of Physico-chemical Water Quality in the Yeongsan-River Watershed)

  • 강선아;안광국
    • 생태와환경
    • /
    • 제39권1호통권115호
    • /
    • pp.73-84
    • /
    • 2006
  • 본 연구는 영산강 수계 내 10개 지점의 이화학적 수질에 관한 시공간적 변이상태를 분석하기 위해 1995년부터 2004년까지 측정된 환경부 수질데이터를 이용하여 분석하였다. 이용된 수질 변수는 전기전도도(Conductivity), 생물화학적 산소요구량(BOD), 화학적 산소요구량(COD), 용존산소량 (Dissolved oxygen), 총인 (Total phosphorus), 총질소 (Total nitrogen) 및 총부유물 (Total suspended solids)의 7개 항목으로서 계절별, 연별, 및 조사지점별 농도변이가 큰 것으로 나타났다. 영산강 수계 내에서의 이화학적 수질측정값은 계절성 강우에 따라 수질측정값의 변동 폭이 심하며, 대부분의 수치 농도변이는7 ${\sim}$ 8월에 집중되는 하절기 몬순 강도에 의해 조절되었다. 장마기에 이온희석의 지표로 사용되는 전기전도도와 총인, 총질소와 같은 영양염류들의 경우 강우량과 역 상관관계 (|r|> 0.32, P< 0.01, n=119)를 보였으나, 생물학적 산소 요구량과 화학적 산소요구량의 경우에는 강우분포와 통계학적 유의성 (p>0.05, n=120)을 보이지 않았다. 총인, 총질소 및 전기전도도는 대부분 장마 중인 7 ${\sim}$ 8월에 최소값을 보였는데, 이는 강우에 의해 오염물질이 희석되기 때문으로 사료되었다. 반면, 총부유물의 유입은 하절기 몬순 동안에 최대치를 보여 이온 감소와는 대조적인 특성을 보였다. 생물학적 산소요구량의 계절적 변화패턴은 화학적 산소요구량과 유사한(r.=0.592, P<0.01)양상을 보였으며, 마찬가지로 총질소의 변차패턴 또한 총인과 유사한 (.=0.529, P<0.01) 양상을 보였다. 용존산소량의 계절별 변화에 따르면, 수온이 낮은 겨울에 최대값을 보이며 온도가 높은 여름에 최소값을 보여 수온과의 역 상관관계를 보였다. 지점별 변화 패턴 분석에 따르면, 전기전도도를 제외한 총인, 총질소, 생물학적 산소요구량, 화학적 산소요구량 및 총부유물은 상류 및 하류역 보다 중류역에서 높은 농도를 보인 반면, 전기전도도의 경우에는 하류역에서 높은 농도를 보였다. 특히, 총인, 총질소, 생물학적 산소요구량 및 화학적 산소요구량은 지점 4(광주 2)에서 급격히 악화되는 양상을 보였으며, 이는 광주도심으로부터 유출되는 가정하수 및 인접한 공단에서 배출하는 폐수유입에 의한 영향으로 사료되었다. 따라서, 영산강의 수질 개선을 위해서는 이런 도심지역의 오염부하 저감을 통한 효율적 수질관리가 요구된다.

한반도에서 종 분포 모델을 이용한 두 침입외래식물, 돼지풀과 물참새피의 잠재적 분포 예측 (Prediction of Potential Distributions of Two Invasive Alien Plants, Paspalum distichum and Ambrosia artemisiifolia, Using Species Distribution Model in Korean Peninsula)

  • 이승현;조강현;이우주
    • Ecology and Resilient Infrastructure
    • /
    • 제3권3호
    • /
    • pp.189-200
    • /
    • 2016
  • 종분포 모델은 어떤 지역에서 침입외래종이 어떻게 확장되고 어떤 환경 요인이 이들의 분포에 영향을 미치는지를 이해하는데 매우 유용한 도구이다. 본 연구에서는 한반도에서 두 침입외래종인 돼지풀 (Ambrosia artemisiifolia)과 물참새피 (Paspalum distichum)의 분포에 대하여 연구하였다. 이 두 종의 현재의 분포지에서 기후환경 요인을 분석하고 이 두 종의 분포를 예측하기 위하여 Maxent (the maximum entropy) 모델을 이용하였다. 이 두 종의 출현 자료는 Global Biodiversity Information Facility와 우리나라의 식물종 데이터베이스에서, 생물기후 자료는 WorldClim 자료로부터 얻었다. 모델을 수행한 결과, 자생지 위치자료를 이용한 예측 결과보다 전지구 위치자료를 이용한 예측이 연구 대상종의 잠재적 분포지를 잘 설명하였다. 이들 종의 분포에 기여한 기후환경 요인으로서 돼지풀에서는 최건월의 강수량과 연평균온도가, 물참새피에서는 연평균온도와 최한사분기의 평균온도가 선정되었다. Maxent 종분포 모델은 외래종의 침입을 예측하고 이들의 확산을 관리하는데 유용한 도구가 될 것으로 생각된다.

픽셀 단위 컨볼루션 네트워크를 이용한 복부 컴퓨터 단층촬영 영상 기반 골전이암 병변 검출 알고리즘 개발 (Development of Bone Metastasis Detection Algorithm on Abdominal Computed Tomography Image using Pixel Wise Fully Convolutional Network)

  • 김주영;이시영;김규리;조경원;유승민;소순원;박은경;조백환;최동일;박훈기;김인영
    • 대한의용생체공학회:의공학회지
    • /
    • 제38권6호
    • /
    • pp.321-329
    • /
    • 2017
  • This paper presents a bone metastasis Detection algorithm on abdominal computed tomography images for early detection using fully convolutional neural networks. The images were taken from patients with various cancers (such as lung cancer, breast cancer, colorectal cancer, etc), and thus the locations of those lesions were varied. To overcome the lack of data, we augmented the data by adjusting the brightness of the images or flipping the images. Before the augmentation, when 70% of the whole data were used in the pre-test, we could obtain the pixel-wise sensitivity of 18.75%, the specificity of 99.97% on the average of test dataset. With the augmentation, we could obtain the sensitivity of 30.65%, the specificity of 99.96%. The increase in sensitivity shows that the augmentation was effective. In the result obtained by using the whole data, the sensitivity of 38.62%, the specificity of 99.94% and the accuracy of 99.81% in the pixel-wise. lesion-wise sensitivity is 88.89% while the false alarm per case is 0.5. The results of this study did not reach the level that could substitute for the clinician. However, it may be helpful for radiologists when it can be used as a screening tool.

인간 질병 네트워크로부터 얻은 질병 단백체의 특성 분석 (Characterization of Diseasomal Proteins from Human Disease Network)

  • 이윤경;구자을;여명호;강태호;송민동;유재수;김학용
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.306-311
    • /
    • 2009
  • 본 연구는 질병과 관련이 있는 단백질들은 질병네트워크를 형성함에 있어서 매우 중요한 인자로 작용할 가능성이 있다는 아이디어에서 출발한다. 우리는 Online Mendelian Inheritance in Man(OMIM)과 SWISS-PROT으로부터 인간의 단백질 데이터와 질병 정보를 확보하고 질병관련 단백질의 단백질 상호작용 네트워크를 구축 한 후, 이를 바탕으로 질병네트워크를 구축했다. 그 결과 단백질 상호작용 네트워크에는 CALM1, ACTB 및 ABL2와 같은 40개의 허브 단백질이 존재하는 것을 확인했다. 단백질 상호작용 네트워크와 질병 네트워크를 통해서 우리는 질병들간의 상관관계와 각 질병에 작용하는 단백질들의 상관관계를 파악할 수 있었다. 구축된 질병네트워크로부터 APP, ABL1 및 STAT1과 같은 38개의 질병단백체를 찾아냈다. 우리는 이전 연구에서 허브 단백질들이 서브 질병네트워크에서 질병 단백체의 경향이 있다는 것을 증명했다. 하지만, 본 연구에서 전체 질병 네트워크를 분석한 결과 전체 40개의 허브 단백질 중 단 18% 허브 단백질만이 질병단백체임이 확인되었다. 현시점에서 허브 단백질-질병단백체 경향성이 전체 질병네트워크와 서브 질병네트워크간의 차이를 설명할 수 없다. 비록 우리가 이러한 풀리지 않은 문제를 안고 있지만, 단백질-질병 네트워크의 구조 및 기능 분석은 복잡한 인간 질병 시스템에서 분자 수준의 기작과 생물학적 과정을 이해하는데 중요한 정보를 제공할 것이다.

  • PDF

Establishment of the large-scale longitudinal multi-omics dataset in COVID-19 patients: data profile and biospecimen

  • Jo, Hye-Yeong;Kim, Sang Cheol;Ahn, Do-hwan;Lee, Siyoung;Chang, Se-Hyun;Jung, So-Young;Kim, Young-Jin;Kim, Eugene;Kim, Jung-Eun;Kim, Yeon-Sook;Park, Woong-Yang;Cho, Nam-Hyuk;Park, Donghyun;Lee, Ju-Hee;Park, Hyun-Young
    • BMB Reports
    • /
    • 제55권9호
    • /
    • pp.465-471
    • /
    • 2022
  • Understanding and monitoring virus-mediated infections has gained importance since the global outbreak of the coronavirus disease 2019 (COVID-19) pandemic. Studies of high-throughput omics-based immune profiling of COVID-19 patients can help manage the current pandemic and future virus-mediated pandemics. Although COVID-19 is being studied since past 2 years, detailed mechanisms of the initial induction of dynamic immune responses or the molecular mechanisms that characterize disease progression remains unclear. This study involved comprehensively collected biospecimens and longitudinal multi-omics data of 300 COVID-19 patients and 120 healthy controls, including whole genome sequencing (WGS), single-cell RNA sequencing combined with T cell receptor (TCR) and B cell receptor (BCR) sequencing (scRNA(+scTCR/BCR)-seq), bulk BCR and TCR sequencing (bulk TCR/BCR-seq), and cytokine profiling. Clinical data were also collected from hospitalized COVID-19 patients, and HLA typing, laboratory characteristics, and COVID-19 viral genome sequencing were performed during the initial diagnosis. The entire set of biospecimens and multi-omics data generated in this project can be accessed by researchers from the National Biobank of Korea with prior approval. This distribution of large-scale multi-omics data of COVID-19 patients can facilitate the understanding of biological crosstalk involved in COVID-19 infection and contribute to the development of potential methodologies for its diagnosis and treatment.

생물기초조사 통합자료를 활용한 우리나라 식물종 풍부도 분석 (Plant Species Richness in Korea Utilizing Integrated Biological Survey Data)

  • 홍승범;오지은;차재규;이경은
    • 생태와환경
    • /
    • 제56권4호
    • /
    • pp.363-374
    • /
    • 2023
  • 우리나라를 대표하는 생물종 풍부도를 도출하는 데에는 상대적으로 짧은 생물종 현장 조사 역사와 여러 기관에서 분야별로 수집한 조사 자료가 산재되어 있다는 한계가 있다. 본 연구에서는 환경부 산하기관들이 보유하고 있는 관속식물 조사 데이터를 취합하여 100년 이상의 시계열 데이터세트를 구축하였다. 자료 통합은 종명, 위치, 시간(연도) 등 최소한의 기준을 적용해 데이터 검증 및 보정 과정을 거쳤다. 통합한 식물종 자료에 따르면 국내 식물종에 대한 체계적인 수집은 2000년 이후에 주로 이루어졌으며, 이러한 조사를 통해 발견된 식물종의 수는 최근 수렴하는 경향을 보이고 있었다. 이는 우리나라에서 국가 차원의 생물종 다양성을 도출할 수 있는 조건이 충분히 갖추어지고 있음을 시사한다. Chao 2 방법을 이용하여 예측한 1951년부터 70년간의 토착식물의 종 풍부도는 3,182.6으로 추정되었다. 이 추정치를 얻기 위해서는 최소 7년의 누적 기간이 필요하다. 본 연구의 식물종 풍부도는 향후 우리나라의 종 풍부도 변화를 연구하는데 기준이 될 수 있다. 또한 사용한 종 풍부도 추정 방법과 통합자료는 지자체 수준 등의 지역 생물다양성을 도출하는 데에도 적용할 수 있을 것으로 생각한다.

CNN-LSTM 기반의 상지 재활운동 실시간 모니터링 시스템 (CNN-LSTM-based Upper Extremity Rehabilitation Exercise Real-time Monitoring System)

  • 김재정;김정현;이솔;서지윤;정도운
    • 융합신호처리학회논문지
    • /
    • 제24권3호
    • /
    • pp.134-139
    • /
    • 2023
  • 재활환자는 수술 치료 후 신속한 사회복귀를 목적으로 신체적 기능 회복을 위하여 통원치료 및 일상에서 재활운동을 수행한다. 병원에서 전문 치료사의 도움으로 운동을 수행하는 것과 달리 일상에서 환자 스스로 재활운동을 수행하는 것은 많은 어려움이 있다. 본 논문에서는 일상에서 환자 스스로 효율적이고 올바른 자세로 재활운동을 수행할 수 있도록 CNN-LSTM 기반의 상지 재활운동 실시간 모니터링 시스템을 제안한다. 제안한 시스템은 EMG, IMU가 탑재된 어깨 착용형 하드웨어를 통해 생체신호를 계측하고 학습을 위한 전처리 과정과 정규화를 진행하여 학습 데이터세트로 사용하였다. 구현된 모델은 특징 검출을 위한 3개 합성곱 레이어 3개의 폴링 레이어, 분류를 위한 2개의 LSTM 레이어로 구성되어 있으며 검증 데이터에 대한 학습 결과 97.44%를 확인할 수 있었다. 이후 Teachable machine과의 비교평가를 진행하였으며 비교평가 결과 구현된 모델은 93.6%, Teachable machine은 94.4%로 두 모델이 유사한 분류 성능을 나타내는 것을 확인하였다.

Comprehensive RNA-sequencing analysis of colorectal cancer in a Korean cohort

  • Jaeim Lee;Jong-Hwan Kim;Hoang Bao Khanh Chu;Seong-Taek Oh;Sung-Bum Kang;Sejoon Lee;Duck-Woo Kim;Heung-Kwon Oh;Ji-Hwan Park;Jisu Kim;Jisun Kang;Jin-Young Lee;Sheehyun Cho;Hyeran Shim;Hong Seok Lee;Seon-Young Kim;Young-Joon Kim;Jin Ok Yang;Kil-yong Lee
    • Molecules and Cells
    • /
    • 제47권3호
    • /
    • pp.100033.1-100033.13
    • /
    • 2024
  • Considering the recent increase in the number of colorectal cancer (CRC) cases in South Korea, we aimed to clarify the molecular characteristics of CRC unique to the Korean population. To gain insights into the complexities of CRC and promote the exchange of critical data, RNA-sequencing analysis was performed to reveal the molecular mechanisms that drive the development and progression of CRC; this analysis is critical for developing effective treatment strategies. We performed RNA-sequencing analysis of CRC and adjacent normal tissue samples from 214 Korean participants (comprising a total of 381 including 169 normal and 212 tumor samples) to investigate differential gene expression between the groups. We identified 19,575 genes expressed in CRC and normal tissues, with 3,830 differentially expressed genes (DEGs) between the groups. Functional annotation analysis revealed that the upregulated DEGs were significantly enriched in pathways related to the cell cycle, DNA replication, and IL-17, whereas the downregulated DEGs were enriched in metabolic pathways. We also analyzed the relationship between clinical information and subtypes using the Consensus Molecular Subtype (CMS) classification. Furthermore, we compared groups clustered within our dataset to CMS groups and performed additional analysis of the methylation data between DEGs and CMS groups to provide comprehensive biological insights from various perspectives. Our study provides valuable insights into the molecular mechanisms underlying CRC in Korean patients and serves as a platform for identifying potential target genes for this disease. The raw data and processed results have been deposited in a public repository for further analysis and exploration.