• Title/Summary/Keyword: 단백질 데이터 모델링

Search Result 12, Processing Time 0.019 seconds

Performance Evaluation of Negative Sampling Methods in a Hyperedge Prediction Task (하이퍼엣지 예측 작업에서 네거티브 샘플링 기술의 성능 분석)

  • Daeun Lee;Songkyung Yu;Yunyong Ko;Sang-Wook Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.527-530
    • /
    • 2024
  • 하이퍼그래프(hypergraph)는 실세계의 여러 객체가 함께 형성하는 복잡한 그룹 관계를 하이퍼엣지(hyperedge)로 정보 손실 없이 모델링할 수 있는 새로운 데이터 구조이다. 하이퍼엣지 예측(hyperedge prediction task)이란 하이퍼그래프로 표현된 실세계 네트워크에서 아직 관찰되지 않은 그룹관계 혹은 미래에 발생할 가능성이 높은 관계를 예측하는 것으로, 단백질 상호작용 분석(PPI), 추천시스템, 소셜 네트워크 분석 등 다양한 응용 분야에서 활용된다. 그러나, 하이퍼엣지 예측은 심각한 데이터 희소성 문제로 정확한 예측이 어렵다는 근본적인 한계를 지닌다. 이러한 한계를 완화하기 위해 다양한 네거티브 샘플링(negative sampling) 기술이 활용될 수 있는데, 아직까지 각 샘플링 기술이 하이퍼엣지 예측 정확도에 미치는 효과에 대해 충분히 연구되지 않았다. 본 논문에서는 하이퍼엣지 예측에 활용되는 다양한 네거티브 샘플링 방법의 효과를 분석한다. 실험 결과를 통해, 네거티브 샘플링 기법과 포지티브와 네거티브 하이퍼엣지 수의 비율에 따른 정확도 변화 양상을 분석한다.

Discrimination of African Yams Containing High Functional Compounds Using FT-IR Fingerprinting Combined by Multivariate Analysis and Quantitative Prediction of Functional Compounds by PLS Regression Modeling (FT-IR 스펙트럼 데이터의 다변량 통계분석을 이용한 고기능성 아프리칸 얌 식별 및 기능성 성분 함량 예측 모델링)

  • Song, Seung Yeob;Jie, Eun Yee;Ahn, Myung Suk;Kim, Dong Jin;Kim, In Jung;Kim, Suk Weon
    • Horticultural Science & Technology
    • /
    • v.32 no.1
    • /
    • pp.105-114
    • /
    • 2014
  • We established a high throughput screening system of African yam tuber lines which contain high contents of total carotenoids, flavonoids, and phenolic compounds using ultraviolet-visible (UV-VIS) spectroscopy and Fourier transform infrared (FT-IR) spectroscopy in combination with multivariate analysis. The total carotenoids contents from 62 African yam tubers varied from 0.01 to $0.91{\mu}g{\cdot}g^{-1}$ dry weight (wt). The total flavonoids and phenolic compounds also varied from 12.9 to $229{\mu}g{\cdot}g^{-1}$ and from 0.29 to $5.2mg{\cdot}g^{-1}$dry wt. FT-IR spectra confirmed typical spectral differences between the frequency regions of 1,700-1,500, 1,500-1,300 and $1,100-950cm^{-1}$, respectively. These spectral regions were reflecting the quantitative and qualitative variations of amide I, II from amino acids and proteins ($1,700-1,500cm^{-1}$), phosphodiester groups from nucleic acid and phospholipid ($1,500-1,300cm^{-1}$) and carbohydrate compounds ($1,100-950cm^{-1}$). Principal component analysis (PCA) and subsequent partial least square-discriminant analysis (PLS-DA) were able to discriminate the 62 African yam tuber lines into three separate clusters corresponding to their taxonomic relationship. The quantitative prediction modeling of total carotenoids, flavonoids, and phenolic compounds from African yam tuber lines were established using partial least square regression algorithm from FT-IR spectra. The regression coefficients ($R^2$) between predicted values and estimated values of total carotenoids, flavonoids and phenolic compounds were 0.83, 0.86, and 0.72, respectively. These results showed that quantitative predictions of total carotenoids, flavonoids, and phenolic compounds were possible from FT-IR spectra of African yam tuber lines with higher accuracy. Therefore we suggested that quantitative prediction system established in this study could be applied as a rapid selection tool for high yielding African yam lines.