• 제목/요약/키워드: Dimensionality

검색결과 566건 처리시간 0.026초

오믹스 자료를 이용한 정준방법 비교 (A comparison study of canonical methods: Application to -Omics data)

  • 이승수;민은정
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.157-176
    • /
    • 2024
  • 생명현상의 복잡한 시스템에 대한 이해를 위한 융합분석의 중요성이 점점 커지고 있다. 하나의 연구대상을 다양한 관점에서 관찰하여 얻게 되는 여러 데이터의 융합분석은 통해 좀 더 대상에 대한 깊은 이해를 가능하게 한다. 본 연구에서는 그중에서도 특히 하나의 샘플에서 두개의 고차원 데이터가 생성된 경우 다룰 수 있는 분석인 공관성분석과 정준상관분석을 비교하였다. 정준상관분석의 경우 고차원 데이터를 다룰 수 없는 단점이 있기에, 해당 문제를 극복하기 위하여 능형상수를 이용하는 방법(CCA-ridge)과 각 데이터의 공분산행렬을 항등행렬로 가정하여 벌점화 특이값분해를 이용한 방법(CCA-PMD) 두 가지를 고려하였으며 각 방법을 NCI60 세포주 패널에서 얻은 RNA 시퀀싱 데이터와 단백질 시퀀싱 데이터 분석에 적용하였다. 그 결과 정준상관분석의 경우 두 정준변수간의 상관관계에 좀 더 집중하는 반면 공관성분석은 각 데이터의 선형조합간의 상관관계뿐 아니라 각 선형조합의 변동성을 함께 고려함을 확인할 수 있었다. 또한 공관성분석의 경우 여러가지의 가중치행렬을 고려하여 그 결과값을 비교하고 중요 시사점을 도출하였다.

Robust Radiometric and Geometric Correction Methods for Drone-Based Hyperspectral Imaging in Agricultural Applications

  • Hyoung-Sub Shin;Seung-Hwan Go;Jong-Hwa Park
    • 대한원격탐사학회지
    • /
    • 제40권3호
    • /
    • pp.257-268
    • /
    • 2024
  • Drone-mounted hyperspectral sensors (DHSs) have revolutionized remote sensing in agriculture by offering a cost-effective and flexible platform for high-resolution spectral data acquisition. Their ability to capture data at low altitudes minimizes atmospheric interference, enhancing their utility in agricultural monitoring and management. This study focused on addressing the challenges of radiometric and geometric distortions in preprocessing drone-acquired hyperspectral data. Radiometric correction, using the empirical line method (ELM) and spectral reference panels, effectively removed sensor noise and variations in solar irradiance, resulting in accurate surface reflectance values. Notably, the ELM correction improved reflectance for measured reference panels by 5-55%, resulting in a more uniform spectral profile across wavelengths, further validated by high correlations (0.97-0.99), despite minor deviations observed at specific wavelengths for some reflectors. Geometric correction, utilizing a rubber sheet transformation with ground control points, successfully rectified distortions caused by sensor orientation and flight path variations, ensuring accurate spatial representation within the image. The effectiveness of geometric correction was assessed using root mean square error(RMSE) analysis, revealing minimal errors in both east-west(0.00 to 0.081 m) and north-south directions(0.00 to 0.076 m).The overall position RMSE of 0.031 meters across 100 points demonstrates high geometric accuracy, exceeding industry standards. Additionally, image mosaicking was performed to create a comprehensive representation of the study area. These results demonstrate the effectiveness of the applied preprocessing techniques and highlight the potential of DHSs for precise crop health monitoring and management in smart agriculture. However, further research is needed to address challenges related to data dimensionality, sensor calibration, and reference data availability, as well as exploring alternative correction methods and evaluating their performance in diverse environmental conditions to enhance the robustness and applicability of hyperspectral data processing in agriculture.

A Hybrid Multi-Level Feature Selection Framework for prediction of Chronic Disease

  • G.S. Raghavendra;Shanthi Mahesh;M.V.P. Chandrasekhara Rao
    • International Journal of Computer Science & Network Security
    • /
    • 제23권12호
    • /
    • pp.101-106
    • /
    • 2023
  • Chronic illnesses are among the most common serious problems affecting human health. Early diagnosis of chronic diseases can assist to avoid or mitigate their consequences, potentially decreasing mortality rates. Using machine learning algorithms to identify risk factors is an exciting strategy. The issue with existing feature selection approaches is that each method provides a distinct set of properties that affect model correctness, and present methods cannot perform well on huge multidimensional datasets. We would like to introduce a novel model that contains a feature selection approach that selects optimal characteristics from big multidimensional data sets to provide reliable predictions of chronic illnesses without sacrificing data uniqueness.[1] To ensure the success of our proposed model, we employed balanced classes by employing hybrid balanced class sampling methods on the original dataset, as well as methods for data pre-processing and data transformation, to provide credible data for the training model. We ran and assessed our model on datasets with binary and multivalued classifications. We have used multiple datasets (Parkinson, arrythmia, breast cancer, kidney, diabetes). Suitable features are selected by using the Hybrid feature model consists of Lassocv, decision tree, random forest, gradient boosting,Adaboost, stochastic gradient descent and done voting of attributes which are common output from these methods.Accuracy of original dataset before applying framework is recorded and evaluated against reduced data set of attributes accuracy. The results are shown separately to provide comparisons. Based on the result analysis, we can conclude that our proposed model produced the highest accuracy on multi valued class datasets than on binary class attributes.[1]

딥러닝 기반의 딥 클러스터링 방법에 대한 분석 (Analysis of deep learning-based deep clustering method)

  • 권현;이준
    • 융합보안논문지
    • /
    • 제23권4호
    • /
    • pp.61-70
    • /
    • 2023
  • 클러스터링은 데이터의 정답값(실제값)이 없는 데이터를 기반으로 데이터의 특징벡터의 거리 기반 등으로 군집화를 하는 비지도학습 방법이다. 이 방법은 이미지, 텍스트, 음성 등 다양한 데이터에 대해서 라벨링이 없이 적용할 수 있다는 장점이 있다. 기존 클러스터링을 하기 위해 차원축소 기법을 적용하거나 특정 특징만을 추출하여 군집화하는 방법이 적용되었다. 하지만 딥러닝 기반 모델이 발전하면서 입력 데이터를 잠재 벡터로 표현하는 오토인코더, 생성 적대적 네트워크 등을 통해서 딥 클러스터링의 기술이 연구가 되고 있다. 본 연구에서, 딥러닝 기반의 딥 클러스터링 기법을 제안하였다. 이 방법에서 오토인코더를 이용하여 입력 데이터를 잠재 벡터로 변환하고 이 잠재 벡터를 클러스터 구조에 맞게 벡터 공간을 구성 및 k-평균 클러스터링을 하였다. 실험 환경으로 pytorch 머신러닝 라이브러리를 이용하여 데이터셋으로 MNIST와 Fashion-MNIST을 적용하였다. 모델로는 컨볼루션 신경망 기반인 오토인코더 모델을 사용하였다. 실험결과로 k가 10일 때, MNIST에 대해서 89.42% 정확도를 가졌으며 Fashion-MNIST에 대해서 56.64% 정확도를 가진다.

Prediction of East Asian Brain Age using Machine Learning Algorithms Trained With Community-based Healthy Brain MRI

  • Chanda Simfukwe;Young Chul Youn
    • 대한치매학회지
    • /
    • 제21권4호
    • /
    • pp.138-146
    • /
    • 2022
  • Background and Purpose: Magnetic resonance imaging (MRI) helps with brain development analysis and disease diagnosis. Brain volumes measured from different ages using MRI provides useful information in clinical evaluation and research. Therefore, we trained machine learning models that predict the brain age gap of healthy subjects in the East Asian population using T1 brain MRI volume images. Methods: In total, 154 T1-weighted MRIs of healthy subjects (55-83 years of age) were collected from an East Asian community. The information of age, gender, and education level was collected for each participant. The MRIs of the participants were preprocessed using FreeSurfer(https://surfer.nmr.mgh.harvard.edu/) to collect the brain volume data. We trained the models using different supervised machine learning regression algorithms from the scikit-learn (https://scikit-learn.org/) library. Results: The trained models comprised 19 features that had been reduced from 55 brain volume labels. The algorithm BayesianRidge (BR) achieved a mean absolute error (MAE) and r squared (R2) of 3 and 0.3 years, respectively, in predicting the age of the new subjects compared to other regression methods. The results of feature importance analysis showed that the right pallidum, white matter hypointensities on T1-MRI scans, and left hippocampus comprise some of the essential features in predicting brain age. Conclusions: The MAE and R2 accuracies of the BR model predicting brain age gap in the East Asian population showed that the model could reduce the dimensionality of neuroimaging data to provide a meaningful biomarker for individual brain aging.

타임스탬프를 갖는 이벤트 시퀀스의 인덱스 기반 검색 (Index-based Searching on Timestamped Event Sequences)

  • 박상현;원정임;윤지희;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.468-478
    • /
    • 2004
  • 시퀀스 데이타베이스로부터 원하는 질의 패턴과 일치하는 모든 서브 시퀀스를 검색하는 것은 데이타 마이닝이나 바이오 인포매틱스 등 응용 분야에서 필수적인 연산이다. 예를 들어, 특정한 이벤트가 발생할 때마다 이벤트의 유형과 발생 시각을 기록하는 네트웍 이벤트 관리 시스템에서 네트웍 이벤트들의 연관 관계를 발견하기 위한 전형적인 질의 형태는 다음과 같다: 'CiscoDCDLinkUp이 발생한 후 MLMStatusUP과 TCPConnectionClose가 각각 20초 이내와 40초 이내에 순차적으로 발생하는 모든 경우를 검색하라.' 본 논문에서는 대규모 이벤트 시퀀스 데이타베이스를 대상으로 하여 위와 같은 질의를 효율적으로 처리할 수 있는 인덱싱 방법을 제안한다. 기존의 방법들이 비효율적인 순차적 검색이나 페이지화 하기 어려운 인덱스 구조에 의존하는데 반하여, 제안하는 방법은 저장 및 검색 효율이 입증된 다차원 공간 인덱스를 사용하여 질의를 만족하는 모든 서브 시퀀스를 착오 기각(false dismissal) 없이 신속하게 검색한다. 다차원 공간 인덱스의 입력은 이벤트 시퀀스 데이타베이스 상의 슬라이딩 윈도우 내에서 각 이벤트 유형이 최초로 발생한 시각을 기록한 n 차원 벡터가 된다. 여기서 n은 발생 가능한 이벤트 유형의 수이다. n이 큰 경우는 차원 저주(dimensionality curse) 문제가 발생할 수 있으므로 차원 선택이나 이벤트유형 그루핑을 이용하여 차원을 축소한다. 실험 결과에 의하면 제안된 방법은 순차적 검색이나 ISO-Depth 인덱스 기법에 비하여 몇 배에서 몇 십 배의 성능 향상 효과를 갖는 것으로 나타났다. 것으로 나타났다.예측치가 비교적 유사한 것으로 나타났으며, 평균 절도오차도 10% 수준이었다.HNP 처리구에서 가장 많았던 것으로 나타났다. 지상부 식생에 대한 총 양분함량은(N+P+K+Ca+Mg) 리기다소 나무가 703kg/ha 그리고 낙엽송이 869kg/ha였다.여 주었다.능성을 시도하였고, 그 결과는 다음과 같다. 1. Cholesterol을 제거한 cheese의 제조에서 최적조건은 균질압력 1200psi(70kg$cm^2$), 균질온도 $70^{\circ}$, $\beta$-cyclodextrin 첨가량 2%였으며, 이때 우유의 cholesterol의 제거율이 86.05%로 가장 높게 나타났다. 2. Cholesterol을 제거한 cheese들의 수율은 모두 12.53%(control 10.54%) 이상으로 균질 처리가 cheese의 수율을 18.88%이상 향상시키는 것으로 나타났다. 3. 유지방 함량 23.80%인 control 치즈의 cholesterol 함량은 81.47mg/100g이었고, 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 2%를 첨가한 cheese에서는 cholesterol 함량이 20.15mg/100g으로 cholesterol 제거율이 75.27%로 가장 높게 나타났다. 4. Meltability는 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 1과 2%로 처리한 치즈에서 2.25cm(control 3.34cm)로 가장 낮았으며,

계절내-계절 기후예측의 딥러닝 기반 후보정을 위한 입력자료 전처리 기법 평가 (Investigating Data Preprocessing Algorithms of a Deep Learning Postprocessing Model for the Improvement of Sub-Seasonal to Seasonal Climate Predictions)

  • 정유란;이진영;김미애;손수진
    • 한국농림기상학회지
    • /
    • 제25권2호
    • /
    • pp.80-98
    • /
    • 2023
  • 본 연구에서는 계절내-계절(Subseasonal to seasonal, S2S) 기후예측의 주별 예측 성능을 개선하기 위해서 딥러닝 기반의 후보정(post processing) 기술을 개발하였다. 그 첫 단계로, 일 최고, 최저기온과 일 강수를 목표 변수로, 자료의 특성과 분포에 적합한 자료 변환 및 특성 공학 기법을 규명하고자 하였다. 먼저, 6개 개별 기후모델의 S2S 예측 자료를 딥러닝 모델에 입력하기 위한 훈련자료로 변환하고, 이로부터 다중모델앙상블(Multi-Model Ensemble, MME) 기반 훈련자료를 구축하였다. 참값(label)으로는 ECMWF의 ERA5 재분석 자료를 사용하였다. 자료 변환 알고리즘은 최고 및 최저 차이를 계산하여 입력자료의 범위를 변형시키는 MinMax 및 MaxAbs 변환, 표준편차를 이용하는 Standard 변환 및 분위수를 지정하여 변형하는 Robust와 Quantile 변환으로 구성된 전처리 파이프라인을 구축하였으며, 변환된 훈련자료와 예측 변수와의 상관관계를 계산하여 순위에 따라 훈련자료의 특성을 선택하는 특성 선택 기법을 추가하였다. 본 연구는 U-Net 모델에 TimeDistributed wrapper를 모든 합성곱 층(convolutional layer)에 적용하여 활용하였다. 5개 알고리즘으로부터 변환된 6개 개별 기후모델 및 MME S2S 훈련자료(일 최고 및 최저기온, 강수)에 훈련 모델을 적용한 결과와 훈련 모델을 적용하지 않은 결과를 ERA5와의 공간상관계수(spatial Pattern Correlation Coefficient)를 계산하고 그 개선율인 기술 점수(skill score)를 평가한 결과, 일 강수의 PCC 기술 점수는 Standard 및 Robust 변환으로 처리된 것에서 전체 예측선행(1~4주)에 대해 모두 높았고, 일 최고 및 최저기온에서는 예측 선행시간 3~4주에서만 높게 나타났다. 또한, 일 강수에서 특성 선택에 따른 훈련자료의 차원 감소가 예측 성능 변화에 영향을 미치지 않는 것으로 나타났다. 일 최고 및 최저기온의 경우에는 특성 선택에 의한 훈련자료의 특성 정보 감소가 오히려 예측 성능을 저하시킬 수 있는 것으로 확인되었으며, 원시자료에서 예측성이 높은 1~2주 기온 예측 개선을 위한 적합한 전처리 변환 알고리즘이나 특성 선택을 찾을 수 없었다. 후속 연구에서는 원시 예측 성능이 강수에 비해 높으나 딥러닝 훈련 모델에 의한 후보정 효과가 미미한 예측 선행 1~2주 기온 예측의 저조 원인에 대해 탐색하고, 다양한 딥러닝 훈련 모델로의 적용 및 초매개변수 조정 등 학습 과정의 최적화를 통해 S2S 기후 예측 성능을 개선하고자 한다.

Influence of the CYP1A1 T3801C Polymorphism on Tobacco and Alcohol-Associated Head and Neck Cancer Susceptibility in Northeast India

  • Singh, Seram Anil;Choudhury, Javed Hussain;Kapfo, Wetetsho;Kundu, Sharbadeb;Dhar, Bishal;Laskar, Shaheen;Das, Raima;Kumar, Manish;Ghosh, Sankar Kumar
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제16권16호
    • /
    • pp.6953-6961
    • /
    • 2015
  • Background: Tobacco and alcohol contain or may generate carcinogenic compounds related to cancers. CYP1A1 enzymes act upon these carcinogens before elimination from the body. The aim of this study was to investigate whether CYP1A1 T3801C polymorphism modulates the relationship between tobacco and alcohol-associated head and neck cancer (HNC) susceptibility among the northeast Indian population. Materials and Methods: One hundred and seventy histologically confirmed HNC cases and 230 controls were included within the study. The CYP1A1 T3801C polymorphism was determined using PCR-RFLP, and the results were confirmed by DNA sequencing. Logistic regression (LR) and multifactor dimensionality reduction (MDR) approaches were applied for statistical analysis. Results: The CYP1A1 CC genotype was significantly associated with HNC risk (P=0.045). A significantly increased risk of HNC (OR=6.09; P<0.0001) was observed in individuals with combined habits of smoking, alcohol drinking and tobacco-betel quid chewing. Further, gene-environment interactions revealed enhanced risks of HNC among smokers, alcohol drinkers and tobacco-betel quid chewers carrying CYP1A1 TC or CC genotypes. The highest risk of HNC was observed among smokers (OR=7.55; P=0.009) and chewers (OR=10.8; P<0.0001) carrying the CYP1A1 CC genotype. In MDR analysis, the best model for HNC risk was the three-factor model combination of smoking, tobacco-betel quid chewing and the CYP1A1 variant genotype (CVC=99/100; TBA=0.605; P<0.0001); whereas interaction entropy graphs showed synergistic interaction between tobacco habits and CYP1A1. Conclusions: Our results confirm that the CYP1A1 T3801C polymorphism modifies the risk of HNC and further demonstrated importance of gene-environment interaction.

데이터 웨어하우스의 다차원 온라인 분석처리 시스템을 위한 저장구조의 물리적 설계기법 (A Physical Design Method of Storage Structures for MOLAP Systems of Data Warehouse)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제8권3호
    • /
    • pp.297-312
    • /
    • 2005
  • 데이터 웨어하우스의 다차원 온라인 분석처리 시스템(MOLAP)에서 집계 연산은 중요한 기본 연산이다. 기존의 MOLAP 집계 연산은 다차원 배열구조를 기반으로 한 파일구조에 대해서 연구되어 왔다. 다차원 배열구조는 편중된 분포를 갖는 데이터에서는 잘 동작하지 못한다는 단점이 있다. 본 논문에서는 편중된 분포에도 잘 동작하는 다차원 파일구조를 사용한 MOLAP 저장구조의 물리적 설계기법을 제안한다. 먼저, 균일분포를 갖는 데이터에 대해서 집계 연산처리 성능이 다차원 파일구조상의 질의 영역의 모양과 다차원 파일구조의 도메인 공간을 이루는 페이지 영역의 모양 사이의 유사성에 따라 크게 영향 받음을 보이고, 이러한 특성을 이용하여 다차원 파일구조를 설계함으로써 다차원 온라인 분석처리의 성능을 향상시킨다. 그리고 편중된 분포에 대해서는 질의 영역별로 가중치를 부여한 정규화된 질의 영역의 모양을 이용함으로써 데이터의 분포에 따른 영향을 설계에 반영한다. 또한 본 논문에서는 실험을 통하여 이론적으로 제안한 MOLAP 저장구조의 물리적 설계기법이 실제 환경에서 정확히 동작함을 보인다. 실험결과에 의하면 이차원 파일구조의 경우 집계 연산처리를 위한 저장구조의 성능이 일곱 배 이상으로 향상됨을 확인하였다. 삼차원 이상의 파일구조에 대해서는 더욱더 큰 성능향상이 예상된다. 이러한 성능의 향상은 제안된 MOLAP 저장구조의 물리적 설계기법이 매우 유용함을 나타내는 것이다.

  • PDF

개인적 차이 변수들의 중소기업제품 구매의도 영향에 대한 연구: 품질과 유통의 역할 (The Impacts of Individual Differences on Purchase Intention for Small Enterprise Products: the Roles of Quality and Channel)

  • 신지용;박성용
    • 벤처창업연구
    • /
    • 제6권4호
    • /
    • pp.75-94
    • /
    • 2011
  • 이 연구는 기존연구를 토대로 인지욕구, 독특성욕구개념이 중소기업제품의 구매의도에 어떻게 작동하는지를 알아보고 또한 자기조절이 어떤 역할을 하는지를 조사하였다. 기존연구에 의하면 일반적으로 중소기업제품을 구매하지 않으려하는 가장 큰 이유는 품질측면에서의 문제점과 유통측면에서의 문제점으로 요약할 수 있다. 만약 이러한 문제점들이 어느 정도 해결되었을 때 중소기업제품에 대한 구매의도에서 개인적 특성변수들의 영향이 어떻게 변화하는지를 알아보았다. 또한, 개인적 특성변수들 특히 심리적인 변수들을 이용하여 어떤 중소기업제품군을 구매할 것인가, 가격대비 품질과 어떤 관련성이 존재할 것인가 하는 문제에 대해 분석하여 보았다. 기존의 연구에서는 인지욕구와 독특성욕구를 사용하여 분석하였으나 대부분은 단일차원을 가정하였다. 이 연구에서는 인지욕구와 독특성욕구의 단일차원측면이 아닌 다차원으로 가정하고 이들 차원들이 서로 상이하게 작동하는 것을 보여주었다. 특히 품질과 유통측면에서의 개선 후에 소비자들의 선택에는 인지욕구와 독특성욕구의 하위차원뿐만 아니라 자기조절 초점의 차원인 촉진초점과 방어초점 모두 긍정적인 역할을 하는 것으로 나타났다. 이러한 결과는 품질과 유통측면에서의 개선이 중소기업제품을 구매하는데 있어서의 일정수준 이상의 기대치를 만족시켜주는 것으로 해석할 수 있다. 개인적 특성변수들의 군집분석 결과는 기존의 연구들에서 보여주지 못하였던, 인지욕구, 독특성욕구, 자기조절의 하위차원들이 중소기업제품군의 구매의도에 관련되어 있는지를 보여주었고, 가격대비 품질을 강조하면 할수록 중소기업제품군에 대한 구매의도는 줄어드는 것을 보여주었다.

  • PDF