• 제목/요약/키워드: Correlation based Feature Selection

검색결과 55건 처리시간 0.025초

A Clustering Approach for Feature Selection in Microarray Data Classification Using Random Forest

  • Aydadenta, Husna;Adiwijaya, Adiwijaya
    • Journal of Information Processing Systems
    • /
    • 제14권5호
    • /
    • pp.1167-1175
    • /
    • 2018
  • Microarray data plays an essential role in diagnosing and detecting cancer. Microarray analysis allows the examination of levels of gene expression in specific cell samples, where thousands of genes can be analyzed simultaneously. However, microarray data have very little sample data and high data dimensionality. Therefore, to classify microarray data, a dimensional reduction process is required. Dimensional reduction can eliminate redundancy of data; thus, features used in classification are features that only have a high correlation with their class. There are two types of dimensional reduction, namely feature selection and feature extraction. In this paper, we used k-means algorithm as the clustering approach for feature selection. The proposed approach can be used to categorize features that have the same characteristics in one cluster, so that redundancy in microarray data is removed. The result of clustering is ranked using the Relief algorithm such that the best scoring element for each cluster is obtained. All best elements of each cluster are selected and used as features in the classification process. Next, the Random Forest algorithm is used. Based on the simulation, the accuracy of the proposed approach for each dataset, namely Colon, Lung Cancer, and Prostate Tumor, achieved 85.87%, 98.9%, and 89% accuracy, respectively. The accuracy of the proposed approach is therefore higher than the approach using Random Forest without clustering.

머신러닝 기반 사회인구학적 특징을 이용한 고혈압 예측모델 (Prediction Model of Hypertension Using Sociodemographic Characteristics Based on Machine Learning)

  • 이범주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.541-546
    • /
    • 2021
  • 최근 전 세계적으로 인공지능과 머신러닝을 기반으로 임상정보를 활용한 다양한 고혈압 식별 및 예측 모델이 개발되고 있다. 그러나 고혈압 관련 모델에 대한 대부분의 선행연구는 침습적 및 고가의 분석비용을 통한 변수들이 대부분 사용되었고, 인종과 국가의 특징에 대한 고려가 충분히 제시되지 않았다. 따라서 이 연구의 목적은 일반적인 사회인구 통계학적 변수만을 사용하여 쉽게 이해할 수 있는 한국인 성인 고혈압 예측 모델을 제시하는 것이다. 이 연구에서 사용된 데이터는 질병관리청 국민건강영양조사 (2018년)를 이용하였다. 남성에서, wrapper-based feature subset selection 메소드와 naive Bayes를 이용한 모델이 가장 높은 예측 성능 (ROC = 0.790, kappa = 0.396)을 보였다. 여성의 경우, correlation-based feature subset selection 메소드와 naive Bayes를 사용한 모델이 가장 높은 예측 성능(ROC = 0.850, kappa = 0.495)을 나타내었다. 또한 모든 모델들에서 사회인구 통계학적 변수들만을 이용한 고혈압의 예측 성능이 남성보다 여성에게서 더 높게 나타나는 것을 발견하였다. 본 연구의 결과인 machine learning 기반 고혈압 예측 모델은 한국인에 대한 단순한 사회인구학적 특성만을 사용하였기 때문에 향후 공중 보건 및 역학 분야에서 쉽게 사용될 수 있을 것으로 예상된다.

유전알고리즘을 이용한 유전자발현 데이타상의 특징-분류기쌍 최적 앙상블 탐색 (Searching for Optimal Ensemble of Feature-classifier Pairs in Gene Expression Profile using Genetic Algorithm)

  • 박찬호;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.525-536
    • /
    • 2004
  • 유전발현 데이타는 생명체의 특정 조직에서 채취한 샘플을 microarray상에서 측정한 것으로, 유전자들의 발현 정도가 수치로 나타난 데이타이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현정도는 차이를 보이기 때문에, 유전발현 데이타를 통하여 질병을 분류할 수 있다. 이러한 분류에 모든 유전자들이 관여하지는 않으므로 관련 유전자를 선별하는 작업인 특징선택이 필요하며, 선택된 유전자들을 적절히 분류하는 방법이 필요하다. 본 논문에서는 상관계수, 유사도, 정보이론 등에 기반을 둔 7가지 특징선택 방법과 대표적인 6가지 분류기에 대하여 특징-분류기 쌍의 최적 앙상블을 탐색하기 위한 유전자 알고리즘 기반 방법을 제안한다. 두 가지 암 관련 유전자 발현 데이타에 대하여 leave-one-out cross validation을 포함한 실험을 해본 결과, 림프종 데이타와 대장암 데이타 모두 단일 특징-분류기 쌍보다 훨씬 우수한 성능을 보이는 앙상블들을 발견할 수 있었다.

자료 변환 기반 특징 선택과 국소적 자기상관 지수를 이용한 초분광 영상의 이상값 탐지 (Anomaly Detection from Hyperspectral Imagery using Transform-based Feature Selection and Local Spatial Auto-correlation Index)

  • 박노욱;유희영;신정일;이규성
    • 대한원격탐사학회지
    • /
    • 제28권4호
    • /
    • pp.357-367
    • /
    • 2012
  • 이 논문에서는 초분광 영상으로부터 이상값을 탐지하기 위해 자료 변환 기반 특징 추출과 선정 및 국소적 자기상관지수를 이용하는 2단계 방법론을 제안한다. 초분광 영상이 제공하는 중복된 분광 정보들의 축약을 위해 우선적으로 주성분 변환과 3차원 웨이브렛 변환을 적용하였다. 그리고 축약된 자료 변환 기반 특징을 대상으로 왜도와 국소적 왜도 비율을 함께 고려하여 이상값 탐지를 위한 유효 특징을 선정하였다. 최종적으로 기존 분광 정보만을 이용하는 이상값 탐지 방법론들에 공간 자기상관성을 함께 고려할 수 있도록 국소적 자기상관지수(LISA)를 이상값 탐지 방법론으로 적용하였다. 제안 방법론의 적용성 평가를 위해 항공 CASI 자료를 대상으로 한 실험을 수행하였다. 실험 결과, 기존 분광 정보만을 고려하는 RX detector나 고유값 기반 주요 주성분만을 이용하는 경우에 비해 유효 특징 선정과 연계된 LISA 통계값이 높은 탐지 능력을 나타내었다. 또한 3차원 웨이브렛 변환 기반 저주파와 고주파 특징들을 결합한 경우가 유효 주성분을 사용하는 경우에 비해 가장 높은 탐지 성능을 나타냈다.

An Efficient Face Recognition using Feature Filter and Subspace Projection Method

  • Lee, Minkyu;Choi, Jaesung;Lee, Sangyoun
    • Journal of International Society for Simulation Surgery
    • /
    • 제2권2호
    • /
    • pp.64-66
    • /
    • 2015
  • Purpose : In this paper we proposed cascade feature filter and projection method for rapid human face recognition for the large-scale high-dimensional face database. Materials and Methods : The relevant features are selected from the large feature set using Fast Correlation-Based Filter method. After feature selection, project them into discriminant using Principal Component Analysis or Linear Discriminant Analysis. Their cascade method reduces the time-complexity without significant degradation of the performance. Results : In our experiments, the ORL database and the extended Yale face database b were used for evaluation. On the ORL database, the processing time was approximately 30-times faster than typical approach with recognition rate 94.22% and on the extended Yale face database b, the processing time was approximately 300-times faster than typical approach with recognition rate 98.74 %. Conclusion : The recognition rate and time-complexity of the proposed method is suitable for real-time face recognition system on the large-scale high-dimensional face database.

단위 선택 기반의 음성 변환 (Feature Selection-based Voice Transformation)

  • 이기승
    • 한국음향학회지
    • /
    • 제31권1호
    • /
    • pp.39-50
    • /
    • 2012
  • A voice transformation (VT) method that can make the utterance of a source speaker mimic that of a target speaker is described. Speaker individuality transformation is achieved by altering three feature parameters, which include the LPC cepstrum, pitch period and gain. The main objective of this study involves construction of an optimal sequence of features selected from a target speaker's database, to maximize both the correlation probabilities between the transformed and the source features and the likelihood of the transformed features with respect to the target model. A set of two-pass conversion rules is proposed, where the feature parameters are first selected from a database then the optimal sequence of the feature parameters is then constructed in the second pass. The conversion rules were developed using a statistical approach that employed a maximum likelihood criterion. In constructing an optimal sequence of the features, a hidden Markov model (HMM) was employed to find the most likely combination of the features with respect to the target speaker's model. The effectiveness of the proposed transformation method was evaluated using objective tests and informal listening tests. We confirmed that the proposed method leads to perceptually more preferred results, compared with the conventional methods.

적응적 상관도를 이용한 주성분 변수 선정에 관한 연구 (A Study on Selecting Principle Component Variables Using Adaptive Correlation)

  • 고명숙
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권3호
    • /
    • pp.79-84
    • /
    • 2021
  • 고차원의 데이터를 처리하기 위해서는 데이터의 성질을 유지하면서 특징을 잘 반영할 수 있는 특징 추출 방법이 필요하다. 주성분분석 방법은 고차원 데이터에 포함된 정보를 저차원의 데이터로 변환하여 원래 데이터의 변수 수보다 적은 수의 변수로 고차원 데이터를 표현 할 수 있는 방법으로서 데이터의 특징 추출을 위한 대표적인 방법이다. 본 연구에서는 데이터가 고차원인 경우 데이터 특징 추출을 위한 주성분 분석에 있어서 주성분 변수 선정 시 적응적 상관도를 기반으로 한 주성분 분석 방법을 제안한다. 제안하는 방법은 입력 데이터간의 상관 관계를 기반으로 상관도를 적응적으로 반영하여 데이터의 주성분을 분석함으로써 다른 여러 변수에 중복적으로 상관도가 높은 변수와 주성분을 유도하는데 연관성이 적은 변수를 주성분 변수 후보 대상에서 제외시키고자 한다. 고유벡터 계수 값에 의한 주성분 위계를 분석하고 위계가 낮은 주성분이 변수로 선정이 되는 것을 막고 또한 상관 분석을 통하여 데이터의 중복 발생이 데이터 편향을 유도하는 것을 최소화하 하고자 한다. 이를 통하여 주성분 변수 선정 시 데이터 편향성의 영향을 줄임으로써 실제 데이터의 특징을 잘 나타내는 주성분 변수를 선정하는 방법을 제안하고자 한다.

퍼지의사결정법에 기반한 대학의 컴퓨터교육 만족도 분석 (An analysis of satisfaction index on computer education of university based on Fuzzy Decision Making Method)

  • 류경현;황병곤
    • 한국멀티미디어학회논문지
    • /
    • 제16권4호
    • /
    • pp.502-509
    • /
    • 2013
  • 정보화시대에 대학에서의 교양 컴퓨터교육과정은 컴퓨터에 대한 소양을 쌓고 정보화 사회에 능동적으로 대처할 수 있는 능력을 배양하여 생산성 향상은 물론 국가 간의 경쟁력에서 뒤지지 않게 하는데 목표를 두고 있다. 본 논문에서는 대학생을 대상으로 컴퓨터교육 만족도에 영향을 미치는 결정적인 변인의 발견 및 만족도를 분석한다. 전처리과정으로 자바 기반의 기계 학습 도구인 상관에의한 특성선택을 사용하여 최적의 변인을 선택한다. 그리고 퍼지의사결정법에 기반하여 각 변인의 가중치를 사용하여 최적의 변인을 생성하였다. 본 논문의 연구결과는 컴퓨터교육 만족도 자료의 분석에서 퍼지의사결정법을 제안하고, 재현율과 정밀도 분석에 의해 만족도 평가에 대한 정확성을 확인하였다.

Automated Detection of Retinal Nerve Fiber Layer by Texture-Based Analysis for Glaucoma Evaluation

  • Septiarini, Anindita;Harjoko, Agus;Pulungan, Reza;Ekantini, Retno
    • Healthcare Informatics Research
    • /
    • 제24권4호
    • /
    • pp.335-345
    • /
    • 2018
  • Objectives: The retinal nerve fiber layer (RNFL) is a site of glaucomatous optic neuropathy whose early changes need to be detected because glaucoma is one of the most common causes of blindness. This paper proposes an automated RNFL detection method based on the texture feature by forming a co-occurrence matrix and a backpropagation neural network as the classifier. Methods: We propose two texture features, namely, correlation and autocorrelation based on a co-occurrence matrix. Those features are selected by using a correlation feature selection method. Then the backpropagation neural network is applied as the classifier to implement RNFL detection in a retinal fundus image. Results: We used 40 retinal fundus images as testing data and 160 sub-images (80 showing a normal RNFL and 80 showing RNFL loss) as training data to evaluate the performance of our proposed method. Overall, this work achieved an accuracy of 94.52%. Conclusions: Our results demonstrated that the proposed method achieved a high accuracy, which indicates good performance.

Generate Optimal Number of Features in Mobile Malware Classification using Venn Diagram Intersection

  • Ismail, Najiahtul Syafiqah;Yusof, Robiah Binti;MA, Faiza
    • International Journal of Computer Science & Network Security
    • /
    • 제22권7호
    • /
    • pp.389-396
    • /
    • 2022
  • Smartphones are growing more susceptible as technology develops because they contain sensitive data that offers a severe security risk if it falls into the wrong hands. The Android OS includes permissions as a crucial component for safeguarding user privacy and confidentiality. On the other hand, mobile malware continues to struggle with permission misuse. Although permission-based detection is frequently utilized, the significant false alarm rates brought on by the permission-based issue are thought to make it inadequate. The present detection method has a high incidence of false alarms, which reduces its ability to identify permission-based attacks. By using permission features with intent, this research attempted to improve permission-based detection. However, it creates an excessive number of features and increases the likelihood of false alarms. In order to generate the optimal number of features created and boost the quality of features chosen, this research developed an intersection feature approach. Performance was assessed using metrics including accuracy, TPR, TNR, and FPR. The most important characteristics were chosen using the Correlation Feature Selection, and the malicious program was categorized using SVM and naive Bayes. The Intersection Feature Technique, according to the findings, reduces characteristics from 486 to 17, has a 97 percent accuracy rate, and produces 0.1 percent false alarms.