• 제목/요약/키워드: Subset selection

검색결과 203건 처리시간 0.027초

데이터 이산화와 러프 근사화 기술에 기반한 중요 임상검사항목의 추출방법: 담낭 및 담석증 질환의 감별진단에의 응용 (Extraction Method of Significant Clinical Tests Based on Data Discretization and Rough Set Approximation Techniques: Application to Differential Diagnosis of Cholecystitis and Cholelithiasis Diseases)

  • 손창식;김민수;서석태;조윤경;김윤년
    • 대한의용생체공학회:의공학회지
    • /
    • 제32권2호
    • /
    • pp.134-143
    • /
    • 2011
  • The selection of meaningful clinical tests and its reference values from a high-dimensional clinical data with imbalanced class distribution, one class is represented by a large number of examples while the other is represented by only a few, is an important issue for differential diagnosis between similar diseases, but difficult. For this purpose, this study introduces methods based on the concepts of both discernibility matrix and function in rough set theory (RST) with two discretization approaches, equal width and frequency discretization. Here these discretization approaches are used to define the reference values for clinical tests, and the discernibility matrix and function are used to extract a subset of significant clinical tests from the translated nominal attribute values. To show its applicability in the differential diagnosis problem, we have applied it to extract the significant clinical tests and its reference values between normal (N = 351) and abnormal group (N = 101) with either cholecystitis or cholelithiasis disease. In addition, we investigated not only the selected significant clinical tests and the variations of its reference values, but also the average predictive accuracies on four evaluation criteria, i.e., accuracy, sensitivity, specificity, and geometric mean, during l0-fold cross validation. From the experimental results, we confirmed that two discretization approaches based rough set approximation methods with relative frequency give better results than those with absolute frequency, in the evaluation criteria (i.e., average geometric mean). Thus it shows that the prediction model using relative frequency can be used effectively in classification and prediction problems of the clinical data with imbalanced class distribution.

정보 입자화를 통한 방사형 기저 함수 기반 다항식 신경 회로망의 진화론적 설계 (Evolutionary Design of Radial Basis Function-based Polynomial Neural Network with the aid of Information Granulation)

  • 박호성;진용하;오성권
    • 전기학회논문지
    • /
    • 제60권4호
    • /
    • pp.862-870
    • /
    • 2011
  • In this paper, we introduce a new topology of Radial Basis Function-based Polynomial Neural Networks (RPNN) that is based on a genetically optimized multi-layer perceptron with Radial Polynomial Neurons (RPNs). This study offers a comprehensive design methodology involving mechanisms of optimization algorithms, especially Fuzzy C-Means (FCM) clustering method and Particle Swarm Optimization (PSO) algorithms. In contrast to the typical architectures encountered in Polynomial Neural Networks (PNNs), our main objective is to develop a design strategy of RPNNs as follows : (a) The architecture of the proposed network consists of Radial Polynomial Neurons (RPNs). In here, the RPN is fully reflective of the structure encountered in numeric data which are granulated with the aid of Fuzzy C-Means (FCM) clustering method. The RPN dwells on the concepts of a collection of radial basis function and the function-based nonlinear (polynomial) processing. (b) The PSO-based design procedure being applied at each layer of RPNN leads to the selection of preferred nodes of the network (RPNs) whose local characteristics (such as the number of input variables, a collection of the specific subset of input variables, the order of the polynomial, and the number of clusters as well as a fuzzification coefficient in the FCM clustering) can be easily adjusted. The performance of the RPNN is quantified through the experimentation where we use a number of modeling benchmarks - NOx emission process data of gas turbine power plant and learning machine data(Automobile Miles Per Gallon Data) already experimented with in fuzzy or neurofuzzy modeling. A comparative analysis reveals that the proposed RPNN exhibits higher accuracy and superb predictive capability in comparison to some previous models available in the literature.

다중시기 SAR 영상을 이용한 시계열 변위 관측기법 비교 분석 (A Comparison of InSAR Techniques for Deformation Monitoring using Multi-temporal SAR)

  • 김상완
    • 대한원격탐사학회지
    • /
    • 제26권2호
    • /
    • pp.143-151
    • /
    • 2010
  • 다중시기에 획득된 SAR 영상을 이용하여 지표에서 발생하는 변위의 시계열 관측을 위한 기법에 대한 비교 분석을 수행하였다. 고정산란체를 이용한 PSInSAR 기법은 구속화된 위상을 이용하기 때문에 알고리즘의 많은 부분이 비선형 방정식을 포함하고 있어, 알고리즘 적용에 많은 주의를 필요로 한다. 특히 알고리즘 첫 단계인 고정산란체 후보의 적합한 선택 여부에 따라 알고리즘의 실행이 크게 영향을 받음을 확인하였다. 한편 짧은 기선거리를 갖는 간섭쌍을 사용하는 SBAS 기법은 입력 자료인 불구속화된 간섭도의 정확도에 따라 결과의 신뢰성이 크게 영향을 받는다. 따라서 시계열 분석에 사용되는 차분간섭도 위상의 unwrapping이 적절하게 수행될 수 있을 경우 SBAS 방법을 사용한 시계열 분석이 적절하며, unwrapping 오차가 발생할 가능성이 높은 좁은 지역에서 발생하는 국지적인 변위 관측에는 고정산란체를 이용하는 PSInSAR 기법이 적절하다. 미국 라스베가스 지역에서 1992년부터 2000년 동안 획득된 51개의 ERS-1/2 SAR 영상을 PSInSAR 기법 및 SBAS 기법에 적용하여 지표변위도를 구하였으며, 이들 간의 비교 분석을 통해 두 방법의 결과는 매우 유사하나, 다소 국지적인 지표변위는 PSInSAR 기법의 관측이 유리한 것으로 판단되었다.

hERG 이온채널 저해제에 대한 2D-QSAR 분석 (2D-QSAR analysis for hERG ion channel inhibitors)

  • 전을혜;박지현;정진희;이성광
    • 분석과학
    • /
    • 제24권6호
    • /
    • pp.533-543
    • /
    • 2011
  • hERG (human ether-a-go-go related gene) 이온채널은 심장 재분극의 중요 요소이며 이 채널의 저해제는 부정맥과 돌연사를 유발할 수 있다. 따라서, 신약개발과정에서 후보물질이 hERG 이온채널의 잠재적인 저해제일 경우에는 심장독성 부작용을 유발하므로, 이를 최소화하고자 많은 노력이 집중되고 있다. 본 연구는 HEK(인간 배아 신장)세포에서 얻은 202개 유기화합물의 $IC_{50}$ 데이터를 이용하여 2차원 구조-활성의 정량적 관계(2D-QSAR)방법으로 예측하는 모델을 개발하였다. hERG이온채널 저해제의 기계 학습방법으로는 다중선형회귀(Multiple Linear Regression), 서포트 벡터 머신(Support Vector Machine: SVM)방법과 인공신경망(Artificial Neural Network)방법이며, 교차검증을 적용한 모집단 기반 전진선택(forward selection)방법과 결합하여 각 학습모델에 적합한 최적의 표현자들을 결정하였다. 가장 우수한 방법은 14종의 표현자를 사용한 인공신경망방법($R^2_{CV}$=0.617, RMSECV=0.762, MAECV=0.583)이었고, 다중선형회귀방법을 통해서 hERG이온채널 저해물질의 구조적 특징과 수용체와의 상호작용을 설명할 수 있다. QSAR모델의 검증은 교차검증과 Y-scrambling test방법으로 수행하였다.

k-Nearest Neighbor 알고리즘을 이용한 도심 내 주요 도로 구간의 교통속도 단기 예측 방법 (Short-Term Prediction of Vehicle Speed on Main City Roads using the k-Nearest Neighbor Algorithm)

  • 모하메드 아리프 라시이디;김정민;류광렬
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.121-131
    • /
    • 2014
  • 교통속도는 교통 문제를 해결하기 위한 중요한 지표 중 하나이다. 이를 이용하여 교통혼잡 탐지, 주행 시간 예측, 도로 설계와 같은 다양한 문제 해결에 활용할 수 있다. 따라서 정확한 교통속도 예측은 지능형 교통 시스템의 개발에 있어 필수적인 요소라고 할 수 있다. 본 논문에서는 대한민국 부산시의 특정 도로를 대상으로 교통 속도에 대한 분석 및 예측을 수행하였다. 과거 연구에서는 대상 도로의 속도 예측을 위해 과거 대상 도로의 교통속도 이력 데이터만을 사용하였다. 그러나 실제 대상 도로의 교통 상황은 인접한 도로의 교통 상황의 영향을 받게 된다. 따라서 본 논문에서는 실제 부산시의 과거 교통속도 이력 데이터를 기반으로 대상 도로와 인접 도로를 모두 고려하여 교통속도 예측 모델의 학습을 위한 속성을 추출하였다. 이와 같이 후보 속성들을 추출 한 후 선형 회귀 (linear regression), 모델 트리 (model tree) 및 k-nearest neighbor (k-NN) 기법을 이용하여 속성의 부분집합 선택 (feature subset selection)과 교통속도 예측 모델 생성을 수행하였다. 실험 결과 주어진 교통 데이터에서 k-NN 기법은 선형 회귀 및 모델 트리 기법에 비해 평균절대백분율오차 (mean absolute percent error, MAPE)와 제곱근평균제곱오차 (root mean squared error, RMSE) 측면에서 더 나은 성능을 보임을 확인하였다.

미분진화 기반의 초단기 호우예측을 위한 특징 선택 (Feature Selection to Predict Very Short-term Heavy Rainfall Based on Differential Evolution)

  • 서재현;이용희;김용혁
    • 한국지능시스템학회논문지
    • /
    • 제22권6호
    • /
    • pp.706-714
    • /
    • 2012
  • 본 논문에서는 대한민국의 국립기상연구소에서 제공한 최근 4년간의 데이터를 훈련 데이터, 검증 데이터 및 테스트 데이터로 나누어 초단기 호우 예측을 하고자 한다. 우리는 데이터 셋을 훈련 데이터, 검증 데이터와 테스트 데이터 세 부분으로 나눴다. 데이터의 차원이 커짐에 따라 해 공간의 크기가 지수적으로 증가하여 실험의 속도가 현저히 떨어지는 문제를 피하기 위하여 72개의 특징들 중에서 주요한 특징들만을 선택하게 되었다. 예측의 정확도를 높이기 위해 미분진화 알고리즘을 사용하였고, 진화연산의 적합도 함수로 두 개의 분류기를 선택하였는데, 일반적으로 우수한 성능을 보이는 서포트 벡터 머신(SVM)과 분류 속도가 빠른 최근린법(k-NN)을 사용하였다. 또한, 실험에 사용할 데이터 가공을 위해 언더샘플링과 정규화를 하였다. 진화연산의 적합도 함수로 SVM 분류기를 사용하였을 때 실험 결과가 대체로 우수하였는데, 미분진화 알고리즘 실험은 모든 특징을 선택한 실험보다 약 5 배 정도 우수한 성능을 보였고, 유전 알고리즘을 사용한 실험보다 약 1.36 배 정도 더 우수한 성능을 보였다. 실험 속도 면에서는 미분진화 알고리즘을 사용한 실험이 유전 알고리즘을 사용한 실험보다 약 20배 이상 실험 시간이 단축되었다.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.

주식 시장 예측을 위한 π-퍼지 논리와 SVM의 최적 결합 (An Optimized Combination of π-fuzzy Logic and Support Vector Machine for Stock Market Prediction)

  • 다오두안훙;안현철
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.43-58
    • /
    • 2014
  • 최근 정보기술의 발전으로 복잡하고 방대한 양의 주가 데이터에 대한 실시간 분석이 가능해지면서 인공지능 기법을 활용해 주식 시장의 등락을 예측하고, 이를 기반으로 매매 거래를 수행하는 트레이딩 시스템에 대한 세간의 관심이 높아지고 있다. 본 연구는 이러한 트레이딩 시스템의 시장 예측 알고리즘으로 활용될 수 있는 새로운 주식 시장 등락 예측 모형을 제시한다. 본 연구의 제안 모형은 ${\pi}$-퍼지 논리를 이용해 모든 입력변수의 차원을 low, medium, high로 퍼지변환한 입력값을 대상으로 Support Vector Machine(SVM)을 적용하여 익일 시장의 등락을 예측하도록 설계되었다. 그런데 이 경우 입력변수의 수가 3배로 늘어나기 때문에, 적절한 입력변수의 선택이 요구된다. 이에 본 연구에서는 유전자 알고리즘을 활용하여 입력변수 선택 집합을 최적화하도록 하였으며, 동시에 ${\pi}$-퍼지 논리 및 SVM에 적용되는 조절 파라미터들의 값도 함께 최적화 하도록 하였다. 모형의 성능을 검증하기 위해, 본 연구에서는 지난 2004년부터 2013년까지의 10년치 국내 주식시장 데이터를 기반으로 한 KOSPI 200 지수의 등락 예측에 제안모형을 적용해 보았다. 이 때, 비교모형으로 로지스틱 회귀모형, 다중판별분석, 의사결정나무, 인공신경망, SVM, 퍼지SVM 등도 함께 적용시켜 성과를 정밀하게 검증해 보고자 하였다. 그 결과, 제안모형이 예측 정확도는 물론 투자수익률(Return on Investment) 측면에서도 다른 모든 비교모형들에 비해 월등히 우수한 성능을 보임을 확인할 수 있었다.

A Novel Compressed Sensing Technique for Traffic Matrix Estimation of Software Defined Cloud Networks

  • Qazi, Sameer;Atif, Syed Muhammad;Kadri, Muhammad Bilal
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권10호
    • /
    • pp.4678-4702
    • /
    • 2018
  • Traffic Matrix estimation has always caught attention from researchers for better network management and future planning. With the advent of high traffic loads due to Cloud Computing platforms and Software Defined Networking based tunable routing and traffic management algorithms on the Internet, it is more necessary as ever to be able to predict current and future traffic volumes on the network. For large networks such origin-destination traffic prediction problem takes the form of a large under- constrained and under-determined system of equations with a dynamic measurement matrix. Previously, the researchers had relied on the assumption that the measurement (routing) matrix is stationary due to which the schemes are not suitable for modern software defined networks. In this work, we present our Compressed Sensing with Dynamic Model Estimation (CS-DME) architecture suitable for modern software defined networks. Our main contributions are: (1) we formulate an approach in which measurement matrix in the compressed sensing scheme can be accurately and dynamically estimated through a reformulation of the problem based on traffic demands. (2) We show that the problem formulation using a dynamic measurement matrix based on instantaneous traffic demands may be used instead of a stationary binary routing matrix which is more suitable to modern Software Defined Networks that are constantly evolving in terms of routing by inspection of its Eigen Spectrum using two real world datasets. (3) We also show that linking this compressed measurement matrix dynamically with the measured parameters can lead to acceptable estimation of Origin Destination (OD) Traffic flows with marginally poor results with other state-of-art schemes relying on fixed measurement matrices. (4) Furthermore, using this compressed reformulated problem, a new strategy for selection of vantage points for most efficient traffic matrix estimation is also presented through a secondary compression technique based on subset of link measurements. Experimental evaluation of proposed technique using real world datasets Abilene and GEANT shows that the technique is practical to be used in modern software defined networks. Further, the performance of the scheme is compared with recent state of the art techniques proposed in research literature.

Loss of p15INK4b Expression in Colorectal Cancer is Linked to Ethnic Origin

  • Abdel-Rahman, Wael Mohamed;Nieminen, Taina Tuulikki;Shoman, Soheir;Eissa, Saad;Peltomaki, Paivi
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제15권5호
    • /
    • pp.2083-2087
    • /
    • 2014
  • Colorectal cancers remain to be a common cause of cancer-related death. Early-onset cases as well as those of various ethnic origins have aggressive clinical features, the basis of which requires further exploration. The aim of this work was to examine the expression patterns of $p15^{INK4b}$ and SMAD4 in colorectal carcinoma of different ethnic origins. Fifty-five sporadic colorectal carcinoma of Egyptian origin, 25 of which were early onset, and 54 cancers of Finnish origin were immunohistochemically stained with antibodies against $p15^{INK4b}$ and SMAD4 proteins. Data were compared to the methylation status of the $p15^{INK4b}$ gene promotor. $p15^{INK4b}$ was totally lost or deficient (lost in ${\geq}50%$ of tumor cell) in 47/55 (85%) tumors of Egyptian origin as compared to 6/50 (12%) tumors of Finnish origin (p=7e-15). In the Egyptian cases with $p15^{INK4b}$ loss and available $p15^{INK4b}$ promotor methylation status, 89% of cases which lost $p15^{INK4b}$ expression were associated with $p15^{INK4b}$ gene promotor hypermethylation. SMAD4 was lost or deficient in 25/54 (46%) tumors of Egyptian origin and 28/48 (58%) tumors of Finnish origin. 22/54 (41%) Egyptian tumors showed combined loss/deficiency of both $p15^{INK4b}$ and SMAD4, while $p15^{INK4b}$ was selectively lost/deficient with positive SMAD4 expression in 24/54 (44%) tumors. Loss of $p15^{INK4b}$ was associated with older age at presentation (>50 years) in the Egyptian tumors (p=0.04). These data show for the first time that $p15^{INK4b}$ loss of expression marks a subset of colorectal cancers and ethnic origin may play a role in this selection. In a substantial number of cases, the loss was independent of SMAD4 but rather associated with $p15^{INK4b}$ gene promotor hypermethylation and old age which could be related to different environmental exposures.