• 제목/요약/키워드: 전진선택법

검색결과 29건 처리시간 0.023초

전진 선택법을 이용한 유전자 발현정보 기반의 암 분류 (Cancer Classification with Gene Expression Profiles using Forward Selection Method)

  • 유시호;조성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.293-296
    • /
    • 2003
  • 유전 발현 데이터는 생명체의 특정 조직에서 채취한 샘플을 microarray상에서 측정한 것으로 유전자들의 발현 정도가 수치로 나타난 데이터이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현 정도는 차이를 보이기 때문에, 유전발현 데이터를 통하여 암을 분류할 수 있다. 하지만 분류에 모든 유전자가 관여하지는 않으므로 관련성 있는 유전자만을 선별해내는 작업인 특징 선택방법이 필요하다. 본 논문에서는 회귀분석의 변수선택방법중 하나인 전진 선택법(forward selection method)을 사용하여 유전자들을 선택하고 분류하는 방법을 제안한다. 실험데이터는 대장암 데이트를 사용하였고, 분류기는 KNN을 사용하였다. 이 방법과 상관계수를 이용한 특징 선택 방법인 피어슨 상관계수와 스피어맨 상관계수방법과 비교해본 결과 전진 선택법에 의한 특징 선택방법이 암의 분류에 있어서 더 효과적인 유전자 선택을 한다는 사실을 확인하였다. 실험결과 90.3%의 높은 인식률을 보였다.

  • PDF

전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류 (Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method)

  • 유시호;조성배
    • 대한전자공학회논문지SP
    • /
    • 제41권3호
    • /
    • pp.83-92
    • /
    • 2004
  • 유전 발현 데이터는 생명체의 특정 조직에서 채취한 샘플을 마이크로어레이상에서 측정한 것으로, 유전자들의 발현 정도가 수치로 나타난 데이터이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현 정도는 차이를 보이기 때문에 유전 발현 데이터를 통하여 암을 분류할 수 있다. 그러나 분류에 모든 유전자가 관여하지는 않으므로 효율적인 암의 분류를 위해서는 관련성 있는 소수의 유전자만을 선별해내는 작업인 특징선택 방법이 필요하다. 본 논문에서는 회귀분석의 변수선택방법중 하나인 전진 선택법(forward selection method)을 사용하여 유전자들을 선하고 분류하는 방법을 제안한다. 이 방법은 선택되는 유전자들의 중복된 정보를 최소화시켜 암의 분류에 있어 보다 효과적인 유전자 선택을 한다. 실험데이터는 대장암 데이터(Colon cancer dataset)를 사용하였고, 분류기는 k-최근접 이웃(KNN)을 사용하였다. 이 방법과 상관계수를 이용한 특징 선택방법인 피어슨 상관계수와 스피어맨 상관계수방법과 비교해본 결과 전진 선택법에 의한 특징선택 방법이 암의 분류에 있어서 더 효과적인 유전자 선택을 한다는 사실을 확인하였다. 실험결과 90.3%의 높은 인식률을 보였다. 추가적으로 림프종 데이터에 대한 실험을 하였고, 그 결과 전진 선택법의 유용성을 확인할 수 있었다.

조건부 상호정보를 이용한 분류분석에서의 변수선택 (Efficient variable selection method using conditional mutual information)

  • 안치경;김동욱
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.1079-1094
    • /
    • 2014
  • 상호정보 (mutual information)를 이용한 변수 선택법은 반응변수와 설명변수간의 선형적인 연관성뿐만 아니라 비선형적인 연관성을 감지하며, 설명변수 사이의 연관성도 고려하는 좋은 변수선택 방법이다. 하지만 고차원 자료에서 상호정보를 추정하기가 쉽지 않아 이에 대한 연구가 필요하다. Cai 등 (2009)은 조건부 상호정보를 이용한 전진선택법과 가지치기법을 이용하여 이러한 문제를 해결하였으며, 마이크로어레이 자료와 같은 고차원 자료에서 조건부 상호정보를 이용한 변수 선택법으로 선택된 변수들로 구성된 SVM의 분류 성능이 SVM-RFE 및 기존의 필터링 방법으로 선택된 변수들로 구성된 SVM의 분류 성능보다 뛰어남을 보였다. 하지만 조건부 상호정보를 추정할 때 사용된 Parzen window 방법은 변수의 수가 많아질수록 변수 선택 시간이 길어지는 단점으로 인해 이에 대한 보완이 필요하다. 본 논문에서는 조건부 상호정보 계산 시 필요한 설명변수의 분포를 다변량 정규분포로 가정함으로써 변수선택을 위한 계산시간을 단축시키며 동시에 변수선택의 성능을 향상시키고자 한다. 반면, 설명변수의 분포를 다변량 정규분포로 가정한다는 것은 강한 제약이 될 수 있으므로 이를 완화시킨 Edgeworth 근사를 이용한 조건부 상호정보 기반의 변수 선택법을 제안한다. 실증분석을 통해 본 논문에서 제안한 방법의 효율성을 살펴보았으며, 기존의 조건부 상호정보 기반 변수 선택법에 비해 계산 속도나 분류 성능 면에서 우수함을 보였다.

다중회귀모형에서 전진선택과 후진제거의 기하학적 표현 (Geometrical description based on forward selection & backward elimination methods for regression models)

  • 홍종선;김명진
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권5호
    • /
    • pp.901-908
    • /
    • 2010
  • 다중회귀모형에서 변수선택법 중에서 전진선택과 후진제거의 과정을 기하학적으로 표현하는 그래픽적 방법을 제안한다. 반지름이 1인 반원의 제1사분면에는 전진선택 과정을, 제2사분면에는 후진제거 과정을 표현한다. 각 단계에서 회귀제곱합을 벡터로 표현하고, 추가제곱합 또는 부분결정계수를 벡터 사이의 각도로 나타내며 벡터의 끝을 연결할 때 통계적으로 유의하면 점선으로 표현하여 부분가설검정의 통계적 분석결과를 인지할 수 있도록 작성한다. 이 방법을 이용하면 전진선택과 후진제거 방법에 의한 최종모형을 비교 분석하고 전체적으로 모형의 적합도를 파악할 수 있다.

부분선형모형에서 LARS를 이용한 변수선택 (Variable selection in partial linear regression using the least angle regression)

  • 서한손;윤민;이학배
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.937-944
    • /
    • 2021
  • 본 연구는 부분선형모형에서 변수선택의 문제를 다룬다. 부분선형모형은 평활화모수 추정과 같은 비모수 추정과 선형설명변수에 대한 추정의 문제를 함께 포함하고 있어 변수선택이 쉽지 않다. 본 연구에서는 빠른 전진선택법인 LARS 를 이용한 변수선택법을 제시한다. 제안된 방법은 LARS에 의하여 선별된 변수들에 대하여 t-검정, 가능한 모든 회귀모형 비교 또는 단계별 선택법을 적용한다. 제안된 방법들의 효율성을 비교하기 위하여 실제데이터에 적용한 예제와 모의실험 결과가 제시된다.

네트웍 구조의 다중 단말 신뢰도 (K-Terminal Network Reliability)

  • 김국;송기원
    • 한국신뢰성학회:학술대회논문집
    • /
    • 한국신뢰성학회 2005년도 학술발표대회 논문집
    • /
    • pp.271-278
    • /
    • 2005
  • 시점이 1개 있고 연결되어야 할 단말이 다수개인 K-terminal 네트웍의 신뢰도 구조에서 신뢰도를 구하는 알고리즘을 제안하였다. 네트웍 구조의 신뢰도 계산은 일반으로 NP-hard 문제인데 여기서 새로운 해법을 제안한다. 두 가지 개념이 중요한 점인데 첫째는 분해법이고 두 번째는 재귀식 계산 방법이 가능한 점이다. 분해법을 할 때 키스톤 부품을 찾아내는 번거로운 절차 대신 시점으로 부터 전진방향(forward)으로 하나씩 구성품을 선택하여 분해한다. 이러한 방법은 어떠한 키스톤 부품을 선택해야 할지 기준을 생각할 필요가 없으므로 간단하며 알고리즘을 간단하게 만든다. 또한 이 방법에서는 분해에 의해서 두 개의 하위 문제가 생성되고 원 문제와 재귀관계를 수립할 수 있다. 이러한 재귀식 알고리즘은 컴퓨터 프로그램을 간단하게 만든다. 또한 하위 문제는 기억장치에 저장해 두고 차례로 계산에 사용한다.

  • PDF

수정 결정계수를 사용한 로지스틱 회귀모형에서의 변수선택법 (Variable Selection for Logistic Regression Model Using Adjusted Coefficients of Determination)

  • 홍종선;함주형;김호일
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.435-443
    • /
    • 2005
  • 로지스틱 회귀모형에서 결정계수는 선형 회귀모형보다 다양하게 정의되며 그 값들도 매우 작아 로지스틱 회귀모형 평가기준으로 사용되는 통계량이 라고 할 수 없다. Liao와 McGee(2003)는 부적절한 설명변수의 추가 또는 표본크기의 변화에 민감하지 않은 두 종류의 수정 결정계수를 제안하였다. 본 연구에서는 실제자료에 적용한 로지스틱 회귀모형에서 수정 결정계수를 포함한 네 종류의 결정계수들을 변수선택의 기준으로 사용하여 기존의 변수선택 방법인 전진선택, 후진제거, 단계적 선택방법, AIC 통계량 등을 사용한 방법들과 비교하여 그 적절함과 효율성을 토론한다.

신경생리학적(神經生理學的) 동물실험(動物實驗) (The Neurophysiological Approaches in Animal Experiments)

  • 전진숙
    • 생물정신의학
    • /
    • 제5권1호
    • /
    • pp.3-16
    • /
    • 1998
  • 동물에서 전기현상은 1773년 최초로 발견되었으며, 최근에는 이론과 기술적 면에서의 현저한 발전으로 뇌기능의 기전을 밝히는 도구로서, 또한 심리적 과정에 근저한 행동 및 신경생리학적 기전을 규명하는데 유용하게 사용되고 있을 뿐만아니라 치료적 목적으로도 사용되고 있다. 저자는 뇌와 행동의 기전을 연구하는 한 방법으로서 신경생리학적 접근에 흔히 사용되는 기본적인 기법을 간략히 정리해 보았다. 여기서는 주로 전기생리학적 기법에 중점을 둘 것이나, 병소화와 자극의 부위를 확인하는데 필요한 신경해부학적 기법에 대해서도 간단히 언급하였다. 실험동물의 선택, 실험동물의 관리, 실험동물의 마취에 있어서 약물투여의 원칙, 투여경로 및 용량 등 동물실험에 있어서 기본적으로 알아야할 사항에 대해서 실제적으로 언급하였다. 전기생리학적 실험에 필요한 정위법, 비선택적 및 선택적 병소화 기법, 전기적 자극법(일반적인 방법, 세포외 및 세포내 자극, 미세자극법, 뇌의 심부자극), 측정 및 기록을 위한 제반 기법을 소개하고 실예를 보여주며, 조직학적인 부위 확인을 위해 필요한 일연의 과정으로서 심장내관류법과 흔히 사용되는 신경계의 염색법에 대해서 간략히 설명하였다. 또한 기능상의 변화를 측정하는데 필요한 행동검사의 종류도 언급하였다. 신경생리학적 연구 방법은 뇌와 행동의 관계를 밝히는데 널리 사용되고 있다. 저자는 신경생리학적 동물실험에 많이 쓰이고 있는 기법으로서 정위법, 병소만들기, 전기적 자극, 측정 및 기록, 조직학적 부위 확인 등 일연의 과정에 대해 간략히 설명하였다. 그러나 이러한 연구의 결과는 신경화학적 연구, 기능을 점검해 볼 수 있는 행동학적 연구로서 보완이 될 때에 믿을만한 결론을 도출해 낼 수 있을 것으로 생각된다.

  • PDF

대학 평가지표들에 대한 상관분석과 변수선택에 의한 선형모형추정 (The correlation and regression analyses based on variable selection for the university evaluation index)

  • 송필준;김종태
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권3호
    • /
    • pp.457-465
    • /
    • 2012
  • 본 연구의 목적은 한국대학교육협의회 대학정보공시센터의 '대학알리미'에서 주요 대학지표들을 분석하고, 지표들 간의 연관성과 통계적 모형을 추정하는데 있다. 먼저 상관계수에 대한 통계적 검정을 이용하여 변수들 간의 통계적으로 유의한 상관성을 추정하고, 이들 주요 지표들의 모형을 추정하기 위해서 회귀분석 방법의 변수선택 방법을 이용하여 회귀 방정식을 추정하여 변수들 간의 연관성을 조사하였다. 변수선택의 판정기준에 따른 방법으로 전진선택법과 후진제거법, 단계별 회귀방법을 사용하였다.

딥러닝과 머신러닝을 이용한 아파트 실거래가 예측 (Apartment Price Prediction Using Deep Learning and Machine Learning)

  • 김학현;유환규;오하영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권2호
    • /
    • pp.59-76
    • /
    • 2023
  • 코로나 시대 이후 아파트 가격 상승은 비상식적이었다. 이러한 불확실한 부동산 시장에서 가격 예측 연구는 매우 중요하다. 본 논문에서는 다양한 부동산 사이트에서 자료 수집 및 크롤링을 통해 2015년부터 2020년까지 87만개의 방대한 데이터셋을 구축하고 다양한 아파트 정보와 경제지표 등 가능한 많은 변수를 모은 뒤 미래 아파트 매매실거래가격을 예측하는 모델을 만든다. 해당 연구는 먼저 다중 공선성 문제를 변수 제거 및 결합으로 해결하였다. 이후 의미있는 독립변수들을 뽑아내는 전진선택법(Forward Selection), 후진소거법(Backward Elimination), 단계적선택법(Stepwise Selection), L1 Regularization, 주성분분석(PCA) 총 5개의 변수 선택 알고리즘을 사용했다. 또한 심층신경망(DNN), XGBoost, CatBoost, Linear Regression 총 4개의 머신러닝 및 딥러닝 알고리즘을 이용해 하이퍼파라미터 최적화 후 모델을 학습시키고 모형간 예측력을 비교하였다. 추가 실험에서는 DNN의 node와 layer 수를 바꿔가면서 실험을 진행하여 가장 적절한 node와 layer 수를 찾고자 하였다. 결론적으로 가장 성능이 우수한 모델로 2021년의 아파트 매매실거래가격을 예측한 후 실제 2021년 데이터와 비교한 결과 훌륭한 성과를 보였다. 이를 통해 머신러닝과 딥러닝은 다양한 경제 상황 속에서 투자자들이 주택을 구매할 때 올바른 판단을 할 수 있도록 도움을 줄 수 있을 것이라 확신한다.