• 제목/요약/키워드: Support vector machines.

검색결과 435건 처리시간 0.025초

엔트로피 거리와 SVM를 이용한 SNP 군집분석과 천식 유형 예측 (Cluster Analysis of SNPs with Entropy Distance and Prediction of Asthma Type Using SVM)

  • 이중섭;신기섭;위규범
    • 정보처리학회논문지B
    • /
    • 제18B권2호
    • /
    • pp.67-72
    • /
    • 2011
  • 단일염기다형성은 인간 게놈 구조 연구의 중요한 도구이다. 대량의 유전자 표현형 데이터에서의 군집 분석은 생물학적으로 연관이 있는 유전자 군을 발견하거나 유전자간 상호작용 네트워크를 생성하는데 유용하다. 본 논문에서는 엔트로피 거리를 기반으로 계층적 군집 분석 방법을 사용하여 천식환자군과 정상대조군의 군집을 형성하고 비교하였고 5개짜리 군집에서 두 군의 의미 있는 차이점이 나타남을 보였다. 천식환자군의 각 군집에서의 대표 SNP들의 조합의 질병 예측 정확도를 지지벡터기계를 이용하여 측정하여, 천식의 두 유형을 진단할 수 있는 최상의 조합을 찾았다. 최상의 조합은 유전자 ALOX12에 있는 단일염기다형성을 포함한 5개로 구성된 모델이며 66.41%의 아스피린 내성 천식 질병에 대한 예측 정확도를 갖는다.

부도 예측을 위한 앙상블 분류기 개발 (Developing an Ensemble Classifier for Bankruptcy Prediction)

  • 민성환
    • 한국산업정보학회논문지
    • /
    • 제17권7호
    • /
    • pp.139-148
    • /
    • 2012
  • 분류기의 앙상블 학습은 여러 개의 서로 다른 분류기들의 조합을 통해 만들어진다. 앙상블 학습은 기계학습 분야에서 많은 관심을 끌고 있는 중요한 연구주제이며 대부분의 경우에 있어서 앙상블 모형은 개별 기저 분류기보다 더 좋은 성과를 내는 것으로 알려져 있다. 본 연구는 부도 예측 모형의 성능개선에 관한 연구이다. 이를 위해 본 연구에서는 단일 모형으로 그 우수성을 인정받고 있는 SVM을 기저 분류기로 사용하는 앙상블 모형에 대해 고찰하였다. SVM 모형의 성능 개선을 위해 bagging과 random subspace 모형을 부도 예측 문제에 적용해 보았으며 bagging 모형과 random subspace 모형의 성과 개선을 위해 bagging과 random subspace의 통합 모형을 제안하였다. 제안한 모형의 성과를 검증하기 위해 실제 기업의 부도 예측 데이터를 사용하여 실험하였고, 실험 결과 본 연구에서 제안한 새로운 형태의 통합 모형이 가장 좋은 성과를 보임을 알 수 있었다.

익스트림 그라디언트 부스팅을 이용한 지수/주가 이동 방향 예측 (Prediction of the Movement Directions of Index and Stock Prices Using Extreme Gradient Boosting)

  • 김형도
    • 한국콘텐츠학회논문지
    • /
    • 제18권9호
    • /
    • pp.623-632
    • /
    • 2018
  • 주가 이동 방향의 정확한 예측이 주식 매매에 관한 전략적 의사결정에 중요한 역할을 할 수 있기 때문에 투자자와 연구자 모두의 관심이 높다. 주가 이동 방향에 관한 기존 연구들을 종합해보면, 주식 시장에 따라서 그리고 예측 기간에 따라서 다양한 변수가 고려되고 있음을 알 수 있다. 이 연구에서는 한국 주식 시장을 대표하는 지수와 주식들을 대상으로 이동 방향 예측 기간에 따라서 어떤 데이터마이닝 기법의 성능이 우수한 것인지를 분석하고자 하였다. 특히, 최근 공개경쟁에서 활발히 사용되며 그 우수성이 입증되고 있는 익스트림 그라디언트 부스팅 기법을 주가 이동 방향 예측 문제에 적용하고자 하였으며, SVM, 랜덤 포리스트, 인공 신경망과 같이 기존 연구에서 우수한 것으로 보고된 데이터마이닝 기법들과 비교하여 분석하였다. 12년간 데이터를 사용하여 1일 후에서 5일 후까지의 이동 방향을 예측하는 실험을 통해서, 예측 기간과 종목에 따라서 선택된 변수들에 차이가 있으며, 1-4일 후 예측에서는 익스트림 그라디언트 부스팅이 다른 기법들과 부분적으로 동등함을 가지면서도 가장 우수함을 확인하였다.

비음수 행렬 분해와 동적 분류 체계를 사용한 자동 이메일 다원 분류 (Automatic Email Multi-category Classification Using Dynamic Category Hierarchy and Non-negative Matrix Factorization)

  • 박선;안동언
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권5호
    • /
    • pp.378-385
    • /
    • 2010
  • 이메일 사용의 증가로 수신 메일을 효율적이면서 정확하게 분류할 필요성이 점차 늘고 있다. 현재의 이메일 분류는 SVM, 베이지안 분류자, 규칙 기반 분류자 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 그러나 이러한 지도 학습 방법들은 적합한 이메일을 인식하기 위하여서 사용자가 규칙이나 색인어 목록을 작성해야 한다. 비지도 학습 방법으로 군집을 이용한 다원 분류 방법은 메일의 분류 주제를 설정해주어야 한다. 본 논문에서는 비음수 행렬 분해(NMF, Non-negative Matrix Factorization)를 기반으로 한 자동 분류 주제 생성 방법과, 동적 분류 체계(DCH, Dynamic Category Hierarchy) 방법을 이용한 분류 주제 내에 이메일을 재구성하는 방법을 결합한 새로운 이메일 다원 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 다원 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 사용자가 분류 결과를 만족하지 못하면 분류 주제 내의 이메일을 동적으로 재구성하여 분류의 정확률을 높인다.

남한지역 겨울철 황사출현일수에 대한 범주 예측모형 개발 (Binary Forecast of Asian Dust Days over South Korea in the Winter Season)

  • 손건태;이효진;김승범
    • 응용통계연구
    • /
    • 제24권3호
    • /
    • pp.535-546
    • /
    • 2011
  • 본 연구는 겨울철 남한지역 황사출현일수에 대한 이 범주 계절예측모형 개발을 목적으로 수행되었다. 최근 31년간 관측된 황사출현일수를 예측량으로 하고, 황사발원지 기상요소(지상기온, 강수량, 강설량, 지상풍속)에 대한 NCEP 재분석자료 예측치와 광역규모 기후지수들을 잠재적 예측인자로 사용하였다. 월별로 구분하여 예측모형을 개발하기 위하여 네 종류 통계모형(중회귀모형, 로지스틱 회귀모형, 의사결정나무모형, 지지벡터기계)을 각각 적용하였다. 예측모형 평가측도인 정분류율, 탐지확률, 잘못된 경고를 사용하여 모형 비교하고 예측모형을 제안하였다.

Compressive strength prediction of CFRP confined concrete using data mining techniques

  • Camoes, Aires;Martins, Francisco F.
    • Computers and Concrete
    • /
    • 제19권3호
    • /
    • pp.233-241
    • /
    • 2017
  • During the last two decades, CFRP have been extensively used for repair and rehabilitation of existing structures as well as in new construction applications. For rehabilitation purposes CFRP are currently used to increase the load and the energy absorption capacities and also the shear strength of concrete columns. Thus, the effect of CFRP confinement on the strength and deformation capacity of concrete columns has been extensively studied. However, the majority of such studies consider empirical relationships based on correlation analysis due to the fact that until today there is no general law describing such a hugely complex phenomenon. Moreover, these studies have been focused on the performance of circular cross section columns and the data available for square or rectangular cross sections are still scarce. Therefore, the existing relationships may not be sufficiently accurate to provide satisfactory results. That is why intelligent models with the ability to learn from examples can and must be tested, trying to evaluate their accuracy for composite compressive strength prediction. In this study the forecasting of wrapped CFRP confined concrete strength was carried out using different Data Mining techniques to predict CFRP confined concrete compressive strength taking into account the specimens' cross section: circular or rectangular. Based on the results obtained, CFRP confined concrete compressive strength can be accurately predicted for circular cross sections using SVM with five and six input parameters without spending too much time. The results for rectangular sections were not as good as those obtained for circular sections. It seems that the prediction can only be obtained with reasonable accuracy for certain values of the lateral confinement coefficient due to less efficiency of lateral confinement for rectangular cross sections.

데이터마이닝을 이용한 세분화된 고객집단의 프로모션 고객반응 예측 (Predicting the Response of Segmented Customers for the Promotion Using Data Mining)

  • 홍태호;김은미
    • 경영정보학연구
    • /
    • 제12권2호
    • /
    • pp.75-88
    • /
    • 2010
  • 정보기술의 발전과 더불어 기업과 고객간의 대부분의 정보가 축적되면서 기업은 거래고객의 자세한 정보를 활용하여 차별화된 마케팅을 제공할 수 있다. 본 연구는 기업이 제공하는 마케팅 전략을 보다 효과적으로 실행하기 위해 고객을 세분화하고, 세분화된 고객집단별 마케팅 프로모션에 대한 반응을 예측하는 모형을 제시하였다. 고객세분화에는 데이터마이닝 기법 중 SOM(Self-organizing Map)을 적용하였으며, 세분화된 집단별 프로모션 반응예측에는 로짓모형, 신경망 등의 단일모형과 k-최근접이웃법을 이용한 단일모형들의 통합모형을 적용하였다. 제시된 방법론으로 기업은 프로모션에 대한 고객반응을 예측할 뿐만 아니라 프로모션에 대한 반응을 쉽게 예측할 수 있는 고객집단과 반응예측이 어려운 고객집단으로 구분하여 프로모션의 효과를 극대화하고 각 집단에 맞는 프로모션 전략을 수립할 수 있다.

부분 정보에 기반한 효과적인 음악 무드 분류 방법 (Effective Mood Classification Method based on Music Segments)

  • 박근한;박상용;강석중
    • 한국멀티미디어학회논문지
    • /
    • 제10권3호
    • /
    • pp.391-400
    • /
    • 2007
  • 기술의 발전으로 인하여, 대용량의 음악 데이터들을 저장하고 검색하는 것이 중요하게 되었다. 그러나 음악데이터들을 손쉽게 분류하고 검색하기 위한 방법론에 대한 집중적인 연구는 이루어 지지 않고 있다. 본 논문에서는 내용기반의 음악 분류/검색에 대한 새로운 방법론을 제안한다. 기존의 분류화 (classification) 방법들이 음악파일 전체에 대해서 수행하는데 비해 음악파일의 부분만을 분석하여 비슷한 성능을 낼 수 있다는 것을 보여 주었고, 소리의 톤(tone) 표현에 기반한 새로운 피쳐를 제안하여 기존의 피쳐들에 비해 효과적으로 분류를 할 수 있다는 것을 보여주었다. 또한 속도향상을 위한 여러가지 방법론들을 적용하여 실 제품 적용 시 보다 효과적인 방법론이 될 수 있음을 보여주었다. 제안한 방법론을 MuSE (Music Search/Classification Engine)엔진으로 구현함으로써 PC와 PDA상에서 잘 동작함을 보여주었다.

  • PDF

속성선택방법을 이용한 전기자동차 소셜미디어 데이터의 감성분석 연구 (Exploring the Sentiment Analysis of Electric Vehicles Social Media Data by Using Feature Selection Methods)

  • 프란시스 조셉 코스텔로;이건창
    • 디지털융복합연구
    • /
    • 제18권2호
    • /
    • pp.249-259
    • /
    • 2020
  • 본 연구는 전기자동차(EV)에 대한 소셜미디어 데이터를 기반으로 감성분석 (SA)과 속성선택 (FS)방법을 적용하여 전기자동차에 대한 일반 사람들의 의견을 보다 효과적이고 정확히 예측할 수 있는 새로운 방법론을 제안한다. 구체적인 방법은 다음과 같다. 첫째, 유튜브에 있는 전기자동차에 대한 일반 사람들의 의견을 추출하였다. 둘째, 분석의 효과성을 증대하기 위하여 카이 스퀘어, 정보획득량, 릴리프에프 등 세가지 속성선택 방법을 적용하였다. 그 결과 로지스틱 회귀분석 및 서포트 벡터 머신 분류 기법에서 가장 의미있는 결과를 얻을 수 있다는 것이 확인되었다.

가중치감소 신경망의 자동학습에 관한 연구 (A Study on Automatic Learning of Weight Decay Neural Network)

  • 황창하;나은영;석경하
    • Journal of the Korean Data and Information Science Society
    • /
    • 제12권2호
    • /
    • pp.1-10
    • /
    • 2001
  • 신경망은 점차 분류 및 함수추정을 위한 현대 통계적 방법론으로 부각되고 있다. 신경망은 특히 선형 회귀함수를 일반화시키는 유연한(flexible) 방법을 제공하며 일반적 비선형 함수를 모수화하는 방법으로 간주된다. 본 논문에서는 함수추정을 위한 신경망을 생각한다. 신경망이 훈련자료를 과대적합하는 것을 피할 수 있도록 하는 간단한 방법은 정칙화(regularization)이다. 신경망에서는 정칙화를 위해 주로 가중치 감소법(weight decay method)을 사용한다. 함수추정을 위해 가중치감소 신경망을 사용할 때 은닉노드수, 가중치모수, 학습률 및 학습반복회수가 중요한 모수이다. 본 논문에서는 유전자 알고리즘을 사용하여 가중치감소 신경망의 중요한 모수들을 자동으로 최적화하는 방법을 제안하고 결과적으로 가중치감소 신경망을 자동학습하는 방법을 설명한다. 그리고 다른 함수추정방법들과 자동학습된 가중치감소 신경망을 비교분석한다.

  • PDF