• 제목/요약/키워드: 통계학분류

검색결과 75건 처리시간 0.025초

귀납적 학습방법들의 분류성능 비교 : 기업신용평가의 경우 (Classification Performance Comparison of Inductive Learning Methods : The Case of Corporate Credit Rating)

  • 이상호;지원철
    • 지능정보연구
    • /
    • 제4권2호
    • /
    • pp.1-21
    • /
    • 1998
  • 귀납적 학습방법들의 분류성능을 비교 평가하기 위하여 대표적 분류문제의 하나인 신용평가 문제를 사용하였다. 분류기로서 사용된 귀납적 학습방법론들은 통계학의 다변량 판별분석(MDA), 기계학습 분야의 C4.5, 신경망의 다계층 퍼셉트론(MLP) 및 Cascade Correlation Network(CCN)의 4 가지이며, 학습자료로는 국내 3개 신용평가기관이 발표한 신용등급 및 공포된 재무제표를 사용하였다. 신용등급 예측의 정확도에 의한 분류성능을 평가하였는데 연도별 평가와 시계열 평가의 두 가지를 실시하였다. Cascade Correlation Network이 가장 좋은 분류성능을 보였지만 4가지 분류기들 사이에 통계적으로 유의한 차이는 발견되지 않았다. 이는 사용된 학습자료가 갖는 한계로 인한 것으로 추정되지만, 성능평가 과정에 있어 학습자료의 전처리 과정이 분류성과의 제고에 매우 유효함이 입증되었다.

  • PDF

한국 프로배구 연맹의 경기 예측 및 영향요인 분석 (Matching prediction on Korean professional volleyball league)

  • 김희숙;이나경;이지윤;송종우
    • 응용통계연구
    • /
    • 제37권3호
    • /
    • pp.323-338
    • /
    • 2024
  • 본 연구는 한국 프로배구 리그를 체계적으로 분석하고 대표적인 머신러닝 분류 방법을 활용하여 경기 결과를 예측하고자 한다. 이를 위해 2012/2013 시즌부터 2022/2023 시즌까지의 남자 프로배구와 여자 프로배구 리그 경기 데이터를 수집하였으며, 이 데이터는 경기 세부 내용을 상세하게 포함하고 있다. 데이터는 각 경기를 두 팀으로 분리한 경우와 홈팀을 기준으로 상대팀과의 성과 차이로 데이터를 가공한 경우로 두 가지 다른 데이터 구조를 모델에 적용했다. 이를 통해 남자 프로배구와 여자 프로배구 각각에 대해 총 4개의 예측 모형을 구축했다. 경기 종료 전에는 모형에서 사용하는 세부 변수 값들을 알 수 없기 때문에, 오늘 경기 직전까지의 3~4 경기의 결과를 전처리하여 이를 변수로 사용했다. 본 연구에서는 Decision Tree, Logistic Regression, Bagging, Random Forest, Xgboost, Adaboost, Light GBM 같은 다양한 머신러닝 기법을 분류에 활용하여, Random Forest를 사용한 모델이 가장 우수한 예측 성능을 보였다. 최종 선택한 모형에 대해 변수 중요도 그림과 부분 의존도 그림을 확인한 결과 성별과 데이터 구조에 따라 중요한 변수들이 다른 것으로 나타났지만, 공통적으로 세트 성공 수, 블로킹 득점, 범실 개수가 가장 중요한 변수임을 알 수 있었다. 본 승패 예측 모델은 사후적 예측이 아닌 경기 종료 전 사전 예측이 가능한 모형이라는 점에서 차별성을 가지며, 우리의 분석이 한국 프로배구 팀들에게 전략적 추론이 될 수 있을 것이라 기대한다.

신경망을 결합한 다중 SVM 분류기 (A Multiple SVM Classifier Combined With Neural Networks)

  • 고재필;김승태;김은주;변혜란
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.163-165
    • /
    • 2001
  • 최근 기계학습 분야에서 커널머신을 이용한 대표적 학습기로서 Support Vector Machine(SVM)이 주목받고 있다. SVM은 통계학자인 Vapnik에 의해 제안된 것으로 통계적 학습이론에 기반 하여 뛰어난 일반화 성능을 보여준다. 그러나. SVM은 2클래tm 분류기이므로 일반적인 다중 클래스 패턴인식 문제에 적용할 수 없다. 본 논문에서는 이를 해결하기 위해 SVM을 신경망과 결합하여 다중 클래스 분류기로 확장하는 방법을 새롭게 제안한다. 제안하는 분류기의 성능을 비교하기 위하여 ORL얼굴 데이터를 이용하여 제안하는 분류기와 기존의 대표적인 다중 SVM, 신경망, PCA를 적응한 얼굴인식 실험을 수행하였다. 실험결과 제안하는 분류기를 이용한 얼굴인식률이 기존의 다중 SVM을 이용한 경우보다 3%, 신경망을 이용한 경우보다 6% 높은 수치를 보였다.

  • PDF

불균형 Haar 웨이블릿 변환을 이용한 군집화를 위한 시계열 표현 (Time series representation for clustering using unbalanced Haar wavelet transformation)

  • 이세훈;백창룡
    • 응용통계연구
    • /
    • 제31권6호
    • /
    • pp.707-719
    • /
    • 2018
  • 시계열 데이터의 분류와 군집화를 효율적으로 수행하기 위해 다양한 시계열 표현 방법들이 제안되었다. 본 연구는 Lin 등 (2007)이 제안한 국소 평균 근사를 이용하여 시계열의 차원을 축소한 후 심볼릭 자료로 이산화하는 symbolic aggregate approximation (SAX) 방법의 개선에 대해서 연구하였다. SAX는 국소 평균 근사를 할 때 등간격으로 임의의 개수의 세그먼트로 나누어 평균을 계산하여 세그먼트의 개수에 그 성능이 크게 좌우된다. 따라서 본 논문은 불균형 Haar 웨이블릿 변환을 통해 국소 평균 수준을 등간격이 아니라 자료의 특성을 반영하여 자료 의존적으로 선택하게 함으로써 시계열의 차원을 효과적으로 축소함과 동시에 정보의 손실을 줄이는 방법에 대해서 제안한다. 제안한 방법은 실증 자료 분석을 통해 SAX 방법을 개선시킴을 확인하였다.

불균형자료를 위한 판별분석에서 HDBSCAN의 활용 (Discriminant analysis for unbalanced data using HDBSCAN)

  • 이보희;김태헌;최용석
    • 응용통계연구
    • /
    • 제34권4호
    • /
    • pp.599-609
    • /
    • 2021
  • 군집간의 개체 수의 차이가 큰 자료들을 불균형자료라고 한다. 불균형자료의 판별분석에서 다수 범주의 개체를 잘 분류하는 것 보다 소수 범주의 개체를 잘 분류하는 것이 더 중요하다. 그러나 개체 수가 상대적으로 작은 소수 범주의 개체를 개체 수가 상대적으로 많은 다수 범주의 개체로 오분류하는 경우가 많다. 본 연구에서는 이를 해결하기 위해 HDBSCAN과 SMOTE를 결합한 방법을 제안한다. HDBSCAN을 이용하여 소수 범주의 노이즈와 다수 범주의 노이즈를 제거하고 SMOTE를 적용하여 새로운 자료를 만들어낸다. 기존의 방법들과 성능을 비교하기 위하여 AUC와 F1 점수를 이용하였고 그 결과 대부분의 경우에 HDBSCAN과 SMOTE를 결합한 방법이 높은 성능 지표를 보였고, 불균형자료를 분류하는데 있어 뛰어난 방법으로 나타났다.

불량 웨이퍼 탐지를 위한 함수형 부정 탐지 지지 벡터기계 (Fraud detection support vector machines with a functional predictor: application to defective wafer detection problem)

  • 박민형;신승준
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.593-601
    • /
    • 2022
  • 빈번하지는 않지만 한번 발생하면 상대적으로 큰 손실을 가져오는 사례를 통칭하여 부정 사례(Fraud)라고 부르며, 부정 탐지의 문제는 많은 분야에서 활용된다. 부정 사례는 정상 사례에 비해 상대적으로 관측치가 매우 적고 오분류의 비용이 월등히 크기 때문에 일반적인 이항분류 기법을 바로 적용할 수 없다. 이러한 경우에 활용할 수 있는 방법이 부정 탐지 지지 벡터기계(FDSVM)이다. 본 논문에서는 공변량이 함수형일 때 활용 가능한 함수형 부정 탐지 지지 벡터기계(F2DSVM)를 제안하였다. 제안된 방법을 사용하면 함수형 공변량을 가진 데이터에서 사용자가 목표하는 부정 탐지의 성능을 만족시키는 제약하에서 최적의 예측력을 가지는 분류기를 학습시킬 수 있다. 뿐만아니라, 통상적인 SVM과 마찬가지로, F2DSVM도 자취해의 조각별 선형성을 보일 수 있으며 이를 바탕으로 효율적인 자취해 알고리즘을 활용할 수 있고 분류기의 학습 시간을 크게 단축시킬 수 있다. 마지막으로, 반도체 웨이퍼 불량 탐지 문제에 제안된 F2DSVM을 적용해 보았고, 그 활용 가능성을 확인하였다.

SAS패키지를 이용한 EEG신호 시계열분석 시스템 (The Development of the Time Series Analysis System for EEG Signal using SAS Package)

  • 김진호;이현우;임성식;황민철
    • 감성과학
    • /
    • 제2권1호
    • /
    • pp.53-60
    • /
    • 1999
  • EEG 생리신호의 분석은 국내에서도 최근에 활발하게 연구가 진행되고 있으나, 시계열을 이용한 분석법은 통계학의 전문적인 지식을 요구하고 있기 때문에 연구에 많은 어려움이 있다. 그러므로 감성과학 연구자들이 보다 쉽게 이해하고 분석할 수 있는 Tool의 개발이 절실히 요구되고 있다. 본 논문에서는 EEG 생리신호 분석을 위한 모형분석 시스템과 생리신호 분류를 위한 판별분류 시스템을 구축하였다. 이 시스템에서는 신호분석을 위한 그래프 작성, 자극 신호에 대한 모형식별 방법의 제시, 모형에 대한 추정 및 진단 기준에 따른 최적의 모형선정 방법 등을 지원한다. 또한 선정된 모형에 이해 모수를 추정하고 이를 이용하여 통계에 대한 지식이 없이도 쉽게 각 뇌파 신호들을 판별 분류할 수 있다.

  • PDF

컨볼루션 뉴럴 네트워크를 이용한 한글 서체 특징 연구 (A study in Hangul font characteristics using convolutional neural networks)

  • 황인경;원중호
    • 응용통계연구
    • /
    • 제32권4호
    • /
    • pp.573-591
    • /
    • 2019
  • 로마자 서체에 대한 수치적 분류체계는 잘 발달되어 있지만, 한글 서체 분류를 위한 기준은 수치적으로 잘 정의되어 있지 않다. 본 연구의 목표는 한글 서체 분류를 위한 수치적 기준을 세우기 위해, 서체 스타일을 구분하는 중요한 특징들을 찾는 것이다. 컨볼루션 뉴럴 네트워크(convolutional neural network)를 사용하여 명조와 고딕 스타일을 구분하는 모형을 세우고, 학습된 필터를 분석해 두 스타일의 특징을 결정하는 피처(feature)를 찾고자 한다.

Redis 파라미터 분류 및 단계적 베이지안 최적화를 통한 파라미터 튜닝 연구 (A Study on Parameter Tuning for Redis via Parameter Classification and Phased Bayesian Optimization)

  • 조성운;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.476-479
    • /
    • 2021
  • DBMS 파라미터 튜닝이란 데이터베이스에서 제공하는 다양한 파라미터의 값을 조율하여, 최적의 성능을 도출하는 과정이다. 데이터베이스 종류에 따라 파라미터 개수가 수십 개에서 수백 개로 다양하며, 각 기능이 모두 다르기 때문에 최적의 조합을 찾는 것은 쉽지 않다. 선행 연구에서는 BO 기법을 사용하여 적절한 파라미터 값을 추출했지만, 파라미터 개수에 비례하여 차원이 커지는 문제가 발생한다. 본 논문에서는 통계적으로 파라미터를 분류하여 탐색 공간을 줄인 다음 단계적으로 BO 를 수행하는 PBO 방식을 제안한다. 파라미터 값을 랜덤하게 할당하여 벤치마킹한 결과값을 군집화한 후, 각 군집별로 파라미터와의 연관성을 분석해 높은 상관관계를 가진 파라미터를 매칭시켜 분류한다. 제안하는 방법론을 검증하기 위하여 8 가지 회귀 모델과의 비교 실험을 통해 제안한 방법론의 우수성을 검증하였다.

다분적 암반분류를 위한 정성적 자료의 지구통계학적 연구 1.이론 (A Geostatistical Study Using Qualitative Information for Multiple Rock Classification -1. Theory)

  • 유광호
    • 한국지반공학회지:지반
    • /
    • 제11권2호
    • /
    • pp.71-78
    • /
    • 1995
  • 본 논문에서는 RMR법이나 Q시스템 등의 암반분류법에서와 같이 암반을 여러 등급으로 분류하는 연구가 수행되었다. 특히, 정량적 자료가 제한된 상황에서의 정성적 자료의 체계적이고 합리적인 이용 방법이 모색되었다. 이를 위해서, 지구통계학(geostatistics)기법이 사용되었는데, 특히, 비모수적 방법 중의 하나인 지시크리깅(indicator kriging) 기법이 사용되었으며, 최적 분류를 위한 선택기준으로는 오차에 대응하는 비용(the cost of error)가 사용되었다. 결과적으로, 기존에 개발된 이분적 암반분류에서 다분적 암반분류로의 일반화가 가능하게 되었으며, 분류등 급의 총수에는 제한이 없다.

  • PDF