• 제목/요약/키워드: misclassification cost

검색결과 27건 처리시간 0.02초

유전자 알고리즘을 활용한 데이터 불균형 해소 기법의 조합적 활용 (Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm)

  • 장영식;김종우;허준
    • 지능정보연구
    • /
    • 제14권3호
    • /
    • pp.133-154
    • /
    • 2008
  • 데이터 마이닝 분류 문제에서 발생하는 데이터 불균형 문제는 한 범주에 속한 데이터의 수가 다른 범주에 속한 데이터의 수보다 극히 많거나 작은 경우를 말한다. 이러한 불균형 문제를 해결하기 위해 표본추출과 오분류 비용에 근거한 여러 가지 기법들이 제시되었으며, 이들 간의 성능 비교에 대한 연구들도 이루어졌다. 본 논문에서는 기존에 제시된 불균형 문제 해소기법들의 조합적 활용에 대한 타당성에 대해 살펴보고 유전자 알고리즘을 통해 그 결합 비율을 결정하여 더 좋은 성과를 낼 수 있는지에 대해 살펴보도록 한다. 소수 범주에 대한 정확성을 높이기 위해 소수 범주에 대한 F-value에 기초하여 기법들의 결합비율을 결정하고 기존 단일 기법들의 성과와 임의의 비율에 의한 격자표 형태의 결합 성과를 비교하여 결합적 활용의 타당성을 살펴본다. 이를 실증적으로 검토하기 위해서, 일반적으로 데이터 불균형 문제를 해결하기 위해 많이 사용되는 4개의 공개 데이터 집합을 이용하여 타당성 분석을 수행하였다. 분석 결과, 전체적으로 단일 기법들의 결합적 활용이 데이터 불균형 해소에 유용한 것으로 나타났다.

  • PDF

Factors Influencing Vaccination in Korea: Findings From Focus Group Interviews

  • Park, Bomi;Choi, Eun Jeong;Park, Bohyun;Han, Hyejin;Cho, Su Jin;Choi, Hee Jung;Lee, Seonhwa;Park, Hyesook
    • Journal of Preventive Medicine and Public Health
    • /
    • 제51권4호
    • /
    • pp.173-180
    • /
    • 2018
  • Objectives: Immunization is considered one of the most successful and cost-effective public health interventions protecting communities from preventable infectious diseases. The Korean government set up a dedicated workforce for national immunization in 2003, and since then has made strides in improving vaccination coverage across the nation. However, some groups remain relatively vulnerable and require intervention, and it is necessary to address unmet needs to prevent outbreaks of communicable diseases. This study was conducted to characterize persistent challenges to vaccination. Methods: The study adopted a qualitative method in accordance with the Consolidated Criteria for Reporting Qualitative Research checklist. Three focus group interviews were conducted with 15 professionals in charge of vaccination-related duties. The interviews were conducted according to a semi-structured guideline, and thematic analysis was carried out. Data saturation was confirmed when the researchers agreed that no more new codes could be found. Results: A total of 4 main topics and 11 subtopics were introduced regarding barriers to vaccination. The main topics were vaccine hesitancy, personal circumstances, lack of information, and misclassification. Among them, vaccine hesitancy was confirmed to be the most significant factor impeding vaccination. It was also found that the factors hindering vaccination had changed over time and disproportionately affected certain groups. Conclusions: The study identified ongoing unmet needs and barriers to vaccination despite the accomplishments of the National Immunization Program. The results have implications for establishing tailored interventions that target context- and group-specific barriers to improve timely and complete vaccination coverage.

클래스 불균형 문제에서 베이지안 알고리즘의 학습 행위 분석 (Learning Behavior Analysis of Bayesian Algorithm Under Class Imbalance Problems)

  • 황두성
    • 전자공학회논문지CI
    • /
    • 제45권6호
    • /
    • pp.179-186
    • /
    • 2008
  • 본 논문에서는 베이지안 알고리즘이 불균형 데이터의 학습 시 나타나는 현상을 분석하고 성능 평가 방법을 비교하였다. 사전 데이터 분포를 가정하고 불균형 데이터 비율과 분류 복잡도에 따라 발생된 분류 문제에 대해 베이지안 학습을 수행하였다. 실험 결과는 ROC(Receiver Operator Characteristic)와 PR(Precision-Recall) 평가 방법의 AUC(Area Under the Curve)를 계사하여 불균형 데이터 비율과 분류 복잡도에 따라 분석되었다. 비교 분석에서 불균형 비율은 기 수행된 연구 결과와 같이 베이지안 학습에 영향을 주었으며, 높은 분류 복잡도로부터 나타나는 데이터 중복은 학습 성능을 방해하는 요인으로 확인되었다. PR 평가의 AUC는 높은 분류 복잡도와 높은 불균형 데이터 비율에서 ROC 평가의 AUC보다 학습 성능의 차이가 크게 나타났다. 그러나 낮은 분류 복잡도와 낮은 불균형 데이터 비율의 문제에서 두 측정 방법의 학습 성능의 차이는 미비하거나 비슷하였다. 이러한 결과로부터 PR 평가의 AUC는 클래스 불균형 문제의 학습 모델의 설계와 오분류 비용을 고려한 최적의 학습기를 결정하는데 도움을 줄 수 있다.

주성분 분석과 이차 판별 분석 기법을 이용한 항공기 복합재료에서의 자동 결함 검출 및 분류 (Automatic Defect Detection and Classification Using PCA and QDA in Aircraft Composite Materials)

  • 김영범;신덕하;황승준;백중환
    • 한국항행학회논문지
    • /
    • 제18권4호
    • /
    • pp.304-311
    • /
    • 2014
  • 본 논문에서는 항공기 복합재료 내부의 결함을 자동으로 검출하고 분류하는 초음파 검사 방식을 제안한다. 결함 검출을 위해서 초음파의 국부 최대값을 이용해 피크(peak) 값을 추출해낸다. 피크의 거리정보를 이용해 히스토그램화 하며 시편의 표면과 바닥의 백월에코(back-wall echo)를 결정한다. 이를 통해 C-scan 영상을 생성한다. 검출된 피크의 평균과 분산을 이용해 임계값을 정하고 그 값으로 결함여부를 판단한다. 결함의 종류를 구분하기 위해서는 주성분 분석(PCA; principal component analysis)와 이차 판별 분석(QDA; quadratic discriminant analysis)를 수행하였다. PCA를 통한 512개의 차원은 주성분으로 변환 시 30개의 주성분에 99% 이상의 분산이 포함되었다. 주성분 개수를 한정시킴으로써 차원 축소를 통해 계산량을 크게 줄였고 오분류를 최소화하였다. 이차 판별 분석을 적용해 결정경계(decision boundary)의 방정식을 얻었고 이를 통해 결함을 분류할 수 있음을 실험을 통해 보였다.

Failure estimation of the composite laminates using machine learning techniques

  • Serban, Alexandru
    • Steel and Composite Structures
    • /
    • 제25권6호
    • /
    • pp.663-670
    • /
    • 2017
  • The problem of layup optimization of the composite laminates involves a very complex multidimensional solution space which is usually non-exhaustively explored using different heuristic computational methods such as genetic algorithms (GA). To ensure the convergence to the global optimum of the applied heuristic during the optimization process it is necessary to evaluate a lot of layup configurations. As a consequence the analysis of an individual layup configuration should be fast enough to maintain the convergence time range to an acceptable level. On the other hand the mechanical behavior analysis of composite laminates for any geometry and boundary condition is very convoluted and is performed by computational expensive numerical tools such as finite element analysis (FEA). In this respect some studies propose very fast FEA models used in layup optimization. However, the lower bound of the execution time of FEA models is determined by the global linear system solving which in some complex applications can be unacceptable. Moreover, in some situation it may be highly preferred to decrease the optimization time with the cost of a small reduction in the analysis accuracy. In this paper we explore some machine learning techniques in order to estimate the failure of a layup configuration. The estimated response can be qualitative (the configuration fails or not) or quantitative (the value of the failure factor). The procedure consists of generating a population of random observations (configurations) spread across solution space and evaluating using a FEA model. The machine learning method is then trained using this population and the trained model is then used to estimate failure in the optimization process. The results obtained are very promising as illustrated with an example where the misclassification rate of the qualitative response is smaller than 2%.

불량 웨이퍼 탐지를 위한 함수형 부정 탐지 지지 벡터기계 (Fraud detection support vector machines with a functional predictor: application to defective wafer detection problem)

  • 박민형;신승준
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.593-601
    • /
    • 2022
  • 빈번하지는 않지만 한번 발생하면 상대적으로 큰 손실을 가져오는 사례를 통칭하여 부정 사례(Fraud)라고 부르며, 부정 탐지의 문제는 많은 분야에서 활용된다. 부정 사례는 정상 사례에 비해 상대적으로 관측치가 매우 적고 오분류의 비용이 월등히 크기 때문에 일반적인 이항분류 기법을 바로 적용할 수 없다. 이러한 경우에 활용할 수 있는 방법이 부정 탐지 지지 벡터기계(FDSVM)이다. 본 논문에서는 공변량이 함수형일 때 활용 가능한 함수형 부정 탐지 지지 벡터기계(F2DSVM)를 제안하였다. 제안된 방법을 사용하면 함수형 공변량을 가진 데이터에서 사용자가 목표하는 부정 탐지의 성능을 만족시키는 제약하에서 최적의 예측력을 가지는 분류기를 학습시킬 수 있다. 뿐만아니라, 통상적인 SVM과 마찬가지로, F2DSVM도 자취해의 조각별 선형성을 보일 수 있으며 이를 바탕으로 효율적인 자취해 알고리즘을 활용할 수 있고 분류기의 학습 시간을 크게 단축시킬 수 있다. 마지막으로, 반도체 웨이퍼 불량 탐지 문제에 제안된 F2DSVM을 적용해 보았고, 그 활용 가능성을 확인하였다.

AdaBoost 알고리즘기반 SVM을 이용한 부실 확률분포 기반의 기업신용평가 (Corporate Credit Rating based on Bankruptcy Probability Using AdaBoost Algorithm-based Support Vector Machine)

  • 신택수;홍태호
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.25-41
    • /
    • 2011
  • 최근 몇 년간 SVM(support vector machines)기법은 패턴인식 또는 분류의사결정문제를 위한 분석기법으로서 기존의 데이터마이닝 기법과 비교할 때, 매우 높은 성과를 갖는 것으로 인식되어 왔다. 더 나아나 많은 연구자들은 SVM기법이 1980년대 이후 대표적인 예측 및 분류모형으로 인정받은 인공신경망기법(ANNs : Artificial Neural Networks)에 비해 더 성과가 좋다는 사실을 실증적으로 입증해 왔다(Amendolia et al., 2003; Huang et al., 2004, Huang et al., 2005; Tay and Cao, 2001; Min and Lee, 2005; Shin et al., 2005; Kim, 2003). 일반적으로 이와 같이 다양한 데이터마이닝 기법에 의해 분석되는 이진분류 또는 다분류 의사결정문제들은 특히 금융분야 등에 있어서 오분류비용에 민감하며, 이로 인한 오분류의 경제적 손실도 상대적으로 매우 크다고 할 수 있다. 따라서 기업부도예측모형과 같은 이진분류모형의 결과값을, 부도확률에 기초하여 정교하게 계산된 사후확률의 개념으로서 다분류의 신용등급평가의 문제로 변환할 필요가 있다. 그러나, SVM 모형의 결과값은 기본적으로 그와 같은 부도확률분포를 보여주지 않는다. 따라서, 그러한 확률분포를 정교하게 보여줄 방법을 제시할 필요가 있다(Platt, 1999; Drish, 2001). 본 연구는 AdaBoost 알고리즘기반의 SVM 모형을 이용하여, 이진분류모형으로서 IT 기업의 부실예측모형에 적용한 후, 이 SVM 모형의 예측결과를 SVM의 손실함수에 적용하여 계산된 값을 사후부도확률의 정규분포 특성에 따라 이를 구간화하여 IT기업에 대한 다분류 신용등급 평가의 문제로 전환시키는 방법을 제시하였다. 그리고 본 연구에서 제안하는 방법은 이러한 AdaBoost 알고리즘기반 SVM 모형이 각 기업이 고유한 신용위험(부도확률)을 갖고 있다는 조건하에서, 신용등급부여를 위한 부도확률분포 구간을 정교하게 조정함으로써 오분류 문제를 좀 더 줄일 수 있음을 제시하였다.