• 제목/요약/키워드: class imbalance

검색결과 120건 처리시간 0.025초

교차 프로젝트 결함 예측 성능 향상을 위한 효과적인 하모니 검색 기반 비용 민감 부스팅 최적화 (Effective Harmony Search-Based Optimization of Cost-Sensitive Boosting for Improving the Performance of Cross-Project Defect Prediction)

  • 류덕산;백종문
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권3호
    • /
    • pp.77-90
    • /
    • 2018
  • 소프트웨어 결함 예측(SDP)은 결함이 있는 모듈을 식별하기 위한 연구 분야이다. 충분한 로컬 데이터가 없으면 다른 회사에서 수집한 데이터를 사용하여 분류기를 구축하는 교차 프로젝트 결함 예측(CPDP)을 활용할 수 있다. SDP에 대한 대부분의 기계 학습 알고리즘은 서로 다른 값에 따라 예측 성능에 큰 영향을 미치는 하나 이상의 매개 변수를 사용한다. 본 연구의 목적은 CPDP의 예측 성능 향상을 위해 매개 변수 선택 기법을 제안하는 것이다. Harmony Search 알고리즘을 사용하여, 예측 어려움을 야기하는 클래스 불균형을 해결하는 방법인 비용에 민감한 부스팅의 매개 변수를 조정한다. 분포 특성에 따라 매개 변수 범위와 매개 변수 간의 제한 조건 규칙이 정의되어 하모니 검색 알고리즘에 적용된다. 제안된 접근법은 15개의 대상 프로젝트를 대상으로 3개의 CPDP 모델과 내부프로젝트 결함 예측(WPDP) 모델을 비교한다. 실험 결과는 제안된 방법이 클래스 불균형의 맥락에서 다른 CPDP 방법보다 성능이 우수하다는 것을 보여준다. 이전의 연구에서는 탐지 확률이 낮거나 오보 가능성이 높았으나 우리의 기법은 높은 PD와 낮은 PF를 제공하면서 높은 전체 성능을 보였다. 또한 WPDP와 비슷한 성능을 제공하였다.

핵활동 모니터링을 위한 소형객체 비율에 따른 U-Net의 의미론적 분할 성능 비교 (Comparison of Semantic Segmentation Performance of U-Net according to the Ratio of Small Objects for Nuclear Activity Monitoring)

  • 이진민;김태헌;이창희;이현진;송아람;한유경
    • 대한원격탐사학회지
    • /
    • 제38권6_4호
    • /
    • pp.1925-1934
    • /
    • 2022
  • 원격탐사 기술을 활용한 접근불능 지역에 대한 핵활동 모니터링은 핵 비확산을 위해 필수적이다. 최근에는 딥러닝을 이용하여 핵활동 관련 객체를 탐지하는 연구가 활발하게 수행되고 있으나, 고해상도 위성영상 내 소형객체는 클래스 불균형 발생 빈도가 높다. 이로 인해 소형객체 탐지 성능이 저하되는 문제점이 존재한다. 이에 본 연구에서는 입력 데이터 내 핵활동 관련 소형객체의 비율이 딥러닝 모델 성능에 미치는 영향을 분석하여 탐지 정확도를 개선하기 위한 방안을 도출하고자 한다. 이를 위해 소형객체 비율이 상이한 6가지 학습자료를 구축하여 학습자료별로 U-Net 모델 학습을 진행하고, 다양한 종류의 소형객체가 포함된 test dataset을 이용하여 학습된 U-Net 모델 간 정량적·정성적 비교평가를 수행하였다. 그 결과, 입력영상 내 객체 픽셀 비율을 조절하였을 때 핵활동 관련 소형객체를 효과적으로 탐지할 수 있는 것이 확인되었으며, 이를 통해 훈련 자료 내 객체 비율을 조정하여 딥러닝 모델 성능을 향상시킬 수 있을 것으로 판단된다.

불균형 정형 데이터를 위한 SMOTE와 변형 CycleGAN 기반 하이브리드 오버샘플링 기법 (A Hybrid Oversampling Technique for Imbalanced Structured Data based on SMOTE and Adapted CycleGAN)

  • 노정담;최병구
    • 경영정보학연구
    • /
    • 제24권4호
    • /
    • pp.97-118
    • /
    • 2022
  • 이미지와 같은 비정형 데이터의 불균형 클래스 문제 해결에 있어 생산적 적대 신경망(generative adversarial network)에 기반한 오버샘플링 기법의 우수성이 알려짐에 따라 다양한 연구들이 이를 정형 데이터의 불균형 문제 해결에도 적용하기 시작하였다. 그러나 이러한 연구들은 데이터의 형태를 비정형 데이터 구조로 변경함으로써 정형 데이터의 특징을 정확하게 반영하지 못한다는 점이 문제로 지적되고 있다. 본 연구에서는 이를 해결하기 위해 순환 생산적 적대 신경망(cycle GAN)을 정형 데이터의 구조에 맞게 재구성하고 이를 SMOTE(synthetic minority oversampling technique) 기법과 결합한 하이브리드 오버샘플링 기법을 제안하였다. 특히 기존 연구와 달리 생산적 적대 신경망을 구성함에 있어 1차원 합성곱 신경망(1D-convolutional neural network)을 사용함으로써 기존 연구의 한계를 극복하고자 하였다. 본 연구에서 제안한 기법의 성능 비교를 위해 불균형 정형 데이터를 기반으로 오버샘플링을 진행하고 그 결과를 SMOTE, ADASYN(adaptive synthetic sampling) 등과 같은 기존 기법과 비교하였다. 비교 결과 차원이 많을수록, 불균형 정도가 심할수록 제안된 모형이 우수한 성능을 보이는 것으로 나타났다. 본 연구는 기존 연구와 달리 정형 데이터의 구조를 유지하면서 소수 클래스의 특징을 반영한 오버샘플링을 통해 분류의 성능을 향상시켰다는 점에서 의의가 있다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

제 III급 부정교합 환자들의 각 치료법에 따른 측모두부방사선사진 계측치의 비교 (Cephalometric difference according to the differential treatment methods in Class III malocclusion;)

  • 백형선
    • 대한치과교정학회지
    • /
    • 제27권2호
    • /
    • pp.197-208
    • /
    • 1997
  • 제 III급 부정교합 환자의 치료를 위해서는 각 환자의 문제점들과 상태를 다양한 진단방법들을 동원하여 분석한 후에 가장 적절한 치료방법을 선택하여야 한다. 초진시에 치성 또는 기능성 또는 골격성인 원인들의 감별이 분명한 증례에서는 치료계획 수립이 큰 문제가 없지만, 감별이 모호한 증례에서는 많은 어려움을 경험하게 된다. 이에 저자는 각 치료방법을 적용하여 치료한 제III급 부정교합 환자 482명 (남;253,여 ;229)을 대상으로 치료방법에 따라 네 군으로 분류하였다. D군은 가철성 교정장치나 악기능장치를 사용하여 치료한 115명(남;64, 여;51), A군은 악정형장치로 치료한 210명 (남;111, 여 ;99), B군은 고정식 교정장치로 Camouflage 하여 치료한 63명 (남;30, 여 ;33), C군은 악교정 수술로 치료한 94명(남;48, 여;46)이었다. 초진시에 촬영한 측모두부방사선사진에서 전후방, 수직적, 치성, 악골의 형태학적인 계측항목들을 선정하여 각 군에서 측정한 계측치의 평균값 및 표준편차를 구하였고 네 군간의 유의성 여부를 검정하여 아래와 같은 결과를 얻었다. 1. SNA각과 Nasion Perpendicular Plane에서 A점까지의 거리는 네 군간에 유의한 차이가 없었으며, SNB, Wits, Nasion Perpendicular Plane에서 B점까지의 거리, Facial angle, Facial convexity, APDI의 값은 C,A,B,D군의 순이었지만 A군과 B군간에는 유의한 차이가 없었다. 2. 전안면고경, 후안면고경, 하전안면고경의 값이 남자에서는 C,B,A,D의 순으로 유의성 있는 차이를 나타냈으며, 여자에서는 C와 B군간에는 유의한 차이가 없게 나타났다. 3. 남자에서 전두개저에 대한 하악체 길이의 비율, 하악체의 길이와 Symphysis의 길이는 C,B,A,D순으로 나타났으나 B군과 A군사이에는 유의한 차이가 없었고, 여자에서는 Ramus height, 하악체 길이, 전두개저에 대한 하악체 길이의 비율이 네군에서 유의한 차이를 나타냈고 Symphysis의 길이는 C군과 B군 사이에서는 유의한 차이가 없었다. 4. 상악전치 치축은 C,B,A,D순으로 크게 나타났으며 네 군간에서 유의한 차이가 나타났다. 5. Nasolabial angle의 값은 C,A,B,D순으로 작게 나타났으나 유의한 차이는 C와 A,B,D군 간에서만 나타났다.

  • PDF

부도예측 개선을 위한 하이브리드 언더샘플링 접근법 (A Hybrid Under-sampling Approach for Better Bankruptcy Prediction)

  • 김태훈;안현철
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.173-190
    • /
    • 2015
  • 부도는 막대한 사회적, 경제적 손실을 야기할 수 있으므로, 미리 부도여부를 정확하게 예측하여 선제 대응하는 것은 경영분야에서 대단히 중요한 의사결정문제 중 하나이다. 이에 지능정보시스템 분야에서도 그간 기업의 재무 데이터에 기반해 부도예측을 개선하기 위한 노력을 기울여왔는데, 안타깝게도 기존의 연구들은 대부분 분류모형의 성능 개선을 통해 예측 정확도를 개선하는 것에만 주로 초점을 맞추어 다른 요소들을 충분히 고려하지 못했다는 한계가 있다. 이러한 배경에서 본 연구는 부도예측 모형의 정확도를 개선하기 위한 방편으로 새로운 데이터 전처리 방법, 그 중에서도 효과적인 표본추출 방법을 제안하고자 한다. 일반적으로 부도예측을 위해 사용되는 데이터들은 극심한 데이터 불균형 문제에 노출되어 있는데, 본 연구에서는 k-reverse nearest neighbor(k-RNN)와 one-class support vector machine(OCSVM) 방법을 결합한 하이브리드 언더샘플링(hybrid under-sampling) 접근법을 통해 이같은 데이터 불균형 문제를 해결하고자 하였다. 본 연구에서 제안한 접근법에서 k-RNN은 이상치를 효과적으로 제거할 수 있으며, OCSVM은 다수를 구성하는 등급의 데이터로부터 정보량이 풍부한 표본만 효과적으로 선택할 수 있는 수단으로 활용될 수 있다. 제안된 기법의 성능을 검증하기 위해, 본 연구에서는 국내 한 은행의 비외감기업 부도예측모형 구축에 제안 기법을 적용해 본 뒤, 일반적으로 많이 사용되는 랜덤샘플링(random sampling)과 제안 기법의 성능을 비교해 보았다. 그 결과, 로지스틱 회귀분석, 판별분석, 의사결정나무, SVM 등 대다수의 분류모형에 있어 분류 정확도가 개선됨을 확인할 수 있었으며, 모든 분류모형에 있어 부정 오류, 즉 부실기업을 정상으로 예측하는 오류율이 크게 감소함을 확인할 수 있었다.

MW급 대용량 유도전동기 축계의 모드실험 기반 회전체 동역학 해석모델 수립 및 위험속도 예측 (Rotordynamic Model Development and Critical Speed Estimation Through Modal Testing for the Rotor-Bearing System of a MW Class Large-Capacity Induction Motor)

  • 박지수;최재학;김동준;심규호
    • Tribology and Lubricants
    • /
    • 제36권5호
    • /
    • pp.279-289
    • /
    • 2020
  • In this paper, a method is proposed for establishing an approximate prediction model of rotor-dynamics through modal testing. In particular, the proposed method is applicable to systems that cannot be established according to conventional methods owing to the absence of information regarding the dimensions and material of the rotor-bearing system. The proposed method is demonstrated by employing a motor dynamometer driven by a 1 MW class induction motor without dimension and material information. The proposed method comprises a total of seven steps, wherein an initial model is established by incorporating approximate dimensions and material information, and the model is improved on the basis of the natural frequency characteristics of the system. During model improvement, the modification factor is introduced for adjusting the elastic modulus and shear modulus of the system. Analysis of critical speed and imbalance response indicates that the separation margin is 67% and the maximum vibration amplitude is less than the amplitude limit of 0.032 mm under the API 611 standard, which means that the motor dynamometer can stably operate at a rated speed of 1800 rpm. Hence, the obtained results validate the feasibility of the proposed method. Furthermore, for broad usage, it is necessary to accordingly apply and validate the proposed method for various rotor-bearing systems.

자유대화의 음향적 특징 및 언어적 특징 기반의 성인과 노인 분류 성능 비교 (Comparison of Classification Performance Between Adult and Elderly Using Acoustic and Linguistic Features from Spontaneous Speech)

  • 한승훈;강병옥;동성희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.365-370
    • /
    • 2023
  • 사람은 노화과정에 따라 발화의 호흡, 조음, 높낮이, 주파수, 언어 표현 능력 등이 변화한다. 본 논문에서는 이러한 변화로부터 발생하는 음향적, 언어적 특징을 기반으로 발화 데이터를 성인과 노인 두 그룹으로 분류하는 성능을 비교하고자 한다. 음향적 특징으로는 발화 음성의 주파수 (frequency), 진폭(amplitude), 스펙트럼(spectrum)과 관련된 특징을 사용하였으며, 언어적 특징으로는 자연어처리 분야에서 우수한 성능을 보이고 있는 한국어 대용량 코퍼스 사전학습 모델인 KoBERT를 통해 발화 전사문의 맥락 정보를 담은 은닉상태 벡터 표현을 추출하여 사용하였다. 본 논문에서는 음향적 특징과 언어적 특징을 기반으로 학습된 각 모델의 분류 성능을 확인하였다. 또한, 다운샘플링을 통해 클래스 불균형 문제를 해소한 뒤 성인과 노인 두 클래스에 대한 각 모델의 F1 점수를 확인하였다. 실험 결과로, 음향적 특징을 사용하였을 때보다 언어적 특징을 사용하였을 때 성인과 노인 분류에서 더 높은 성능을 보이는 것으로 나타났으며, 클래스 비율이 동일하더라도 노인에 대한 분류 성능보다 성인에 대한 분류 성능이 높음을 확인하였다.

환자를 위한 선수술 교정 접근 방법 (Surgery-First Orthodontic Approach for the patients)

  • 국민석
    • 대한치과의사협회지
    • /
    • 제55권4호
    • /
    • pp.296-302
    • /
    • 2017
  • The traditional orthognathic surgery treatment consists of three steps: preoperative orthodontic treatment, orthognathic surgery, and postoperative orthodontic treatment, and the average treatment period is usually two years. Also, patients with Class III malocclusion should spend more time getting their facial features worse during the decompensation process. However, most of the patients who want orthognathic surgery visit the chief complaints of appearance improvement, and resolve this address as soon as possible. The concept of $^{\circ}{\AE}$Surgery - First 'does not cause a facial imbalance caused by decompensation for the pre - operative correction period, and the patient can obtain an improved facial profile immediately after the operation. In addition, the correction period is shortened by Regional Acceleratory Phenomenon (RAP) after surgery. However, it is not applicable to all patients. Patients with severe crowding, severe curve of spee or reverse curve of spee, severe transverse discrepancy of the maxilla and mandibular arch, and severe incisal angles are less likely to apply the technique. Although it is not yet possible to apply this technique to all patients, it has many advantages over the conventional method. Especially, the patients' preference is increasing due to the rapid appearance improvement and the shortening of the total treatment period.

  • PDF

사회감정전략을 이용한 영어독해수업 모형제시를 위한 이론 및 사례연구 분석 (An analysis of the theories and a case study for teaching EFL reading with the use of socioaffective strategies)

  • 최경희
    • 영어어문교육
    • /
    • 제9권spc호
    • /
    • pp.185-208
    • /
    • 2003
  • The purpose of this paper is to examine some of the theories concerning socioaffective strategies, to analyze the dialogues of the students negotiating for meaning of a reading material and to suggest some implications of socioaffective strategies for teaching reading. The examination of the theories - the interaction hypothesis and the sociocultural theory - suggest that the use of socioaffective strategies facilitates more effective understanding of information that is to be found. distributed, and taken in among the participants. The discourse analyses of the students' interaction in a Korean college English reading class show ample evidence of the use of socioaffective strategies that helped them understand the meaning of a text. However, the analyses show that the strategies are mostly used to ask questions concerning the meaning of clauses. Only few analytical questions are raised for some structural and pragmatical features in the text which are crucial to the understanding of its meaning. Imbalance also exists in the types of the questions used by the participants. The analyses indicate that, instead of negotiating more interactively, the students tend to rely upon a more advanced student when they face difficult English sentences. Therefore as a conclusion this paper emphasizes the importance of teaching socioaffective strategies to help students to help themselves to become more cooperative, independent and analytical in reading English texts.

  • PDF