• 제목/요약/키워드: Imbalance training

검색결과 117건 처리시간 0.029초

Severity-based Software Quality Prediction using Class Imbalanced Data

  • Hong, Euy-Seok;Park, Mi-Kyeong
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.73-80
    • /
    • 2016
  • Most fault prediction models have class imbalance problems because training data usually contains much more non-fault class modules than fault class ones. This imbalanced distribution makes it difficult for the models to learn the minor class module data. Data imbalance is much higher when severity-based fault prediction is used. This is because high severity fault modules is a smaller subset of the fault modules. In this paper, we propose severity-based models to solve these problems using the three sampling methods, Resample, SpreadSubSample and SMOTE. Empirical results show that Resample method has typical over-fit problems, and SpreadSubSample method cannot enhance the prediction performance of the models. Unlike two methods, SMOTE method shows good performance in terms of AUC and FNR values. Especially J48 decision tree model using SMOTE outperforms other prediction models.

OFDM 시스템에서 주파수 선택적 페이딩 채널과 RF 불완전 변환 극복을 위한 기저대역 신호보상 기법 (Baseband Signal Compensation Scheme for Frequency Selective Fading Channel and RF Impairments in OFDM System)

  • 김재길;김정빈;황진용;신동철;안재민
    • 한국통신학회논문지
    • /
    • 제35권1C호
    • /
    • pp.55-64
    • /
    • 2010
  • 본 논문에서는 직접변환 RF 송수신기를 채용하는 직교주파수분할다중화(Orthogonal Frequency Division Multiplexing, OFDM) 송수신기의 IQ 불균형과 수신기의 위상잡음, 그리고 주파수 선택적 페이딩에 의한 채널 왜곡을 종합적으로 분석하여 기저대역에서 이들 왜곡을 보상하는 보상기법을 제안한다. 제안된 보상기법은 훈련심벌을 이용하여 합성 왜곡성분을 추정하는 초기 왜곡추정과 데이터 심벌에 포함되는 파일럿 심벌을 이용한 잔여 왜곡성분 추정과정을 포함하고 있으며 이들을 종합하여 합성왜곡성분을 제거한다. 시뮬레이션 결과로부터 제안된 보상기법은 IQ 불균형, 위상잡음과 주파수 선택적 페이딩 채널이 혼합된 신호왜곡을 동시에 보상할 수 있음을 확인하였다.

Document Classification Model Using Web Documents for Balancing Training Corpus Size per Category

  • Park, So-Young;Chang, Juno;Kihl, Taesuk
    • Journal of information and communication convergence engineering
    • /
    • 제11권4호
    • /
    • pp.268-273
    • /
    • 2013
  • In this paper, we propose a document classification model using Web documents as a part of the training corpus in order to resolve the imbalance of the training corpus size per category. For the purpose of retrieving the Web documents closely related to each category, the proposed document classification model calculates the matching score between word features and each category, and generates a Web search query by combining the higher-ranked word features and the category title. Then, the proposed document classification model sends each combined query to the open application programming interface of the Web search engine, and receives the snippet results retrieved from the Web search engine. Finally, the proposed document classification model adds these snippet results as Web documents to the training corpus. Experimental results show that the method that considers the balance of the training corpus size per category exhibits better performance in some categories with small training sets.

위상 잡음과 직교 불균형이 있는 OFDM 수신 신호의 보상 (Compensation of OFDM Signal Degraded by Phase Noise and IQ Imbalance)

  • 유상범;김상균;유흥균
    • 한국전자파학회논문지
    • /
    • 제19권9호
    • /
    • pp.1028-1036
    • /
    • 2008
  • OFDM(Orthogonal Frequency Division Multiplexing) 시스템에서 직교 불균형 문제는 송수신기의 front-end에서 발생하며, 성상도에 영향을 주게 되어 BER(Bit Error Rate)을 증가시킨다. 또한, 위상 잡음은 송수신시 국부 발진기에서 발생되는 잡음으로 각 부반송파의 직교성을 깨뜨림으로써 시스템 성능을 크게 저하시킨다. 기존 방식인 PNS(Phase Noise Suppression) 알고리즘은 이러한 위상 잡음을 효과적으로 제거하는 방법이지만 직교 불균형 이동시에 적용되면 오히려 성능이 감소된다. 본 논문에서는 OFDM 시스템의 수신기에서 하향 변환 시 발생하는 직교 불균형과 위상 잡음의 영향을 분석하고, 수신기 FFT(Fast Fourier Transform) 후단에서 파일럿 심볼을 사용하여 CPE를 먼저 제거하고 직교 불균형과 위상 잡음의 성분을 검출하여 등화기의 판정 기준으로 사용하여 보상하는 방법을 제시하였다. 또, 다른 기존 방식들은 FFT 후단에서 추정하고 피드백 시키거나 프리엠블과 같은 시퀀스를 사용하는 방식이지만, 본 논문에서는 FFT 후단에서 MMSE 등화기만을 사용하여 제거하므로 기존의 방법보다 복잡도가 줄어든다. 기존의 위상 잡음 제거 방식에 ICI(Inter Carrier Interference) 제거 기능을 추가하고 직교 불균형 성분을 추출하여 MMSE(Minimum Mean Square Error) 과정 중에 적응 forgetting factor를 적용하면 성능 개선과 직교 불균형 성분의 영향이 줄어들며 성능이 개선됨을 보인다.

해양수산 분야 인력양성 실태와 개선방안 연구 (Human Resource Training and Development in the Korean Marine and Fisheries Sector : Current Status, Prospects, and Recommendations)

  • 박광서;김주현;김지혜;이정민;이선량
    • 한국해양환경ㆍ에너지학회지
    • /
    • 제20권1호
    • /
    • pp.45-54
    • /
    • 2017
  • 최근 취업애로 계층이 100만명을 넘어서는 등청년 고용의 어려움이 지속되고 있다. 해양수산 분야도 예외가 아니어서 수요 측면에서는 우수한 인재 부족으로, 공급 측면에서는 양질의 일자리 부족으로 인력 수급 상의 미스매치가 발생하고 있다. 미스매치는 양적인 면도 중요하지만 질적인 측면이 더욱 중요하다. 이러한 문제를 해소하기 위해서는 현장과 미래 수요에 부응한 전문인력을 집중적으로 양성하고, 실습장비 등과 같은 교육 인프라와 교원의 역량 강화, 산학연 협력 체계 구축 등이 필요하다. 나아가 학교교육에서 재교육까지 아우르는 인력양성 통합관리 시스템을 구축하고 일반 국민의 해양수산에 대한 이미지 제고를 위한 사업들이 추진되어야 한다.

욕설문장 분류의 불균형 데이터 해결을 위한 전이학습 방법 (A Transfer Learning Method for Solving Imbalance Data of Abusive Sentence Classification)

  • 서수인;조성배
    • 정보과학회 논문지
    • /
    • 제44권12호
    • /
    • pp.1275-1281
    • /
    • 2017
  • 욕설문장을 지도학습 접근법으로 분류하기 위해서 욕설인지 아닌지 판별된 학습 문장이 필요하다. 문자수준의 컨볼루션 신경망이 각 문자에 대해 강건성을 가지기 때문에 욕설분류에 적합하지만, 학습에 많은 데이터가 필요하다는 단점이 있다. 본 논문에서는 이를 해결하기 위해 임의로 생성한 욕설/비욕설 문장 쌍을 컨볼루션 신경망을 기반으로 하는 분류기에 학습시켜 컨볼루션 신경망의 필터가 욕설의 특징을 분류하도록 조정한 후, 실제 훈련문장을 학습시킬 때 필터를 재사용하는 전이학습방법을 제안한다. 이로써 데이터 부족과 클래스 불균형으로 인한 영향이 감소하여 분류 성능이 향상될 것이다. 실험 및 평가는 총 3가지 데이터에 대해 수행되었으며, 문자수준 컨볼루션 신경망을 활용한 분류기는 모든 데이터에서 전이학습을 적용했을 때 더 높은 F1 점수를 획득하였다.

딥러닝을 이용한 광학적 프린지 패턴의 생성 (Generation of optical fringe patterns using deep learning)

  • 강지원;김동욱;서영호
    • 한국정보통신학회논문지
    • /
    • 제24권12호
    • /
    • pp.1588-1594
    • /
    • 2020
  • 본 논문에서는 심층신경망(deep neural network, DNN)을 이용하여 디지털 홀로그램을 생성하는 신경망의 학습을 위한 데이터 균형 조정 방법에 대하여 논의 한다. 심층신경망은 딥러닝(deep learning, DL) 기술에 기반을 두고 있고, 생성형 적대적 네트워크(generative adversarial network, GAN)계열을 이용한다. 심층 신경망을 통하여 생성 하고자하는 홀로그램의 기본 단위인 프린지 패턴은 홀로그램 평면과 객체의 위치에 따라 데이터의 형태가 매우 다르다. 하지만 데이터의 분류 기준이 명확하지 않기 때문에 학습 데이터의 불균형이 생길 수 있다. 학습 데이터의 불균형은 곧 학습의 불안정 요소로 작용한다. 따라서 분류 기준이 명확하지 않은 데이터를 분류하고 균형을 맞추는 방법을 제시한다. 그리고 이를 통하여 학습이 안정화됨을 보인다.

LDAM 손실 함수를 활용한 클래스 불균형 상황에서의 옷차림 T.P.O 추론 모델 학습 (Learning T.P.O Inference Model of Fashion Outfit Using LDAM Loss in Class Imbalance)

  • 박종혁
    • 한국융합학회논문지
    • /
    • 제12권3호
    • /
    • pp.17-25
    • /
    • 2021
  • 의복을 착용하는데 있어 목적 상황에 부합하는 옷차림을 구성하는 것은 중요하다. 따라서 인공지능 기반의 다양한 패션 추천 시스템에서 의복 착용의 T.P.O(Time, Place, Occasion)를 고려하고 있다. 하지만 옷차림으로부터 직접 T.P.O를 추론하는 연구는 많지 않은데, 이는 문제 특성 상 다중 레이블 및 클래스 불균형 문제가 발생하여 모델 학습을 어렵게 하기 때문이다. 이에 본 연구에서는 label-distribution-aware margin(LDAM) loss를 도입하여 옷차림의 T.P.O를 추론할 수 있는 모델을 제안한다. 모델의 학습 및 평가를 위한 데이터셋은 패션 쇼핑몰로부터 수집되었고 이를 바탕으로 성능을 측정한 결과, 제안 모델은 비교 모델 대비 모든 T.P.O 클래스에서 균형잡힌 성능을 보여주는 것을 확인할 수 있었다.

e비즈니스 인력수급 실태조사 및 커리큘럼 분석을 통한 인력양성 방안에 관한 연구 (A Study of Manpower Training Plan : Analysis of e-Biz Human Resources Market Conditions and of e-Biz Curriculums)

  • 박인섭;임규건;김재훈
    • 한국IT서비스학회지
    • /
    • 제7권4호
    • /
    • pp.101-117
    • /
    • 2008
  • As the rapidly changing e-business environment and development of IT, it is difficult to predict appropriate demand and supply of human resources in e-business industry. Such problem causes the imbalance of needs in demand and supply and the difficulty of proving useful information about fostering necessary e-business human resource and so forth. This study present a manpower training plan in e-business industry by investigating e-business human resource in the market and by analyzing curriculums in selected universities. To achieve this objective, we conducted a survey study of e-business companies, educational organizations and workers. From the results of this study, we present the current status of e-business human resource market and the problems of past manpower training system, and provide recommendations. This study would help policy makers, the private companies and academic institutions in developing effective strategies for the e-Biz human resource sector.

클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링 (Improved Focused Sampling for Class Imbalance Problem)

  • 김만선;양형정;김수형;챠위핑
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.287-294
    • /
    • 2007
  • 실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다.