• 제목/요약/키워드: 이항 분류

검색결과 50건 처리시간 0.025초

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택 (Selecting the optimal threshold based on impurity index in imbalanced classification)

  • 장서인;여인권
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.711-721
    • /
    • 2021
  • 이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로 ?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.

온주밀감에서 귤응애의 이항표본조사법 개발 (Binomial Sampling Plans for the Citrus Red Mite, Panonychus citri(Acari: Tetranychidae) on Satsuma Mandarin Groves in Jeju)

  • 송정흡;이창훈;강상훈;김동환;강시용;류기중
    • 한국응용곤충학회지
    • /
    • 제40권3호
    • /
    • pp.197-202
    • /
    • 2001
  • 제주지역의 온주밀감 과수원에서 귤응애(Panonychus citri (McGregor)) 밀도에 대해 잎당 응애수를 2년에 걸쳐 조사하였다. 이항표본조사법은 잎당 귤응애의 밀도와(m)와 귤응애가 T마리보다 많이 존재하는 잎의 비율($P_{T}$)과의 관례를 기본으로 하며, T는 경험적 이항분포모형 [$ln(m)-{\alpha}+{\beta}ln(-ln(1-P_{T}))$]에서의 tally threshold로서 본 연구에서는 1, 3, 5, 7을 사용하였다. 표본단위 수의 증가는 T와 관계없이 이항분포 모형의 정확도에 영향이 거의 없었던 반면에 T는 값이 증가함에 따라 표본수를 증가시켜도 정확도가 낮아졌다. 이항분포모형의 정확도는 T=1일 때 가장 높았으며, 최적의 tally threshold인 것으로 나타났다. 또한, 이항표본조사의 유효성을 조사하기 위하여 독립된 표본을 추출, 조사하였으며, 그 결과 온주밀감원에서 귤응애 밀도추정에는 T=1인 경우가 적합한 것으로 판단되었다. 또한, 귤응애 밀도를 분류하기 위한 이항표본조사과정을 개발하여 action threshold가 귤응애 밀도가 잎당 2마리일 때의 이항표본조사 프로그램을 작성하였다.

  • PDF

시사특집 - 불확실성 시대, 타이어산업의 혁신 역량 강화 전략

  • 이항구
    • 타이어
    • /
    • 통권246호
    • /
    • pp.10-19
    • /
    • 2011
  • 일본 대지진으로 인해 세계 경제의 불확실성이 높아가고 있는 가운데 최근 자동차 부품수출이 급증하면서 자동차 부품 산업이 새로운 성장동력 산업으로 부상하고 있다. 우리나라의 타이어 수출은 타이어업체의 해외 생산 확대에도 불구하고 증가하고 있으나, 국내 산업 분류상 타이어가 자동차부품으로 분류되지 않음으로써 관심을 끌지 못하고 있다. 국내 타이어산업은 지속적인 연구개발 투자에 힘입어 혁신역량을 강화하면서 글로벌산업으로 성장하였으며, 세계 시장 점유율을 확대하고 있다. 본고에서는 국내 자동차 부품산업의 수출 현황과 환경 변화 및 국내외 자동차 부품업체의 혁신 전략에 대해 살펴 본 후 불확실성시대의 국내 타이어산업의 혁신 역량 강화 전략을 제시해 보기로 한다.

  • PDF

화물품목 분류에 따른 대도시권 공로화물운송의 시간가치 산정 (Value of Travel-Time Savings in Metropolitan Road Freight Transportation with Freight Classification Code)

  • 최창호
    • 대한교통학회지
    • /
    • 제20권7호
    • /
    • pp.167-175
    • /
    • 2002
  • 본 연구의 목적은 화주가 공로화물운송에서 나타내는 효용을 화물의 품목에 따라 나타내고 자 하였다. 화물교통에서 화주의 효용은 시간가치의 크기를 이용하여 얻을 수 있다. 화물의 특성은 매우 다양하기 때문에 화주의 효용 또한 매우 폭넓게 변화한다. 최근에 화물운송의 시간가치를 산정하는 소수의 연구가 있었으나 대부분 철도나 해운을 포함하여 공로화물운송에 대한 독자적인 시간가치는 얻지 못하였다. 연구에서는 화물의 품목분류에 따라 공로화물운송의 시간가치를 산정하였다. 시간가치의 산정을 위해 현시선호 방법과 이항로짓모형이 이용되었고 연구자료는 1998년도에 수도권을 대상으로 시행된 물동량 조사자료를 이용하였다. 조사자료는 화물품목분류에 따라 분할하였고 분할된 그룹에 따라 19개의 이항로짓모형이 추정되었다. 연구결과 화물운송의 시간가치는 화물의 품목에 따라 16,441원/시간·대부터 66.769원/시간·대까지 분포하는 것으로 나타났다.

초고차원 다범주분류를 위한 변수선별 방법 비교 연구 (A comparative study of feature screening methods for ultrahigh dimensional multiclass classification)

  • 이경은;김경희;신승준
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.793-808
    • /
    • 2017
  • 본 논문에서는 초고차원 자료의 다항분류를 위한 변수선별 방법에 대해 비교 연구를 진행하였다. 다항분류를 위한 변수선별 방법에는 일대일 혹은 일대다 비교를 통해 이항분류를 위한 방법을 확장시켜 적용하는 방법과 다항 반응 변수에 직접 적용할 수 있는 방법이 있다. 다항분류를 위한 변수선별 성능을 확인하기 위하여 여러가지 상황-설명변수의 꼬리가 두꺼운 경우, 신호변수와 잡음변수가 서로 연관된 경우, 결합분포상으로 연관되어 있지만 주변분포 상으로는 연관되어 있지 않은 경우, 다범주 반응변수의 분포가 불균형인 경우-을 가정하고 모의실험을 진행하였고, 실제 자료에도 적용해 보았다. 그 결과, 모형 가정을 필요로 하지 않는 방법들이 안정적인 성능을 보이는 것을 확인하였다.

엔트로피 분포를 이용한 규칙기반 분류분석 연구 (Rule-Based Classification Analysis Using Entropy Distribution)

  • 이정진;박해기
    • Communications for Statistical Applications and Methods
    • /
    • 제17권4호
    • /
    • pp.527-540
    • /
    • 2010
  • 규칙기반 분류분석(rule-based classification analysis)은 직관적인 이해가 쉽고 알고리즘이 복잡하지 않아 최근 대용량 데이터마이닝에 많이 이용되는 기법이다. 하지만 현재의 규칙기반 분석은 여러 개의 규칙들을 찾은후 이 규칙들을 단순히 다수결이나 또는 중요도의 가중 합으로서 새로운 데이터를 분류한다. 본 연구에서는 다항분포를 이용한 이항데이터의 분류분석 기법을 규칙 조합방법에 응용하고자한다. 다향분포의 추정을 위해서는 변형된 반복 비율 적합(iterative proportional fitting; IPF) 알고리즘을 이용하여 최대 엔트로피 분포(entropy distribution)를 찾는다. 시뮬레이션 실험 결과 이 방법은 두 집단의 데이터가 서로 유사한 경우 어느 정도 의미 있는 분류 결과를 보여주였다.

부분적으로 균형된 불완비 블럭계획들 간의 퇴화에 관한 연구

  • 배종성
    • Communications for Statistical Applications and Methods
    • /
    • 제2권2호
    • /
    • pp.387-394
    • /
    • 1995
  • 반복수가 같은 이항 블럭계획(binary equireplicate block design)에서 조화 행렬의 구조는 불완비 블럭계획의 분류 및 분석에 사용된다. 조화행렬의 구조에 의하여 몇 가지 상반부류 수가 3인 부분적으로 균형된 불완비 블럭계획이 상반부류 수가 2인 부분적으로 균형된 불완비 블럭계획으로 퇴화되는 상반 조건을 보였다. 또한 처리 수가 6인 삼각형 계획의 상반관계를 이용하여 그룹분해 가능 계획의 배치계획을 구성할 수 있음을 보였다.

  • PDF

TMS320C30을 이용한 실시간 음성부 검출 알고리즘 구현 (Implementation of A REal-time Endpoint Detection Algorithm Using TMS320C30)

  • 이항섭
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.229-232
    • /
    • 1993
  • 이 논문은 최근에 개발된 실시간 음성부 검출 알고리즘[1]을 TMS320C30 System board와 IBM PC486을 이용한 implementation에 관한 논문이다. 음성부 검출 알고리즘은 Energy와 LCR(Level Crossing Rate)를 이용하여 각 frame을 음성/묵음으로 분류하는 방법을 사용하였고 DSP 보드를 사용하여 한 frame이 입력되면 다음 frame이 입력되기 전에 그 frame에 대한 음성/묵음 분류를 하여 음성입력이 끝남과 동시에 음성이라고 판단되는 부분만을 DPS moemory상에 저장하므로 불필요한 memory의 낭비를 중이고 다음 단계의 음성처리를 위한 시간을 절약하였다. 이 알고리즘의 성능 평가를 위하여 Rabiner와 Sambur의 알고리즘과 한민수의 알고리즘과를 전문가가 수작업으로 찾아낸 결과와 비교 평가하였다. 알고리즘의 오차는 평균 남성 4.925ms, 여성 5.85ms로 1 frame 이내의 오차를 보였다.

  • PDF

대조학습을 활용한 새로운 의도 카테고리 발견 (Novel Intent Category Discovery using Contrastive Learning)

  • 서승연;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-112
    • /
    • 2023
  • 라벨 데이터 수집의 어려움에 따라 라벨이 없는 데이터로 학습하는 준지도학습, 비지도학습에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 그의 일환으로 Novel Intent Category Discovery(NICD) 문제를 제안하고 NICD 연구의 베이스라인이 될 모델을 소개한다. NICD 문제는 라벨이 있는 데이터와 라벨이 없는 데이터의 클래스 셋이 겹치지 않는다는 점에서 기존 준지도학습의 문제들과 차이가 있다. 제안 모델은 RoBERTa를 기반으로 두 개의 분류기를 추가하여 구성되며 라벨이 있는 데이터셋과 라벨이 없는 데이터셋에서 각각 다른 분류기를 사용하여 라벨을 예측한다. 학습방법은 2단계로 먼저 라벨이 있는 데이터셋으로 요인표현을 학습한다. 두 번째 단계에서는 교차 엔트로피, 이항교차 엔트로피, 평균제곱오차, 지도 대조 손실함수를 NICD 문제에 맞게 변형하여 학습에 사용한다. 논문에서 제안된 모델은 라벨이 없는 데이터셋에 대해 이미지 최고성능 모델보다 24.74 더 높은 정확도를 기록했다.

  • PDF