• 제목/요약/키워드: 불균형 자료

검색결과 304건 처리시간 0.03초

불균형 자료에서 AIC를 이용한 선형혼합모형 선택법의 효율에 대한 모의실험 연구 (Simulation Study on Model Selection Based on AIC under Unbalanced Design in Linear Mixed Effect Models)

  • 이용희
    • 응용통계연구
    • /
    • 제23권6호
    • /
    • pp.1169-1178
    • /
    • 2010
  • 본 논문은 불균형 자료에서 선형혼합모형에 적용되는 Akaike Information Criterion(AIC)의 효율에 대한 연구이다. Vaida와 Balanchard (2005)에 의해 제안된 cAIC(conditional AIC)는 mAIC(marginal AIC)가 임의효과의 예측에 대한 불확실성을 모형선택에서 반영하지 못하는 단점을 극복할 수 있는 방법이다. cAIC에 대한 이론적인 성질과 확장은 Liang 등 (2008)과 Greven과 Kneib (2010)에 의하여 연구되었다. cAIC의 형태는 자료의 구조에 영향을 받지는 않지만 선형혼합모형에서 모수의 추정 효율은 자료의 불균형의 정도에 따라 많은 영향을 받는 것이 알려져 있다. 기존의 연구에서 실시한 모든 모의실험이 자료가 균형인 경우에만 실행되어 자료의 불균형이 AIC에 근거한 혼합모형 선택 방법의 효율에 어떤 영향을 미치는지 알려져 있지 않다. 본 논문은 자료의 불균형이 모형선택 방법의 효율에 미치는 영향을 모의실험을 통하여 알아보았다. 자료의 불균형이 심해짐에 따라 AIC에 근거한 모형선택방법은 복잡한 모형을 선택하는 경향이 낮아짐을 보였다.

세계화가 중국 지역간 소득불균형에 미치는 영향에 관한 실증분석 (An Empirical Study on the Effect of Chinese Regional Income Disparity from Globalization)

  • 이민환;주세우
    • 국제지역연구
    • /
    • 제13권3호
    • /
    • pp.73-91
    • /
    • 2009
  • 본 연구는 중국의 성(省)별 소득불균형의 추이를 살펴보고 패널 데이터 분석방법을 이용하여 지역별 소득불균형에 대한 세계화의 영향을 추정하였다. 실증분석을 위한 패널 자료는 중국의 지역별 소득불균형이 크게 확대되기 시작한 1990년부터 자료가 이용 가능한 2007년까지 중국의 29개 성별 자료를 이용하였다. 1990년대 중국의 성간 불균형은 크게 확대되는 추세를 보였으며, 2000년 이후 불균형 정도는 서서히 약화되는 것으로 나타났다. 중국을 대상으로 한 실증분석 결과는 성의 국제무역 규모 수준뿐만 아니라 전체 성들의 평균에 대한 비율 모두 중국의 성별 소득 불균형에 중요한 영향을 미치는 변수임을 확인하였다. 이러한 결과는 국제무역의 성장은 성간 소득불균형을 확대시킬 수 있음을 의미한다. 한편 중국의 각 성들은 넒은 영역을 포함하므로 각각의 성들 내에서도 도시와 농촌지역간 불균형이 지역간 소득불균형의 중요한 원인이 될 수 있다. 그러므로 지역간 균형발전을 위한 중앙정부의 서부대개발정책과 병행하여 소도시들에 대한 다양한 개발정책들이 필요함을 시사한다.

부하 균형 유지를 고려한 파이프라인 해시 조인 방법 (A Pipelined Hash Join Method for Load Balancing)

  • 문진규;박노상;김평중;진성일
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.755-768
    • /
    • 2002
  • 다중 조인 연산의 파이프라인 방식 처리에서 조인 어트리뷰트의 자료 불균형(data skew)이 성능에 주는 영향을 연구하고, 자료 불균형을 대비하여 적재부하를 라운드-로빈 방식으로 정적 분할하는 방법과 자료분포도를 이용하여 적응적으로 분할하는 두 가지 파이프라인 해시 조인 알고리즘을 제안한다. 해시 기반 조인을 사용하면 여러 개의 조인을 파이프라인 방식으로 처리할 수 있다. 다중 조인의 파이프라인 방식 처리는 조인 중간 결과를 디스크를 통하지 않고 다른 프로세서에게 직접 전달하므로 효율적이다. 파이프라인 해시 조인 알고리즘이 자료 불균형을 대비한 부하 균형 유지 메커니즘을 갖고 있지 않다면 자료 불균형은 성능에 매우 심각한 영향을 줄 수 있다. 본 논문은 자료 불균형의 영향과 제안된 두 가지 기법을 비교하기 위하여 파이프라인 세그먼트의 실행 모형, 비용 모형, 그리고 시뮬레이터를 개발한다. 다양한 파라미터로 모의 실험을 한 결과에 의하면 자료 불균형은 조인 선택도와 릴레이션 크기에 비례하여 시스템 성능을 떨어뜨림을 보여준다. 그러나 제안된 파이프 라인 해시 조인 알고리즘은 다수의 버켓 사용과 분할의 조율을 통해 자료 불균형도가 심한 경우에도 좋은 성능을 갖게 한다.

다중 해시 조인의 파이프라인 처리에서 분할 조율을 통한 부하 균형 유지 방법 (A Load Balancing Method using Partition Tuning for Pipelined Multi-way Hash Join)

  • 문진규;진성일;조성현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.180-192
    • /
    • 2002
  • Shared nothing 다중 프로세서 환경에서 조인 어트리뷰트의 자료 불균형(data skew)이 파이프라인 해시 조인 연산의 성능에 주는 영향을 연구하고, 자료 불균형을 대비하여 적재부하를 Round-robin 방식으로 정적 분할하는 방법과 자료분포도를 이용하여 동적 분할하는 두 가지 파이프라인 해시 조인 알고리즘을 제안한다. 해시 기반 조인을 사용하면 여러 개의 조인을 파이프라인 방식으로 처리할 수 있다. 다중 조인은 파이프라인 방식 처리는 조인 중간 결과를 디스크를 통하지 않고 다른 프로세서에게 직접 전달하므로 효율적이다. Shared nothing 다중 프로세서 구조는 대용량 데이타베이스를 처리하는데 확장성은 좋으나 자료 불균형 분포에 매우 민감하다. 파이프라인 해시 조인 알고리즘이 동적 부하 균형 유지 메커니즘을 갖고 있지 않다면 자료 불균형은 성능에 매우 심각한 영향을 줄 수 있다. 본 논문은 자료 불균형의 영향과 제안된 두 가지 기법을 비교하기 위하여 파이프라인 세그먼트의 실행 모형, 비용 모형, 그리고 시뮬레이터를 개발한다. 다양한 파라미터로 모의 실험을 한 결과에 의하면 자료 불균형은 조인 선택도와 릴레이션 크기에 비례하여 시스템 성능을 떨어뜨림을 보여준다. 그러나 제안된 파이프라인 해시 조인 알고리즘은 다수의 버켓 사용과 분할의 조율을 통해 자료 불균형도가 심한 경우에도 좋은 성능을 갖게 한다.

지도학습 기반 암상 분류 시 클래스 간 자료 불균형을 고려한 평가지표 개발 (Development of Evaluation Metrics that Consider Data Imbalance between Classes in Facies Classification)

  • 김도완;최준환;변중무
    • 지구물리와물리탐사
    • /
    • 제23권3호
    • /
    • pp.131-140
    • /
    • 2020
  • 머신러닝을 이용한 분류 모델 훈련에서 학습자료의 양과 질은 학습한 모델의 성능을 좌우하므로 학습자료 생성이 매우 중요한 역할을 한다. 그러나 자료 생성에 높은 비용이 들어 이상적인 학습자료 생성이 어려울 때에는 클래스 간 자료 불균형 문제가 발생한다. 만약 학습자료로 사용될 탐사자료가 클래스 간 불균형하게 얻어지면, 클래스 별로 균형있는 학습이 이루어지기 힘들다. 따라서 데이터가 상대적으로 적은 클래스는 재현율이 현저히 떨어지게 된다. 그 뿐만 아니라 정확도와 정밀도 등의 평가지표들에 대한 신뢰도가 떨어지게 된다. 따라서 이 연구에서는 두 단계에 걸쳐 자료 불균형 문제를 해소하고자 하였다. 첫 번째로 기존의 정확도와 정밀도를 개선하여 자료 불균형을 고려할 수 있는 새로운 평가지표로 가중정확도와 가중정밀도를 고안하였다. 다음으로 클래스 간의 가중정밀도와 재현율의 균형을 맞추어 주도록 오버샘플링을 수행하였다. 개발한 알고리듬을 물리검층 자료를 이용한 암상 및 공극유체 규명 문제에 적용함으로써 검증하였다. 그 결과 다수 클래스와 소수 클래스들 간의 불균형이 상당 부분 완화되었고, 클래스 간의 경계를 보다 명확하게 확인할 수 있었다.

불균형자료를 위한 판별분석에서 HDBSCAN의 활용 (Discriminant analysis for unbalanced data using HDBSCAN)

  • 이보희;김태헌;최용석
    • 응용통계연구
    • /
    • 제34권4호
    • /
    • pp.599-609
    • /
    • 2021
  • 군집간의 개체 수의 차이가 큰 자료들을 불균형자료라고 한다. 불균형자료의 판별분석에서 다수 범주의 개체를 잘 분류하는 것 보다 소수 범주의 개체를 잘 분류하는 것이 더 중요하다. 그러나 개체 수가 상대적으로 작은 소수 범주의 개체를 개체 수가 상대적으로 많은 다수 범주의 개체로 오분류하는 경우가 많다. 본 연구에서는 이를 해결하기 위해 HDBSCAN과 SMOTE를 결합한 방법을 제안한다. HDBSCAN을 이용하여 소수 범주의 노이즈와 다수 범주의 노이즈를 제거하고 SMOTE를 적용하여 새로운 자료를 만들어낸다. 기존의 방법들과 성능을 비교하기 위하여 AUC와 F1 점수를 이용하였고 그 결과 대부분의 경우에 HDBSCAN과 SMOTE를 결합한 방법이 높은 성능 지표를 보였고, 불균형자료를 분류하는데 있어 뛰어난 방법으로 나타났다.

불균형 자료의 분류분석을 위한 가중 L1-norm SVM (Weighted L1-Norm Support Vector Machine for the Classification of Highly Imbalanced Data)

  • 김은경;전명식;방성완
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.9-21
    • /
    • 2015
  • SVM은 높은 수준의 분류 정확도와 유연성을 바탕으로 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 집단별 개체수가 상이한 불균형 자료의 분류분석에서 SVM은 다수집단으로 편향되게 분류함수를 추정하므로 소수집단의 분류 정확도가 심각하게 감소하게 된다. 불균형 자료의 분류분석을 위하여 집단별 오분류 비용을 차등 적용하는 가중 $L_2$-norm SVM이 개발되었으나, 이는 릿지 형태의 벌칙함수를 사용하므로 분류함수의 추정에서 불필요한 잡음변수의 제거에는 효율적이지 못하다. 따라서 본 논문에서는 라소 형태의 별칙함수를 사용하고 훈련개체의 오분류 비용을 차등적으로 부여함으로서 불균형 자료의 분류분석에서 변수선택의 기능을 지니는 가중 $L_1$-norm SVM을 제안하였으며, 모의실험과 실제자료의 분석을 통하여 제안한 방법론의 효율적인 성능과 유용성을 확인하였다.

불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택 (Selecting the optimal threshold based on impurity index in imbalanced classification)

  • 장서인;여인권
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.711-721
    • /
    • 2021
  • 이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로 ?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.

오차항이 이분산성을 가지는 일원분류 모형에서 일반 F-검정의 유의수준에 관한 고찰

  • 김기환;이준영
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2000년도 추계학술발표회 논문집
    • /
    • pp.165-171
    • /
    • 2000
  • 일원분류 모형에서 표준 F-검정을 하기 위해서는 오차항에 대한 등분산성을 가정한다. 그러나 실제로 이러한 가정은 지켜지기 힘들며, 이에 더불어 관찰치가 각 집단별로 일정하지 않고 불균형한 경우에는 F-검정의 유의수준이 지정된 값을 만족시키지 못하며, 따라서 검정력에 관한 분석은 의미가 없게 된다. 본 연구에서는 등분산성이 지켜지지 않고, 자료가 불균형한 경우, 현실적인 상황에서 일반적으로 사용되는 F-검정의 유의수준 유지라는 문제가 어 떤 변화를 겪게 되는지를 확인하고, 더 나아가 유의수준을 유지하기 위해서는 어떤 식의 조정이 가능한지를 살펴보았다.

  • PDF

이분형 자료의 분류문제에서 불균형을 다루기 위한 표본재추출 방법 비교 (Comparison of resampling methods for dealing with imbalanced data in binary classification problem)

  • 박근우;정인경
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.349-374
    • /
    • 2019
  • 이분형 자료의 분류에서 자료의 불균형 정도가 심한 경우 분류 결과가 좋지 않을 수 있다. 이런 문제 해결을 위해 학습 자료를 변형시키는 등의 연구가 활발히 진행되고 있다. 본 연구에서는 이러한 이분형 자료의 분류문제에서 불균형을 다루기 위한 방법들 중 표본재추출 방법들을 비교하였다. 이를 통해 자료에서 희소계급의 탐지를 보다 효과적으로 하는 방법을 찾고자 하였다. 모의실험을 통하여 여러 오버샘플링, 언더샘플링, 오버샘플링과 언더샘플링 혼합방법의 총 20가지를 비교하였다. 분류문제에서 대표적으로 쓰이는 로지스틱 회귀분석, support vector machine, 랜덤포레스트 모형을 분류기로 사용하였다. 모의실험 결과, 정확도가 0.5 이상이면서 민감도가 높았던 표본재추출 방법은 random under sampling (RUS)였다. 그 다음으로 민감도가 높았던 방법은 오버샘플링 ADASYN (adaptive synthetic sampling approach)이었다. 이를 통해 RUS 방법이 희소계급값을 찾기 위한 방안으로는 적합했다는 것을 알 수 있었다. 몇 가지 실제 자료에 적용한 결과도 모의실험의 결과와 비슷한 양상을 보였다.