• 제목/요약/키워드: 회귀 클래스

검색결과 27건 처리시간 0.022초

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

의사결정트리를 이용한 교육성과 요인에 관한 연구 (A Study on Factors of Education's Outcome using Decision Trees)

  • 김완섭
    • 공학교육연구
    • /
    • 제13권4호
    • /
    • pp.51-59
    • /
    • 2010
  • 대학에서 운영되는 강좌를 효과적으로 관리하고 교육성과를 향상시키기 위해서는 각 클래스의 현재의 교육성과를 진단하고 교육성과에 영향을 미치는 요인들을 파악하는 과정이 요구된다. 요인을 발견하는 연구에는 연관성 분석, 회귀분석 등의 통계기법들이 많이 사용되고 있으며 최근에는 데이터마이닝의 결정트리 분석도 사용되고 있다. 결정트리 분석은 결과 모델을 이해하기 쉽고 의사결정에 적용하기 쉽다는 장점이 있지만, 다중공선성 등의 입력 데이터의 특성에 견고하지 못한 문제점이 있다. 본 연구에서는 기존의 결정트리 분석의 문제점들을 정리하고, 이 문제점들을 보완하기 위한 하나의 실험적 해결책으로 다중 결정트리를 이용한 요인의 발견 방법을 제안한다. 실험을 통해 다중 결정트리를 수행이 다중 결정트리를 적용할 때보다 신뢰할 수 있는 요인을 발견하고 각 변수의 중요성을 발견할 수 있음을 보였다.

  • PDF

P2P 대부 우수 대출자 예측을 위한 합성 소수집단 오버샘플링 기법 성과에 관한 탐색적 연구 (Exploring the Performance of Synthetic Minority Over-sampling Technique (SMOTE) to Predict Good Borrowers in P2P Lending)

  • 프란시스 조셉 코스텔로;이건창
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.71-78
    • /
    • 2019
  • 본 연구는 P2P 대부 플랫폼에서 우수 대출자를 예측시 유용한 합성 소수집단 오버샘플링 기법을 제안하고 그 성과를 실증적으로 검증하고자 한다. P2P 대부 관련 우수 대출자를 추정할 때 일어나는 문제점중의 하나는 클래스 간 불균형이 심하여 이를 해결하지 않고서는 우수 대출자 예측이 쉽지 않다는 점이다. 이러한 문제를 해결하기 위하여 본 연구에서는 SMOTE, 즉 합성 소수집단 오버샘플링 기법을 제안하고 LendingClub 데이터셋에 적용하여 성과를 검증하였다. 검증결과 SMOTE 방법은 서포트 벡터머신, k-최근접이웃, 로지스틱 회귀, 랜덤 포레스트, 그리고 딥 뉴럴네트워크 분류기와 비교하여 통계적으로 우수한 성과를 보였다.

잔차 연결의 조건부 생성적 적대 신경망을 사용한 시맨틱 객체 분할 (Semantic Object Segmentation Using Conditional Generative Adversarial Network with Residual Connections)

  • ;;;강현수;서재원
    • 한국정보통신학회논문지
    • /
    • 제26권12호
    • /
    • pp.1919-1925
    • /
    • 2022
  • 본 논문에서는 시맨틱 분할을 위한 조건부 생성적 적대 신경망 기반의 이미지 대 이미지 변환 접근법을 제안한다. 시맨틱 분할은 동일한 개체 클래스에 속하는 이미지 부분을 함께 클러스터링하는 작업이다. 기존의 픽셀별 분류 방식과 달리 제안하는 방식은 픽셀 회귀 방식을 사용하여 입력 RGB 이미지를 해당 시맨틱 분할 마스크로 구문 분석한다. 제안하는 방법은 Pix2Pix 이미지 합성 방식을 기반으로 하였다. 잔차 연결이 훈련 프로세스를 가속화하고 더 정확한 결과를 생성하므로 생성기 및 판별기 아키텍처 모두에 대해 잔여 연결 기반 컨볼루션 신경망 아키텍처를 사용하였다. 제안하는 방법은 NYU-depthV2 데이터셋를 이용하여 학습 및 테스트 되었으며 우수한 mIOU 값(49.5%)을 달성할 수 있었다. 또한 시맨틱 객체분할 실험에서 제안한 방법과 현재 방법을 비교하여 제안한 방법이 기존의 대부분의 방법들보다 성능이 우수함을 보였다.

환경영향평가에서 조류 종풍부도 변화에 미치는 요인 고찰 연구 (Study on the Factors Affecting the Richness Index of Bird Species in Environmental Impact Assessment)

  • 문현빈;김은섭;이동근
    • 환경영향평가
    • /
    • 제33권2호
    • /
    • pp.64-73
    • /
    • 2024
  • 개발사업으로 인한 서식지 파괴의 심각성이 대두되면서 생물다양성을 보전하기 위해 환경영향평가(EIA)의 중요성은 커지고 있다. 경관스케일에서 개발 요인과 주변 환경요인에 따른 생물다양성 영향을 정량적으로 평가하기 위해 선행연구들이 진행되고 있으나, 개발사업을 기준으로 생물다양성 감소에 영향을 미치는 요인에 대한 연구는 미흡한 실정이다. 본 연구는 선행연구를 통해 유효하다고 밝혀진 독립변수(사업 면적, 사업 유형, 고도, 생태·자연도, 녹지와의 이격거리, 보호구역과의 이격거리)들을 다중클래스 로지스틱 회귀분석, T-test, 사업 유형 검토분석을 통해 종풍부도 변화에 유의미한 영향을 미치는지를 검토하였다. 연구 결과, 토지 피복 단위에서 생물다양성에 영향을 끼치는 것으로 밝혀진 요인 중 사업 규모와 환경영향평가 시 종풍부도 값만이 p-value=0.05 이하의 값을 보였다. 그리고 사업 유형의 경우, 체육시설의 설치, 에너지 개발, 산업입지 및 산업단지의 조성에서 조류의 생물다양성 감소가 크게 변화하는 것을 확인하였다. 본 연구를 통해 분석 규모에 따라 영향을 끼치는 변수에서의 차이가 발생할 수 있음을 확인하였기에, 환경영향평가에서 생물다양성 변화를 분석하기 위해서는 개발사업 단위에서의 지표 활용에 연구가 추가로 필요할 것이며, 타 생물종으로의 일반화를 위해 추가적인 연구가 필요할 것으로 사료된다.

비선형 모델을 이용한 결측 대체 방법 비교 (A comparison of imputation methods using nonlinear models)

  • 김혜인;송주원
    • 응용통계연구
    • /
    • 제32권4호
    • /
    • pp.543-559
    • /
    • 2019
  • 자료에는 다양한 원인에 의해 결측이 발생한다. 만약 결측치를 제외하고 완전히 관찰된 자료만으로 분석을 실시한다면 결측자료 메커니즘이 완전임의결측이 아닌 경우 결과에 편향이 발생하거나 제외된 개체로 인한 정보의 손실로 추정의 정밀도가 약화된다. 결측이 하나의 변수에서만 일어나지 않기 때문에, 자료에 변수가 많을 수록 이 문제는 심화된다. 문제를 개선하기 위해 결측치를 대체하는 여러가지 방법들이 제안되었다. 하지만 모수적인 모형을 이용한 대체 방법들은 가정에 위배되는 현실 데이터에는 적합하지 않다. 따라서 본 연구에서는 자료의 분포 가정에 덜 영향을 받는 커널, 리샘플링, 스플라인 방법을 활용한 비선형 대체 방법들을 리뷰하고 필요한 경우 기존의 비선형 대체 방법에 대체클래스를 사용하여 대체값의 정확도를 높이거나 랜덤성을 가지는 오차를 더해주어 추정치의 분산이 적게 추정되는 문제를 개선하는 확장된 결측 대체 방법을 제안한다. 본 연구에서 고려한 여러 가지 대체 방법들은 다양한 모의자료 설계 하에서 성능을 비교하였다. 모의실험 결과, 비선형 대체 방법들은 각 설계 하에 다른 성능을 보이며 전반적으로 커널 회귀나 스플라인을 활용한 대체 방법들이 좋은 성능을 보였다. 더불어, 확장된 대체 방법은 기존의 대체 방법이 가지는 문제점을 개선함을 확인할 수 있었다.

초등학생의 사회적 성취목표 유형에 따른 잠재집단 분류와 또래지위 및 공격성과의 관련성 탐색 (Classifying the Latent Group of Elementary School Students Based on Social Achievement Goals Types and the Exploration of Peer Status and Aggression)

  • 최은영
    • 한국심리학회지:학교
    • /
    • 제17권2호
    • /
    • pp.223-241
    • /
    • 2020
  • 본 연구의 목적은 사회적 성취목표의 세 가지 유형을 기반으로 초등학생의 사회적 성취목표를 잠재집단으로 분류하고, 각 집단이 또래지위와 공격성에서 어떠한 차이점이 있는지를 탐색하는 것이다. 사회적 성취목표와 사이버 공격성은 자기보고 방식으로, 또래지위와 외현적 공격성과 대인관계 공격성은 또래지명 방식으로 측정하였다. 사회적 성취목표는 사회적 숙달목표와 사회적 수행접근목표, 사회적 수행회피목표로 나누었으며, 또래지위는 지각된 인기와 사회적 선호로, 공격성은 외현적 공격성, 대인관계 공격성, 사이버 공격성으로 구분하였다. 전체 연구 대상은 클래스넷 4차년도 자료 중 학년 비율을 고려해 무작위 추출한 초등학생 1,239명(남 633명, 여 606명)이다. 잠재프로파일 분석을 이용해 사회적 성취목표 유형을 분류한 결과 세 집단이 적합한 것으로 나타났다. 사회적 성취목표의 세 집단은 각각 '숙달지향 성취목표형(184명, 14.9%)', '평균 성취목표형(852명, 68.8%)', '고사회적 성취목표형(203명, 16.4%)'으로 명명되었다. 다항 로지스틱 회귀분석을 이용해 또래지위 및 공격성 간의 관련성을 살펴본 결과 1차 시기 사회적 선호가 높을수록 고사회적 성취목표형 집단에 속할 확률이 낮았고, 사이버 공격성이 높을수록 숙달지향 성취목표형 집단에 속할 확률이 낮았다. 또한 2차 시기 대인관계 공격성이 높을수록 평균 성취목표형 집단보다 고사회적 성취목표형 집단에 속할 확률이 높았다.