• 제목/요약/키워드: 정보 불균형

검색결과 593건 처리시간 0.024초

데이터 불균형 기법의 부작용 완화를 위한 어텐션 기반 앙상블 (Attention-Based Ensemble for Mitigating Side Effects of Data Imbalance Method)

  • 박요한;최용석;;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.546-551
    • /
    • 2023
  • 일반적으로 딥러닝 모델은 모든 라벨에 데이터 수가 균형을 이룰 때 가장 좋은 성능을 보인다. 그러나 현실에서는 특정라벨에 대한 데이터가 부족한 경우가 많으며 이로 인해 불균형 데이터 문제가 발생한다. 이에 대한 해결책으로 오버샘플링과 가중치 손실과 같은 데이터 불균형 기법이 연구되었지만 이러한 기법들은 데이터가 적은 라벨의 성능을 개선하는 동시에 데이터가 많은 라벨의 성능을 저하시키는 부작용을 가지고 있다. 본 논문에서는 이 문제를 완화시키고자 어텐션 기반의 앙상블 기법을 제안한다. 어텐션 기반의 앙상블은 데이터 불균형 기법을 적용한 모델과 적용하지 않은 모델의 출력 값을 가중 평균하여 최종 예측을 수행한다. 이때 가중치는 어텐션 메커니즘을 통해 동적으로 조절된다. 그로므로 어텐션 기반의 앙상블 모델은 입력 데이터 특성에 따라 가중치를 조절할 수가 있다. 실험은 에세이 자동 평가 데이터를 대상으로 수행하였다. 실험 결과로는 제안한 모델이 데이터 불균형 기법의 부작용을 완화하고 성능이 개선되었다.

  • PDF

정보기술 아웃소싱에 관한 연구 -금융산업을 중심으로

  • 김동환;이대용
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 1998년도 공동추계학술대회 경제위기 극복을 위한 정보기술의 효율적 활용
    • /
    • pp.461-477
    • /
    • 1998
  • 최근 기업들은 과거처럼 양적 성장위주의 경영관리체제에서 벗어나 변화하는 경영환경에 부합사는 새로운 변신을 강력히 추진하는 전력도구로서 아웃소싱을 점차 고려하고 있다. 이러한 정보기술 아웃소싱의 성공과 실패를 결정짓는 중요한 요소중의 하나는 벤더(vendor)와 클라이언트(client)간의 힘의 균형관계다. 본 연구는 벤더와 클라이언트간의 힘의 균형관계가 아웃소싱계약의 엄격성 정도와 갈등관계에 미치는 영향과 계약의 엄격성 정도가 갈등에 영향을 주는 정도를 조사했다. 실증분석결과 첫째, 힘의 균형과 갈등관계에 있어서는 정보력 불균형이 서비스 질 문제갈등과 이윤문제갈등에 부(-)의 영향을 주며, 준거력 불균형이 이윤문제 갈등에만 부(-)의 영향을 주는 것으로 나타났다. 둘째, 힘의 균형과 계약의 엄격성 정도에 있어서는 정보력불균형이 계약수정정도 및 도구개발정도, 전제내용기술정도 모두에 각각 부(-) 의 영향을 주며, 준거력 불균형 또한 계약수정정도 및 도구개발정도, 전제내용기술정도 모두에 각각 부(-)의 영향을 주는 것으로나타났다. 마지막으로, 계약의 엄격성정도와 갈등관계에 있어서는 도구개발정도만이 비용문제, 서비스질문제, 이윤문제 갈등에 각각 부(-)의 영향을 주는 것으로 나타났다.

정보불균형(情報不均衡)과 금융기관(金融機關)

  • 김영진;김흥식
    • 재무관리연구
    • /
    • 제9권2호
    • /
    • pp.31-55
    • /
    • 1992
  • 금융기관(金融機關)은 기업, 가계, 정부와 함께 우리 경제를 구성하는 주요한 부분이다. 금융기관은 최종적 차입자와 최종적 대부자를 중개하는 과정에서 여러가지 서어비스를 우리에게 제공하면서 존재한다. 금융기관이 제공하는 서어비스는 우리의 경제생활에 매우 중요한 영향을 미친다. 금융기관의 행동이 경제에 미치는 영향을 분석하기에 앞서 어떤 조건하에서 금융기관이 존립할 수 있는가를 알아보는 것도 금융기관의 행동을 이해하기 위해 의미있는 일일 것이다. 본 논문은 정보불균형(情報不均衡)의 관점에서 금융기관의 존립을 분석, 설명하는데 그 목적이 있다. 경제문제의 불확실성과 복잡성의 증대는 민간의 제한된 합리성을 더욱 제한되게 만들고 역으로 제한된 합리성 때문에 불확실성과 복잡성은 더욱 중요한 문제가 된다. 여기에다 인간의 이기주의가 결합하게 되면 정보의 유통이 불완전해져 정보가 불균등하게 분포하게 되는 현상이 생긴다. 정보불균형(情報不均衡)은 거래를 위촉시키고 극단적인 경우 시장실패(市場失敗)를 가져온다. 금융기관은 정보생산을 통해 거래위축이나 시장주패(市場朱敗)를 방지할 수 있는 역할을 한다. 금융기관이 정보생산을 한다고 해도 개별정보생산자나 직접 금융에 비해 정보생산비용면에서 우위를 가질 수 있어야 금융기관의 존립은 가능할 것이다. 즉 정보불균형(情報不均衡)을 해소하기 위한 정보생산이 금융기관이 존립할 수 있는 필요조건이라면, 정보생산의 경제성은 금융기관이 존립할 수 있는 필요충분조건이 된다고 할 수 있다. 금융기관이 개별정보생산자나 직접 금융보다 정보생산면에서의 경제성을 가질 수 있는 가능성은 첫째, 분산효과(分散效果)로 인한 대리비용(代理費用)의 감소(減小) 둘째, 분산효과(分散效果)로 인한 구성원보상(構成員補償)의 불확실성감소(不確實性減小) 세째, 금융기관 구성원간의 정보공유효과(情報共有效果)이다.

  • PDF

대화 데이터셋의 클래스 불균형 문제 보정을 위한 적대적 학습 기법 (Adversarial Training Method for Handling Class Imbalance Problems in Dialog Datasets)

  • 조수필;최용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.434-439
    • /
    • 2019
  • 딥러닝 기반 분류 모델에 있어 데이터의 클래스 불균형 문제는 소수 클래스의 분류 성능을 크게 저하시킨다. 본 논문에서는 앞서 언급한 클래스 불균형 문제를 보완하기 위한 방안으로 적대적 학습 기법을 제안한다. 적대적 학습 기법의 성능 향상 여부를 확인하기 위해 총 4종의 딥러닝 기반 분류 모델을 정의하였으며, 해당 모델 간 분류 성능을 비교하였다. 실험 결과, 대화 데이터셋을 이용한 모델 학습 시 적대적 학습 기법을 적용할 경우 다수 클래스의 분류 성능은 유지하면서 동시에 소수 클래스의 분류 성능을 크게 향상시킬 수 있음을 확인하였다.

  • PDF

데이터 불균형 문제에서의 SVM 앙상블 기법의 적용 (SVM Ensemble Techniques for Class Imbalance Problem)

  • 강필성;이형주;조성준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.706-708
    • /
    • 2004
  • 대부분의 기계학습 알고리즘은 학습 데이터에서 각각의 범주간의 비율이 동일하거나 비슷하다는 가정 하에 문제를 풀게 된다. 그러나 실제 문제에서는 그 비율이 동일하지 않으며 매우 큰 차이를 보이기도 하는데, 이는 분류 성능을 저하시키는 요인이기도 하다 따라서 본 논문에서는 이러한 데이터의 불균형 문제를 해소하는 방안으로 SVM 앙상블 기법을 적용한 샘플링을 제안하고 이를 실제 불균형 데이터에 적용함으로써 제안된 방법이 기존의 방법들에 비해 향상된 성능을 나타내는 것을 보였다.

  • PDF

SURF 알고리즘을 이용한 직교식 스테레오 카메라 영상의 칼라 불균형 보정 방법 (Color balancing of the half-mirror-based stereo image by using SURF algorithm)

  • 이예홍;신형철;손광훈
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 추계학술대회
    • /
    • pp.133-136
    • /
    • 2011
  • 본 논문에서는 SURF 알고리즘을 이용한 직교식 스테레오 카메라 영상의 칼라 불균형 보정 방법 제안한다. 제안 방법에서는 SURF 알고리즘을 이용하여 스테레오 좌, 우 영상의 대응점을 찾은 후, 찾은 대응점들의 칼라 보정 벡터를 영상 획득 모델을 기반으로 계산한다. 영상 전체에서 다양한 칼라 대응점 정보를 추출하기 위하여 본 논문에서는 분할영상을 이용하여 칼라 대응점 정보를 추출한다. 추출된 대응점 정보는 초기 칼라 보정 벡터로 변환할 수 있으며 좌, 우 영상의 모든 픽셀에 대하여 색정보가 가장 유사한 대응점의 보정 벡터를 사용하여 칼라 불균형을 보정한다. 초기 보정 벡터를 이용한 칼라 불균형 보정 후 존재하는 노이즈을 제거하기 위하여 유사한 색공간에 위치한 칼라 보정 벡터에 가우시안 필터를 적용한다. 실험 결과로 원본 영상과 보정된 영상의 칼라 히스토그램을 비교하였으며, 분할 영역의 수에 따른 보정 결과도 비교 제시하였다. 실험 결과는 제안한 방법이 직교식 스테레오 카메라 영상에 효과적인 칼라 불균형 보정 방법임을 보여준다.

  • PDF

부하를 고려한 동적 가중치 기반 라운드로빈 스케쥴링 알고리즘 (Dynamic Weight Round Robin Scheduling Algorithm with Load)

  • 김성;김경훈;류재상;남지승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1295-1298
    • /
    • 2001
  • 멀티미디어 스트리밍 서비스를 제공하는 서버의 동적 부하분산을 위한 동적 가중치 기반 라운드 로빈 스케줄링 알고리즘을 제안한다. 기존의 가중치 기반 라운드로빈 알고리즘은 서버의 처리 용량만을 이용하여 가중치를 부여하므로 요청이 폭주할 경우 동적 부하 불균형을 갖게 된다. 동적 부하 불균형을 해결하기 위해 제안한 동적 가중치 기반 라운드로빈 알고리즘은 서버의 처리 용량뿐만 아니라 서버의 동적 부하를 이용하여 가중치를 부여하므로 동적 부하 불균형에 잘 적응하여 부하를 균형있게 조절한 수 있다. 제안한 알고리즘은 각 서버의 처리용량을 기준으로 가중치를 계산하고 동적으로 변하는 서버의 부하값에 가중치를 적용한다. 그 결과 동적 부하 불균형 문제를 해결했으며, 더 세밀한 부하 조절 기능을 수행할 수 있었다

  • PDF

분류 복잡도를 활용한 오버 샘플링 비율 산출 알고리즘 개발 (A Study on Calculating Over-sampling Ratio using Classification Complexity)

  • 이도현;김경옥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.591-594
    • /
    • 2020
  • 불균형 데이터는 범주에 따른 데이터의 분포가 불균형한 데이터를 의미한다. 이런 데이터를 활용해 기존 분류 알고리즘으로 분류기를 학습하면 성능이 저하되는 문제가 발생한다. 오버 샘플링은 이를 해결하기 위한 기법 중 하나로 수가 적은 범주[이하 소수 범주]에 속한 데이터 수를 임의로 증가시킨다. 기존 연구들에서는 수가 많은 범주[이하 다수 범주]에 속한 데이터 수와 동일한 크기만큼 증가시키는 경우가 많다. 이는 증가시키는 샘플의 수를 결정할 때 범주 간 데이터 수 비율만 고려한 것이다. 그런데 데이터가 동일한 수준의 불균형 정도를 갖더라도 범주별 데이터 분포에 따라서 분류 복잡도가 다르며, 경우에 따라 데이터 분포에서 존재하는 불균형 정도를 완전히 해소하지 않아도 된다. 이에 본 논문은 분류 복잡도를 활용해 데이터 셋 별 적정 오버 샘플링 비율을 산출하는 알고리즘을 제안한다.

의료 데이터 불균형 문제 해결을 위한 생성적 적대 신경망 기반 데이터 증강 (Generative Adversarial Networks Based Data Augmentation to Address Medical Data Imbalances)

  • 최재홍;이승리;서영재;서원진;허종욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.350-352
    • /
    • 2022
  • 발병률이 낮은 병은 데이터 불균형 문제가 발생하며, 이는 의료계에서 겪는 원초적인 문제이다. 이런 불균형 문제를 해결하고자 Pix2Pix 로 생성적 적대 신경망 기반 의료 이미지 증강 기법을 설계하여 데이터 불균형 문제 해결 및 성능을 향상시켰다. 합성 데이터의 추가 및 기하학적 데이터 증강의 유무에 대한 4 가지 시나리오로 성능을 비교하여 제안된 기법이 가장 효과적임을 보인다.

불균형 데이터의 이진 분류를 위한 앙상블 구성 방법 (Ensemble Composition Methods for Binary Classification of Imbalanced Data)

  • 김영훈;이주홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.689-691
    • /
    • 2023
  • 불균형 데이터의 분류의 성능을 향상시키기 위한 앙상블 구성 방법에 관하여 연구한다. 앙상블의 성능은 앙상블을 구성한 기계학습 모델 간의 상호 다양성에 큰 영향을 받는다. 기존 방법에서는 앙상블에 속할 모델 간의 상호 다양성을 높이기 위해 Feature Engineering 을 사용하여 다양한 모델을 만들어 사용하였다. 그럼에도 생성된 모델 가운데 유사한 모델들이 존재하며 이는 상호 다양성을 낮추고 앙상블 성능을 저하시키는 문제를 가지고 있다. 불균형 데이터의 경우에는 유사 모델 판별을 위한 기존 다양성 지표가 다수 클래스에 편향된 수치를 산출하기 때문에 적합하지 않다. 본 논문에서는 기존 다양성 지표를 개선하고 가지치기 방안을 결합하여 유사 모델을 판별하고 상호 다양성이 높은 후보 모델들을 앙상블에 포함시키는 방법을 제안한다. 실험 결과로써 제안한 방법으로 구성된 앙상블이 불균형이 심한 데이터의 분류 성능을 향상시킴을 확인하였다.