• Title/Summary/Keyword: 정보 불균형

Search Result 593, Processing Time 0.024 seconds

A Clustering-based Undersampling Method to Prevent Information Loss from Text Data (텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법)

  • Jong-Hwi Kim;Saim Shin;Jin Yea Jang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

Methods For Resolving Challenges In Multi-class Korean Sentiment Analysis (다중클래스 한국어 감성분석에서 클래스 불균형과 손실 스파이크 문제 해결을 위한 기법)

  • Park, Jeiyoon;Yang, Kisu;Park, Yewon;Lee, Moongi;Lee, Sangwon;Lim, Sooyeon;Cho, Jaehoon;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.507-511
    • /
    • 2020
  • 오픈 도메인 대화에서 텍스트에 나타난 태도나 성향과 같은 화자의 주관적인 감정정보를 분석하는 것은 사용자들에게서 풍부한 응답을 이끌어 내고 동시에 제공하는 목적으로 사용될 수 있다. 하지만 한국어 감성분석에서 기존의 대부분의 연구들은 긍정과 부정 두개의 클래스 분류만을 다루고 있고 이는 현실 화자의 감정 정보를 정확하게 분석하기에는 어려움이 있다. 또한 최근에 오픈한 다중클래스로된 한국어 대화 감성분석 데이터셋은 중립 클래스가 전체 데이터셋의 절반을 차지하고 일부 클래스는 사용하기에 매우 적은, 다시 말해 클래스 간의 데이터 불균형 문제가 있어 다루기 굉장히 까다롭다. 이 논문에서 우리는 일곱개의 클래스가 존재하는 한국어 대화에서 세션들을 효율적으로 분류하는 기법들에 대해 논의한다. 우리는 극심한 클래스 불균형에도 불구하고 76.56 micro F1을 기록하였다.

  • PDF

Adaptive Color Shifter for RGB Channel Unbalance in Organic Light Emitting Diode Display (OLED Display의 RGB 채널간 불균형 보정을 위한 Adaptive Color Shifter)

  • Cho, Ho-Sang;Jang, Kyoung-Hoon;Kim, Chang-Hun;Kang, Bong-Soon
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.16 no.8
    • /
    • pp.1653-1662
    • /
    • 2012
  • Recently, Organic Light Emitting Diode (OLED) that is broadly applied as next generation display has various advantages. However, OLED display causes unbalanced color tone due to the difference of luminance efficiency among luminous elements. In this paper, we propose adaptive color shifter (ACS) to resolve the RGB channel unbalance and to have wide color range of a relatively weak channel using the image processing method. proposed ACS system was simulated using a variety of image. Also, we numerically analyzed using hue histogram, CIE-1931 xyz color space.

Support Vector Machine Algorithm for Imbalanced Data Learning (불균형 데이터 학습을 위한 지지벡터기계 알고리즘)

  • Kim, Kwang-Seong;Hwang, Doo-Sung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.15 no.7
    • /
    • pp.11-17
    • /
    • 2010
  • This paper proposes an improved SMO solving a quadratic optmization problem for class imbalanced learning. The SMO algorithm is aproporiate for solving the optimization problem of a support vector machine that assigns the different regularization values to the two classes, and the prosoposed SMO learning algorithm iterates the learning steps to find the current optimal solutions of only two Lagrange variables selected per class. The proposed algorithm is tested with the UCI benchmarking problems and compared to the experimental results of the SMO algorithm with the g-mean measure that considers class imbalanced distribution for gerneralization performance. In comparison to the SMO algorithm, the proposed algorithm is effective to improve the prediction rate of the minority class data and could shorthen the training time.

A Study on Obstacle Detection in Railway using Stereo Vision (스테레오 비전을 이용한 선로 장애물 검출에 관한 연구)

  • Park, Ki-Seo;Lee, Dea-Ho;Park, Young-Tae;Kim, Gil-Dong;Oh, Seh-Chan;Lee, Jun-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10c
    • /
    • pp.398-403
    • /
    • 2007
  • 본 논문에서는 스테레오 비전을 이용하여 지하철 선로에 존재하는 장애물을 검출하는 기법을 제안한다. 본 논문에서는 두 대의 아날로그 카메라를 이용하여 좌우 영상을 획득하며, 영역 기반 정합을 이용하여 영상의 불균형을 계산한다. 불균형 영상의 배경을 매 프레임에서 갱신하고 현재 프레임의 불균형과의 차이에 의해 선로상의 장애물을 검출한다. 실내 역사에서 임의로 투척한 신문지, 상자, 인형과 임의로 진압한 사람을 모두 검출하였으며, 한 대의 카메라를 이용하는 기법에서 해결하기 어려운 배경과 비슷한 색상을 가지는 물체도 모두 검출하였다. 따라서 제안하는 기법은 선로상의 위험물을 검출하는 핵심 기술로 이용될 수 있다.

  • PDF

Kernel Perceptron Boosting for Effective Learning of Imbalanced Data (불균형 데이터의 효과적 학습을 위한 커널 퍼셉트론 부스팅 기법)

  • 오장민;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.304-306
    • /
    • 2001
  • 많은 실세계의 문제에서 일반적인 패턴 분류 알고리즘들은 데이터의 불균형 문제에 어려움을 겪는다. 각각의 학습 예제에 균등한 중요도를 부여하는 기존의 기법들은 문제의 특징을 제대로 파악하지 못하는 경우가 많다. 본 논문에서는 불균형 데이터 문제를 해결하기 위해 퍼셉트론에 기반한 부스팅 기법을 제안한다. 부스팅 기법은 학습을 어렵게 하는 데이터에 집중하여 앙상블 머신을 구축하는 기법이다. 부스팅 기법에서는 약학습기를 필요로 하는데 기존 퍼셉트론의 경우 문제에 따라 약학습기(weak learner)의 조건을 만족시키지 못하는 경우가 있을 수 있다. 이에 커널을 도입한 커널 퍼셉트론을 사용하여 학습기의 표현 능력을 높였다. Reuters-21578 문서 집합을 대상으로 한 문서 여과 문제에서 부스팅 기법은 다층신경망이나 나이브 베이스 분류기보다 우수한 성능을 보였으며, 인공 데이터 실험을 통하여 부스팅의 샘플링 경향을 분석하였다.

  • PDF

Design of Flexible Hybrid Router to Process Unbalanced Input Effectively (불균형한 입력을 효과적으로 처리하는 유연한 혼합형 라우터 설계)

  • 정라미;김성천
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.648-650
    • /
    • 2000
  • 라우터의 기본적인 목적은 안정적으로 다량의 데이터를 전송하는 것이다. 현재 e양한 메시지를 효과적으로 처리하기 위한 여러 혼합형 라우터가 개발되고 있다. 이는 단순히 한가지 방식만 고수하는 것이 아니라 기존의 여러 기법을 혼합된 방식을 적용하는 것이다. 이러한 혼합형 기법은 기존의 단일 방식의 단점을 보완할 수 있어야 하며, 그에 따른 오버헤드를 감수할 수 있어야 한다. 이러한 목적으로 웜홀 스위칭(wormhole switching)과 파이프라인드 서킷 스위칭(Pipelined Circuit Switching)을 동시에 구현하기 위해 혼합형 라우터 구조가 제안되었다. 이 라우터는 두 스위칭 기법을 동시에 지원하여 다양한 메시지를 효과적으로 처리할 수 있는 특성이 있다. 그러나 이 구조는 각 스위칭 방식에 해당하는 내부 연결망을 독립적으로 구성함으로써 입력으로 들어오는 스위칭 비율이 불균형일 때 내부 자원을 효율적으로 사용할 수 없는 단점이 있다. 따라서 본 논문에서는 라우터의 내부 연결망을 공유하여 사용하는 새로운 혼합형 라우터를 제안하였다. 제안한 구조는 웜홀과 파이프라인드 서킷 스위칭을 지원하는 라우터로, 메시지를 전송할 때 내부 연결망을 서로 공유함으로써, 입력 메시지의 비율이 불균형할 때 효과적으로 자원을 이용할 수 있게 하였다. 시뮬레이션을 통하여 기존의 혼합형 라우터를 사용하는 것보다 더 높은 성능을 보인다는 것을 증명하였다.

  • PDF

Vessel extraction in optical microscope image with non-uniform illumination (명도 불균형 현상을 가진 광학 현미경 영상에서의 혈관 추출)

  • Lee, Ji-Hye;Kim, Myoung-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.371-372
    • /
    • 2009
  • 세포단위에서 혈관 생성과정 관찰 시 사용되는 광학현미경 영상은 광원의 특성으로 인해 부분적으로 영상이 밝거나 혹은 어둡게 나타난다. 이러한 현상은 혈관 영상에서의 혈관 분석을 어렵게 하므로 본 논문에서는 신 혈관 생성 영상에서 명도 불균형 문제를 해결하는 혈관 추출 및 정량화 기법을 제안한다. 불균형 명도 문제를 해결하기 위해 지역적 문턱치화 방법을 사용하고, 잡음 및 혈관 내 틈새 문제를 해결하기 위해 형태학적 연산 처리를 하였다. 그 결과 명도가 어두운 지역에서 배경 잡음이 없고, 영역이 끊어지지 않고 하나로 연결된 혈관을 추출할 수 있었다. 추출된 혈관 영역에서 골격화와 혈관 세그먼트에 기반하여 두께, 길이, 넓이를 정량화함으로써 혈관 분석 시 현미경에 탑재되어 있어 가장 널리 사용되고 있는 메타 모르프보다 정확한 정량화 결과를 얻었다.

A Study on Case-based Game-Boosting in the Online Game (온라인 게임에서 사례 기반 Game-Boosting에 관한 연구)

  • Yang, Keon-il;Kim, Hyo-Nam
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.697-699
    • /
    • 2020
  • 2020년의 게임 시장은 스마트폰 기기의 발전과 Pay To Win을 사용하는 BM모델의 감소 등의 변화로 인해 플레이어의 플레이 타임과 게임에 대한 이해도를 핵심 요소로 잡고 있다. 이러한 상황 속에서 게임에 대한 실력과 이해도가 높은 일부 유저들이 대신 게임을 플레이하여 타 유저들의 요구 사항을 충족 해주고 부당한 이익과 게임 내 성장, 경쟁 불균형을 발생시키는 'Game-Boosting'의 모습을 확인할 수 있었다. 본 논문에서는 'Game-boosting' 유저들에 대해 설명하고, 해당 유저들에 대한 기준을 정의하여, '대리게임 금지법' 에 적용될 수 있는 기준을 제시한다.

  • PDF

Comparative Analysis of Image Generation Models for Waste Recognition Improvement (폐기물 분류 개선을 위한 이미지 생성 모델 비교 분석)

  • Jun Hyeok Go;Jeong Hyeon Park;Siung Kim;Nammee Moon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.639-641
    • /
    • 2023
  • 이미지 기반 폐기물 처리시스템에서 품목별 상이한 수집 난이도로 인해 발생하는 데이터 불균형으로 분류 모델 학습에 어려움이 따른다. 따라서 본 논문에서는 폐기물 분류 모델의 성능 비교를 통해 적합한 이미지 생성 모델을 탐색한다. 데이터의 불균형을 해결할 수 있도록 VAE(Variational Auto-Encoder), GAN(Generative Adversarial Networks) 및 Diffusion Model을 이용하여 이미지를 생성한다. 이후 각각의 생성 방법에 따라 학습데이터와 병합하여 객체 분류를 진행하였다. 정확도는 VAE가 84.41%로 3.3%의 성능 향상을, F1-점수는 Diffusion Model이 91.94%로 6.14%의 성능 향상을 이루었다. 이를 통해, 데이터 수집에서 나타나는 데이터 불균형을 해결하여 실 사용환경에 알맞은 시스템을 구축이 가능함을 확인하였다.