• 제목/요약/키워드: 데이터 불균형 문제

검색결과 219건 처리시간 0.029초

데이터 편재 하에서 히스토그램 변환 기법에 기초한 효율적인 병렬 결합 알고리즘 (An Efficient Parallel Join Algorithm Based on Histogram Equalization in Present of Data Skew)

  • 최황규;박웅규
    • 산업기술연구
    • /
    • 제15권
    • /
    • pp.223-233
    • /
    • 1995
  • 본 논문에서는 데이터 분포가 편재된 상황하에서 부하의 불균형과 버켓 오벌플로우 문제를 해결하기 위해 히스토그램 변환 기법을 이용한 데이터 분산 방법과 이를 기초로 한 병렬 결합 알고리즘을 제안한다. 제안된 알고리즘의 성능은 시뮬레이션과 하이퍼큐브형 병렬 컴퓨터 상에서 실험적인 방법에 의하여 분석되었다. 그 결과 제안된 알고리즘이 기본의 해쉬 결합 방법보다 우수함을 보인다.

  • PDF

병렬 오토인코더 기반의 비정상 신호 탐지 (Abnormal signal detection based on parallel autoencoders)

  • 이기배;이종현
    • 한국음향학회지
    • /
    • 제40권4호
    • /
    • pp.337-346
    • /
    • 2021
  • 일반적으로 비정상 신호 탐지 연구에서는 데이터 불균형으로 인해 정상 신호 특징을 주된 정보로 사용한다. 본 논문에서는 비정상 신호의 특징을 학습하는 병렬 오토인코더를 이용한 효율적인 비정상 신호 탐지기법을 제안한다. 제안된 동일한 구조로 이루어진 병렬 오토인코더는 정상 신호와 비정상 신호에 대한 특징을 학습하는 정상 복원기와 비정상 복원기로 구성되며, 정상 및 비정상 데이터를 순차적으로 학습함으로써 불균형 데이터 문제를 효율적으로 해결할 수 있다. 뿐만 아니라 보다 높은 탐지성능 향상을 위해서 부가적인 이진 분류기가 추가될 수 있다. 공개된 음향데이터를 이용한 실험결과, 제안된 병렬 탐지모델의 학습시간이 단일 오토인코더 탐지모델과 비교하여 약 1.31 ~ 1.61배 늘어나지만, 최소 22 % 이상의 Area Under Curve(AUC) 향상을 보였다. 또한, 사전에 훈련된 병렬 오토인코더를 이용하여 수중 음향데이터를 전이학습한 결과 수중 비정상 신호 AUC 탐지성능을 93 % 이상 향상시킬 수 있음을 확인하였다.

자율주행 트랙터 환경에서 쓰러진 사람에 대한 데이터 증강 (Dataset Augmentation on Fallen Person Objects in a Autonomous Driving Tractor Environment)

  • 백화평;안한세;채희성;정용화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.553-556
    • /
    • 2023
  • 데이터 증강은 데이터 불균형 문제를 해결하기 위해 일반화 성능을 향상시킨다. 이는 과적합 문제를 해결하고 정확도를 높이는 데 도움을 준다. 과적합을 해결하기 위해서 본 논문에서는 분할 마스크 라벨링을 자동화하여 효율성을 높이고, RoI를 활용한 분할 Copy-Paste 데이터 증강 기법을 제안한다. 본 논문의 제안 방법을 적용한 결과 YOLOv8 모델에서 기존의 분할, 박스 Copy-Paste 데이터 증강 기법과 비교해서 쓰러진 사람 객체에 대한 정확도가 10.2% 증가함으로써 제안한 방법이 일반화 성능을 높이는 데 효과가 있음을 확인하였다.

계층적 불균형 클러스터링 기법을 이용한 에너지 소비 모델 (An Energy Consumption Model using Hierarchical Unequal Clustering Method)

  • 김진수;신승수
    • 한국산학기술학회논문지
    • /
    • 제12권6호
    • /
    • pp.2815-2822
    • /
    • 2011
  • 무선 센서 네트워크에서 클러스터링 기법은 클러스터를 형성하여 데이터를 병합한 후 한 번에 전송해서 에너지를 효율적으로 사용하는 기법이다. 본 논문에서는 클러스터 그룹 모델을 이용한 계층적 불균형 클러스터링 기법을 제안한다. 이 기법은 전체 네트워크를 두 개의 계층으로 나누어 클러스터 그룹으로 형성된 2계층의 데이터를 병합해서 1계층으로 보내고, 다시 1계층에서 데이터를 병합하여 기지국으로 보낸다. 이와 같이 제안된 기법은 다중 홉 통신 구조와 클러스터 그룹 모델을 같이 이용함으로써 전체 에너지 소모량을 줄인다. 이러한 방식은 다중 홉 통신이지만 불균형 클러스터를 구축하여 핫 스팟 문제를 어느 정도 해결하고 있다. 실험을 통하여 제안된 계층적 불균형 클러스터링 기법이 이전의 클러스터링 기법보다 네트워크 에너지 효율이 향상되었음을 보였다.

인물 개체 분할을 위한 맥락-의존적 비디오 데이터 보강 (Context-Dependent Video Data Augmentation for Human Instance Segmentation)

  • 전현진;이종훈;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권5호
    • /
    • pp.217-228
    • /
    • 2023
  • 비디오 개체 분할은 비디오를 구성하는 영상 프레임 각각에 대해 관심 개체 분할을 수행해야 할 뿐만 아니라, 해당 비디오를 구성하는 프레임 시퀀스 전체에 걸쳐 개체들에 대한 정확한 트래킹을 요구하기 때문에 난이도가 높은 기술이다. 특히 드라마 비디오에서 인물 개체 분할은 다양한 장소와 시간대에서 상호 작용하는 복수의 주요 등장인물들에 대한 정확한 트래킹을 요구하는 특징을 가지고 있다. 또한, 드라마 비디오 인물 개체분할은 주연 인물들과 조연 혹은 보조 출연 인물들 간의 등장 빈도에 상당한 차이가 있어 일종의 클래스 불균형 문제도 있다. 본 논문에서는 미생 드라마 비디오들을 토대로 구축한 인물 개체 분할 데이터 집합인 MHIS를 소개하고, 등장인물 클래스 간의 심각한 데이터 불균형 문제를 효과적으로 해결하기 위한 새로운 비디오 데이터 보강 기법인 CDVA를 제안한다. 기존의 비디오 데이터 보강 기법들과는 달리, 새로운 CDVA 보강 기법은 비디오들의 시-공간적 맥락을 충분히 고려해서 목표 인물이 삽입되어야 할 배경 클립 내의 위치를 결정함으로써, 보다 더 현실적인 보강 비디오들을 생성한다. 따라서 본 논문에서 제안하는 새로운 비디오 데이터 보강 기법인 CDVA는 비디오 개체 분할을 위한 심층 신경망 모델의 성능을 효과적으로 향상시킬 수 있다. 본 논문에서는 MHIS 데이터 집합을 이용한 다양한 정량 및 정성 실험들을 통해, 제안 비디오 데이터 보강 기법의 유용성과 효과를 입증한다.

기계학습과 GPT3를 시용한 조작된 리뷰의 탐지 (The Detection of Online Manipulated Reviews Using Machine Learning and GPT-3)

  • 체르냐예바 올가;홍태호
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.347-364
    • /
    • 2022
  • 고객의 구매 의사결정에 영향을 주는 온라인 리뷰의 부적절한 조작을 통해 이익을 얻고자 하는 기업 또는 온라인 판매자들 때문에, 리뷰의 신뢰성은 온라인 거래에서 매우 중요한 이슈가 되었다. 온라인 쇼핑몰 등에서 온라인 리뷰에 대한 소비자들의 의존도가 높아짐에 따라 많은 연구들이 조작된 리뷰를 탐지하는 방법에 개발하고자 하였다. 기존의 연구들은 온라인 리뷰를 기반으로 정상 리뷰와 조작된 리뷰를 대상으로 기계학습으로 이용함으로써 조작된 리뷰를 탐지하는 모형을 제시하였다. 기계학습은 데이터를 이용하여 이진분류 문제에서 탁월한 성능을 보여왔으나, 학습에 충분한 데이터를 확보할 수 있는 환경에서만 이러한 성능을 기대할 수 있었다. 조작된 리뷰는 학습용으로 사용할 수 있는 데이터가 충분하지 못하며, 이는 기계학습이 충분한 학습을 할 수 없다는 치명적 약점으로 내포하게 된다. 본 연구에서는 기계학습이 불균형 데이터 셋으로 인한 학습의 저하를 방지할 수 있는 방안으로 부족한 조작된 리뷰를 인공지능을 이용하여 생성하고 이를 기반으로 균형된 데이터 셋에서 기계학습을 학습하여 조작된 리뷰를 탐지하는 방안을 제시하였다. 파인 튜닝된 GPT-3는 초거대 인공지능으로 온라인 플랫폼의 리뷰를 생성하여 데이터 불균형 문제를 해결하는 오버샘플링 접근방법으로 사용되었다. GPT-3로 생성한 온라인 리뷰는 기존 리뷰를 기반으로 인공지능이 작성한 리뷰로써, 본 연구에서 사용된 로짓, 의사결정나무, 인공신경망의 성능을 개선시키는 것을 SMOTE와 단순 오버샘플링과 비교하여 실증분석을 통해서 확인하였다.

클래스 불균형 데이터를 이용한 나이브 베이즈 분류기 기반의 이상전파에코 식별방법 (Naive Bayes Classifier based Anomalous Propagation Echo Identification using Class Imbalanced Data)

  • 이한수;김성신
    • 한국정보통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.1063-1068
    • /
    • 2016
  • 이상전파에코는 대기 관측을 위해서 사용되는 레이더 전파가 온도나 습도에 의해서 발생하는 이상굴절에 의해서 발생하는 신호로, 지상에 설치된 기상레이더에 자주 발생하는 비기상에코이다. 기상예보의 정확도를 높이기 위해서는 레이더 데이터의 정확한 분석이 필수적이기 때문에 이상전파에코의 제거에 대한 연구가 수행되어 오고 있다. 본 논문에서는 다양한 레이더 관측변수를 나이브 베이지안 분류기에 적용하여 이상전파에코를 식별하는 방법에 대한 연구를 수행하였다. 수집된 데이터가 클래스 불균형 문제를 내포하고 있는 점을 고려하여, SMOTE 기법을 이용하였다. 실제 이상전파에코 발생 사례를 통해, 제안한 방법이 성능을 표출하는 것을 확인하였다.

욕설문장 분류의 불균형 데이터 해결을 위한 전이학습 방법 (A Transfer Learning Method for Solving Imbalance Data of Abusive Sentence Classification)

  • 서수인;조성배
    • 정보과학회 논문지
    • /
    • 제44권12호
    • /
    • pp.1275-1281
    • /
    • 2017
  • 욕설문장을 지도학습 접근법으로 분류하기 위해서 욕설인지 아닌지 판별된 학습 문장이 필요하다. 문자수준의 컨볼루션 신경망이 각 문자에 대해 강건성을 가지기 때문에 욕설분류에 적합하지만, 학습에 많은 데이터가 필요하다는 단점이 있다. 본 논문에서는 이를 해결하기 위해 임의로 생성한 욕설/비욕설 문장 쌍을 컨볼루션 신경망을 기반으로 하는 분류기에 학습시켜 컨볼루션 신경망의 필터가 욕설의 특징을 분류하도록 조정한 후, 실제 훈련문장을 학습시킬 때 필터를 재사용하는 전이학습방법을 제안한다. 이로써 데이터 부족과 클래스 불균형으로 인한 영향이 감소하여 분류 성능이 향상될 것이다. 실험 및 평가는 총 3가지 데이터에 대해 수행되었으며, 문자수준 컨볼루션 신경망을 활용한 분류기는 모든 데이터에서 전이학습을 적용했을 때 더 높은 F1 점수를 획득하였다.

모바일 싱크 기반의 태양 에너지 수집형 무선 센서 네트워크에서 무선 전력 전송을 이용한 효율적인 클러스터 관리 기법 (An Efficient Cluster Management Scheme Using Wireless Power Transfer for Solar-powered Wireless Sensor Networks with a Mobile Sink)

  • 손영재;강민재;고정현;노동건
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.370-371
    • /
    • 2019
  • 태양 에너지 수집형 무선 센서 네트워크는 지속해서 에너지를 수집할 수 있어 배터리 기반 센서 네트워크의 에너지 제약 문제를 완화할 수 있지만, 고정된 싱크의 사용으로 싱크 주변에 존재하는 노드들이 상대적으로 에너지 소비가 증가하는 문제, 즉 에너지 사용 불균형 문제는 해결하지 못한다. 최근의 연구에서는 클러스터링을 기반으로 한 모바일 싱크를 도입하여 이를 해결하고자 했지만, 클러스터 헤드 및 그 주변 노드들의 에너지 부담은 여전히 존재한다. 한편, 무선 전력 전송 기술 발전에 따라 무선 센서 네트워크에서 모바일 싱크를 이용한 무선 전력 전송의 연구가 활발히 이루어지고 있다. 따라서 본 논문에서는 무선 전력 전송이 가능한 모바일 싱크와 효율적인 클러스터링 기법(클러스터 헤드 선출 포함)을 이용하여 에너지 불균형 문제를 최소화하는 기법을 제안한다. 제안 기법은 클러스터 헤드 및 헤드 주변 노드의 에너지 핫 스팟이 완화됨으로, 전체 네트워크의 정전 노드들이 감소하고 수집된 데이터양이 증가한 것을 성능평가를 통해 확인할 수 있다.

빅데이터를 활용한 국내 도서의 해외 판매시 굿셀러 예측 (Prediction of Good Seller in Overseas sales of Domestic Books Using Big Data)

  • 김나연;김도영;김미려;정지영;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.401-404
    • /
    • 2022
  • 한국 문학이 세계로 뻗어나감에 따라 해외 시장에서 자리를 잡는 것이 중요해진 시점이다. 본 연구에서는 2016 년도부터 2020 년도까지 최근 5 년간 해외 출간된 도서들 중에서 굿셀러로 분류되는 누적 5 천부 이상 판매 여부를 예측하고자 했다. 굿셀러로 분류되는 도서는 전체 번역 도서 중 적은 비율을 차지하여 데이터 불균형이 발생하였으며, 본 연구에서는 SMOTE 기법과 앙상블 알고리즘을 적용하여 데이터 불균형 문제를 해결하였다. 그 결과, 데이터 클래스 비율이 1:1 에 가까울수록 성능 개선 효과가 나타났으며 LightGBM 모델이 99.83%의 AUC 값을 얻어 다른 앙상블 알고리즘에 비해 가장 좋은 예측 성능을 보임을 검증하였다. 또한 누적 5 천부 이상 판매 여부 예측에 있어 큰 영향을 미치는 변수로는 작가가 가장 중요한 요인으로 나타났으며 출간 국가, 그리고 평점 평균, 평점 참여자 수 같은 온라인 요인도 판매 예측에 유의미한 변수로 나타난 것을 확인할 수 있었다.