• Title/Summary/Keyword: 클래스도

Search Result 2,354, Processing Time 0.025 seconds

불균형 클래스에서 AutoML 기반 분류 모델의 성능 향상을 위한 데이터 처리 (Data Processing of AutoML-based Classification Models for Improving Performance in Unbalanced Classes)

  • 이동준;강지수;정경용
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.49-54
    • /
    • 2021
  • 최근 스마트 헬스케어 기술의 발전에 따라 일상적인 질환에 대한 관심이 증가하고 있다. 이에 따라 헬스케어 데이터를 통해 예측 모델로 질병을 분석하거나 예측하는 연구들이 증가하고 있다. 그러나 헬스케어 데이터에는 양성 데이터와 음성 데이터의 불균형이 존재한다. 이는 특정 질환을 가진 환자에 비하여 상대적으로 환자가 아닌 사람이 많아 데이터 수집에 어려움이 있어 발생하는 현상이다. 데이터 불균형은 질병 예측 및 탐지 시 진행하는 모델의 성능에 영향을 끼치기 때문에 이를 제거할 필요가 있다. 따라서 본 연구에서는 오버샘플링과 결측값 대치를 통해서 데이터 불균형을 해소한다. AutoML을 기반으로 여러 모델의 성능을 파악하고 모델 중 상위 3개의 모델을 앙상블한다.

공공도서관 도서 분류를 위한 머신러닝 적용 가능성 연구 - 사회과학과 예술분야를 중심으로 - (A Study on Applicability of Machine Learning for Book Classification of Public Libraries: Focusing on Social Science and Arts)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제32권1호
    • /
    • pp.133-150
    • /
    • 2021
  • 이 연구의 목적은 공공도서관의 도서 분류를 위해 표제를 대상으로 머신러닝 기법의 적용 가능성을 조사하는데 있다. 데이터 분석은 아나콘다 플랫폼의 쥬피터 노트북을 통하여 파이썬의 싸이킷런 라이브러리를 이용하였다. 한글 형태소 분석을 위해 KoNLPy 분석기와 Okt 클래스를 사용하였다. 분석 대상은 공공도서관의 KORMARC 레코드에서 추출된 2,000건의 표제 필드와 KDC 분류기호(300대와 600대)이었다. 6가지 머신러닝 모델을 이용하여 데이터를 분석한 결과, 도서 분류에 머신러닝 적용 가능성이 있다고 판단되었다. 사용된 모델 중 표제 분류의 정확도는 신경망 모델이 가장 높았다. 표제 분류의 정확도 향상을 위해 도서 표제에 대한 조사와 표제의 토큰화 및 불용어에 대한 연구 필요성을 제안하였다.

의미론적 영상 분할의 정확도 향상을 위한 에지 정보 기반 후처리 방법 (Post-processing Algorithm Based on Edge Information to Improve the Accuracy of Semantic Image Segmentation)

  • 김정환;김선혁;김주희;최형일
    • 한국콘텐츠학회논문지
    • /
    • 제21권3호
    • /
    • pp.23-32
    • /
    • 2021
  • 컴퓨터 비전 분야의 의미론적 영상 분할(Semantic Image Segmentation) 기술은 이미지를 픽셀 단위로 분할 하여 클래스를 나누는 기술이다. 이 기술도 기계 학습을 이용한 방법으로 성능이 빠르게 향상되는 중이며, 픽셀 단위의 정보를 활용할 수 있는 높은 활용성이 주목받는 기술이다. 그러나 이 기술은 초기부터 최근까지도 계속 '세밀하지 못한 분할'에 대한 문제가 제기되어 왔다. 이 문제는 레이블 맵의 크기를 계속 늘리면서 발생한 문제이기 때문에, 자세한 에지 정보가 있는 원본 영상의 에지 맵을 이용해 레이블 맵을 수정하여 개선할 수 있을 것으로 예상할 수 있었다. 따라서 본 논문은 기존 방법대로 학습 기반의 의미론적 영상 분할을 유지하되, 그 결과인 레이블 맵을 원본 영상의 에지 맵 기반으로 수정하는 후처리 알고리즘을 제안한다. 기존의 방법에 알고리즘의 적용 한 뒤 전후의 정확도를 비교했을 때 평균적으로 약 1.74% 픽셀 정확도와 1.35%의 IoU(Intersection of Union) 정확도가 향상되었으며, 결과를 분석했을 때 성공적으로 본래 목표한 세밀한 분할 기능을 개선했음을 보였다.

소프트맥스 함수 특성을 활용한 침입탐지 모델의 공격 트래픽 분류성능 향상 방안 (Improvement of Attack Traffic Classification Performance of Intrusion Detection Model Using the Characteristics of Softmax Function)

  • 김영원;이수진
    • 융합보안논문지
    • /
    • 제20권4호
    • /
    • pp.81-90
    • /
    • 2020
  • 현실 세계에서는 기존에 알려지지 않은 새로운 유형의 변종 공격이 끊임없이 등장하고 있지만, 인공신경망과 지도학습을 통해 개발된 공격 트래픽 분류모델은 학습을 실시하지 않은 새로운 유형의 공격을 제대로 탐지하지 못한다. 기존 연구들 대부분은 이러한 문제점을 간과하고 인공신경망의 구조 개선에만 집중한 결과, 다수의 새로운 공격을 정상 트래픽으로 분류하는 현상이 빈번하게 발생하여 공격 트래픽 분류성능이 심각하게 저하되었다. 한편, 다중분류 문제에서 각 클래스에 대한 분류가 정답일 확률을 결과값으로 출력하는 소프트맥스(softmax) 함수도 학습하지 않은 새로운 유형의 공격 트래픽에 대해서는 소프트맥스 점수를 제대로 산출하지 못하여 분류성능의 신뢰도 또는 정확도를 제고하는데 한계를 노출하고 있다. 이에 본 논문에서는 소프트맥스 함수의 이러한 특성을 활용하여 모델이 일정 수준 이하의 확률로 판단한 트래픽을 공격으로 분류함으로써 새로운 유형의 공격에 대한 탐지성능을 향상시키는 방안을 제안하고, 실험을 통해 효율성을 입증한다.

기계학습 기법에 따른 KOMPSAT-3A 시가화 영상 분류 - 서울시 양재 지역을 중심으로 - (KOMPSAT-3A Urban Classification Using Machine Learning Algorithm - Focusing on Yang-jae in Seoul -)

  • 윤형진;정종철
    • 대한원격탐사학회지
    • /
    • 제36권6_2호
    • /
    • pp.1567-1577
    • /
    • 2020
  • 시가화 지역 토지피복분류는 도시계획 및 관리에 활용된다. 따라서, 시가화 지역에 대한 분류 정확도 향상 연구는 중요하다고 할 수 있다. 본 연구에서는 고해상도 위성영상인 KOMPSAT-3A을 기계학습 중 Support Vector Machine(SVM)과 Artificial Neural Network(ANN)을 기반으로 시가화지역 분류를 진행하였다. 훈련 데이터 구축과정에서 25 m 격자를 기반으로 훈련 지역을 구분하여 영상을 학습하였으며, 학습된 모델을 활용하여 테스트 지역을 분류하였다. 검증과정에서 250개의 GTP를 활용하여 오차 행렬을 통한 결과를 제시하였다. SVM 4가지 기법과 ANN 2가지 기법 중 SVM Polynomial Model이 가장 높은 정확도인 86%를 나타냈다. Ground Truth Points(GTP)를 활용하여 두 개의 모델을 비교하는 과정에서, SVM 모델은 전체적으로 ANN 모델보다 효과적으로 KOMPSAT-3A 영상을 분류하였다. 건물, 도로, 식생, 나대지 4가지 클래스 분류 중 건물이 가장 낮은 분류정확도를 보여주었으며, 이는 고층건물에 따른 건물 그림자에 의한 오분류가 주요 원인으로 나타났다.

유사 이미지 분류를 위한 딥 러닝 성능 향상 기법 연구 (Research on Deep Learning Performance Improvement for Similar Image Classification)

  • 임동진;김태홍
    • 한국콘텐츠학회논문지
    • /
    • 제21권8호
    • /
    • pp.1-9
    • /
    • 2021
  • 딥 러닝을 활용한 컴퓨터 비전 연구는 여전히 대규모의 학습 데이터와 컴퓨팅 파워가 필수적이며, 최적의 네트워크 구조를 도출하기 위해 많은 시행착오가 수반된다. 본 연구에서는 네트워크 최적화나 데이터를 보강하는 것과 무관하게 데이터 자체의 특성만을 고려한 CR(Confusion Rate)기반의 유사 이미지 분류 성능 향상 기법을 제안한다. 제안 방법은 유사한 이미지 데이터를 정확히 분류하기 위해 CR을 산출하고 이를 손실 함수의 가중치에 반영함으로서 딥 러닝 모델의 성능을 향상시키는 기법을 제안한다. 제안 방법은 네트워크 최적화 결과와 독립적으로 이미지 분류 성능의 향상을 가져올 수 있으며, 클래스 간의 유사성을 고려해 유사도가 높은 이미지 식별에 적합하다. 제안 방법의 평가결과 HanDB에서는 0.22%, Animal-10N에서는 3.38%의 성능향상을 보였다. 제안한 방법은 다양한 Noisy Labeled 데이터를 활용한 인공지능 연구에 기반이 될 것을 기대한다.

광 인터넷에서 버스트 크기 제어 알고리즘 기반 서비스 차등화 기법 (Service Differentiation Scheme Based on Burst Size Controlling Algorithm in Optical Internet)

  • 이용규
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.562-570
    • /
    • 2022
  • 5G 서비스와 개인용 스마트 기기의 보급 확대는 트래픽의 폭증과 다양한 서비스에 대한 수요로 이어졌다. 이런 사실은 다시 네트워크 대역폭에 대한 거대한 수요로 이어졌다. 그러나, 전기 신호를 사용하는 기존의 네트워크 기술들은 이러한 수요를 감당하는 데 한계에 다다랐다. 이에 이러한 요구를 수용하기 위해, 광 인터넷이 활발하게 연구되고 있다. 그러나, 광 인터넷도 여전히 해결해야 할 많은 문제점을 가지고 있고, 이러한 문제점 중에서 가장 시급한 문제는 QoS 기술을 개발하는 것이다. 그러므로 광 인터넷-특히 OBS 네트워크-에서 클래스간 서비스 차별화를 달성하기 위해, 데이터 버스트의 크기를 동적으로 제어하는 새로운 QoS 기법이 본 논문에서 제안된다. 특히 본 논문에서는 광 지연 라인을 기반으로 하는 알고리즘을 제안한다.

딥러닝기반 토마토 병해 진단 서비스 연구 (A Study on the Deep Learning-Based Tomato Disease Diagnosis Service)

  • 조유진;신창선
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.48-55
    • /
    • 2022
  • 토마토 작물은 병해에 노출이 쉽고 단시간에 퍼지므로 병해에 대한 늦은 조치로 인한 피해는 생산량과 매출에 직접적인 영향을 끼친다. 따라서, 토마토의 병해에 대해 누구나 현장에서 간편하고 정확하게 진단하여 조기 예방을 가능하게 하는 서비스가 요구된다. 본 논문에서는 사전에 ImageNet 전이 학습된 딥러닝 기반 모델을 적용하여 토마토의 9가지 병해 및 정상인 경우의 클래스를 분류하고 서비스를 제공하는 시스템을 구성한다. Plant Village 데이터 셋으로부터 토마토 병해 및 정상을 분류한 잎의 이미지 셋을 합성곱을 사용하여 조금 더 가벼운 신경망을 구축한 딥러닝 기반 CNN구조를 갖는 MobileNet, ResNet의 입력을 사용한다. 2가지 제안 모델의 학습을 통해 정확도와 학습속도가 빠른 MobileNet를 사용하여 빠르고 편리한 서비스를 제공할 수 있다.

오토인코더 기반 수치형 학습데이터의 자동 증강 기법 (Automatic Augmentation Technique of an Autoencoder-based Numerical Training Data)

  • 정주은;김한준;전종훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.75-86
    • /
    • 2022
  • 본 연구는 딥러닝 기반 변분 오토인코더(Variational Autoencoder)를 활용하여 수치형 학습데이터 내 클래스 불균형 문제를 해결하고, 학습데이터를 증강하여 학습모델의 성능을 향상시키고자 한다. 우리는 주어진 테이블 데이터에 대하여 인위적으로 레코드 개수를 늘리기 위해 'D-VAE'을 제안한다. 제안 기법은 최적의 데이터 증강을 지원하기 위해 우선 이산화와 특징선택을 수반한 전처리 과정을 수행한다. 이산화 과정에서 k-means 클러스터링을 적용하여 그룹화한 후, 주어진 데이터가 원-핫 인코딩(one-hot encoding) 기법으로 원-핫 벡터(one-hot vector)로 변환한다. 이후, 특징 선택 기법 중 RFECV 기법을 활용하여 예측에 도움이 되는 변수를 가려내고, 이에 대해서만 변분 오토인코더를 활용하여 새로운 학습데이터를 생성한다. 제안 기법의 성능을 검증하기 위해 4가지 유형의 실험 데이터를 활용하여 데이터 증강 비율별로 그 유효성을 입증한다.

자연어 처리 기반 멀티 소스 이벤트 로그의 보안 심각도 다중 클래스 분류 (A Multiclass Classification of the Security Severity Level of Multi-Source Event Log Based on Natural Language Processing)

  • 서양진
    • 정보보호학회논문지
    • /
    • 제32권5호
    • /
    • pp.1009-1017
    • /
    • 2022
  • 로그 데이터는 정보 시스템의 주요 동작과 상태를 이해하고 판단하는 근거로 사용되어 왔으며, 여러 보안 분야 응용에서도 중요한 입력 데이터로 사용된다. 로그 데이터로부터 필요한 정보를 얻어 이를 근거로 의사 결정을 하고, 적절한 대응 방안을 취하는 것은 시스템을 보호하고 안정적으로 운영하는 데 있어 필수적인 요소이지만, 로그의 종류와 양이 폭발적으로 증가함에 따라 기존 도구들로는 효과적이고 효율적인 대응이 쉽지 않은 상황이다. 이에 본 연구에서는 자연어 처리 기반의 머신 러닝을 이용해 멀티 소스 이벤트 로그의 보안 심각도를 여러 단계로 분류하는 방법을 제안하였으며, 472,972건의 훈련 및 테스트 샘플을 이용하여 실험을 수행한 결과 99.59%의 정확도를 달성하였다.