• 제목/요약/키워드: F1 스코어

검색결과 21건 처리시간 0.025초

규칙기반 데이터 증강기법을 활용한 한국어 증상발화 데이터 구축 (Construction of Korean symptom articulation data using rule-based data augmentation technique)

  • 전성원;이동준;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.360-362
    • /
    • 2023
  • 건강정보 검색 요구가 증가하면서 다양한 건강정보 검색 서비스가 제공되고 있다. 하지만 최근의 건강정보 검색 서비스는 정형화 된 전문적인 의료정보와 그 해석을 제공하기 때문에 사용자는 이러한 정보를 스스로 이해하여 원하는 건강정보를 검색해야 한다. 사용자의 검색 피로를 줄이고 원하는 정보를 정확하게 얻을 수 있는 건강정보 검색 시스템 개발을 위하여 사용자의 비의료적 표현인 한국어 증상발화 데이터 구축이 선행되어야 한다. 이러한 데이터 구축은 많은 시간과 비용이 필요하기 때문에 이를 줄이기 위한 규칙기반 데이터 증강기법을 제시하고, 이를 활용하여 한국어 증상발화 데이터를 증강하였다. 증강된 데이터의 유효성을 보이기 위하여 KoBERT 기반의 증상분류 실험을 진행하였으며, 증강된 데이터가 그 전의 데이터보다 F1 스코어가 더 높음을 확인할 수 있었다.

웨이블릿 변환 기반 CNN을 활용한 무선 신호 분류 (Classification of Radio Signals Using Wavelet Transform Based CNN)

  • 송민석;임재성;이민우
    • 한국정보통신학회논문지
    • /
    • 제26권8호
    • /
    • pp.1222-1230
    • /
    • 2022
  • 다양한 변조 기법을 사용하여 저피탐 능력을 갖춘 신호원들이 증가하면서, 신호의 변조 방식을 분류하는 연구가 꾸준히 진행되고 있다. 최근 신호 간섭이나 잡음 환경에서 수신 신호 분류의 성능 개선을 위하여 전처리 과정으로 FFT를 이용하는 CNN(Convolutional Neural Network) 딥러닝 기법이 제안되었다. 하지만 윈도우가 고정되는 FFT의 특성상 탐지 신호의 시간에 따른 변화를 정확히 분류해내지 못한다. 따라서 본 논문에서는 시간 영역과 주파수 영역에서 높은 해상도를 가지고 또한 다양한 유형의 신호를 시간 및 주파수 영역에서 동시에 표현할 수 있는 웨이블릿 변환(wavelet transform)을 전처리 과정으로 사용하는 CNN 모델을 제안한다. 시뮬레이션을 통해 제안하는 웨이블릿 변환 방식이 FFT 변환 방식에 비해 정확도와 학습 속도 측면에서 SNR 변화에 무관하게 우수한 성능을 보이고, 특히 낮은 SNR일 때 더욱 큰 차이를 보임을 입증하였다.

Performance Comparison of Neural Network and Gradient Boosting Machine for Dropout Prediction of University Students

  • Hyeon Gyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.49-58
    • /
    • 2023
  • 학생들의 중도 탈락은 대학의 재정적 손실 뿐 아니라, 학생 개개인 및 사회적으로도 부정적인 영향을 끼친다. 이러한 문제를 해결하기 위해 기계 학습을 이용하여 대학생들의 중도 탈락 여부를 예측하고자 하는 다양한 시도가 이루어지고 있다. 본 논문에서는 대학생들의 중도 탈락 여부를 예측하기 위해 DNN(Deep Neural Network)과 LGBM(Light Gradient Boosting Machine)을 이용한 모델을 구현하고 성능을 비교하였다. 학습 데이터로는 서울 소재 중소규모 4년제 대학인 A 대학의 20,050명의 학생을 대상으로 수집된 학적 및 성적 데이터를 학습에 이용하였다. 원본 데이터의 140여개의 속성 중 중도 탈락 여부를 나타내는 속성과의 상관계수가 0.1 이상인 속성들만 추출하여 학습하였다. 두 모델의 성능 실험 결과, DNN과 LGBM의 F1-스코어는 0.798과 0.826이었으며, LGBM이 DNN에 비해 2.5% 나은 예측 성능을 보였다.

Unet-VGG16 모델을 활용한 순환골재 마이크로-CT 미세구조의 천연골재 분할 (Segmentation of Natural Fine Aggregates in Micro-CT Microstructures of Recycled Aggregates Using Unet-VGG16)

  • 홍성욱;문덕기;김세윤;한동석
    • 한국전산구조공학회논문집
    • /
    • 제37권2호
    • /
    • pp.143-149
    • /
    • 2024
  • 이미지 분석을 통한 재료의 상 구분은 재료의 미세구조 분석을 위해 필수적이다. 이미지 분석에 주로 사용되는 마이크로-CT 이미지는 대체로 재료를 구성하고 있는 상에 따라 회색조 값이 다르게 나타나므로 이미지의 회색조 값 비교를 통해 상을 구분한다. 순환골재의 고체상은 수화된 시멘트풀과 천연골재로 구분되는데, 시멘트풀과 천연골재는 CT이미지 상에서 유사한 회색조 분포를 보여 상을 구분하기 어렵다. 본 연구에서는 Unet-VGG16 네트워크를 활용하여 순환골재 CT 이미지로부터 천연골재를 분할하는 자동화 방법을 제안하였다. 딥러닝 네트워크를 활용하여 2차원 순환골재 CT 이미지로부터 천연골재 영역을 분할하는 방법과 이를 3차원으로 적층하여 3차원 천연골재 이미지를 얻는 방법을 제시하였다. 선별된 3차원 천연골재 이미지에서 각각의 골재 입자를 분할하기 위해 이미지 필터링을 사용하였다. 골재 영역 분할 성능을 정확도, 정밀도, 재현율 F1 스코어를 통해 검증하였다.

사회문제 해결 연구보고서 기반 문장 의미 식별 데이터셋 구축 (Building Sentence Meaning Identification Dataset Based on Social Problem-Solving R&D Reports)

  • 신현호;정선기;전홍우;권이남;이재민;박강희;최성필
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.159-172
    • /
    • 2023
  • 일반적으로 사회문제 해결 연구는 과학기술을 활용하여 다양한 사회적 현안들에 의미있는 해결 방안을 제시함으로써 중요한 사회적 가치를 창출하는 것을 연구 목표로 한다. 그러나 사회문제와 쟁점을 완화하기 위하여 많은 연구들이 국가적으로 수행되었음에도 불구하고 여전히 많은 사회문제가 남아 있는 상황이다. 사회문제 해결 연구의 전 과정을 원활하게 하고 그 효과를 극대화하기 위해서는 사회적으로 시급한 현안들에 대한 문제를 명확하게 파악하는 것이 중요하다. 사회문제 해결과 관련된 기존 R&D 보고서와 같은 자료에서 중요한 사안을 자동으로 식별할 수 있다면 사회문제 파악 단계가 크게 개선될 수 있다. 따라서 본 논문은 다양한 국가 연구보고서에서 사회문제와 해결방안을 자동으로 감지하기 위한 기계학습 모델을 구축하는 데에 필수적인 데이터셋을 제안하고자 한다. 우선 데이터를 구축하기 위해 사회문제와 쟁점을 다룬 연구보고서를 총 700건 수집하였다. 수집된 연구보고서에서 사회문제, 목적, 해결 방안 등 사회문제 해결과 관련된 내용이 담긴 문장을 추출 후 라벨링을 수행하였다. 또한 4개의 사전학습 언어모델을 기반으로 분류 모델을 구현하고 구축된 데이터셋을 통해 일련의 성능 실험을 수행하였다. 실험 결과 KLUE-BERT 사전학습 언어모델을 미세조정한 모델이 정확도 75.853%, F1 스코어 63.503%로 가장 높은 성능을 보였다.

Reproducing Summarized Video Contents based on Camera Framing and Focus

  • Hyung Lee;E-Jung Choi
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.85-92
    • /
    • 2023
  • 본 논문에서는 장편의 드라마나 영화에서 스토리 기반의 축약된 요약본을 자동으로 제작하기 위한 방법을 제안한다. 촬영 단계에서 황금분할을 고려한 공간감 있는 프레임 구성과 내용 전달 차원에서 시청자들의 시선을 집중시키기 위한 관심 대상에 대한 초점을 기본 전제로 했다. 이에 적정한 프레임들을 추출하기 위한 방법을 고려하기 위해서 기존의 씬(scene) 및 숏(shot) 검출에 대한 연구, 초점과 관련된 블러 정도를 파악하는 연구들에서 활용되었던 요소 기술들을 활용했다. 유튜브에서 공유되는 영상을 프레임 단위로 변환한 후 프레임별로 특징을 추출하기 위한 영역으로 프레임 전체 영역과 3개의 부분 영역으로 구분했고, 해당 영역별로 각각 라플라시안 연산자와 FFT를 적용한 결과들을 비교하여 상대적으로 일관성 있고 강건한 FFT를 선택했다. 프레임 전체에 대한 계산값과 3개 영역의 계산값들을 비교하여 상대적으로 선명한 영역을 확인할 수 있는 조건을 기반으로 대상 프레임을 선별했다. 이렇게 선별된 결과를 토대로 숏 내에서 프레임들의 연속성을 확보하기 위해 오프라인 변화점 탐지기법을 적용한 결과와 접목시켜 최종 프레임들을 추출했고, 이를 기반으로 편집결정리스트를 구성하였으며, F1-스코어 75.9%를 갖는 62.77%로 축약된 요약본을 제작했다.

마이터 어택과 머신러닝을 이용한 UNSW-NB15 데이터셋 기반 유해 트래픽 분류 (Malicious Traffic Classification Using Mitre ATT&CK and Machine Learning Based on UNSW-NB15 Dataset)

  • 윤동현;구자환;원동호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권2호
    • /
    • pp.99-110
    • /
    • 2023
  • 본 연구는 현 보안 관제 시스템이 직면한 실시간 트래픽 탐지 문제를 해결하기 위해 사이버 위협 프레임워크인 마이터 어택과 머신러닝을 이용하여 유해 네트워크 트래픽을 분류하는 방안을 제안하였다. 마이터 어택 프레임워크에 네트워크 트래픽 데이터셋인 UNSW-NB15를 적용하여 라벨을 변환 후 희소 클래스 처리를 통해 최종 데이터셋을 생성하였다. 생성된 최종 데이터셋을 사용하여 부스팅 기반의 앙상블 모델을 학습시킨 후 이러한 앙상블 모델들이 다양한 성능 측정 지표로 어떻게 네트워크 트래픽을 분류하는지 평가하였다. 그 결과 F-1 스코어를 기준으로 평가하였을 때 희소 클래스 미처리한 XGBoost가 멀티 클래스 트래픽 환경에서 가장 우수함을 보였다. 학습하기 어려운 소수의 공격클래스까지 포함하여 마이터 어택라벨 변환 및 오버샘플링처리를 통한 머신러닝은 기존 연구 대비 차별점을 가지고 있으나, 기존 데이터셋과 마이터 어택 라벨 간의 변환 시 완벽하게 일치할 수 없는 점과 지나친 희소 클래스 존재로 인한 한계가 있음을 인지하였다. 그럼에도 불구하고 B-SMOTE를 적용한 Catboost는 0.9526의 분류 정확도를 달성하였고 이는 정상/비정상 네트워크 트래픽을 자동으로 탐지할 수 있을 것으로 보인다.

로지스틱 회귀, 랜덤포레스트, LSTM 기법을 활용한 서리예측모형 평가 (Comparative assessment of frost event prediction models using logistic regression, random forest, and LSTM networks)

  • 전종안;이현주;임슬희;김대하;백상수
    • 한국수자원학회논문집
    • /
    • 제54권9호
    • /
    • pp.667-680
    • /
    • 2021
  • 이 연구의 목적은 서리 발생일과 무상일 기간의 특성을 분석하고 로지스틱 회귀, 랜덤 포레스트, Long-short Term Memory (LSTM) 기법을 활용하여 서리발생 예측모델을 개발하고 평가하는데 있다. 수원, 청주, 광주 지점에서 봄철과 가을철 서리발생 예측모델 개발을 위한 기상변수들을 수집하였으며, 수집기간은 1973년부터 2019년까지이다. 프리시전(precision), 리콜(Recall), f-1 스코어와, AUC 및 Reliability Diagram과 같은 그래피컬 평가기법을 이용해 서리발생 예측모델을 평가하였다. 봄철과 가을철 모두 서리발생일이 줄어드는 경향성(유의수준: 0.01)을 보였다. 0.9 이상의 높은 AUC 값에도 불구하고, 신뢰도는 일정한 값을 보여주지는 않았다. 서리발생일 측뿐만 아니라, 초상일과 종상일을 정확히 예측할 수 있도록 모형 개선이 필요해 보이며, 다른 지역의 더 많은 지점에서 동일한 기법을 적용해 보는 연구가 필요해 보인다.

U-net 딥러닝 기법을 활용한 PVA 섬유 보강 시멘트 복합체의 섬유 분리 (Phase Segmentation of PVA Fiber-Reinforced Cementitious Composites Using U-net Deep Learning Approach)

  • 서지우;한동석
    • 한국전산구조공학회논문집
    • /
    • 제36권5호
    • /
    • pp.323-330
    • /
    • 2023
  • PVA 섬유 보강 시멘트 복합체는 매우 복잡한 미세구조를 가지고 있으며, 재료의 거동을 정확히 평가하기 위해서는 미세구조 특성을 반영하여 실제 실험과 시너지효과를 내며 효율적인 재료 설계를 가능하게 하는 해석 모델의 개발이 중요하다. PVA 섬유 보강 시멘트 복합체의 역학적 성능은 PVA 섬유의 방향성에 큰 영향을 받는다. 그러나 마이크로-CT 이미지로부터 얻은 PVA 섬유의 회색조 값을 인접한 상과 구분하기 어려워, 섬유 분리 과정에 많은 시간이 소요된다. 본 연구에서는 섬유의 3차원 분포를 얻기 위하여 0.65㎛3의 복셀 크기를 가지는 마이크로-CT 이미지 촬영을 수행하였다. 학습에 사용될 학습 데이터를 생성하기 위해 히스토그램, 형상, 그리고 구배 기반 상 분리 방법을 적용하였다. 본 연구에서 제안된 U-net 모델을 활용하여 PVA 섬유 보강 시멘트 복합체의 마이크로- CT 이미지로부터 섬유를 분리하는 학습을 수행하였다. 훈련의 정확도를 높이기 위해 데이터 증강을 적용하였으며, 총 1024개의 이미지를 훈련 데이터로 사용하였다. 모델의 성능은 정확도, 정밀도, 재현율, F1 스코어를 평가하였으며, 학습된 모델의 섬유 분리 성능이 매우 높고 효율적이며, 다른 시편에도 적용될 수 있음을 확인하였다.

랜섬웨어 탐지를 위한 머신러닝 기반 암호화 행위 감지 기법 (A Machine Learning-Based Encryption Behavior Cognitive Technique for Ransomware Detection)

  • 황윤철
    • 산업융합연구
    • /
    • 제21권12호
    • /
    • pp.55-62
    • /
    • 2023
  • 최근 등장하는 랜섬웨어들은 다양한 공격 기법과 다양한 경로를 통해 공격을 수행하고 있어 조기 탐지와 방어에 많은 어려움을 겪고 있으며, 그 피해 규모도 날로 증가하고 있다. 따라서 본 논문에서는 효과적인 랜섬웨어 탐지를 위하여 파일 암호화와 암호화 패턴을 머신러닝 기반으로 하는 감지 기법을 제안한다. 파일 암호화는 랜섬웨어가 공격하는데 필수적으로 사용하는 기능으로 암호 행위와 암호화 패턴을 분석함으로써 랜섬웨어를 탐지하고 랜섬웨어의 특정 변종이나 새로운 유형의 랜섬웨어를 탐지할 수 있기 때문에 랜섬웨어 공격을 식별하고 차단하는 데 매우 효과적이다. 제안한 머신러닝 기반의 암호화 행위 감지 기법은 암호화 특성과 암호화 패턴 특성을 추출하여 머신러닝 기반의 분류기를 통해 각각 학습을 시켜 해당 행위에 대한 탐지를 진행하고 최종 결과는 두 분류기의 평가 결과를 기반으로 앙상블 분류기에서 랜섬웨어 유무를 판별하여 좀 더 정확도를 높였다. 또한, 제안한 기법을 numpy와 pandas, 파이썬의 사이킷런 라이브러리를 사용하여 구현하여 평가지표를 사용한 성능를 평가한 결과 평균적으로 94%,의 정확도와 95%의 정밀도, 93%의 재현률과 95%의 F1 스코어가 산출되었다. 성능 평가 결과를 보면 암호화 행위 감지를 통해 랜섬웨어 탐지가 가능하다는 것을 확인할 수 있었고 랜섬웨어의 사전 탐지를 위해 제안한 기법의 성능을 높이기 위한 연구도 계속해서 진행되어야 한다.