• 제목/요약/키워드: 데이터셋 유형

검색결과 71건 처리시간 0.024초

Implementation of Git's Commit Message Complex Classification Model for Software Maintenance

  • Choi, Ji-Hoon;Kim, Joon-Yong;Park, Seong-Hyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.131-138
    • /
    • 2022
  • Git의 커밋 메시지는 프로젝트 생명주기와 밀접한 연관성을 지니고 있으며, 이러한 특성에 의해 프로젝트 운영 활동의 위험요소와 프로젝트 현황 등을 파악하여 비용 절감과 작업효율 개선 등에 큰 기여를 할 수 있다. 이와 관련한 분야 중 커밋 메시지를 소프트웨어 유지관리의 유형으로 분류하는 많은 연구가 있으며 연구 중 최대 정확도는 87%다. 본 논문에서는 커밋 분류 모델을 이용한 솔루션 등의 활용을 목적으로 진행 하였고 기존에 발표된 모델들보다 정확도를 높여 모델의 신뢰성을 높이기 위해 여러 모델을 조합한 복합 분류 모델을 설계하고 구현하였다. 본문은 자동화 레이블링 및 소스 변경 내용을 추출하여 데이터셋을 구성하고 디스틸 버트(DistilBERT) 모델을 이용하여 학습시켰다. 검증결과 기존 연구에서 보고된 최대 87%보다 8%가 향상된 95%의 F1 점수 값을 얻어 신뢰성을 확보하였다. 본 연구 결과를 이용하면 모델의 신뢰성을 높이고 이를 이용해 소프트웨어 및 프로젝트관리 등의 솔루션에 적용이 가능할 것으로 기대된다.

앙상블 학습의 부스팅 방법을 이용한 악의적인 내부자 탐지 기법 (Malicious Insider Detection Using Boosting Ensemble Methods)

  • 박수연
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.267-277
    • /
    • 2022
  • 최근 클라우드 및 원격 근무 환경의 비중이 증가함에 따라 다양한 정보보안 사고들이 발생하고 있다. 조직의 내부자가 원격 접속으로 기밀 자료에 접근하여 유출을 시도하는 사례가 발생하는 등 내부자 위협이 주요 이슈로 떠오르게 되었다. 이에 따라 내부자 위협을 탐지하기 위해 기계학습 기반의 방법들이 제안되고 있다. 하지만, 기존의 내부자 위협을 탐지하는 기계학습 기반의 방법들은 편향 및 분산 문제와 같이 예측 정확도와 관련된 중요한 요소를 고려하지 않았으며 이에 따라 제한된 성능을 보인다는 한계가 있다. 본 논문에서는 편향 및 분산을 고려하는 부스팅 유형의 앙상블 학습 알고리즘들을 사용하여 악의적인 내부자 탐지 성능을 확인하고 이에 대한 면밀한 분석을 수행하며, 데이터셋의 불균형까지도 고려하여 최종 결과를 판단한다. 앙상블 학습을 이용한 실험을 통해 기존의 단일 학습 모델에 기반한 방법에서 나아가, 편향-분산 트레이드오프를 함께 고려하며 유사하거나 보다 높은 정확도를 달성함을 보인다. 실험 결과에 따르면 배깅과 부스팅 방법을 사용한 앙상블 학습은 98% 이상의 정확도를 보였고, 이는 사용된 단일 학습 모델의 평균 정확도와 비교하면 악의적인 내부자 탐지 성능을 5.62% 향상시킨다.

멀티모달 딥 러닝 기반 이상 상황 탐지 방법론 (Anomaly Detection Methodology Based on Multimodal Deep Learning)

  • 이동훈;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.101-125
    • /
    • 2022
  • 최근 컴퓨팅 기술의 발전과 클라우드 환경의 개선에 따라 딥 러닝 기술이 발전하게 되었으며, 다양한 분야에 딥 러닝을 적용하려는 시도가 많아지고 있다. 대표적인 예로 정상적인 데이터에서 벗어나는 값이나 패턴을 식별하는 기법인 이상 탐지가 있으며, 이상 탐지의 대표적 유형인 점 이상, 집단적 이상, 맥락적 이중 특히 전반적인 상황을 파악해야 하는 맥락적 이상을 탐지하는 것은 매우 어려운 것으로 알려져 있다. 일반적으로 이미지 데이터의 이상 상황 탐지는 대용량 데이터로 학습된 사전학습 모델을 사용하여 이루어진다. 하지만 이러한 사전학습 모델은 이미지의 객체 클래스 분류에 초점을 두어 생성되었기 때문에, 다양한 객체들이 만들어내는 복잡한 상황을 탐지해야 하는 이상 상황 탐지에 그대로 적용되기에는 한계가 있다. 이에 본 연구에서는 객체 클래스 분류를 학습한 사전학습 모델을 기반으로 이미지 캡셔닝 학습을 추가적으로 수행하여, 객체 파악뿐만 아니라 객체들이 만들어내는 상황까지 이해해야 하는 이상 상황 탐지에 적절한 2 단계 사전학습 모델 구축 방법론을 제안한다. 구체적으로 제안 방법론은 ImageNet 데이터로 클래스 분류를 학습한 사전학습 모델을 이미지 캡셔닝 모델에 전이하고, 이미지가 나타내는 상황을 설명한 캡션을 입력 데이터로 사용하여 학습을 진행한다. 이후 이미지와 캡션을 통해 상황 특질을 학습한 가중치를 추출하고 이에 대한 미세 조정을 수행하여 이상 상황 탐지 모델을 생성한다. 제안 방법론의 성능을 평가하기 위해 직접 구축한 데이터 셋인 상황 이미지 400장에 대해 이상 탐지 실험을 수행하였으며, 실험 결과 제안 방법론이 기존의 단순 사전학습 모델에 비해 이상 상황 탐지 정확도와 F1-score 측면에서 우수한 성능을 나타냄을 확인하였다.

Probing Sentence Embeddings in L2 Learners' LSTM Neural Language Models Using Adaptation Learning

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.13-23
    • /
    • 2022
  • Prasad et al.는 사전학습(pre-trained)한 신경망 L1 글로다바(Gulordava) 언어모델을 여러 유형의 영어 관계절과 등위절 문장들로 적응 학습(adaptation learning)시켜 문장 간 유사성(sentence similarity)을 평가할 수 있는 통사 프라이밍(syntactic priming)-기반 프로빙 방법((probing method)을 제안했다. 본 논문에서는 한국인 영어학습자가 배우는 영어 자료를 바탕으로 훈련된 L2 LSTM 신경망 언어 모델의 영어 관계절 혹은 등위절 구조의 문장들에 대한 임베딩 표현 방식을 평가하기 위하여 프로빙 방법을 적용한다. 프로빙 실험은 사전 학습한 LSTM 언어 모델을 기반으로 추가로 적응 학습을 시킨 LSTM 언어 모델을 사용하여 문장 임베딩 벡터 표현의 통사적 속성을 추적한다. 이 프로빙 실험을 위한 데이터셋은 문장의 통사 구조를 생성하는 템플릿을 사용하여 자동으로 구축했다. 특히, 프로빙 과제별 문장의 통사적 속성을 분류하기 위해 통사 프라이밍을 이용한 언어 모델의 적응 효과(adaptation effect)를 측정했다. 영어 문장에 대한 언어 모델의 적응 효과와 통사적 속성 관계를 복합적으로 통계분석하기 위해 선형 혼합효과 모형(linear mixed-effects model) 분석을 수행했다. 제안한 L2 LSTM 언어 모델이 베이스라인 L1 글로다바 언어 모델과 비교했을 때, 프로빙 과제별 동일한 양상을 공유함을 확인했다. 또한 L2 LSTM 언어 모델은 다양한 관계절 혹은 등위절이 있는 문장들을 임베딩 표현할 때 관계절 혹은 등위절 세부 유형별로 통사적 속성에 따라 계층 구조로 구분하고 있음을 확인했다.

기계학습을 이용한 기업가적 혁신성 예측 모델에 관한 연구 (Machine Learning for Predicting Entrepreneurial Innovativeness)

  • 정두희;윤진섭;양성민
    • 벤처창업연구
    • /
    • 제16권3호
    • /
    • pp.73-86
    • /
    • 2021
  • 이 연구의 목적은 기업가적 혁신성을 정확하게 예측하는 고도화된 분석 모델을 탐색하는 것이다. 기업가정신 연구 분야에서는 최초로, 데이터 과학적 접근방식에 해당되는 기계학습(Machine learning)을 이용해 기업가적 혁신성(entrepreneurial innovativeness)을 예측하는 모델을 제시한다. 예측모델을 구축하기 위하여 Global Entrepreneurship Monitor(GEM)의 62개국 22,099건 데이터를 이용한다. 27개 설명변수로 이뤄진 데이터 셋을 토대로 전통적 통계방법인 다중회귀분석과, 회귀트리, 랜덤포레스트, XG부스트, 인공신경망 등 기계학습을 이용한 예측모델을 구축하고 각 모델의 성능을 비교한다. 모델의 성능 평가를 위해 RMSE(Root mean square error), MAE(Mean absolute error)와 상관관계(Correlation) 등 지표를 사용한다. 분석 결과 5가지 기계학습 기반 모델은 모두 전통적 방법에 비해 우수한 성능을 보였으며, 예측 성능이 가장 좋은 모델은 XG부스트였다. XG부스트를 통한 기업가적 혁신성 예측에 있어서 기여도가 높은 변수는 창업가의 기회인지 및 시장 확장의 교차항 변수이며, 이는 신시장에서 기회를 획득하고자 하는 유형의 창업기업이 높은 혁신성을 보인다는 점을 확인했다. 이 연구는 고도화된 분석방법인 기계학습을 이용해 새로운 예측모델을 제시, 기업가정신 연구의 시야를 확장했다는 점에서 의의를 지닌다.

Yolov4와 전이학습을 기반으로한 실시간 철강 표면 결함 검출 연구 (Real-time Steel Surface Defects Detection Appliocation based on Yolov4 Model and Transfer Learning)

  • 김복경;배준희;환;이용은;옥영석
    • 한국빅데이터학회지
    • /
    • 제7권2호
    • /
    • pp.31-41
    • /
    • 2022
  • 철강은 기계 산업의 가장 기본적인 구성 요소 중 하나이다. 그러나 철강의 표면 결함은 제품의 품질에 큰 영향을 미친다. 따라서 연구자들은 표면 결함 감지기의 필요성에 주목하고 딥 러닝을 이용한 방법은 객체 결함 감지를 하는데 많이 사용된다. 연구 개발용으로 학습 모델 개발에 초점을 맞추지만 실제 산업환경에 실질적인 영향을 미치는 실시간 적용은 아직 적용되지 않는 한계와 개선의 여지가 필요하다. 본 연구는 YOLOv4를 기반으로 한 철강 표면 결함 감지의 실시간 적용을 제안한다. 첫째, 본 연구는 실시간 응용 모델을 적용하는 것을 목적으로 하며 실시간 객체 검출기의 가장 유명한 알고리즘 중 하나인 one-stage Detector의 YOLO 알고리즘을 중심으로 연구를 진행하였다. 둘째, 사전 훈련된 YOLOv4-Darknet 플랫폼 모델과 전이학습을 사용하여 철강 표면 오픈 소스 데이터셋 NEU-DET을 이용하여 학습과 테스트를 진행하였다. 본 연구에서는 철강 표면의 패치, 구멍 난 표면, 불순물, 스크래치 4가지 유형의 결함을 이용하였다. 셋째, 87.1% mAP@0.5의 정확도와 60fps 이상의 시스템 구축을 위해 YOLOv4를 이용하여 훈련된 모델의 실시간 성능을 평가하였다.

딥러닝 기반 사용자 특징 정보 모델링을 통한 사용자 안전 프로파일링 (Deep Learning Based User Safety Profiling Using User Feature Information Modeling)

  • 김계경
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제17권2호
    • /
    • pp.143-150
    • /
    • 2021
  • 산업 현장에서 발생하는 다양한 안전사고의 원인이 되는 위험 요소를 분석하여 사용자에게 발생하는 안전사고를 줄일 수 있는 지능형 기술 개발에 대한 필요성이 커지고 있다. 본 논문에서는 산업 현장에서 발생하는 안전사고와 관련된 사용자 정보를 특정하고 모델링하여 사용자에게 일어나는 안전 사고를 미리 예방할 수 있는 사용자 안전 프로파일링에 대한 기술을 제안하였다. 사용자 프로파일링은 사용자의 혈압, 맥박, 움직임 등의 정보로부터 사용자의 생체, 작업 패턴, 작업 유형에 대한 안전 상태를 정(positive)과 부(negative)로 특정 및 모델링하고 딥러닝 인공지능 분석기술을 이용하여 사용자의 안전 상태를 정상과 비정상 상태로 분류할 수 있도록 하였다. 제안된 기술의 타당성을 검증하기 위하여 산업 현장에서 근무하는 사용자 5명을 대상으로 10종 이상의 사용자 정보를 리빙랩에서 획득하여 지능형 분석 시스템을 학습한 후 5개의 테스트 셋을 이용하여 정확도 시험을 반복 시행하여 93.6%의 사용자 안전 프로파일링 시스템의 정확도를 얻을 수 있었다.

고해상도 위성영상과 인공지능을 활용한 국토 변화탐지 및 모니터링 연구: 실증대상 지역인 정읍시를 중심으로 (A Study on the Land Change Detection and Monitoring Using High-Resolution Satellite Images and Artificial Intelligence: A Case Study of Jeongeup City)

  • 조나혜;이정주;김현덕
    • 지적과 국토정보
    • /
    • 제53권1호
    • /
    • pp.107-121
    • /
    • 2023
  • 실시간으로 변하는 국토를 광범위하게 취득하고, 이를 빠르고 정확하게 파악하기 위해 최근 공개 된 고해상도 국토위성 영상자료와 인공지능(AI; Artificial Intelligence)을 활용하고자 한다. 기존 위성 영상에 비해 국토위성의 경우 분광 및 주기 해상도가 높아져, 국토의 변화상을 주기적으로 모니터링하는 데 보다 적합한 자료원이 되었다. 따라서 본 연구는 국토위성을 취득하여 국토 변화를 탐지하기 위한 객체 8종을 선정하고, 이에 대한 데이터 셋 구축 및 AI 모델을 적용하여 분석하고자 한다. 다양한 유형의 객체 8종을 탐지하기 위한 최적의 모델과 변수 조건들을 확인하기 위해 여러 실험을 수행하고, AI 기반의 영상분석을 기술적으로 검토해보고자 한다.

메모리 추가 신경망을 이용한 희소 악성코드 분류 (Rare Malware Classification Using Memory Augmented Neural Networks)

  • 강민철;김휘강
    • 정보보호학회논문지
    • /
    • 제28권4호
    • /
    • pp.847-857
    • /
    • 2018
  • 악성코드의 수가 가파르게 증가하면서 기업 및 공공기관, 금융기관, 병 의원 등을 타깃으로 한 사이버 공격 피해 사례가 늘어나고 있다. 이러한 흐름에 따라 학계와 보안 업계에서는 악성코드 탐지를 위한 다양한 연구를 진행하고 있다. 최근 들어서는 딥러닝을 비롯해 머신러닝 기법을 적용하는 형태의 연구가 많이 진행되는 추세다. 이 중 합성곱 신경망(CNN: Convolutional Neural Network), ResNet 등을 이용한 악성코드 분류 연구의 경우에는 기존의 분류 방법에 비해 정확도가 크게 향상된 것을 확인할 수 있다. 그러나 타깃 공격의 특징 중 하나는 사용된 악성코드가 불특정 다수를 상대로 광범위하게 퍼뜨리는 형태가 아닌, 특정 대상을 타깃으로 한 맞춤형 악성코드라는 점이다. 이러한 유형의 악성코드는 그 수가 많지 않기 때문에 기존에 연구되어온 머신러닝이나 딥러닝 기법을 적용하기에 한계가 있다. 본 논문은 타깃형 악성코드와 같이 샘플의 양이 부족한 상황에서 악성코드를 분류하는 방법에 대해 다루고 있다. 메모리가 추가된 신경망(MANN: Memory Augmented Neural Networks) 모델을 이용하였고 각 그룹별 20개의 소량 데이터로 구성되어 있는 악성코드 데이터셋에 대해 최대 97%까지 정확도로 분류할 수 있음을 확인하였다.

국제 물거래에 대비한 가상수 이동 추이 분석 (Trend Analysis of Virtual Water Trade at the Global Level for Overcoming Water Scarcity)

  • 윤종한;박성제;유시생
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.133-133
    • /
    • 2016
  • 지구온난화와 그에 따른 기후변화로 수자원부족현상이 전지구적으로 나타남에 따라 세계 각국은 물부족 현상을 극복하기 위해 다양한 대처방안을 찾고 있다. 가상수 이론은 전세계적 차원에서 상품에 내재된 가상수를 통해 물을 공급하고 배분함으로써 물부족을 해결할 수 있다는 주장으로서 물부족현상에 처한 세계 각국의 관심을 끌고 있다. 특히 향후 국제적 수준에서 물거래에 대한 조치가 예상됨에 따라 이에 가상수가 국가간에 얼마나 어떠한 형태로 이동하는지 '가상수 이동'에 대한 정보가 필요하게 되었다. 그럼에도 불구하고 지금까지의 가상수 흐름에 대한 정보는 미국이나 일본 등을 중심으로 한 자료뿐이었다. 한국을 중심으로 한국의 관심사를 반영한 가상수 이동에 대한 연구결과는 충분하지 않았다. 따라서 본 연구에서는 전세계적 수준에서의 가상수 이동추이를 한국을 중심으로 분석하도록 한다. 분석수준은 전세계적 수준과 국가간 수준이며, 분석기간은 1989년부터 2014년까지 총 26년이다. 분석 대상은 가상수 교역이 활발한 주요 16개국의 11개 농축산물이다. 분석을 위한 자료로는 UN과 세계식량기구의 자료를 활용해 데이터셋을 구축했다. 분석결과 전세계적 수준에서는 콩, 옥수수, 밀, 보리가 주요 가상수 수출입 품목으로 밝혀졌다. 시기별로는 1999년 까지는 밀의 교역이 압도적이었으나 1999년 이후 콩 가상수의 교역이 증가하고 있는 것으로 파악되었다. 가상수의 유형과 관련해서는 녹색가상수의 교역이 청색가상수보다 압도적으로 많았으며, 국가간의 가상수 이동량은 지속적으로 증가하고 있는 추세임을 알 수 있었다. 가상수의 주요 수출국은 미국을 비롯해 브라질, 아르헨티나, 호주 등 농업대국이 상위권을 차지했고, 주요 수입국은 중국, 일본, 한국 등 동북아시아 국가들이었다. 가상수 수출은 미국이 분석기간 내내 우위를 차지하나, 2000년대 이후 중국의 부상이 눈에 띄는 변화라고 할 수 있다. 가상수 수입과 관련해서는 2000년대 이후 중국의 가상수 수입 증가 추세가 두드러졌다. 국가간 수준의 분석에서는 한국과 미국, 한국과 중국, 한국과 호주 등 한국의 주요 가상수 교역국가간의 흐름을 분석했다. 국가간 수준의 분석에서 특기할 만한 점은 미국에서 한국으로 이동한 전체 가상수의 81퍼센트를 녹색가상수가 차지하며, 한국에서 중국으로 이동한 가상수의 74퍼센트가 축산물 가상수라는 점이었다. 본 연구의 분석결과를 기반으로 해 향후에는 가상수 이동 데이터베이스를 구축할 것이 요구되며, 가상수 이동추이의 변화가 가져올 시나리오에 대한 연구도 필요하다고 할 수 있다.

  • PDF