• 제목/요약/키워드: 적은 데이터셋 환경

검색결과 234건 처리시간 0.025초

시나리오 기반 이미지 개발을 통한 파일 카빙 도구 검증 방안 연구 (A Study of Verification Methods for File Carving Tools by Scenario-Based Image Creation)

  • 김해니;김재욱;권태경
    • 정보보호학회논문지
    • /
    • 제29권4호
    • /
    • pp.835-845
    • /
    • 2019
  • 파일 카빙(File Carving)은 저장 매체가 포맷되거나 파일시스템이 손상되어 메타데이터가 없는 파일 복구를 시도하는 기법으로 일반적으로 파일의 특정 헤더/푸터 시그니처 및 데이터 구조를 찾는다. 그러나 파일 카빙은 오랫동안 단편화 (Fragmentation) 된 파일을 복구해내는 문제점에 직면하고 있으며, 디지털포렌식에서 중요한 대상의 파일(doc, hwp, xls 등)은 비교적 단편화되기 쉬우므로 이에 대한 해결방안 제시는 매우 중요하다. 이와 같은 한계점을 극복하기 위하여 다양한 카빙 기법 및 도구들이 지속적으로 개발되고 있으며, 기능 검증을 위하여 다양한 연구 및 기관에서 데이터셋을 제공한다. 그러나, 기존에 제공된 데이터셋은 환경적인 조건이 상당히 제한되어 도구를 검증하는데 있어 비효율적이다. 본 논문에서는 단편화된 파일 카빙의 중요성을 언급하고, 카빙 도구 검증을 위한 시나리오 기반의 16가지의 이미지를 개발한다. 개발된 이미지는 상용 카빙 도구로 잘 알려진 Foremost를 통하여 매체 별로 카빙률 및 정확도를 계산하여 나타낸다.

머신러닝 모델을 활용한 모기 활동량 측정 (Measurement of Mosquito Activity using Machine Learning Model)

  • 이세훈;김기태;김영호;허유진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.333-334
    • /
    • 2023
  • 본 논문에서는 모기 활동 수치를 측정하기 위한 효율적인 머신러닝 모델을 제안한다. 수집된 데이터의 분석을 통해 효율적인 모델을 선정한다. 또한 데이터셋의 상관관계를 분석하고 데이터 가중치에 따라 모기의 활동에 영향을 주는 환경이 무엇인지를 분석한다. 본 논문에서는 모델을 이용한 앱 개발하여 실질적으로 모델을 활용한 예시를 보이고 실생활에서의 해당 모델을 도입하였을 때 가져올 일상의 긍정적 효과를 보인다.

  • PDF

연합 학습 환경에서 통합되고 강인한 다중 작업 학습 기법 (Learning Unified and Robust Representations across Various Tasks within a Federated Learning Environment)

  • 안킷 쿠마 싱;최수빈;최봉준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.798-800
    • /
    • 2024
  • 현대의 머신러닝 환경에서는 특히 모바일 컴퓨팅 및 사물 인터넷(IoT)의 애플리케이션 영역에서 개인 정보를 보호하고 효율적이며 확장 가능한 모델에 대한 관심이 높아지고 있다. 본 연구는 연합 학습(FL)과 자기지도 학습(self-supervised learning)을 결합하여 이질적(heterogeneous)인 분산 자원에서 레이블이 없는 데이터를 활용하면서 사용자의 개인 정보를 보호하는 새로운 프레임워크를 소개한다. 이 프레임워크의 핵심은 SimCLR 과 같은 자기지도 학습 기법으로 학습된 공유 인코더로, 입력 데이터에서 고수준 특성을 추출하도록 설계되었다. 또한 이 구조를 통해 주석(annotation)이 없는 방대한 데이터셋을 활용하여 모델 성능을 향상시키고, 여러 개의 격리된 모델이 필요하지 않아 리소스를 크게 최적화할 수 있는 가능성을 확인했다. 본 연구를 통해 생성된 모델은 중앙 집중 방식(CL)이면서 자기지도학습으로 학습되지 않은 기존 모델과 비교하여 전체 평균 정확도가 14.488% 향상됐다.

터널 내 딥러닝 객체인식 오탐지 데이터의 반복 재학습을 통한 자가 추론 성능 향상 방법에 관한 연구 (A study on improving self-inference performance through iterative retraining of false positives of deep-learning object detection in tunnels)

  • 이규범;신휴성
    • 한국터널지하공간학회 논문집
    • /
    • 제26권2호
    • /
    • pp.129-152
    • /
    • 2024
  • 터널 내 CCTV를 통한 딥러닝 객체인식 적용에 있어서 터널의 열악한 환경조건, 즉 낮은 조도 및 심한 원근현상으로 인해 오탐지가 대량 발생한다. 이 문제는 객체인식 성능에 기반한 영상유고시스템의 신뢰성 문제로 직결되므로 정탐지 향상과 더불어 오탐지의 저감 방안이 더욱 필요한 상황이다. 이에 본 논문은 딥러닝 객체인식 모델을 기반으로, 오탐지 데이터의 재학습을 통해 오탐지의 저감뿐만 아니라 정탐지 성능 향상도 함께 추구하는 오탐지 학습법을 제안한다. 본 논문의 오탐지 학습법은 객체인식 단계를 기반으로 진행되며, 학습용 데이터셋 초기학습 - 검증용 데이터셋 추론 - 오탐지 데이터 정정 및 데이터셋 구성 - 학습용 데이터셋에 추가 후 재학습으로 이어진다. 본 논문은 이에 대한 성능을 검증하기 위해 실험을 진행하였으며, 우선 선행 실험을 통해 본 실험에 적용할 딥러닝 객체인식 모델의 최적 하이퍼파라미터를 결정하였다. 그리고 본 실험에서는 학습영상 포맷을 결정하기 위한 실험, 반복적인 오탐지 데이터셋의 재학습을 통해 장기적인 성능향상을 확인하기 위한 실험을 순차적으로 진행하였다. 그 결과, 첫 번째 본 실험에서는 추론된 영상 내에서 객체를 제외한 배경을 제거시키는 경우보다 배경을 포함시키는 경우가 객체인식 성능에 유리한 것으로 나타났으며, 두 번째 본 실험에서는 재학습 차수별 독립적으로 오탐지 데이터를 재학습시키는 경우보다 차수마다 발생하는 오탐지 데이터를 누적시켜 재학습 시키는 경우가 지속적인 객체인식 성능 향상 측면에서 유리한 것으로 나타났다. 두 실험을 통해 결정된 방법으로 오탐지 데이터 재학습을 진행한 결과, 차량 객체 클래스는 1차 재학습 이후부터 AP값이 0.95 이상 우수한 추론 성능이 발현되었으며, 5차 재학습까지 초기 추론 대비 약 1.06배 추론성능이 향상되었다. 보행자 객체 클래스는 재학습이 진행됨에 따라 지속적으로 추론 성능이 향상되었으며, 18차 재학습까지 초기 추론대비 2.3배 이상 추론성능이 자가 향상될 수 있음을 보였다.

자연어 처리 모델을 활용한 블록 코드 생성 및 추천 모델 개발 (Development of Block-based Code Generation and Recommendation Model Using Natural Language Processing Model)

  • 전인성;송기상
    • 정보교육학회논문지
    • /
    • 제26권3호
    • /
    • pp.197-207
    • /
    • 2022
  • 본 논문에서는 코딩 학습 중 학습자의 인지 부하 감소를 목적으로 자연어 처리 모델을 이용하여 전이학습 및 미세조정을 통해 블록 프로그래밍 환경에서 이미 이루어진 학습자의 블록을 학습하여 학습자에게 다음 단계에서 선택 가능한 블록을 생성하고 추천해 주는 머신러닝 기반 블록 코드 생성 및 추천 모델을 개발하였다. 모델 개발을 위해 훈련용 데이터셋은 블록 프로그래밍 언어인 '엔트리' 사이트의 인기 프로젝트 50개의 블록 코드를 전처리하여 제작하였으며, 훈련 데이터셋과 검증 데이터셋 및 테스트 데이터셋으로 나누어 LSTM, Seq2Seq, GPT-2 모델을 기반으로 블록 코드를 생성하는 모델을 개발하였다. 개발된 모델의 성능 평가 결과, GPT-2가 LSTM과 Seq2Seq 모델보다 문장의 유사도를 측정하는 BLEU와 ROUGE 지표에서 더 높은 성능을 보였다. GPT-2 모델을 통해 실제 생성된 데이터를 확인한 결과 블록의 개수가 1개 또는 17개인 경우를 제외하면 BLEU와 ROUGE 점수에서 비교적 유사한 성능을 내는 것을 알 수 있었다.

준 지도 이상 탐지 기법의 성능 향상을 위한 섭동을 활용한 초구 기반 비정상 데이터 증강 기법 (Abnormal Data Augmentation Method Using Perturbation Based on Hypersphere for Semi-Supervised Anomaly Detection)

  • 정병길;권준형;민동준;이상근
    • 정보보호학회논문지
    • /
    • 제32권4호
    • /
    • pp.647-660
    • /
    • 2022
  • 최근 정상 데이터와 일부 비정상 데이터를 보유한 환경에서 딥러닝 기반 준 지도 학습 이상 탐지 기법이 매우 효과적으로 동작함이 알려져 있다. 하지만 사이버 보안 분야와 같이 실제 시스템에 대한 알려지지 않은 공격 등 비정상 데이터 확보가 어려운 환경에서는 비정상 데이터 부족이 발생할 가능성이 있다. 본 논문은 비정상 데이터가 정상 데이터보다 극히 작은 환경에서 준 지도 이상 탐지 기법에 적용 가능한 섭동을 활용한 초구 기반 비정상 데이터 증강 기법인 ADA-PH(Abnormal Data Augmentation Method using Perturbation based on Hypersphere)를 제안한다. ADA-PH는 정상 데이터를 잘 표현할 수 있는 초구의 중심으로부터 상대적으로 먼 거리에 위치한 샘플에 대해 적대적 섭동을 추가함으로써 비정상 데이터를 생성한다. 제안하는 기법은 비정상 데이터가 극소수로 존재하는 네트워크 침입 탐지 데이터셋에 대하여 데이터 증강을 수행하지 않았을 경우보다 평균적으로 23.63% 향상된 AUC가 도출되었고, 다른 증강 기법들과 비교했을 때 가장 높은 AUC가 또한 도출되었다. 또한, 실제 비정상 데이터에 유사한지에 대한 정량적 및 정성적 분석을 수행하였다.

Bi-Cross 사전 학습을 통한 자연어 이해 성능 향상 (The Bi-Cross Pretraining Method to Enhance Language Representation)

  • 김성주;김선훈;박진성;유강민;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.320-325
    • /
    • 2021
  • BERT는 사전 학습 단계에서 다음 문장 예측 문제와 마스킹된 단어에 대한 예측 문제를 학습하여 여러 자연어 다운스트림 태스크에서 높은 성능을 보였다. 본 연구에서는 BERT의 사전 학습 문제 중 다음 문장 예측 문제에 대해 주목했다. 다음 문장 예측 문제는 자연어 추론 문제와 질의 응답 문제와 같이 임의의 두 문장 사이의 관계를 모델링하는 문제들에 성능 향상을 위해 사용되었다. 하지만 BERT의 다음 문장 예측 문제는 두 문장을 특수 토큰으로 분리하여 단일 문자열 형태로 모델에 입력으로 주어지는 cross-encoding 방식만을 학습하기 때문에 문장을 각각 인코딩하는 bi-encoding 방식의 다운스트림 태스크를 고려하지 않은 점에서 아쉬움이 있다. 본 논문에서는 기존 BERT의 다음 문장 예측 문제를 확장하여 bi-encoding 방식의 다음 문장 예측 문제를 추가적으로 사전 학습하여 단일 문장 분류 문제와 문장 임베딩을 활용하는 문제에서 성능을 향상 시키는 Bi-Cross 사전 학습 기법을 소개한다. Bi-Cross 학습 기법은 영화 리뷰 감성 분류 데이터 셋인 NSMC 데이터 셋에 대해 학습 데이터의 0.1%만 사용하는 학습 환경에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 5점 가량의 성능 향상이 있었다. 또한 KorSTS의 bi-encoding 방식의 문장 임베딩 성능 평가에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 1.5점의 성능 향상을 보였다.

  • PDF

소프트웨어 정의 경계를 이용한 네트워크 트래픽 기반 동적 접근 제어 (Network Traffic-Based Access Control Using Software-Defined Perimeter)

  • 김서이;이일구
    • 정보보호학회논문지
    • /
    • 제34권4호
    • /
    • pp.735-746
    • /
    • 2024
  • 컴퓨터 기술의 급속한 발전은 더 안전한 사용자 환경이 필요하게 되어, 모든 내부 및 외부 네트워크 활동을 검증하는 제로 트러스트 모델의 도입을 촉진했다. 본 논문은 제로 트러스트의 구현 및 지연 문제를 해결하기 위해 소프트웨어 정의 경계 기능을 활용한 효율적인 네트워크 트래픽 데이터 기반 동적 접근 제어 방법을 제안한다. 성능 평가 결과에 따르면 제안한 방법의 탐지 성능은 기존 방식과 유사하게 나타났지만 데이터 셋의 크기는 약 70% 감소했다. 그리고 적응형 제로 트러스트 검증 방식을 제안하여 데이터 셋 크기와 검증 시간을 각각 약 83%, 10% 줄이면서 종래의 방식과 유사한 탐지 성능을 유지했다.

웹 지도서비스를 위한 다축척 지도 데이터셋 자동생성 기법 연구 (Automated Generation of Multi-Scale Map Database for Web Map Services)

  • 박우진;방윤식;유기윤
    • 한국측량학회지
    • /
    • 제30권5호
    • /
    • pp.435-444
    • /
    • 2012
  • 웹 환경에서의 지도서비스 및 위치기반서비스를 제공하기 위해서는 다축척 지도 데이터베이스를 구축하여야 하나, 제작과정이 아직까지 수동편집에 의존하는 경우가 많았다. 본 연구에서는 기본 지도 자료로부터 다축척 지도 데이터베이스를 자동으로 구축하기 위한 지도 일반화 기법을 제안하고 이를 실제 지도 데이터에 적용하여 프로토타입의 다축척 지도 데이터셋을 생성하고자 한다. 지도 일반화 기법으로는 선택 및 삭제, 단순화, 병합 등의 연산자를 조합하여 적용하였으며, 각각 연산자의 알고리듬과 파라미터들은 T$\ddot{o}$pfer's radical law, 지도의 최소도화 기준, 시각적 표현정도 등을 종합적으로 고려하여 실험적으로 결정하였다. 목표 축척수준은 1:1,000, 1:5,000, 1:25,000, 1:100,000, 1:500,000 의 5단계로 설정하였으며, 대상이 되는 기본 지도 자료는 도로명주소 전자지도와 수치지형도를 사용하였다.

DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구 (DART: Data Augmentation using Retrieval Technique)

  • 이승준;서재형;이정섭;강명훈;문현석;박찬준;정다현;이재욱;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF