• 제목/요약/키워드: Dataset for AI

검색결과 201건 처리시간 0.03초

코드패치 및 하이브리드 분석 환경을 활용한 악성코드 데이터셋 추출 프레임워크 설계 (Framework Design for Malware Dataset Extraction Using Code Patches in a Hybrid Analysis Environment)

  • 최기상;최상훈;박기웅
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.403-416
    • /
    • 2024
  • 악성코드는 금전적인 목적에 의하여 서비스의 한 형태로 블랙마켓에 판매되고 있다. 판매에 따른 수요가 증가함에 따라 악성코드를 통한 공격이 확장되었다. 이에 대응하기 위해 인공지능을 활용한 탐지 및 분류 연구들이 등장하였지만, 공격자들은 분석을 방지하고자 다양한 안티 분석기술을 악성코드에 적용하고 있다. 본 논문에서는 안티 분석 기술이 적용된 악성코드들로부터 데이터셋을 확보하기 위해 하이브리드형 바이너리 분석 프레임워크 Malware Analysis with Dynamic Extraction(MADE)을 제안한다. MADE 프레임워크는 Anti-VM, Anti-Debugging이 적재된 바이너리를 포함하여 자동화된 동적 분석을 수행할 수 있다. MADE 프레임워크는 Anti-Analysis 기술이 적용된 다양한 악성코드들에 대해 90% 이상 우회가 가능하며, API 호출 정보를 포함한 데이터셋 추출이 가능함을 실험을 통해 검증하였다.

항공영상으로부터 YOLOv5를 이용한 도심수목 탐지 (Detection of Urban Trees Using YOLOv5 from Aerial Images)

  • 박채원;정형섭
    • 대한원격탐사학회지
    • /
    • 제38권6_2호
    • /
    • pp.1633-1641
    • /
    • 2022
  • 도시의 인구 집중과 무분별한 개발은 대기오염, 열섬현상과 같은 다양한 환경 문제들을 유발하며, 자연재해로 인한 피해 상황을 악화시키는 등 인재의 원인이 되고 있다. 도심 수목은 이러한 도시 문제들의 해결방안으로 제시되어왔으며, 실제로 환경 개선 기능을 제공하는 등 중요한 역할들을 수행한다. 이에 따라 수목이 도시 환경에 미치는 영향을 파악하기 위해 도심 수목에서 개별목에 대한 정량적인 측정 및 분석이 요구된다. 그러나 도심 수목의 복잡성 및 다양성은 단일 수목 탐지 정확도를 낮추는 문제점이 존재한다. 따라서 본 연구는 수목 개체에 대해 효과적인 탐지가 가능한 고해상도 항공영상 및 object detection에서 뛰어난 성능을 발휘한 You Only Look Once Version 5 (YOLOv5) 모델을 사용하여 도심 수목을 효과적으로 탐지하는 연구를 진행하였다. 수목 AI 학습 데이터셋의 구축을 위한 라벨링 가이드라인을 생성하고 이를 기준으로 동작구 수목에 대해 box annotation을 수행하였다. 구축된 데이터셋으로부터 다양한 scale의 YOLOv5 모델들을 테스트하고 최적의 모델을 채택하여 효율적인 도심 수목 탐지를 수행한 결과, mean Average Precision (mAP) 0.663의 유의미한 결과를 도출하였다.

Concept Drift에 의한 ML 모델 성능 변화의 정량적 추정 방법 (Quantitative Estimation Method for ML Model Performance Change, Due to Concept Drift)

  • 안순홍;이훈석;김승훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권6호
    • /
    • pp.259-266
    • /
    • 2023
  • 기계학습을 통해 학습된 모델은 업무 활용 시 그 성능을 실측하기 매우 어렵다. 때문에 운영 부서에서는 모델의 성능을 효과적으로 관리하지 못한다. 이로 인해 모델의 상태를 판단하기 위한 Concept drift 탐지 방법이 다양하게 연구되고 있다. 운영 부서에서는 운영 중인 모델의 성능을 정량적으로 관리하려고 한다. 그러나 Concept drift는 모델 상태를 데이터 관계적으로 판단 할 뿐, 모델의 정량적 성능 수치를 추정하지는 못한다. 본 연구에서는 Concept drift의 통계량을 통해 정량적으로 precision 값을 추정하는 성능 예측 모델(PPM, Performance prediction model)을 제안한다. 제안 모델의 Algorithm 1에서는, 학습데이터에서 복원 추출한 샘플링 데이터에 인위적인 drift를 유도하고 이때의 precision을 측정하여 drift와 precision의 데이터 셋을 만들어 학습한다. Algorithm 2에서는 테스트 데이터를 통해 실제 precision과 예측 precision의 차이를 측정하여 성능 예측 모델의 오차를 보정 한다. 현실 비즈니스에서 사용될 수 있는 대출 심사 모델과 신용카드 오사용 탐지 모델에 PPM을 적용하여 성능 예측의 유효성을 확인했다.

YOLO 네트워크를 활용한 전이학습 기반 객체 탐지 알고리즘 (Transfer Learning-based Object Detection Algorithm Using YOLO Network)

  • 이동구;선영규;김수현;심이삭;이계산;송명남;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권1호
    • /
    • pp.219-223
    • /
    • 2020
  • 딥 러닝 기반 객체 탐지 및 영상처리 분야에서 모델의 인식률과 정확도를 보장하기 위해 다량의 데이터 확보는 필수적이다. 본 논문에서는 학습데이터가 적은 경우에도 인공지능 모델의 높은 성능을 도출하기 위해 전이학습 기반 객체탐지 알고리즘을 제안한다. 본 논문에서는 객체탐지를 위해 사전 학습된 Resnet-50 네트워크와 YOLO(You Only Look Once) 네트워크를 결합한 전이학습 네트워크를 구성하였다. 구성된 전이학습 네트워크는 Leeds Sports Pose 데이터셋의 일부를 활용하여 이미지에서 가장 넓은 영역을 차지하고 있는 사람을 탐지하는 네트워크로 학습을 진행하였다. 실험결과는 탐지율 84%, 탐지 정확도 97%를 기록하였다.

다양한 합성곱 신경망 방식을 이용한 모바일 기기를 위한 시작 단어 검출의 성능 비교 (Performance comparison of wake-up-word detection on mobile devices using various convolutional neural networks)

  • 김상홍;이보원
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.454-460
    • /
    • 2020
  • 음성인식 기능을 제공하는 인공지능 비서들은 정확도가 뛰어난 클라우드 기반의 음성인식을 통해 동작한다. 클라우드 기반의 음성인식에서 시작 단어 인식은 대기 중인 기기를 활성화하는 데 중요한 역할을 한다. 본 논문에서는 공개 데이터셋인 구글의 Speech Commands 데이터셋을 사용하여 스펙트로그램 및 멜-주파수 캡스트럼 계수 특징을 입력으로 하여 모바일 기기에 대응한 저 연산 시작 단어 검출을 위한 합성곱 신경망의 성능을 비교한다. 본 논문에서 사용한 합성곱 신경망은 다층 퍼셉트론, 일반적인 합성곱 신경망, VGG16, VGG19, ResNet50, ResNet101, ResNet152, MobileNet이며, MobileNet의 성능을 유지하면서 모델 크기를 1/25로 줄인 네트워크도 제안한다.

새로운 Boosted 3-D PCA 기반 Head Pose Estimation 방법 (A New Head Pose Estimation Method based on Boosted 3-D PCA)

  • 이경민;인치호
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권6호
    • /
    • pp.105-109
    • /
    • 2021
  • 본 논문에서는 Boosted 3-D PCA 방법을 데이터 세트로 평가하고 성능을 평가한다. 그런 다음 네트워크의 특징과 성능을 분석하겠습니다. 본 논문에서는 Boosted 3-D PCA 학습방법을 사용하여 300W-LP 데이터 학습을 수행했으며 AFLW2000 데이터 세트를 사용하여 평가를 평가했다. 결과는 이 성능 결과는 기존 랜드마크 대 포즈 방법보다 자유롭게 얼굴 이미지의 데이터 세트를 사용하여 학습할 수 있으므로 실제 상황에서 포즈를 정확하게 예측할 수 있다. 키포인트 세트의 최적화는 독립적이지 않기 때문에, 우리는 계산 시간을 줄일 방법을 확인했다. 이 방법은 Boosted 3-D PCA 성능을 향상시키거나 다양한 애플리케이션 도메인에 적용하는 데 매우 중요한 자원이 될 것으로 예상한다

딥러닝 스타일 전이 기반의 무대 탐방 콘텐츠 생성 기법 (Generation of Stage Tour Contents with Deep Learning Style Transfer)

  • 김동민;김현식;봉대현;최종윤;정진우
    • 한국정보통신학회논문지
    • /
    • 제24권11호
    • /
    • pp.1403-1410
    • /
    • 2020
  • 최근, 비대면 경험 및 서비스에 관한 관심이 증가하면서 스마트폰이나 태블릿과 같은 모바일 기기를 이용하여 손쉽게 이용할 수 있는 웹 동영상 콘텐츠에 대한 수요가 급격히 증가하고 있다. 이와 같은 요구사항에 대응하기 위하여, 본 논문에서는 애니메이션이나 영화에 등장하는 명소를 방문하는 무대 탐방 경험을 제공할 수 있는 영상 콘텐츠를 보다 효율적으로 제작하기 위한 기법을 제안한다. 이를 위하여, Google Maps와 Google Street View API를 이용하여 무대탐방 지역에 해당하는 이미지를 수집하여 이미지 데이터셋을 구축하였다. 그 후, 딥러닝 기반의 style transfer 기술을 접목시켜 애니메이션의 독특한 화풍을 실사 이미지에 적용한 후 동영상화하기 위한 방법을 제시하였다. 마지막으로, 다양한 실험을 통해 제안하는 기법을 이용하여 보다 재미있고 흥미로운 형태의 무대탐방 영상 콘텐츠를 생성할 수 있음을 보였다.

순환 적대적 생성 신경망을 이용한 안면 교체를 위한 새로운 이미지 처리 기법 (A New Image Processing Scheme For Face Swapping Using CycleGAN)

  • 반태원
    • 한국정보통신학회논문지
    • /
    • 제26권9호
    • /
    • pp.1305-1311
    • /
    • 2022
  • 최근 모바일 단말기 및 개인형 컴퓨터의 비약적인 발전과 신경망 기술의 등장으로 영상을 활용한 실시간 안면 교체가 가능해졌다. 특히, 순환 적대적 생성 신경망은 상호 연관성이 없는 이미지 데이터를 활용한 안면 교체가 가능하게 만들었다. 본 논문에서는 적은 학습 데이터와 시간으로 안면 교체의 품질을 높일 수 있는 입력 데이터 처리 기법을 제안한다. 제안 방식은 사전에 학습된 신경망을 통해서 추출된 안면의 특이점 정보와 안면의 구조와 표정에 영향을 미치는 주요 이미지 정보를 결합함으로써 안면 표정과 구조를 보존하면서 이미지 품질을 향상시킬 수 있다. 인공지능 기반의 무참조 품질 메트릭 중의 하나인 blind/referenceless image spatial quality evaluator (BRISQUE) 점수를 활용하여 제안 방식의 성능을 정량적으로 분석하고 기존 방식과 비교한다. 성능 분석 결과에 따르면 제안 방식은 기존 방식 대비 약 4.6%~14.6% 개선된 BRISQUE 점수를 나타내었다.

The Methodology of the Golf Swing Similarity Measurement Using Deep Learning-Based 2D Pose Estimation

  • Jonghyuk, Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권1호
    • /
    • pp.39-47
    • /
    • 2023
  • 본 논문에서는 골프 동영상 속 스윙 자세 사이의 유사도를 측정할 수 있는 방법을 제안한다. 딥러닝 기반 인공지능 기술이 컴퓨터 비전 분야에 효과적인 것이 알려지면서 동영상을 기반으로 한 스포츠 데이터 분석에 인공지능을 활용하기 위한 시도가 증가하고 있다. 본 연구에서는 딥러닝 기반의 자세 추정 모델을 사용하여 골프 스윙 동영상 속 사람의 관절 좌표를 획득하였고, 이를 바탕으로 각 스윙 구간별 유사도를 측정하였다. 제안한 방법의 평가를 위해 GolfDB 데이터셋의 Driver 스윙 동영상을 활용하였다. 총 36명의 선수에 대해 스윙 동영상들을 두 개씩 짝지어 스윙 유사도를 측정한 결과, 본인의 또 다른 스윙이 가장 유사하다고 평가한 경우가 26명이었으며, 이때의 유사도 평균 순위는 약 5위로 확인되었다. 이로부터 비슷한 동작을 수행하고 있는 경우에도 면밀히 유사도를 측정하는 것이 가능함을 확인할 수 있었다.

Design of weighted federated learning framework based on local model validation

  • Kim, Jung-Jun;Kang, Jeon Seong;Chung, Hyun-Joon;Park, Byung-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.13-18
    • /
    • 2022
  • 본 논문에서는 학습에 참여하는 각 디바이스의 모델들로부터 성능검증에 따라 가중치를 두어 글로벌 모델을 업데이트하는 VW-FedAVG(Validation based Weighted FedAVG)를 두 가지 방식으로 제안 한다. 첫 번째 방식은 서버 검증(Server side Validation) 구조로 글로벌 모델을 업데이트 하기 전에 각 로컬 클라이언트 모델을 하나의 전체 검증 데이터셋을 통해 검증하도록 설계 했다. 두 번째는 클라이언트 검증(Client side Validation) 구조로 검증 데이터셋을 각 클라이언트에 고르게 분배하여 검증을 한 후 글로벌 모델을 업데이트 하는 방식으로 설계 했다. 전체 실험에 적용한 데이터셋은 MNIST, CIFAR-10으로 이미지 분류에 대해 IID, Non-IID 분포에서 기존 연구 대비 더 높은 정확도를 얻을 수 있었다.