• 제목/요약/키워드: 인공지능 데이터셋

검색결과 294건 처리시간 0.025초

다양한 외벽에 강인한 균열 구획화 모델 개발 (Development of Robust Semantic Segmentation Modeling on Various Wall Cracks)

  • 이수민;김경영;김동주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.49-52
    • /
    • 2022
  • 건물 외벽에 발생하는 균열은 시설물 구조 안전에 영향을 미치며 그 크기에 따라 위험도가 달라진다. 이에 따라 전문검사관의 현장 점검을 통해 발생 균열 두께를 정밀하게 측정할 필요가 있고 최근에는 이러한 현장 안전점검에 인공지능을 도입하려는 추세다. 그러나 기존의 균열 데이터셋은 주로 콘크리트에만 한정되어 다양한 외벽에 강인한 모델을 구축하기 어렵고 균열 두께를 측정하기 위해 정확한 마스크(Mask) 정보가 필요하나 이를 만족하는 데이터셋이 부재하다. 본 논문에서는 다양한 외벽에 강인한 균열 구획화 모델을 목적으로 2,744장의 이미지를 촬영하고 매직 완드 기법으로 라벨링을 진행해 데이터셋을 구축 후, 이를 바탕으로 딥러닝 기반 균열 구획화 모델을 개발했다. UNet-ResNet50을 최종모델로 선정 및 개발 결과, 테스트 데이터셋에 대해 81.22%의 class IoU 성능을 보였다. 본 연구의 기술을 바탕으로 균열 두께를 측정하여 건축물 안전점검에 활용될 수 있기를 기대한다.

  • PDF

다양한 외벽 균열에 강인한 딥러닝 검출 모델 개발 (Robust Detection Deep Learning Model in the Various Exterior Wall Cracks)

  • 김경영;이호령;김동주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.53-56
    • /
    • 2021
  • 국내 산업화가 들어선 후 산업화 당시 지었던 낙후된 건물의 증가에 따라 구조물의 손상 조사 및 검사 방법의 수요가 늘어나고 있다. 일반적으로 구조물의 손상은 전문 검사원이 현장에서 직접 측량도구와 시각적인 방식으로 검사한다. 그러나 전문 검사원들이 직접 조사하는 수고에 비해 균열을 검사하는 방식 자체가 단순하고, 일반 사람이 검사하기에는 객관성이 떨어지는 한계가 있어 균열을 자동적으로 검출함으로써 객관성과 편의성을 보장할 기술이 필요하다. 본 연구에서는 이미지 기반으로 다양한 환경에서의 외벽 균열을 검출할 수 있는 딥러닝 모델 개발을 소개한다. 균열 검출을 위해 다양한 외벽 균열 관련 데이터셋을 확보 및 구축하고 각 데이터셋의 검출 정보를 보완할 반자동(semi-auto) 라벨링 작업을 수행하였다. 두 번째로 기존 높은 검출 성능을 보였던 모델들을 선정 및 비교하여 YOLO v5 모델을 최종적으로 선정하였고, 도메인이 각각 다른 데이터셋에 대한 교차 학습을 통해 각 데이터셋의 mAP의 편차가 31%에서 11%로 좁히는 작업을 수행하였다. 이를 통해 실제 상황에서의 균열 영상에서 균열을 검출할 수 있는 측량 시스템을 개발함으로써 실질적인 검사의 도구로 활용될 수 있길 기대한다.

  • PDF

한국어 문법 오류 교정 모델을 위한 문장 단위 디노이징 학습법 (Sentence Unit De-noising Training Method for Korean Grammar Error Correction Model)

  • 김훈래;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.507-511
    • /
    • 2022
  • 문법 교정 모델은 입력된 텍스트에 존재하는 문법 오류를 탐지하여 이를 문법적으로 옳게 고치는 작업을 수행하며, 학습자에게 더 나은 학습 경험을 제공하기 위해 높은 정확도와 재현율을 필요로 한다. 이를 위해 최근 연구에서는 문단 단위 사전 학습을 완료한 모델을 맞춤법 교정 데이터셋으로 미세 조정하여 사용한다. 하지만 본 연구에서는 기존 사전 학습 방법이 문법 교정에 적합하지 않다고 판단하여 문단 단위 데이터셋을 문장 단위로 나눈 뒤 각 문장에 G2P 노이즈와 편집거리 기반 노이즈를 추가한 데이터셋을 제작하였다. 그리고 문단 단위 사전 학습한 모델에 해당 데이터셋으로 문장 단위 디노이징 사전 학습을 추가했고, 그 결과 성능이 향상되었다. 노이즈 없이 문장 단위로 분할된 데이터셋을 사용하여 디노이징 사전 학습한 모델을 통해 문장 단위 분할의 효과를 검증하고자 했고, 디노이징 사전 학습하지 않은 기존 모델보다 성능이 향상되는 것을 확인하였다. 또한 둘 중 하나의 노이즈만을 사용하여 디노이징 사전 학습한 두 모델의 성능이 큰 차이를 보이지 않는 것을 통해 인공적인 무작위 편집거리 노이즈만을 사용한 모델이 언어학적 지식이 필요한 G2P 노이즈만을 사용한 모델에 필적하는 성능을 보일 수 있다는 것을 확인할 수 있었다.

  • PDF

CodeBERT 모델의 전이 학습 기반 코드 공통 취약점 탐색 (Detecting Common Weakness Enumeration(CWE) Based on the Transfer Learning of CodeBERT Model)

  • 박찬솔;문소영;김영철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권10호
    • /
    • pp.431-436
    • /
    • 2023
  • 소프트웨어 공학 영역에 인공지능의 접목은 큰 화두 중 하나이다. 전 세계적으로 1) 인공지능을 통한 소프트웨어 공학, 2) 소프트웨어 공학을 통한 인공지능 두 가지 방향으로 활발히 연구되고 있다. 그 중 소프트웨어 공학에 인공지능을 접목하여 나쁜 코드 영역을 식별하고 해당 부분을 리팩토링하는 연구가 진행되고 있다. 해당 연구에서 인공지능이 나쁜 코드 요소의 패턴을 잘 학습하기 위해서는 학습하려는 나쁜 코드 요소가 라벨링 된 데이터셋이 필요하다. 문제는 데이터셋이 부족할뿐더러, 자체적으로 수집한 데이터셋의 정확도는 신뢰할 수 없다. 이를 해결하기 위해 코드 데이터 수집 시 전체 코드가 아닌 높은 복잡도를 가진 코드 모듈 영역을 대상으로만 나쁜 코드 데이터를 수집한다. 이후 수집한 데이터셋을 CodeBERT 모델의 전이 학습하여 코드 공통 취약점을 탐색하는 방법을 제안한다. 해당 데이터셋을 통해 CodeBERT 모델이 코드의 공통 취약점 패턴을 더 잘 학습할 수 있다. 이를 통해 전통적인 방법보다 인공지능 모델을 이용해 코드를 분석하고 공통 취약점 패턴을 더 정확하게 식별할 수 있을 것으로 기대한다.

A Virtual Battlefield Situation Dataset Generation for Battlefield Analysis based on Artificial Intelligence

  • Cho, Eunji;Jin, Soyeon;Shin, Yukyung;Lee, Woosin
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권6호
    • /
    • pp.33-42
    • /
    • 2022
  • 기존의 지능형 지휘통제체계 연구에서는 지휘관의 전장 상황 질문에 대한 분석 결과를 지식베이스 기반 상황 데이터에서 정보를 추출하여 제공해주고 있다. 하지만, 다양한 표현의 자연어가 사용된 정·첩보를 문맥에 맞게 분석하는 것이 상황 분석에 있어 중요해지면서 인공지능을 사용한 전장 상황 분석 연구가 진행되고 있다. 본 논문에서는 전장 상황 분석용 인공지능 개발에 필요한 데이터 셋을 제공하기 위해 전장 상황 모의 시나리오 기반 가설 데이터 셋 생성 방법을 제안한다. 가설 데이터 셋은 실제 전장 환경이 고려된 모의 시나리오에서 전장 지식요소를 식별하여 생성한다. 먼저 후보가설을 생성하면 자동으로 단위가설이 생성된다. 단위가설을 조합하여 유사 식별 가설 조합을 만들고, 연관된 후보가설을 그룹화하여 집합가설을 생성한다. 제안하는 방법으로 데이터 셋을 생성할 수 있음을 확인하기 위해 생성기 SW를 구현하였고, 생성기 SW로 가설 데이터 셋을 생성할 수 있음을 확인하였다.

대화질의 기반 패션 추천시스템을 위한 데이터 전처리 방법에 관한 연구 (A study on data preprocessing method for conversational query-based fashion recommendation system)

  • 최철웅;염성웅;김경백
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.815-818
    • /
    • 2021
  • 현재 대부분의 패션 추천시스템은 프로필 또는 설문조사를 통해 수집 된 사용자의 정적 정보를 활용하고 있다. 사용자의 정적 정보는 매우 한정적이며 이를 활용하여 다양한 환경에 적합한 패션 코디셋을 추천하기란 매우 어렵다. AI코디네이터와 사용자간의 지속적인 대화가 담긴 대화질의 데이터셋을 사용하면 사용자의 상황과 환경을 고려하여 개인에게 최적화 된 패션 코디셋을 추천할 수 있다. 본 논문에서는 한국전자통신연구원(ETRI)에서 제공하는 AI 패션 코디네이터와 사용자의 대화 정보가 담긴 FASCODE 데이터셋을 사용하여 사용자의 발화에 따라 의상을 추천하는 인공지능 모델을 위한 대화질의 데이터 전처리 방법을 제안한다.

OP Code 특징 기반의 텍스트와 이미지 데이터셋 연구를 통한 인공지능 백신 개발 (Development of Vaccine with Artificial Intelligence: By Analyzing OP Code Features Based on Text and Image Dataset)

  • 최효경;이세은;이주현;홍래영;최원혁;김형종
    • 정보보호학회논문지
    • /
    • 제29권5호
    • /
    • pp.1019-1026
    • /
    • 2019
  • 지속적으로 새롭게 등장하는 악성 파일(malware)탐지의 어려움으로 인해 머신러닝 기반 인공지능 백신 개발의 중요성이 크게 대두되고 있다. 하지만 현존하는 인공지능 백신은 파일의 일부 영역만을 검사하기 때문에 탐지율이 떨어진다는 단점이 존재한다. 이에 본 논문에서는 독자적인 로직을 기반으로 개발한 인공지능 백신에 근거하여, 파일 내 전체 데이터를 검사하는 방법을 제안한다. 그 중 정상 파일과 비교했을 때 악성 파일에만 존재하는 unique한 함수에서 추출한 OP Code 특징을 학습 데이터셋으로 한 진단법 강화 방안을 제시한다. 해당 강화법의 성능을 Random Forest 알고리즘을 기반으로 한 CSV 데이터셋 학습과 Inception V3 모델을 기반으로 한 이미지 데이터셋 학습으로 나누어 테스트해본 결과, 약 80%의 탐지율을 도출하는 것을 확인할 수 있었다.

대조학습을 활용한 새로운 의도 카테고리 발견 (Novel Intent Category Discovery using Contrastive Learning)

  • 서승연;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-112
    • /
    • 2023
  • 라벨 데이터 수집의 어려움에 따라 라벨이 없는 데이터로 학습하는 준지도학습, 비지도학습에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 그의 일환으로 Novel Intent Category Discovery(NICD) 문제를 제안하고 NICD 연구의 베이스라인이 될 모델을 소개한다. NICD 문제는 라벨이 있는 데이터와 라벨이 없는 데이터의 클래스 셋이 겹치지 않는다는 점에서 기존 준지도학습의 문제들과 차이가 있다. 제안 모델은 RoBERTa를 기반으로 두 개의 분류기를 추가하여 구성되며 라벨이 있는 데이터셋과 라벨이 없는 데이터셋에서 각각 다른 분류기를 사용하여 라벨을 예측한다. 학습방법은 2단계로 먼저 라벨이 있는 데이터셋으로 요인표현을 학습한다. 두 번째 단계에서는 교차 엔트로피, 이항교차 엔트로피, 평균제곱오차, 지도 대조 손실함수를 NICD 문제에 맞게 변형하여 학습에 사용한다. 논문에서 제안된 모델은 라벨이 없는 데이터셋에 대해 이미지 최고성능 모델보다 24.74 더 높은 정확도를 기록했다.

  • PDF

화재 탐지 인공지능 모델 성능 개선 연구 (Research on Improving Fire Detection Artificial Intelligence Model Performance)

  • 이정록;이대웅;정서현;정상
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2023년 정기학술대회 논문집
    • /
    • pp.202-203
    • /
    • 2023
  • 최근 화재 탐지 분야는 불꽃 연기의 특징과 인공지능 인식(Detection) 모델을 활용하여 탐지율을 높이려는 연구가 많이 진행되어 왔다. 기존 화재 탐지 정확도를 높이기 위한 모델 연구 이외에도 불꽃·연기의 특징을 다양한 방법으로 데이터 가공한 학습 데이터셋을 활용하는 연구들이 진행되고 있다. 본 논문에서는 화재 탐지시 불꽃/연기의 오탐지율이 높은 것을 확인하고 오탐지율을 낮추기 위해 화재 상황을 인식하여 분류하는 방법과 데이터셋을 제안한다. 제안한 모델은 동영상을 학습데이터로 활용하여 화재 상황의 특징을 추출하여 분류모델에 적용하였다. 평가는 한국정보화진흥원(NIA)에서 진행하는 화재 데이터셋을 이용하여 Yolov8, Slowfast의 모델 성능을 비교 및 분석하였다.

  • PDF

TypeIII 수소저장용기 가동 중 안전 검사를 위한 음향방출시험 기반 딥러닝 CFRP 소재 결함 분류 (Deep Learning CFRP Failure Classification based on Acoustic Emission Testing for Safety Inspection during TypeIII Hydrogen Vessel Operation)

  • 김다현;황병일;김경영;김동주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.7-10
    • /
    • 2023
  • 최근 기후 변화가 심각해짐에 따라 수소 에너지에 대한 관심이 집중되고 있으며 이를 안전하게 운송/보관할 수 있는 용기에 대한 연구도 활발히 진행되고 있다. 특히 고압 가스를 저장하는 TypeIII 용기의 노후화 및 안전과 관련되어 결함을 인지하는 연구가 활발하다. 그러나 이 용기의 외각층을 이루는 CFRP 소재는 탄소 섬유와 에폭시가 복잡한 구조로 구성되어 결함별 탐지가 매우 어렵다. 본 논문에서는 음향방출시험과 딥러닝을 활용하여 CFRP 결함 데이터셋을 구축하고 이를 분류할 수 있는 모델을 제안한다. 특히 CFRP 시편을 직접 제작하여 AE 센서를 부착하고 파괴하여 파형 데이터를 수집하였다. 이후 표현 학습을 통해 데이터의 특징을 압축/추출하고 유사도를 비교해 결함별 데이터를 판별하는 알고리즘을 개발하였다. 구축된 데이터셋의 실루엣 계수는 0.86으로 높은 군집도를 보였다. 마지막으로 구축된 데이터셋을 실시간으로 분류할 수 있는 1D-CNN 딥러닝 모델을 개발하였으며 99.33%의 높은 분류 정확도를 보였다.

  • PDF