• 제목/요약/키워드: AI 데이터셋

검색결과 215건 처리시간 0.027초

Park's Vector Approach를 이용한 BLDC모터진단 방법과 새로운 데이터 셋 특징 추출 연구 (A Study on Diagnosis of BLDC motor and New data-set Feature Extraction using Park's Vector Approach)

  • 고영진;김지선;이범;김경민
    • 전기전자학회논문지
    • /
    • 제26권1호
    • /
    • pp.104-110
    • /
    • 2022
  • 본 논문에서는 UAV의 BLDC 모터 진단방법과 AI진단을 위한 새로운 데이터 셋을 제안하였다. BLDC모터 진단에 있어서 PVA(Park's Vector Approach)는 주파수 성분의 많은 리플로 인해 적용이 어려움이 따르나, 리플의 성분이 3조파를 띄고 있음에 따라 3조파에 뛰어난 SG(Savitzky-Golay)필터를 적용하여 Circle fitting으로 PVA를 활용하는 방법을 제안하였다. 한편, 3상에서 2상으로 변환시키는 기법인 PVA는 변환과정 중 항상 원점을 기준으로 두게 된다. 이에 Circle fitting의 적용과정에서 원점과 측정된 중심점의 오차를 측정하여 고장진단이 가능하도록 하였다. 또한, 이때 측정된 오차의 offset 데이터 기반으로 AI기술의 새로운 데이터 셋으로 활용 가능함을 실험을 통해 입증하였다.

머신러닝을 이용한 과학기술 문헌에서의 지역명 식별과 분류방법에 대한 성능 평가 (Performance Assessment of Machine Learning and Deep Learning in Regional Name Identification and Classification in Scientific Documents)

  • 이정우;권오진
    • 한국전자통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.389-396
    • /
    • 2024
  • 생성형 AI는 최근 모든 분야에서 활용되고 있으며, 심층 데이터 분석 분야에서도 전문가를 대체할 수준으로 발전하고 있다. 그러나 과학기술 문헌에서의 지역명 식별은 학습 데이터의 부족과 이에 따른 인공지능 모델을 적용한 사례가 전무한 실정이다. 본 연구는 Web of Science에서 한국 기관 소속 저자들의 주소 데이터를 활용해 지역명을 분류하기 위한 데이터셋을 구축하고, 머신러닝 및 딥러닝 모델의 적용을 실험 및 평가했다. 실험 결과 BERT 모델이 가장 우수한 성능을 보였으며, 광역 분류에서는 정밀도 98.41%, 재현율 98.2%, F1 점수 98.31%를 기록하였다. 시군구 분류에서는 정밀도 91.79%, 재현율 88.32%, F1 점수 89.54%를 달성하였다. 이 결과는 향후 지역 R&D 현황, 지역 간 연구자 이동성, 지역 공동 연구 등 다양한 연구의 기반 데이터로 활용이 가능하다.

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

AI 를 활용한 분리수거 자동화 시스템 구축: TFLite 경량화 모델의 성능 및 적용 (Building an Automated Waste Separation System using AI: Performance and Application of TFLite Lightweight Model)

  • 한규현 ;전세환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.900-901
    • /
    • 2023
  • 본 연구는 TFLite 기반의 경량화 AI 모델을 활용하여 쓰레기의 자동 분리수거 시스템을 구축하는 방법을 제안한다. 제안된 시스템은 객체 인식 기술을 활용해 쓰레기를 정확하게 분류하며, 테스트 결과 평균 90.33%의 mAP 성능을 나타낸다. Label 수와 데이터셋의 한계가 존재하지만, 본 연구를 확장하고 개선함으로써 자동 분리수거의 효율성을 더욱 높일 수 있을 것으로 기대된다.

생성형 언어모델을 이용한 테이블 질의응답 평가 (Evaluating Table QA with Generative Language Models)

  • 민경구;최주영;심묘섭;정해민;박민준;최정규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-79
    • /
    • 2023
  • 문서에서 테이블은 중요한 정보들을 축약하여 모아 놓은 정보 집합체라고 할 수 있다. 이러한 테이블을 대상으로 질의응답하는 테이블 질의응답 기술이 연구되고 있으며, 이 중 언어모델을 이용한 연구가 좋은 결과를 보이고 있다. 본 연구에서는 최근 주목받고 있는 생성형 언어모델 기술을 테이블 질의응답에 적용하여 언어모델과 프롬프트의 변경에 따른 결과를 살펴보고, 단답형 정답과 생성형 결과의 특성에 적합한 평가방법으로 측정해 보았다. 자체 개발한 EXAONE 1.7B 모델의 경우 KorWiki 데이터셋에 대해 적용하여 EM 92.49, F1 94.81의 결과를 얻었으며, 이를 통해 작은 크기의 모델을 파인튜닝하여 GPT-4와 같은 초거대 모델보다 좋은 성능을 보일 수 있음을 확인하였다.

  • PDF

의미론적 분할 기반 모델을 이용한 조선소 사외 적치장 객체 자동 관리 기술 (Segmentation Foundation Model-based Automated Yard Management Algorithm)

  • 정민규;노정현;김장현;하성헌;강태선;이병학;강기룡;김준현;박진선
    • 스마트미디어저널
    • /
    • 제13권2호
    • /
    • pp.52-61
    • /
    • 2024
  • 조선소에서는 사외 적치장의 관리를 위해 일정 주기로 Unmanned Aerial Vehicle (UAV)을 이용해 항공영상을 획득하고, 이를 사람이 판독하여 적치장 현황을 파악한다. 이러한 방법은 넓은 면적의 사외 적치장 현황을 파악하는 데 상당한 시간과 인력을 요구한다. 본 논문에서는 이러한 문제점을 해결하고 정확한 사외 적치장 현황을 파악하기 위해 사전 학습된 의미론적 분할 기반 모델(Foundation Model)을 활용한 자동 관리 기술을 제안한다. 또한, 조선소 사외 적치장의 경우 관련 부품이나 장비를 포함한 공개 데이터셋이 충분하지 않기 때문에, 의미론적 분할 기반 모델에 필요한 객체 프롬프트(Prompt)를 생성하기 위한 소규모 사외 적치장 객체 데이터셋을 직접 구축하였다. 이를 이용해 객체 검출기를 소규모 데이터셋에 추가 학습하여 초기 객체 후보를 추출하고, 의미론적 분할 기반 모델인 Segment Anything Model (SAM)의 프롬프트로 활용해 정확한 의미론적 분할 결과를 얻는다. 더 나아가, 지속적인 적치장 데이터셋 수집을 위해 SAM을 활용한 훈련 데이터 생성 파이프라인을 제안한다. 본 연구에서 제안한 방법은 기존의 의미론적 분할 방법과 비교하여 평균적 4.00%p, SegFormer에 비해 5.08%p 높은 성능을 달성하였다.

노후 건축물 안전진단을 위한 AI기반 균열 구획화 알고리즘 (Artificial Intelligence-based Crack Segmentation Algorithm for Safety diagnosis of old buildings)

  • 서희주;황병일;김동주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.13-14
    • /
    • 2023
  • 집중 안전 점검의 대상인 노후 건축물에서 균열은 건물의 안전도를 점검할 수 있는 지표이다. 안전 점검에 드론을 활용하면서 고해상도의 드론 기반 균열 이미지 수집이 가능해졌고, 육안이 아닌 AI기반으로 균열을 탐지, 구획화할 수 있다. 본 연구에서는 주변 사물과 배경에 구애받지 않고 안전 점검이 가능한 구획화 알고리즘을 제안한다. METU와 POC데이터셋을 가공하여 데이터셋을 구축하고, 이를 바탕으로 ResNet50을 통해 균열과 유사한 배경을 분류하였으며, 균열 구획화 모델을 선정하여 DesneNet201-UNet++으로 mIoU 82.27%를 달성하였다. 본 연구는 노후 건축물 안전 점검에 필요한 균열 폭 추정에 도움이 될 것으로 기대된다.

  • PDF

인공지능 학습용 토공 건설장비 영상 데이터셋 구축 및 타당성 검토 (Building-up and Feasibility Study of Image Dataset of Field Construction Equipments for AI Training)

  • 나종호;신휴성;이재강;윤일동
    • 대한토목학회논문집
    • /
    • 제43권1호
    • /
    • pp.99-107
    • /
    • 2023
  • 최근 건설 현장의 안전사고 비율은 전체 산업에서 가장 높은 비중을 차지한다. 인공지능 기술을 건설 현장에 접목하기 위해서는 기초 학습 자료로 활용될 수 있는 데이터셋 확보가 필수적이다. 본 논문에서는 실제 현장 확보를 통해 원천 데이터를 수집하였으며, 토목 현장에서 주로 운용되고 있는 주요 건설장비 객체를 선정하고 약 9만장의 정지영상 데이터셋 가공을 통해 최적의 학습 데이터셋 구축을 완료하였다. 또한, 객체 인식분야의 대표적인 모델인 YOLO를 활용하여 구축된 데이터의 검증 작업을 수행하였고 90 % 근접한 검출 성능을 확인해 데이터 신뢰성을 확보하였다. 본 연구에서 사용되는 학습 데이터셋은 공공데이터포털에서 활용 가능하도록 공개를 완료하였다. 본 데이터셋은 향후 건설안전 분야의 객체 인식 기술의 건설현장 적용을 위한 기반 데이터로 활용 가능하리라 판단된다.

정답 레이블을 고려한 마스킹 언어모델 기반 한국어 데이터 증강 방법론 (Masked language modeling-based Korean Data Augmentation Techniques Using Label Correction)

  • 강명훈;이정섭;이승준;문현석;박찬준;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.485-490
    • /
    • 2022
  • 데이터 증강기법은 추가적인 데이터 구축 혹은 수집 행위 없이 원본 데이터셋의 양과 다양성을 증가시키는 방법이다. 데이터 증강기법은 규칙 기반부터 모델 기반 방법으로 발전하였으며, 최근에는 Masked Language Modeling (MLM)을 응용한 모델 기반 데이터 증강 연구가 활발히 진행되고 있다. 그러나 기존의 MLM 기반 데이터 증강 방법은 임의 대체 방식을 사용하여 문장 내 의미 변화 가능성이 큰 주요 토큰을 고려하지 않았으며 증강에 따른 레이블 교정방법이 제시되지 않았다는 한계점이 존재한다. 이러한 문제를 완화하기 위하여, 본 논문은 레이블을 고려할 수 있는 Re-labeling module이 추가된 MLM 기반 한국어 데이터 증강 방법론을 제안한다. 제안하는 방법론을 KLUE-STS 및 KLUE-NLI 평가셋을 활용하여 검증한 결과, 기존 MLM 방법론 대비 약 89% 적은 데이터 양으로도 baseline 성능을 1.22% 향상시킬 수 있었다. 또한 Gate Function 적용 여부 실험으로 제안 방법 Re-labeling module의 구조적 타당성을 검증하였다.

  • PDF

인스턴스 세그멘테이션 기반 토마토 병충해 탐지 모델 구현 및 적용성 평가 (Instance Segmentation Based Tomato Pests Disease Detection for Feasibility Evaluation)

  • 김은경;박준용;문용혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.417-419
    • /
    • 2022
  • 농축업에 ICT 기술을 접목한 스마트 팜은 생육환경을 자동으로 조절하여 노동력 등을 줄이고도 생산성과 품질을 향상시키는 것이 큰 장점이다. 하지만, 수익으로 이어지는 출하량과 품질 유지를 위해서 병충해에 주의를 기울여야 함은 여전하다. 따라서 토마토 잎 병충해 발생 시, 적절한 대응을 통해 더 큰 피해를 막을 수 있으므로, 초기 증상을 포착하는 기법을 개발한다. 오픈 데이터 셋인 Ai hub 의 시설작물 질병 데이터셋과 추가로 확보한 샘플을 포함해 2 개의 충해, 4 개의 병해에 1,231 장으로 데이터셋을 직접 구성해서 학습했다. 객체 탐지와 세그먼테이션이 동시에 가능하며 작은 병변도 잘 탐지하는 모델을 사용해서 총 6 가지 병충해에 대한 뚜렷한 증상 탐지를 보여주었다.