• 제목/요약/키워드: 평가 데이터셋

검색결과 474건 처리시간 0.027초

국내 학술지 출현 학과정보 데이터셋 구축 및 자동분류 (Dataset construction and Automatic classification of Department information appearing in Domestic journals)

  • 김병규;류범종;심형섭
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.343-344
    • /
    • 2023
  • 과학기술 문헌을 활용한 계량정보분석에서 학과정보의 활용은 매유 유용하다. 본 논문에서는 한국과학기술인용색인데이터베이스에 등재된 국내 학술지 논문에 출현하는 대학기관 소속 저자의 학과정보를 추출하고 데이터 정제 및 학과유형 분류 처리를 통해 학과정보 데이터셋을 구축하였다. 학과정보 데이터셋을 학습데이터와 검증데이터로 이용하여 딥러닝 기반의 자동분류 모델을 구현하였으며, 모델 성능 평가 결과는 한글 학과정보 기준 98.6%와 영문 학과정보 기준 97.6%의 정확률로 측정되었다. 향후 과학기술 분야별 지적관계 분석 및 논문 주제분류 등에 학과정보 자동분류 처리기의 활용이 기대된다.

  • PDF

패션앱 후기글 평가분석에 기반한 의류 검색추천 챗봇 개발을 위한 학습데이터 EVAD 구축 (Construction of Evaluation-Annotated Datasets for EA-based Clothing Recommendation Chatbots)

  • 최수원;황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.467-472
    • /
    • 2021
  • 본 연구는 패션앱 후기글에 나타나는 구매자의 의견에 대한 '평가분석(Evaluation Analysis: EA)'을 수행하여, 이를 기반으로 상품의 검색 및 추천을 수행하는 의류 검색추천 챗봇을 개발하는 LICO 프로젝트의 언어데이터 구축의 일환으로 수행되었다. '평가분석 트리플(EAT)'과 '평가기반요청 쿼드러플(EARQ)'의 구성요소들에 대한 주석작업은, 도메인 특화된 단일형 핵심어휘와 다단어(MWE) 핵심패턴들을 FST 방식으로 구조화하는 DECO-LGG 언어자원에 기반하여 반자동 언어데이터 증강(SSP) 방식을 통해 진행되었다. 이 과정을 통해 20여만 건의 후기글 문서(230만 어절)로 구성된 EVAD 평가주석데이터셋이 생성되었다. 여성의류 도메인의 평가분석을 위한 '평가속성(ASPECT)' 성분으로 14가지 유형이 분류되었고, 각 '평가속성'에 연동된 '평가내용(VALUE)' 쌍으로 전체 35가지의 {ASPECT-VALUE} 카테고리가 분류되었다. 본 연구에서 구축된 EVAD 평가주석 데이터의 성능을 평가한 결과, F1-Score 0.91의 성능 평가를 획득하였으며, 이를 통해 향후 다른 도메인으로의 확장된 적용 가능성이 유효함을 확인하였다.

  • PDF

ChatGPT 를 이용한 독해 튜터링 대화 데이터 확장 (Data Augmentation of English Reading Comprehension Tutoring Dialogs using ChatGPT)

  • 권현유;최승권;황금하;권오욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.43-44
    • /
    • 2023
  • 대화형 독해 튜터링 시스템을 위한 학생주도 대화 데이터셋 생성 및 확장에 ChatGPT 의 활용 가능성을 평가하였다. 단순히 수동으로만 구축한 기존의 데이터셋과 ChatGPT 에 의해 반자동으로 확장된 데이터셋을 비교한 결과, 구축량, 소요 시간, 비용 및 반복 작업 측면에서 ChatGPT 가 가진 유용성을 알 수 있었다. 그러나, 유형별 배분의 편중과, 부적절한 데이터 생성 등의 한계도 나타났다. Chat GPT 의 빠른 발전이 예상됨에 따라 대화형 튜터링 분야에 ChatGPT 에 의한 반자동 데이터 확장 방법이 널리 활용될 것으로 기대된다.

딥러닝 기반 터널 콘크리트 라이닝 균열 탐지 (Deep learning based crack detection from tunnel cement concrete lining)

  • 배수현;함상우;이임평;이규필;김동규
    • 한국터널지하공간학회 논문집
    • /
    • 제24권6호
    • /
    • pp.583-598
    • /
    • 2022
  • 인력기반 터널 점검은 점검자의 주관적인 판단에 영향을 받으며 지속적인 이력관리가 어렵다. 따라서 최근에는 딥러닝 기반 자동 균열 탐지 연구가 활발히 진행되고 있다. 하지만 대부분의 연구에서는 사용하는 대규모 공개 균열 데이터셋은 터널 내부에서 발생하는 균열과 매우 상이하다. 또한 현행 터널 상태평가에서 정교한 균열 레이블을 구축하기 위해서는 추가적인 작업이 요구된다. 이에 본 연구는 균열 형상이 다소 단순하게 표현된 기존 데이터셋을 딥러닝 모델에 입력하여 균열 탐지 성능을 개선하는 방안을 제시한다. 기존 터널 데이터셋, 고품질 터널 데이터셋과 공개 균열 데이터셋을 조합하여 학습한 딥러닝 모델의 성능 평가와 비교를 수행한다. 그 결과 Cross Entropy 손실함수를 사용한 DeepLabv3+에 공개 데이터셋, 패치 단위 분류와 오버샘플링을 수행한 터널 데이터셋을 모두 학습한 경우 성능이 가장 좋았다. 향후 기 구축된 터널 영상 취득 시스템 데이터를 딥러닝 모델 학습에 효율적으로 활용하기 위한 방안을 수립하는 데 기여할 것으로 기대한다.

화재 탐지 인공지능 모델 성능 개선 연구 (Research on Improving Fire Detection Artificial Intelligence Model Performance)

  • 이정록;이대웅;정서현;정상
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2023년 정기학술대회 논문집
    • /
    • pp.202-203
    • /
    • 2023
  • 최근 화재 탐지 분야는 불꽃 연기의 특징과 인공지능 인식(Detection) 모델을 활용하여 탐지율을 높이려는 연구가 많이 진행되어 왔다. 기존 화재 탐지 정확도를 높이기 위한 모델 연구 이외에도 불꽃·연기의 특징을 다양한 방법으로 데이터 가공한 학습 데이터셋을 활용하는 연구들이 진행되고 있다. 본 논문에서는 화재 탐지시 불꽃/연기의 오탐지율이 높은 것을 확인하고 오탐지율을 낮추기 위해 화재 상황을 인식하여 분류하는 방법과 데이터셋을 제안한다. 제안한 모델은 동영상을 학습데이터로 활용하여 화재 상황의 특징을 추출하여 분류모델에 적용하였다. 평가는 한국정보화진흥원(NIA)에서 진행하는 화재 데이터셋을 이용하여 Yolov8, Slowfast의 모델 성능을 비교 및 분석하였다.

  • PDF

반자동 언어데이터 증강 방식에 기반한 FbSA 모델 학습을 위한 감성주석 데이터셋 FeSAD 구축 (Building Sentiment-Annotated Datasets for Training a FbSA model based on the SSP methodology)

  • 윤정우;황창회;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.66-71
    • /
    • 2021
  • 본 연구는 한국어 자질 기반 감성분석(Feature-based Sentiment Analysis: FbSA)을 위한 대규모의 학습데이터 구축에 있어 반자동 언어데이터 증강 기법(SSP: Semi-automatic Symbolic Propagation)에 입각한 자질-감성 주석 데이터셋 FeSAD(Feature-Sentiment-Annotated Dataset)의 개발 과정과 성능 평가를 소개하는 것을 목표로 한다. FeSAD는 언어자원을 활용한 SSP 1단계 주석 이후, 작업자의 주석이 2단계에서 이루어지는 2-STEP 주석 과정을 통해 구축된다. SSP 주석을 위한 언어자원에는 부분 문법 그래프(Local Grammar Graph: LGG) 스키마와 한국어 기계가독형 전자사전 DECO(Dictionnaire Electronique du COréen)가 활용되며, 본 연구에서는 7개의 도메인(코스메틱, IT제품, 패션/의류, 푸드/배달음식, 가구/인테리어, 핀테크앱, KPOP)에 대해, 오피니언 트리플이 주석된 FeSAD 데이터셋을 구축하는 프로세싱을 소개하였다. 코스메틱(COS)과 푸드/배달음식(FOO) 두 도메인에 대해, 언어자원을 활용한 1단계 SSP 주석 성능을 평가한 결과, 각각 F1-score 0.93과 0.90의 성능을 보였으며, 이를 통해 FbSA용 학습데이터 주석을 위한 작업자의 작업이 기존 작업의 10% 이하의 비중으로 감소함으로써, 학습데이터 구축을 위한 프로세싱의 소요시간과 품질이 획기적으로 개선될 수 있음을 확인하였다.

  • PDF

RFID 비즈니스 이벤트 데이터셋의 생성을 위한 시뮬레이션 기법 (A simulation technique to create dataset of RFID business events)

  • 류우석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.289-291
    • /
    • 2013
  • RFID는 비접촉식 물품 인식 기술로서, 무선 인식의 장점에 따라 물류, 의약품, 병원 등 다양한 응용 분야에서 활용 범위를 넓혀가고 있다. RFID의 도입은 하드웨어 장비, S/W, 인력 등 비교적 높은 도입 비용을 요구한다. 이에 따라 응용 환경의 타당성 평가 및 EPC정보서비스(EPCIS)등과 같은 핵심 RFID S/W의 성능 및 적합성 평가가 선행되어야 하며, 이를 위해서는 다양한 종류의 테스트 데이터 셋이 필수적으로 요구된다. 본 논문에서는 RFID 응용환경을 시뮬레이션하는 접근방법을 통해 보다 실제와 유사한 RFID 비즈니스 이벤트 데이터셋을 생성하기 위한 방법을 제안한다. 제안하는 방법은 페트리넷을 기반으로 하여 다양한 RFID 응용 환경을 네트워크 모델 형태로 추상화시키고 이에 기반하여 실제와 유사한 데이터셋을 생성하는 특징이 있다. 이를 통해 본 연구는 RFID 시스템의 평가는 물론 시뮬레이션을 통해 특정 응용 분야에서의 RFID 도입여부 검토에서도 유용하게 활용될 수 있다.

  • PDF

딥러닝을 이용한 소도체 영상의 등급 분석 및 단계별 평가 (Grade Analysis and Two-Stage Evaluation of Beef Carcass Image Using Deep Learning)

  • 김경남;김선종
    • 문화기술의 융합
    • /
    • 제8권2호
    • /
    • pp.385-391
    • /
    • 2022
  • 소도체의 품질평가는 축산업 분야의 중요한 문제이다. 최근 인공지능을 기반으로 한 AI 모니터 시스템을 통해 품질 관리사는 소도체 영상의 분석이나 결과 정보를 기반으로 정확한 판단에 도움을 받을 수 있다. 이러한 인공지능의 데이터셋은 성능을 판단하는 중요한 요소이다. 기존의 데이터셋은 표면의 방향이나 해상도가 달라질 수 있다. 본 논문에서는 딥러닝을 이용한 소도축 영상의 등급을 효율적으로 관리할 수 있는 단계별 분류 모델을 제안하였다. 그리고 기존의 세그멘테이션 추출된 영상의 데이터셋의 다양한 조건의 일관성을 위해 새로운 데이터셋 1,300장을 구성하였다. 새로운 데이셋을 이용한 5등급 분류에 대한 딥러닝의 인식률은 72.5%를 얻었다. 제안된 단계별 분류는 1++, 1+, 1등급과 2, 3등급의 차이가 크다는 것을 이용한 방안이다. 이로 인해 제안된 2단계 모델의 두 가지 방법에 따른 실험 결과, 73.7%, 77.2%의 인식률을 얻을 수 있었다. 이처럼 1단계 인식률을 100%를 갖는 데이터셋을 가진다면 더욱 효율적인 방법이 될 것이다.

유머 자동 처리를 위한 유머 데이터 평가 및 활용 (Evaluate and Use of humor data for humor processed automating)

  • 강조은;이재원;오채은;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.190-195
    • /
    • 2023
  • 의사소통 기술에서 유머는 사람을 웃게 만들며 분위기를 환기시키고, 관계를 돈독하게 만드는 효과를 지닌다. 이를 자연어처리에서 유머 분류, 인식, 탐지로 적용하여 유머를 기계에 학습시키려 하는 다양한 시도가 진행되고 있지만 유머의 주관성과 윤리적 문제로 탁월한 성능을 기록하기 어렵고, 특히 한국어 유머에 대한 자연어처리 분야의 논의는 미비한 상태이다. 이에 본 연구는 유머 평가 체계를 만들어 ChatGPT에 적용하여 유머 인식의 주관성을 극복할 수 있는 자동화 실험을 진행한다. 이때, 유머의 윤리적 문제를 보완하기 위해 한국 법률을 적용한 윤리 기준을 도입하여 유머 데이터셋을 마련하였으며, 데이터셋을 ChatGPT에 fine-tuning 하여 재미있는 생성 모델의 개발 가능성을 실험하였다.

  • PDF

대형 언어 모델의 한국어 Text-to-SQL 변환 능력 평가 (Evaluation of Large Language Models' Korean-Text to SQL Capability)

  • 최주영;민경구;심묘섭;정해민;박민준;최정규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.171-176
    • /
    • 2023
  • 최근 등장한 대규모 데이터로 사전학습된 자연어 생성 모델들은 대화 능력 및 코드 생성 태스크등에서 인상적인 성능을 보여주고 있어, 본 논문에서는 대형 언어 모델 (LLM)의 한국어 질문을 SQL 쿼리 (Text-to-SQL) 변환하는 성능을 평가하고자 한다. 먼저, 영어 Text-to-SQL 벤치마크 데이터셋을 활용하여 영어 질의문을 한국어 질의문으로 번역하여 한국어 Text-to-SQL 데이터셋으로 만들었다. 대형 생성형 모델 (GPT-3 davinci, GPT-3 turbo) 의 few-shot 세팅에서 성능 평가를 진행하며, fine-tuning 없이도 대형 언어 모델들의 경쟁력있는 한국어 Text-to-SQL 변환 성능을 확인한다. 또한, 에러 분석을 수행하여 한국어 문장을 데이터베이스 쿼리문으로 변환하는 과정에서 발생하는 다양한 문제와 프롬프트 기법을 활용한 가능한 해결책을 제시한다.

  • PDF