• 제목/요약/키워드: 분류-언어

검색결과 1,093건 처리시간 0.026초

KorBERT 기반 빈칸채우기 문제를 이용한 텍스트 분류 (Text Classification using Cloze Question based on KorBERT)

  • 허정;이형직;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.486-489
    • /
    • 2021
  • 본 논문에서는 KorBERT 한국어 언어모델에 기반하여 텍스트 분류문제를 빈칸채우기 문제로 변환하고 빈칸에 적합한 어휘를 예측하는 방식의 프롬프트기반 분류모델에 대해서 소개한다. [CLS] 토큰을 이용한 헤드기반 분류와 프롬프트기반 분류는 사전학습의 NSP모델과 MLM모델의 특성을 반영한 것으로, 텍스트의 의미/구조적 분석과 의미적 추론으로 구분되는 텍스트 분류 태스크에서의 성능을 비교 평가하였다. 의미/구조적 분석 실험을 위해 KLUE의 의미유사도와 토픽분류 데이터셋을 이용하였고, 의미적 추론 실험을 위해서 KLUE의 자연어추론 데이터셋을 이용하였다. 실험을 통해, MLM모델의 특성을 반영한 프롬프트기반 텍스트 분류에서는 의미유사도와 토픽분류 태스크에서 우수한 성능을 보였고, NSP모델의 특성을 반영한 헤드기반 텍스트 분류에서는 자연어추론 태스크에서 우수한 성능을 보였다.

  • PDF

ELECTRA 기반 순차적 문장 분류 모델 (Sequential Sentence Classification Model based on ELECTRA)

  • 최기현;김학수;양성영;정재홍;임태구;김종훈;박찬규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.327-330
    • /
    • 2020
  • 순차적 문장 분류는 여러 문장들을 입력으로 받아 각 문장들에 대하여 사전 정의된 라벨을 할당하는 작업을 말한다. 일반적인 문장 분류와 대조적으로 기준 문장과 주변 문장 사이의 문맥 정보가 분류에 큰 영향을 준다. 따라서 입력 문장들 사이의 문맥 정보를 반영하는 과정이 필수적이다. 최근, 사전 학습 기반 언어 모델의 등장 이후 여러 자연 언어 처리 작업에서 큰 성능 향상이 있었다. 앞서 언급하였던 순차적 문장 분류 작업의 특성상 문맥 정보를 반영한 언어 표현을 생성하는 사전 학습 기반 언어 모델은 해당 작업에 매우 적합하다는 가설을 바탕으로 ELECTRA 기반 순차적 분류 모델을 제안하였다. PUBMED-RCT 데이터 셋을 사용하여 실험한 결과 제안 모델이 93.3%p로 가장 높은 성능을 보였다.

  • PDF

코리안 디아스포라 문학 자료 분류현황 분석 및 제언 (Analysis and Suggestion of the Classification Status of Korean Diaspora Literature)

  • 여지숙
    • 한국도서관정보학회지
    • /
    • 제53권2호
    • /
    • pp.285-304
    • /
    • 2022
  • 이 연구는 코리안 디아스포라 문학이 가지는 이중언어 및 한국어 이외의 현지 언어로 발간된다는 특징에 주목하여 도서관의 자료분류에서 문학류의 언어에 의한 분류현황을 조사하였다. 이를 위하여 이 연구는 국내 대학 및 공공도서관이 소장하고 있는 디아스포라 문학 자료의 분류기호를 조사하였으며, 조사결과 국내 도서관들은 원작품의 언어에 분류하거나 또는 작가 중심으로 분류하고 있는 것으로 나타났다. 그러나 KDC의 문학류 분류규정에는 원작품의 언어에 대한 규정은 있지만, 작가에 대한 규정은 없는 것이 사실이다. 그러나 국내 도서관들은 동일한 작가의 작품을 언어에 따라 분산하는 것이 아니라 한 곳에서 이용할 수 있도록 하기 위하여 디아스포라 문학작품을 원작품의 언어가 아니라 작가에 따라 다르게 분류하고 있었다. 따라서 국내 도서관이 가지는 코리안 디아스포라 문학 작품의 분류의 혼란을 해결하기 위하여 이 연구에서는 KDC에 코리안 디아스포라 문학과 한국문학을 포괄하는 '한민족 문학'을 810에 분류할 수 있는 별법을 제안하였다. 그러나 이 별법은 코리안 디아스포라 문학에 대한 특별한 요구가 있는 도서관을 위한 시도적 제안이며, 이 별법의 적용을 위해서는 추가의 조사 및 연구가 반드시 필요할 것이다.

초거대 언어 모델로부터의 추론 데이터셋을 활용한 감정 분류 성능 향상 (Empowering Emotion Classification Performance Through Reasoning Dataset From Large-scale Language Model)

  • 박눈솔;이민호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.59-61
    • /
    • 2023
  • 본 논문에서는 감정 분류 성능 향상을 위한 초거대 언어모델로부터의 추론 데이터셋 활용 방안을 제안한다. 이 방안은 Google Research의 'Chain of Thought'에서 영감을 받아 이를 적용하였으며, 추론 데이터는 ChatGPT와 같은 초거대 언어 모델로 생성하였다. 본 논문의 목표는 머신러닝 모델이 추론 데이터를 이해하고 적용하는 능력을 활용하여, 감정 분류 작업의 성능을 향상시키는 것이다. 초거대 언어 모델(ChatGPT)로부터 추출한 추론 데이터셋을 활용하여 감정 분류 모델을 훈련하였으며, 이 모델은 감정 분류 작업에서 향상된 성능을 보였다. 이를 통해 추론 데이터셋이 감정 분류에 있어서 큰 가치를 가질 수 있음을 증명하였다. 또한, 이 연구는 기존에 감정 분류 작업에 사용되던 데이터셋만을 활용한 모델과 비교하였을 때, 추론 데이터를 활용한 모델이 더 높은 성능을 보였음을 증명한다. 이 연구를 통해, 적은 비용으로 초거대 언어모델로부터 생성된 추론 데이터셋의 활용 가능성을 보여주고, 감정 분류 작업 성능을 향상시키는 새로운 방법을 제시한다. 제시한 방안은 감정 분류뿐만 아니라 다른 자연어처리 분야에서도 활용될 수 있으며, 더욱 정교한 자연어 이해와 처리가 가능함을 시사한다.

  • PDF

요구사항 분류 언어를 통한 반 자동 품질 요구사항 분류

  • 박수용;민성기;최순황
    • 시스템엔지니어링워크숍
    • /
    • 통권1호
    • /
    • pp.127-133
    • /
    • 2003
  • 시나리오 형태의 요구사항 분류는 ATAM, SAAM, Software Quality Metric 과 같은 품질 요구사항 분석 및 평가 방법 등 많은 분야에 응용된다. 이들 기법들은 소프트웨어 시스템의 품질 요구사항을 분석, 평가하기에 앞서 초기 수집된 요구사항들을 분류하게 된다. 그러나 요구사항을 분류하는 일은 수작업을 통해 이루어지게 되고, 따라서 미 분류, 중복분류, 등의 결함을 가질 수 있다. 결함의 가능성을 요구사항의 수가 많은 대형 프로젝트 일수록 높아지게 된다. 따라서 본 논문에서는 요구사항 분류언어를 통한 품질 요구사항 자동 분류 기법을 제안한다. 제안된 기법은 분류언어와 유사도를 이용한 2 단계 분류기법을 이용하였다. 분류언어는 각 도메인별로 개발되어 비슷한 도메인일 경우 재사용될 수 있다. 이를 검증하기 위해, 본 논문에서는 15 여개의 프로젝트로부터 수집된 요구사항을 이용해 실험을 수행하고 그 결과를 분석, 평가 하였다.

  • PDF

사전 학습 언어 모델을 활용한 감정 말뭉치 구축 연구 (A Study on the Construction of an Emotion Corpus Using a Pre-trained Language Model )

  • 장연지 ;비립 ;강예지 ;강혜린 ;박서윤 ;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.238-244
    • /
    • 2022
  • 감정 분석은 텍스트에 표현된 인간의 감정을 인식하여 다양한 감정 유형으로 분류하는 것이다. 섬세한 인간의 감정을 보다 정확히 분류하기 위해서는 감정 유형의 분류가 무엇보다 중요하다. 본 연구에서는 사전 학습 언어 모델을 활용하여 우리말샘의 감정 어휘와 용례를 바탕으로 기쁨, 슬픔, 공포, 분노, 혐오, 놀람, 흥미, 지루함, 통증의 감정 유형으로 분류된 감정 말뭉치를 구축하였다. 감정 말뭉치를 구축한 후 성능 평가를 위해 대표적인 트랜스포머 기반 사전 학습 모델 중 RoBERTa, MultiDistilBert, MultiBert, KcBert, KcELECTRA. KoELECTRA를 활용하여 보다 넓은 범위에서 객관적으로 모델 간의 성능을 평가하고 각 감정 유형별 정확도를 바탕으로 감정 유형의 특성을 알아보았다. 그 결과 각 모델의 학습 구조가 다중 분류 말뭉치에 어떤 영향을 주는지 구체적으로 파악할 수 있었으며, ELECTRA가 상대적으로 우수한 성능을 보여주고 있음을 확인하였다. 또한 감정 유형별 성능을 비교를 통해 다양한 감정 유형 중 기쁨, 슬픔, 공포에 대한 성능이 우수하다는 것을 알 수 있었다.

  • PDF

한국어 대화문 화행 자동분류를 위한 언어학적 기반연구 (A Linguistic Study of Automatic Speech Act Classification for Korean Dialog)

  • 구영은;김지연;홍문표;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.17-22
    • /
    • 2017
  • 화행이란 의사소통 과정에서 발화자가 가지는 발화 의도를 말한다. 성공적인 의사소통을 위해서는 발화자의 화행을 정확하게 파악하는 것이 매우 중요하다. 본 논문에서는 한국어 대화체 문장의 화행 자동분류를 위해, 화행을 결정짓는 요인이 무엇인지 언어학적으로 분석하고자 하였다. 한국어 수업 대화를 분석하여 화행 분류 체계를 새롭게 자체 정립하였고, 언어학적 근거를 바탕으로 10개의 화행 분류 자질을 제안하였다. 또한 제안하는 화행 분류 자질을 검증하고자 웨카(Weka)를 이용하여 정확률 실험을 진행하였다.

  • PDF

KDC 제4판 언어 및 문학류 전개의 개선방안 (Suggestions for the Gasses Language and Literature of the 4th Edition of Korean Decimal Classification)

  • 오동근;배영활;여지숙
    • 한국문헌정보학회지
    • /
    • 제42권4호
    • /
    • pp.141-157
    • /
    • 2008
  • 이 연구에서는 KDC 제4판 언어류와 문학류의 분류항목들을 개선하기 위해, 언어류와 문학류의 본표 항목과 조기표 항목을 분석하여 개선을 위한 구체적인 방안을 제시하였다. 그 개선방안은 한국문학과 영미문학의 시대구분을 위한 새로운 분류항목의 설정, 불합리하게 설정된 언어정책 및 언어행정의 해당언어의 역사 아래로의 이치, 각국 언어 및 문학의 부적합한 명칭표기의 조정, 표준구분의 적용과 의미파악에 어려움이 있는 주기에 대한 추가주기의 설정 및 보완, 2개국어사전의 분류규정의 변경, 한국 현대소설의 주제세분을 비롯해 영국문학과 미국문학의 구분을 위한 선택조항의 적용, 그리고 기타 아시아 제어 아래의 드라비다어와 기타 제어 아래의 켈트어, 셈어족, 함어족 하위 분류항목 등 세분전개가 불필요한 항목의 주기화 등으로 요약할 수 있다.

대규모 언어 모델을 활용한 새로운 의도 발견 방법과 액티브 러닝 전략 (Novel Intent Discovery Utilizing Large Language Models and Active Learning Strategies)

  • 천창우;임송요
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.425-431
    • /
    • 2023
  • 음성 어시스턴트 시스템에서 발화의 의도를 분류하고 새로운 의도를 탐지하는 것은 매우 중요한 작업이다. 끊임없이 인입되는 새로운 발화로 인해 기존에 학습된 모델의 의도 분류 성능은 시간이 지남에 따라 점차 낮아진다. 기존 연구들에서 새로운 의도 발견을 위해 제안되었던 클러스터링 방법은 최적의 클러스터 수 결정과 명명에 어려움이 있다. 이러한 제한 사항을 보완하기 위해, 본 연구에서는 대규모 언어 모델 기반의 효과적인 의도 발견 방법을 제안한다. 이 방법은 기존 의도 분류기로 판단하기 어려운 발화에 새로운 의도 레이블을 할당하는 방법이다. 새롭게 인입되는 OOD(Out-of-Domain) 발화 내에서 오분류를 찾아 기존에 정의된 의도를 탐지하고, 새로운 의도를 발견하는 효율적인 프롬프팅 방법도 분석한다. 이를 액티브 러닝 전략과 결합할 경우, 분류 가능한 의도의 개수를 지속 증가시면서도 모델의 성능 하락을 방지할 수 있고, 동시에 새로운 의도 발견을 자동화 할 수 있다.

  • PDF

양국어 어휘분류망의 자동 구축 (Automatic Construction of Lexical Classification Net for Two Languages)

  • 황금하;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.389-396
    • /
    • 1999
  • 본 연구에서는 이미 만들어진 양국어 단일 언어 어휘 분류체계를 이용하여 양국어 어휘 분류등급 간의 개념유사도에 의한 양국어 분류체계간의 연관 관계를 구축하고자 한다. 중국어 유의어사전과 한국어 분류어휘표를 이용하여 양국어 어휘 분류체계에서의 분류등급 간의 개념유사성 및 양국어간의 어휘 유사성에 의하여 어휘분류망을 자동 구축한다. 자동 구축된 어휘분류망을 통하여 한국어 분류어휘표의 어휘 구성 및 분류체계에 대한 분석 평가를 진행할 것이며 나아가 한국어 분류어휘표에 대한 어휘 및 분류체계에 대한 보완을 시도하고자 한다. 본 연구는 한국어 자체 어휘 분류체계의 구축 방법론의 연구에도 어느 정도 도움될 것으로 기대한다.

  • PDF