• Title/Summary/Keyword: KoBERT

Search Result 72, Processing Time 0.025 seconds

Comparison of Automatic Score Range Prediction of Korean Essays Using KoBERT, Naive Bayes & Logistic Regression (KoBERT, 나이브 베이즈, 로지스틱 회귀의 한국어 쓰기 답안지 점수 구간 예측 성능 비교)

  • Cho, Heeryon;Im, Hyeonyeol;Cha, Junwoo;Yi, Yumi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.501-504
    • /
    • 2021
  • 한국어 심층학습 언어모델인 KoBERT와, 확률적 기계학습 분류기인 나이브 베이즈와 로지스틱 회귀를 이용하여 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 실험을 진행하였다. 네가지 주제('직업', '행복', '경제', '성공')를 다룬 답안지와 점수 레이블(A, B, C, D)로 쌍을 이룬 학습데이터 총 304건으로 다양한 자동분류 모델을 구축하여 7-겹 교차검증을 시행한 결과 KoBERT가 나이브 베이즈나 로지스틱 회귀보다 약간 우세한 성능을 보였다.

Sentiment Analysis System by Using BERT Language Model (BERT 언어 모델을 이용한 감정 분석 시스템)

  • Kim, Taek-Hyun;Cho, Dan-Bi;Lee, Hyun-Young;Won, Hye-Jin;Kang, Seung-Shik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.975-977
    • /
    • 2020
  • 감정 분석은 문서의 주관적인 감정, 의견, 기분을 파악하기 위한 방법으로 소셜 미디어, 온라인 리뷰 등 다양한 분야에서 활용된다. 문서 내 텍스트가 나타내는 단어와 문맥을 기반으로 감정 수치를 계산하여 긍정 또는 부정 감정을 결정한다. 2015년에 구축된 네이버 영화평 데이터 20 만개에 12 만개를 추가 구축하여 감정 분석 연구를 진행하였으며 언어 모델로는 최근 자연어처리 분야에서 높은 성능을 보여주는 BERT 모델을 이용하였다. 감정 분석 기법으로는 LSTM(Long Short-Term Memory) 등 기존의 기계학습 기법과 구글의 다국어 BERT 모델, 그리고 KoBERT 모델을 이용하여 감정 분석의 성능을 비교하였으며, KoBERT 모델이 89.90%로 가장 높은 성능을 보여주었다.

Comparative Study of Sentiment Analysis Model based on Korean Linguistic Characteristics (한국어 언어학적 특성 기반 감성분석 모델 비교 분석)

  • Kim, Gyeong-Min;Park, Chanjun;Jo, Jaechoon;Lim, Heui-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.149-152
    • /
    • 2019
  • 감성분석이란 입력된 텍스트의 감성을 분류하는 자연어처리의 한 분야로, 최근 CNN, RNN, Transformer등의 딥러닝 기법을 적용한 다양한 연구가 있다. 한국어 감성분석을 진행하기 위해서는 형태소, 음절 등의 추가 자질을 활용하는 것이 효과적이며 성능 향상을 기대할 수 있는 방법이다. 모델 생성에 있어서 아키텍쳐 구성도 중요하지만 문맥에 따른 언어를 컴퓨터가 표현할 수 있는 지식 표현 체계 구성도 상당히 중요하다. 이러한 맥락에서 BERT모델은 문맥을 완전한 양방향으로 이해할 수있는 Language Representation 기반 모델이다. 본 논문에서는 최근 CNN, RNN이 융합된 모델과 Transformer 기반의 한국어 KoBERT 모델에 대해 감성분석 task에서 다양한 성능비교를 진행했다. 성능분석 결과 어절단위 한국어 KoBERT모델에서 90.50%의 성능을 보여주었다.

  • PDF

A study on semantic ambiguity in the Korean Named Entity Recognition (한국어 개체명 인식 과제에서의 의미 모호성 연구)

  • Kim, Seonghyun;Song, Youngsook;Song, Chisung;Han, Jiyoon
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.203-208
    • /
    • 2021
  • 본 논문에서는 맥락에 따라 개체명의 범주가 달라지는 어휘를 중심으로 교차 태깅된 개체명의 성능을 레이블과 스팬 정답률, 문장 성분과 문장 위치에 따른 정답률로 나누어 살펴 보았다. 레이블의 정확도는 KoGPT2, mBERT, KLUE-RoBERTa 순으로 정답률이 높아지는 양상을 보였다. 스팬 정답률에서는 mBERT가 KLUE-RoBERTa보다 근소하게 성능이 높았고 KoGPT2는 매우 낮은 정확도를 보였다. 다만, KoGPT2는 개체명이 문장의 끝에 위치할 때는 다른 모델과 비슷한 정도로 성능이 개선되는 결과를 보였다. 문장 종결 위치에서 인식기의 성능이 좋은 것은 실험에 사용된 말뭉치의 문장 성분이 서술어일 때 명사의 중첩이 적고 구문이 패턴화되어 있다는 특징과 KoGPT2가 decoder기반의 모델이기 때문으로 여겨지나 이에 대해서는 후속 연구가 필요하다.

  • PDF

Exploiting Korean Language Model to Improve Korean Voice Phishing Detection (한국어 언어 모델을 활용한 보이스피싱 탐지 기능 개선)

  • Boussougou, Milandu Keith Moussavou;Park, Dong-Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.10
    • /
    • pp.437-446
    • /
    • 2022
  • Text classification task from Natural Language Processing (NLP) combined with state-of-the-art (SOTA) Machine Learning (ML) and Deep Learning (DL) algorithms as the core engine is widely used to detect and classify voice phishing call transcripts. While numerous studies on the classification of voice phishing call transcripts are being conducted and demonstrated good performances, with the increase of non-face-to-face financial transactions, there is still the need for improvement using the latest NLP technologies. This paper conducts a benchmarking of Korean voice phishing detection performances of the pre-trained Korean language model KoBERT, against multiple other SOTA algorithms based on the classification of related transcripts from the labeled Korean voice phishing dataset called KorCCVi. The results of the experiments reveal that the classification accuracy on a test set of the KoBERT model outperforms the performances of all other models with an accuracy score of 99.60%.

A Comparative Study on Korean Relation Extraction with entity position information (엔터티 위치 정보를 활용한 한국어 관계추출 모델 비교 및 분석)

  • Son, Suhyune;Hur, Yuna;Lim, Jungwoo;Shim, Midan;Park, Chanjun;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.247-250
    • /
    • 2021
  • 관계추출(Relation Extraction)이란 주어진 문장에서 엔터티간의 관계를 예측하는 것을 목표로 하는 태스크이다. 이를 위해 문장 구조에 대한 이해와 더불어 두 엔터티간의 관계성 파악이 핵심이다. 기존의 관계추출 연구는 영어 데이터를 기반으로 발전되어 왔으며 그에 반해 한국어 관계 추출에 대한 연구는 부족하다. 이에 본 논문은 한국어 문장내의 엔터티 정보에 대한 위치 정보를 활용하여 관계를 예측할 수 있는 방법론을 제안하였으며 이를 다양한 한국어 사전학습 모델(KoBERT, HanBERT, KorBERT, KoELECTRA, KcELECTRA)과 mBERT를 적용하여 전반적인 성능 비교 및 분석 연구를 진행하였다. 실험 결과 본 논문에서 제안한 엔터티 위치 토큰을 사용하였을때의 모델이 기존 연구들에 비해 좋은 성능을 보였다.

  • PDF

Identification of Internet news reliability using TF-IDF and KoBERT models (TF-IDF와 KoBERT 모델을 이용한 인터넷 뉴스 신뢰도 판별)

  • Na-Hyeon Kim;Ik-won Seo;Jeong-Hyeon Kim;Chae-Young Son;Dong-Young Yoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.353-354
    • /
    • 2023
  • 디지털 환경이 진화함에 따라 가짜뉴스가 늘어나고 있다. 이를 판별하기 위해 법적 규제에 대한 논의가 있으나, 가짜뉴스에 대한 범위와 정의가 명확하지 않아 규제가 쉽지 않다. 본 논문에서는 이에 대한 대안으로 TF-IDF 기법과 KoBERT 모델을 이용한 키워드 추출 및 문장 유사도 분석을 통해 YouTube 플랫폼을 대상으로 한 가짜뉴스 판별을 위한 모델을 제안한다.

Detection of sexuality and violence in Korean news article title based on KoBERT mode (KoBERT 모델 기반 한국어 뉴스 기사 제목 선정성 및 폭력성 검출)

  • Min-Ji Kim;Hwan-Do Kim;Ji-Min Bong;Dae-Hwan Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.570-571
    • /
    • 2023
  • 최근 선정적이고 폭력적인 뉴스 기사 제목의 여과 없는 노출로 인하여 유해한 언어 접촉이 빈번히 이루어지고 있다. 자극적인 단어에 지속적으로 노출되는 것은 인지 능력에 부정적 영향을 주는 것으로 알려져 있다. 따라서 이를 사전에 판별하여 정보를 수용하는 것이 필요하다. 본 논문에서는 KoBERT를 기반으로 한국어 뉴스 기사 제목에서 선정성과 폭력성을 검출하고자 한다. 학습을 위한 뉴스 기사 제목들은 인터넷에서 무작위로 총 9,500개의 데이터를 크롤링 하여 수집하였고, 모델의 말단에 NLNet을 추가하여 문장 전체의 관계를 학습했다. 그 결과 선정성 및 폭력성을 약 89%의 정확도로 검출하였다.

Design of Category Classification Model for Food Posts using KoBERT (KoBERT를 활용한 식품 게시글 카테고리 분류 모델의 설계)

  • Tae Min Hyeon;Hui Jin Kim;Eun Zi Lim;Joon-Min Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.572-573
    • /
    • 2023
  • 본 논문에서는 식품 판매 게시글에 대한 카테고리 분류를 위해 자연어처리 모델인 KoBERT 모델에 기반하여 식품 판매글에 대한 카테고리 분류 모델을 설계하고 구현한다. 본 논문을 통해 구현된 식품 판매 게시글의 카테고리 분류 모델은 정확도 평가에 대해서 비교적 우수한 성능을 산출하였다.

A Deep Learning Model for Disaster Alerts Classification

  • Park, Soonwook;Jun, Hyeyoon;Kim, Yoonsoo;Lee, Soowon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.12
    • /
    • pp.1-9
    • /
    • 2021
  • Disaster alerts are text messages sent by government to people in the area in the event of a disaster. Since the number of disaster alerts has increased, the number of people who block disaster alerts is increasing as many unnecessary disaster alerts are being received. To solve this problem, this study proposes a deep learning model that automatically classifies disaster alerts by disaster type, and allows only necessary disaster alerts to be received according to the recipient. The proposed model embeds disaster alerts via KoBERT and classifies them by disaster type with LSTM. As a result of classifying disaster alerts using 3 combinations of parts of speech: [Noun], [Noun + Adjective + Verb] and [All parts], and 4 classification models: Proposed model, Keyword classification, Word2Vec + 1D-CNN and KoBERT + FFNN, the proposed model achieved the highest performance with 0.988954 accuracy.