• Title/Summary/Keyword: KcBert

Search Result 14, Processing Time 0.018 seconds

An Empirical Study of Topic Classification for Korean Newspaper Headlines (한국어 뉴스 헤드라인의 토픽 분류에 대한 실증적 연구)

  • Park, Jeiyoon;Kim, Mingyu;Oh, Yerim;Lee, Sangwon;Min, Jiung;Oh, Youngdae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.287-292
    • /
    • 2021
  • 좋은 자연어 이해 시스템은 인간과 같이 텍스트에서 단순히 단어나 문장의 형태를 인식하는 것 뿐만 아니라 실제로 그 글이 의미하는 바를 정확하게 추론할 수 있어야 한다. 이 논문에서 우리는 뉴스 헤드라인으로 뉴스의 토픽을 분류하는 open benchmark인 KLUE(Korean Language Understanding Evaluation)에 대하여 기존에 비교 실험이 진행되지 않은 시중에 공개된 다양한 한국어 라지스케일 모델들의 성능을 비교하고 결과에 대한 원인을 실증적으로 분석하려고 한다. KoBERT, KoBART, KoELECTRA, 그리고 KcELECTRA 총 네가지 베이스라인 모델들을 주어진 뉴스 헤드라인을 일곱가지 클래스로 분류하는 KLUE-TC benchmark에 대해 실험한 결과 KoBERT가 86.7 accuracy로 가장 좋은 성능을 보여주었다.

  • PDF

Methodology for Deriving Required Quality of Product Using Analysis of Customer Reviews (사용자 리뷰 분석을 통한 제품 요구품질 도출 방법론)

  • Yerin Yu;Jeongeun Byun;Kuk Jin Bae;Sumin Seo;Younha Kim;Namgyu Kim
    • Journal of Information Technology Applications and Management
    • /
    • v.30 no.2
    • /
    • pp.1-18
    • /
    • 2023
  • Recently, as technology development has accelerated and product life cycles have been shortened, it is necessary to derive key product features from customers in the R&D planning and evaluation stage. More companies want differentiated competitiveness by providing consumer-tailored products based on big data and artificial intelligence technology. To achieve this, the need to correctly grasp the required quality, which is a requirement of consumers, is increasing. However, the existing methods are centered on suppliers or domain experts, so there is a gap from the actual perspective of consumers. In other words, product attributes were defined by suppliers or field experts, but this may not consider consumers' actual perspective. Accordingly, the demand for deriving the product's main attributes through reviews containing consumers' perspectives has recently increased. Therefore, we propose a review data analysis-based required quality methodology containing customer requirements. Specifically, a pre-training language model with a good understanding of Korean reviews was established, consumer intent was correctly identified, and key contents were extracted from the review through a combination of KeyBERT and topic modeling to derive the required quality for each product. RevBERT, a Korean review domain-specific pre-training language model, was established through further pre-training. By comparing the existing pre-training language model KcBERT, we confirmed that RevBERT had a deeper understanding of customer reviews. In addition, all processes other than that of selecting the required quality were linked to the automation process, resulting in the automation of deriving the required quality based on data.

Non-Curriculum Recommendation Techniques Using Collaborative Filtering for C University (협업 필터링을 활용한 비교과 프로그램 추천 기법: C대학 적용사례)

  • yujung Janu;Kyungeun Yang;Wan-Sup Cho
    • The Journal of Bigdata
    • /
    • v.7 no.1
    • /
    • pp.187-192
    • /
    • 2022
  • Many schools are trying to improve students' competencies through many subjects and non-curricular activities, each students has different goals and different activities to prepare for employment. Accordingly, it is difficult to determine whether the programs offered in a comprehensive and comprehensive manner in the existing subject and non-curricular subjects systems are actually suitable for students, so it is necessary to introduce a personalized system. In this study, a method was proposed to classify non-departmental subjects that are uniformly provided to all students of Chungbuk National University by grade level and department. In addition, three types of collaborative filtering models are implemented using the evaluation score of students who participated in the non-curricular program, and personalized recommendations are proposed with the most accurate model by comparing performance.

Controllable data augmentation framework based on multiple large-scale language models (복수 대규모 언어 모델에 기반한 제어 가능형 데이터 증강 프레임워크)

  • Hyeonseok Kang;Hyuk Namgoong;Jeesu Jung;Sangkeun Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.3-8
    • /
    • 2023
  • 데이터 증강은 인공지능 모델의 학습에서 필요한 데이터의 양이 적거나 편향되어 있는 경우, 이를 보완하여 모델의 성능을 높이는 데 도움이 된다. 이미지와는 달리 자연어의 데이터 증강은 문맥이나 문법적 구조와 같은 특징을 고려해야 하기 때문에, 데이터 증강에 많은 인적자원이 소비된다. 본 연구에서는 복수의 대규모 언어 모델을 사용하여 입력 문장과 제어 조건으로 프롬프트를 구성하는 데 최소한의 인적 자원을 활용한 의미적으로 유사한 문장을 생성하는 방법을 제안한다. 또한, 대규모 언어 모델을 단독으로 사용하는 것만이 아닌 병렬 및 순차적 구조로 구성하여 데이터 증강의 효과를 높이는 방법을 제안한다. 대규모 언어 모델로 생성된 데이터의 유효성을 검증하기 위해 동일한 개수의 원본 훈련 데이터와 증강된 데이터를 한국어 모델인 KcBERT로 다중 클래스 분류를 수행하였을 때의 성능을 비교하였다. 다중 대규모 언어 모델을 사용하여 데이터 증강을 수행하였을 때, 모델의 구조와 관계없이 증강된 데이터는 원본 데이터만을 사용하였을 때보다 높거나 그에 준하는 정확도를 보였다. 병렬 구조의 다중 대규모 언어 모델을 사용하여 400개의 원본 데이터를 증강하였을 때에는, 원본 데이터의 최고 성능인 0.997과 0.017의 성능 차이를 보이며 거의 유사한 학습 효과를 낼 수 있음을 보였다.

  • PDF