• 제목/요약/키워드: mBERT

검색결과 58건 처리시간 0.03초

KoBERT기반 Youtube 자막 감정 분석 연구 (Sentimental Analysis of YouTube Korean Subscripts Using KoBERT)

  • 최다은;김효민;이혜린;황유림
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.513-516
    • /
    • 2022
  • YouTube 이용자의 급증으로 많은 사람이 유튜브 알고리즘에 의해 무분별한 영상에 노출되고 있다. 이는 YouTube 이용자에게 부정적인 영향을 미칠 수 있으며 더 나아가 사회적으로 미성숙한 미디어 문화를 조장할 수 있다. 본 논문에서는 YouTube 컨텐츠에 대한 감정분석 연구를 처음으로 시도한다. 구체적으로, YouTube 컨텐츠 자막에 대해 기존의 자연어 처리 기반 감정분석 기법을 적용하여 성능을 분석한다.

Word2Vec, GloVe 및 RoBERTa 등의 모델을 활용한 한국어 문장 임베딩 성능 비교 연구 (A Comparative Study on the Performance of Korean Sentence Embedding)

  • 석주리;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.444-449
    • /
    • 2021
  • 자연어처리에서 임베딩이란 사람의 언어를 컴퓨터가 이해할 수 있는 벡터로 변환한 것으로 자연어처리의 필수 요소 중 하나이다. 본 논문에서는 단어 기반 임베딩인 Word2Vec, GloVe, fastText와 문장 기반 임베딩 기법인 BERT와 M-USE, RoBERTa를 사용하여 한국어 문장 임베딩을 만들어 NSMC, KorNLI, KorSTS 세 가지 태스크에 대한 성능을 확인해보았다. 그 결과 태스크에 따라서 적합한 한국어 문장 임베딩 기법이 달라지며, 태스크에 따라서는 BERT의 평균 임베딩보다 GloVe의 평균 임베딩과 같은 단어 기반의 임베딩이 좋은 성능을 보일 수 있음을 확인할 수 있었다.

  • PDF

사건 관계 추출을 위한 사전 학습 임베딩 비교 (Comparing of pre-trained Embedding for Event Extraction)

  • 양승무;이미라;정찬희;정혜동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.626-628
    • /
    • 2021
  • 사건 관계 추출 태스크는 구조화되지 않은 텍스트 데이터에서 사건의 구조화된 표현을 얻는 것이다. 하나의 문장에서도 많은 정보를 얻을 수 있는 중요한 태스크임에도 불구하고, 다양한 사전 학습 모델을 적용한 연구는 아직 활발하게 연구되지 않고 있다. 따라서 본 연구에서 사전 학습된 모델의 임베딩 기법 중 BERT, RoBERTa, SpanBERT에 각각 base, large 아키텍처를 적용하여 실험하였다. 사건을 식별하기 위한 trigger와 해당 trigger의 세부 argument를 식별하기 위한 분류기를 상위레이어로 각각 설계하였고, 다양한 배치 크기를 적용하여 실험하였다. 성능평가는 trigger/argument 각각 F1 score를 적용하였고, 결과는 RoBERTa large 모델에서 좋은 성능을 보인 것을 확인하였다.

자연어 처리를 위한 조건부 게이트 다층 퍼셉트론 모델 개발 및 구현 (SG-MLP: Switch Gated Multi-Layer Perceptron Model for Natural Language Understanding)

  • 손규진;김승원;주세준;조우진;나정은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.1116-1119
    • /
    • 2021
  • 2018 년 Google 사의 사전 학습된 언어 인공지능 BERT 를 기점으로, 자연어 처리 학계는 주요 구조를 유지한 채 경쟁적으로 모델을 대형화하는 방향으로 발전했다. 그 결과, 오늘날 자연어 인공지능은 거대 사기업과 그에 준하는 컴퓨팅 자원을 소유한 연구 단체만의 전유물이 되었다. 본 논문에서는 다층 퍼셉트론을 병렬적으로 배열해 자연어 인공지능을 제작하는 기법의 모델을 제안하고, 이를 적용한'조건부 게이트 다층 퍼셉트론 모델(SG-MLP)'을 구현하고 그 결과를 비교 관찰하였다. SG-MLP 는 BERT 의 20%에 해당하는 사전 학습량만으로 다수의 지표에서 그것과 준하는 성능을 보였고, 동일한 과제에 대해 더 적은 연산 비용을 소요한다.

An Ensemble Model for Credit Default Discrimination: Incorporating BERT-based NLP and Transformer

  • Sophot Ky;Ju-Hong Lee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.624-626
    • /
    • 2023
  • Credit scoring is a technique used by financial institutions to assess the creditworthiness of potential borrowers. This involves evaluating a borrower's credit history to predict the likelihood of defaulting on a loan. This paper presents an ensemble of two Transformer based models within a framework for discriminating the default risk of loan applications in the field of credit scoring. The first model is FinBERT, a pretrained NLP model to analyze sentiment of financial text. The second model is FT-Transformer, a simple adaptation of the Transformer architecture for the tabular domain. Both models are trained on the same underlying data set, with the only difference being the representation of the data. This multi-modal approach allows us to leverage the unique capabilities of each model and potentially uncover insights that may not be apparent when using a single model alone. We compare our model with two famous ensemble-based models, Random Forest and Extreme Gradient Boosting.

개체명 인식과 키워드 네트워크 분석을 활용한 약물 이상 반응 탐지 시스템 개발 (Development of Detection of Adverse Drug Reactions based on Named Entity Recognition and Keyword Network Analysis)

  • 이채연;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.670-672
    • /
    • 2023
  • 본 논문에서는 소셜 미디어 약물 리뷰 데이터로부터 약물 이상 반응을 탐지하는 모델인 FC-BERT 를 기반으로 소셜 네트워크 분석을 활용하여 웹 애플리케이션을 구현하였다. FC-BERT 모델을 거쳐 나온 개체명 인식 결과 중에 같은 의미를 가진 서로 다른 약물 이상 반응 표현들을 MedDRA 부작용 사전을 참고하여 하나의 MedDRA 용어로 표준화하여 매핑했다. 해당 결과에 소셜 네트워크 분석 기법을 적용하여 생성한 상위 15 개의 ADR 동시 출현 그래프를 상위 30 개의 워드 클라우드와 함께 시각화하여 보여주는 웹 애플리케이션을 개발했다. 동시 출현 그래프는 가장 많은 리뷰에서 동시에 나타나는 ADR 쌍을 보여준다. 본 논문에서 제안한 웹 애플리케이션은 사람마다 다르게 나타나는 다양한 약물 이상 반응을 사용자에게 좀 더 접근성이 좋게 제공할 수 있을 것으로 보인다.

KoBERT 기반 VoIP Voice Phishing 탐지 솔루션 (The Solution for VoIP Voice Phishing Detection Based on KoBERT Model)

  • 조윤지;이경윤;이윤서;정재희;박세진;윤종호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.947-948
    • /
    • 2023
  • 본 논문은 보이스피싱 취약 계층을 위해 통화 내용을 신속하게 처리하여 실시간으로 범죄 여부를 판별하는 VoIP 에 특화된 시스템을 제안하였다. 실제 보이스 피싱 통화 유형을 학습한 탐지 모델을 개발하여 API 로 배포하였다. 또한 보이스피싱 위험도가 일정 수준에 도달할 경우 사용자에게 보이스피싱 가능성을 경고하는 장치를 제작하였다. 본 연구는 보이스피싱을 사전에 탐지함으로써 개인정보의 유출 및 금융 피해를 예방하고 정보 보안을 실천하는 데 기여할 것으로 기대된다.

The Quest for Plant Nematode Biological Control-Facts and Hypotheses

  • Zuckerman, Bert M.;Esnard, Joseph
    • 한국식물병리학회:학술대회논문집
    • /
    • 한국식물병리학회 1994년도 Proceedings of International Symposium on BIOLOGICAL CONTROL OF PLANT DISEASES Korean Society of Plant Pathology
    • /
    • pp.62-74
    • /
    • 1994
  • The current status of the development of commercial products for the biological control of plant-parasitic nematodes is discussed. an example is given of problems encountered by our program in patenting biocontrol agents in the United Stats. Two hypothetical approaches to the control of plant nematodes are considered. First recent experimental results relating to the theory on intervention with host-finding by plant nematodes are reviewed. Second, a newer hypothesis considering the possibilities for genetic approaches to modifying molecular signals between nematodes and their parasites is described.

  • PDF

유튜브 낚시성 콘텐츠의 주요 구성요소 분석 (Analysis of major components of YouTube fishing content)

  • 이서우;조미정;채은비;김해인
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.779-781
    • /
    • 2022
  • 본 연구에서는 낚시성 콘텐츠의 주요 구성 요소인 썸네일과 제목을 MLKit와 TF-IDF를 이용하여 분석하고 이를 딥러닝 Sentence BERT 모델에 적용하였다. 이를 활용하여 추후 낚시성 콘텐츠를 걸러내는 알고리즘을 개발 예정이다.