• 제목/요약/키워드: ELECTRA

검색결과 62건 처리시간 0.02초

사전 학습 모델과 Specific-Abstraction 인코더를 사용한 한국어 의존 구문 분석 (Korean Dependency Parsing using Pretrained Language Model and Specific-Abstraction Encoder)

  • 김봉수;황태선;김정욱;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.98-102
    • /
    • 2020
  • 의존 구문 분석은 입력된 문장 내의 어절 간의 의존 관계를 예측하기 위한 자연어처리 태스크이다. 최근에는 BERT와 같은 사전학습 모델기반의 의존 구문 분석 모델이 높은 성능을 보이고 있다. 본 논문에서는 추가적인 성능 개선을 위해 ALBERT, ELECTRA 언어 모델을 형태소 분석과 BPE를 적용해 학습한 후, 인코딩 과정에 사용하였다. 또한 의존소 어절과 지배소 어절의 특징을 specific하게 추상화 하기 위해 두 개의 트랜스포머 인코더 스택을 추가한 의존 구문 분석 모델을 제안한다. 실험결과 제안한 모델이 세종 코퍼스에 대해 UAS 94.77 LAS 94.06의 성능을 보였다.

  • PDF

엔터티 위치 정보를 활용한 한국어 관계추출 모델 비교 및 분석 (A Comparative Study on Korean Relation Extraction with entity position information)

  • 손수현;허윤아;임정우;심미단;박찬준;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.247-250
    • /
    • 2021
  • 관계추출(Relation Extraction)이란 주어진 문장에서 엔터티간의 관계를 예측하는 것을 목표로 하는 태스크이다. 이를 위해 문장 구조에 대한 이해와 더불어 두 엔터티간의 관계성 파악이 핵심이다. 기존의 관계추출 연구는 영어 데이터를 기반으로 발전되어 왔으며 그에 반해 한국어 관계 추출에 대한 연구는 부족하다. 이에 본 논문은 한국어 문장내의 엔터티 정보에 대한 위치 정보를 활용하여 관계를 예측할 수 있는 방법론을 제안하였으며 이를 다양한 한국어 사전학습 모델(KoBERT, HanBERT, KorBERT, KoELECTRA, KcELECTRA)과 mBERT를 적용하여 전반적인 성능 비교 및 분석 연구를 진행하였다. 실험 결과 본 논문에서 제안한 엔터티 위치 토큰을 사용하였을때의 모델이 기존 연구들에 비해 좋은 성능을 보였다.

  • PDF

사전학습 언어모델을 활용한 범죄수사 도메인 개체명 인식 (A Named Entity Recognition Model in Criminal Investigation Domain using Pretrained Language Model)

  • 김희두;임희석
    • 한국융합학회논문지
    • /
    • 제13권2호
    • /
    • pp.13-20
    • /
    • 2022
  • 본 연구는 딥러닝 기법을 활용하여 범죄 수사 도메인에 특화된 개체명 인식 모델을 개발하는 연구이다. 본 연구를 통해 비정형의 형사 판결문·수사 문서와 같은 텍스트 기반의 데이터에서 자동으로 범죄 수법과 범죄 관련 정보를 추출하고 유형화하여, 향후 데이터 분석기법을 활용한 범죄 예방 분석과 수사에 기여할 수 있는 시스템을 제안한다. 본 연구에서는 범죄 수사 도메인 텍스트를 수집하고 범죄 분석의 관점에서 필요한 개체명 분류를 새로 정의하였다. 또한 최근 자연어 처리에서 높은 성능을 보이고 있는 사전학습 언어모델인 KoELECTRA를 적용한 제안 모델은 본 연구에서 정의한 범죄 도메인 개체명 실험 데이터의 9종의 메인 카테고리 분류에서 micro average(이하 micro avg) F1-score 99%, macro average(이하 macro avg) F1-score 96%의 성능을 보이고, 56종의 서브 카테고리 분류에서 micro avg F1-score 98%, macro avg F1-score 62%의 성능을 보인다. 제안한 모델을 통해 향후 개선 가능성과 활용 가능성의 관점에서 분석한다.

고해상도 영상에 대한 MPEG-2 / H.264 / HEVC 비디오 코덱의 성능 비교 분석 (A Performance comparison of HEVC with H.264 and MPEG-2 for HD Sequences)

  • 이하현;김종호;김휘용;최진수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.192-195
    • /
    • 2011
  • 본 논문에서는 JCT-VC(Joint Collaboration Team on Video Coding)에서 표준화가 진행 중인 HEVC(High Efficiency Video Coding)의 Test Model 인 HM1.0과 현재 디지털 방송, 통신, 저장 매체 등 다양한 응용 분야에 사용되고 있는 범용 비디오 코덱들 간의 객관적, 주관적 측면에서의 부호화 성능을 비교한다. 이를 통해 HEVC의 현재 성능 수준에 대한 평가 결과를 보이고, 활용 가능성에 대해 결론을 맺는다. 비교 대상 코덱으로는 H.264/AVC 표준의 S/W 기반인 VideoLAN Project의 x264와 MPEG-2 표준으로 Harmonic사의 H/W기반의 최신형 실시간 인코더인 Electra8000을 사용하였다. 총 5개의 HD(1920x1080)영상에 대한 객관적 성능 비교 결과, HM1.0이 x264 대비 평균 44.93%의 BD-rate 감소와 평균 1.65%의 BD-PSNR 증가를 보였고, Electra8000에 대해서도 월등히 높은 성능차를 보였다. 주관적 화질 비교 결과 동일 PSNR 조건하에서 HM1.0이 범용 비디오 코덱들보다 주관적 화질이 유사하거나 좀 더 나음을 보였다.

  • PDF

감정분석 기반 심리상담 AI 챗봇 시스템에 대한 연구 (A Study on the Psychological Counseling AI Chatbot System based on Sentiment Analysis)

  • 안세훈;정옥란
    • 한국IT서비스학회지
    • /
    • 제20권3호
    • /
    • pp.75-86
    • /
    • 2021
  • As artificial intelligence is actively studied, chatbot systems are being applied to various fields. In particular, many chatbot systems for psychological counseling have been studied that can comfort modern people. However, while most psychological counseling chatbots are studied as rule-base and deep learning-based chatbots, there are large limitations for each chatbot. To overcome the limitations of psychological counseling using such chatbots, we proposes a novel psychological counseling AI chatbot system. The proposed system consists of a GPT-2 model that generates output sentence for Korean input sentences and an Electra model that serves as sentiment analysis and anxiety cause classification, which can be provided with psychological tests and collective intelligence functions. At the same time as deep learning-based chatbots and conversations take place, sentiment analysis of input sentences simultaneously recognizes user's emotions and presents psychological tests and collective intelligence solutions to solve the limitations of psychological counseling that can only be done with chatbots. Since the role of sentiment analysis and anxiety cause classification, which are the links of each function, is important for the progression of the proposed system, we experiment the performance of those parts. We verify the novelty and accuracy of the proposed system. It also shows that the AI chatbot system can perform counseling excellently.

페르소나 기반 한국어 대화 모델 (Persona-based Korean Conversational Model)

  • 장윤나;임정우;허윤아;양기수;박찬준;서재형;이승준;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.453-456
    • /
    • 2021
  • 대화형 에이전트가 일관성 없는 답변, 재미 없는 답변을 하는 문제를 해결하기 위하여 최근 페르소나 기반의 대화 분야의 연구가 활발히 진행되고 있다. 그러나 한국어로 구축된 페르소나 대화 데이터는 아직 구축되지 않은 상황이다. 이에 본 연구에서는 영어 원본 데이터에서 한국어로 번역된 데이터를 활용하여 최초의 페르소나 기반 한국어 대화 모델을 제안한다. 전처리를 통하여 번역 품질을 향상시킨 데이터에 사전 학습 된 한국어 모델인 KoBERT와 KoELECTRA를 미세조정(fine-tuning) 시킴으로써 모델에게 주어진 페르소나와 대화 맥락을 고려하여 올바른 답변을 선택하는 모델을 학습한다. 실험 결과 KoELECTRA-base 모델이 가장 높은 성능을 보이는 것을 확인하였으며, 단순하게 사용자의 발화만을 주는 것 보다 이전 대화 이력이 추가적으로 주어졌을 때 더 좋은 성능을 보이는 것을 확인할 수 있었다.

  • PDF

기계학습 기반 국내 뉴스 헤드라인의 정확성 검증 연구 (Objectivity in Korean News Reporting : Machine Learning-Based Verification of News Headline Accuracy)

  • 백지수;이승언;한지영;차미영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.281-286
    • /
    • 2021
  • 뉴스 헤드라인에 제3자의 발언을 직접 인용해 전언하는 이른바 '따옴표 저널리즘'이 언론 보도의 객관주의 원칙을 해치는지는 언론학 및 뉴스 구독자에게 중요한 문제이다. 이 연구는 온라인 포털사이트를 통해 실시간 유통되는 한국어 기사의 정확성을 판별하기 위한 기계학습(Machine Learning) 모델을 제안한다. 이 연구에서 제안하는 모델은 Edit Distance와 FastText 기법을 활용해 기사 제목과 본문 내 인용구의 유사성을 측정하고, XGBoost 모델을 활용해 최종 분류한다. 아울러 이 모델을 통해 229만 건의 뉴스 헤드라인에 대해 직접 인용구가 포함된 기사가 취재원의 발언을 주관적인 윤색없이 독자들에게 전하고 있는지를 판별했다. 이뿐만 아니라 딥러닝 기반의 KoELECTRA 모델을 활용해 기사의 제목 내 인용구에 대한 감성 분석을 진행했다. 분석 결과, 윤색이 가미되지 않은 직접 인용형 기사의 비율이 지난 20년 동안 10% 이상 증가했으며, 기사 제목의 인용구에 나타나는 감정은 부정 감성이 긍정 감성의 2.8배 정도로 우세했다. 이러한 시도는 앞으로 계산사회과학 방법론과 빅데이터에 기반한 언론 보도의 평가 및 개선에 도움을 주리라 기대한다.

  • PDF

해양사고 예방을 위한 사전학습 언어모델의 순차적 레이블링 기반 복수 인과관계 추출 (Sequence Labeling-based Multiple Causal Relations Extraction using Pre-trained Language Model for Maritime Accident Prevention)

  • 문기영;김도현;양태훈;이상덕
    • 한국안전학회지
    • /
    • 제38권5호
    • /
    • pp.51-57
    • /
    • 2023
  • Numerous studies have been conducted to analyze the causal relationships of maritime accidents using natural language processing techniques. However, when multiple causes and effects are associated with a single accident, the effectiveness of extracting these causal relations diminishes. To address this challenge, we compiled a dataset using verdicts from maritime accident cases in this study, analyzed their causal relations, and applied labeling considering the association information of various causes and effects. In addition, to validate the efficacy of our proposed methodology, we fine-tuned the KoELECTRA Korean language model. The results of our validation process demonstrated the ability of our approach to successfully extract multiple causal relationships from maritime accident cases.

EPC 프로젝트의 위험 관리를 위한 ITB 문서 조항 분류 모델 연구: 딥러닝 기반 PLM 앙상블 기법 활용 (Research on ITB Contract Terms Classification Model for Risk Management in EPC Projects: Deep Learning-Based PLM Ensemble Techniques)

  • 이현상;이원석;조보근;이희준;오상진;유상우;남마루;이현식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.471-480
    • /
    • 2023
  • 국내 건설수주 규모는 2013년 91.3조원에서 2021년 총 212조원으로 특히 민간부문에서 크게 성장하였다. 국내외 시장 규모가 성장하면서, EPC(Engineering, Procurement, Construction) 프로젝트의 규모와 복잡성이 더욱 증가되고, 이에 프로젝트 관리 및 ITB(Invitation to Bid) 문서의 위험 관리가 중요한 이슈가 되고 있다. EPC 프로젝트 발주 이후 입찰 절차에서 실제 건설 회사에게 부여되는 대응 시간은 한정적일 뿐만 아니라, 인력 및 비용의 문제로 ITB 문서 계약 조항의 모든 리스크를 검토하는데 매우 어려움이 있다. 기존 연구에서는 이와 같은 문제를 해결하고자 EPC 계약 문서의 위험 조항을 범주화하고, 이를 AI 기반으로 탐지하려는 시도가 있었으나, 이는 레이블링 데이터 활용의 한계와 클래스 불균형과 같은 데이터 측면의 문제로 실무에서 활용할 수 있는 수준의 지원 시스템으로 활용하기 어려운 상황이다. 따라서 본 연구는 기존 연구와 같이 위험 조항 자체를 정의하고 분류하는 것이 아니라, FIDIC Yellow 2017(국제 컨설팅엔지니어링 연맹 표준 계약 조건) 기준 계약 조항을 세부적으로 분류할 수 있는 AI 모델을 개발하고자 한다. 프로젝트의 규모, 유형에 따라서 세부적으로 검토해야 하는 계약 조항이 다를 수 있기 때문에 이와 같은 다중 텍스트 분류 기능이 필요하다. 본 연구는 다중 텍스트 분류 모델의 성능 고도화를 위해서 최근 텍스트 데이터의 컨텍스트를 효율적으로 학습할 수 있는 ELECTRA PLM(Pre-trained Language Model)을 사전학습 단계부터 개발하고, 해당 모델의 성능을 검증하기 위해서 총 4단계 실험을 진행했다. 실험 결과, 자체 개발한 ITB-ELECTRA 모델 및 Legal-BERT의 앙상블 버전이 57개 계약 조항 분류에서 가중 평균 F1-Score 기준 76%로 가장 우수한 성능을 달성했다.

Electra-Optic Effect of Nonchiral Smectic C Liquid Crystal Mode with Negative Dielectric Anisotropy

  • Yu, Chang-Jae;Jang, Eun-Je;Lee, Sin-Doo
    • 한국정보디스플레이학회:학술대회논문집
    • /
    • 한국정보디스플레이학회 2002년도 International Meeting on Information Display
    • /
    • pp.467-470
    • /
    • 2002
  • We report on an analog electro-optic effect in a nonchiral smectic C (NSC) liquid crystal (LC) mode with negative dielectric anisotropy in a transverse electrode configuration. Two-dimensional numerical simulations are executed to evaluate the display performances. The analog gray scales in the NSC LC mode are obtained in a dielectrically driving scheme.

  • PDF