• Title/Summary/Keyword: 개체명 사전

Search Result 91, Processing Time 0.028 seconds

Korean End-to-end Neural Coreference Resolution with BERT (BERT 기반 End-to-end 신경망을 이용한 한국어 상호참조해결)

  • Kim, Kihun;Park, Cheonum;Lee, Changki;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.181-184
    • /
    • 2019
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 같은 개체(entity)를 의미하는 멘션을 찾아 그룹화하는 자연어처리 태스크이다. 한국어 상호참조해결에서는 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델과 포인터 네트워크 모델을 이용한 방법이 연구되었다. 구글에서 공개한 BERT 모델은 자연어처리 태스크에 적용되어 많은 성능 향상을 보였다. 본 논문에서는 한국어 상호참조해결을 위한 BERT 기반 end-to-end 신경망 모델을 제안하고, 한국어 데이터로 사전 학습된 KorBERT를 이용하고, 한국어의 구조적, 의미적 특징을 반영하기 위하여 의존구문분석 자질과 개체명 자질을 적용한다. 실험 결과, ETRI 질의응답 도메인 상호참조해결 데이터 셋에서 CoNLL F1 (DEV) 71.00%, (TEST) 69.01%의 성능을 보여 기존 연구들에 비하여 높은 성능을 보였다.

  • PDF

DeNERT: Named Entity Recognition Model using DQN and BERT

  • Yang, Sung-Min;Jeong, Ok-Ran
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.4
    • /
    • pp.29-35
    • /
    • 2020
  • In this paper, we propose a new structured entity recognition DeNERT model. Recently, the field of natural language processing has been actively researched using pre-trained language representation models with a large amount of corpus. In particular, the named entity recognition, which is one of the fields of natural language processing, uses a supervised learning method, which requires a large amount of training dataset and computation. Reinforcement learning is a method that learns through trial and error experience without initial data and is closer to the process of human learning than other machine learning methodologies and is not much applied to the field of natural language processing yet. It is often used in simulation environments such as Atari games and AlphaGo. BERT is a general-purpose language model developed by Google that is pre-trained on large corpus and computational quantities. Recently, it is a language model that shows high performance in the field of natural language processing research and shows high accuracy in many downstream tasks of natural language processing. In this paper, we propose a new named entity recognition DeNERT model using two deep learning models, DQN and BERT. The proposed model is trained by creating a learning environment of reinforcement learning model based on language expression which is the advantage of the general language model. The DeNERT model trained in this way is a faster inference time and higher performance model with a small amount of training dataset. Also, we validate the performance of our model's named entity recognition performance through experiments.

Multitask Transformer Model-based Fintech Customer Service Chatbot NLU System with DECO-LGG SSP-based Data (DECO-LGG 반자동 증강 학습데이터 활용 멀티태스크 트랜스포머 모델 기반 핀테크 CS 챗봇 NLU 시스템)

  • Yoo, Gwang-Hoon;Hwang, Chang-Hoe;Yoon, Jeong-Woo;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.461-466
    • /
    • 2021
  • 본 연구에서는 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph)에 기반한 반자동 언어데이터 증강(Semi-automatic Symbolic Propagation: SSP) 방식에 입각하여, 핀테크 분야의 CS(Customer Service) 챗봇 NLU(Natural Language Understanding)을 위한 주석 학습 데이터를 효과적으로 생성하고, 이를 기반으로 RASA 오픈 소스에서 제공하는 DIET(Dual Intent and Entity Transformer) 아키텍처를 활용하여 핀테크 CS 챗봇 NLU 시스템을 구현하였다. 실 데이터을 통해 확인된 핀테크 분야의 32가지의 토픽 유형 및 38가지의 핵심 이벤트와 10가지 담화소 구성에 따라, DECO-LGG 데이터 생성 모듈은 질의 및 불만 화행에 대한 양질의 주석 학습 데이터를 효과적으로 생성하며, 이를 의도 분류 및 Slot-filling을 위한 개체명 인식을 종합적으로 처리하는 End to End 방식의 멀티태스크 트랜스포머 모델 DIET로 학습함으로써 DIET-only F1-score 0.931(Intent)/0.865(Slot/Entity), DIET+KoBERT F1-score 0.951(Intent)/0.901(Slot/Entity)의 성능을 확인하였으며, DECO-LGG 기반의 SSP 생성 데이터의 학습 데이터로서의 효과성과 함께 KoBERT에 기반한 DIET 모델 성능의 우수성을 입증하였다.

  • PDF

Kane: Knowledge Annotation Tool for Semantic Information (Kane: 의미정보 말뭉치 구축 도구)

  • Bae, Won-Sik;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.121-125
    • /
    • 2009
  • 본 논문에서는 의미정보 말뭉치 구축 도구인 Kane에 대해 설명한다. 형태소 분석기나 구문 분석기, 개체명 인식기 등 자연어처리를 위한 기본이 되는 시스템에는 말뭉치가 필요하며, 말뭉치의 구축에는 많은 비용이 든다. 일반적으로 말뭉치 구축 작업은 전용 구축 도구가 없이 문서 편집기를 사용하여 이루어지는 경우가 많아 말뭉치 구축 작업 효율이 떨어지고, 자연스럽게 구축되는 말뭉치의 품질도 낮아진다. 문서 편집기를 사용할 때 발생하는 대표적인 문제는 키보드를 이용한 기계적인 작업이 반복된다는 것이며, 키보드 입력에 따른 오타 문제 또한 발생한다. Kane에서는 기계적인 작업 및 키보드 입력을 간편한 인터페이스를 통해 최소화하였으며, 마우스 조작으로도 쉽게 말뭉치를 구축할 수 있다. 또한 사전을 이용한 이전 작업 내용 참조 기능을 지원하여 작업의 효율성 및 일관성 문제를 개선하고자 하였다.

  • PDF

A Study of Korean Semantic Role Labeling using Word Sense (의미 정보를 이용한 한국어 의미역 인식 연구)

  • Lim, Soojong;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.18-22
    • /
    • 2015
  • 기계학습 기반의 의미역 인식에서 주로 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 단어의 의미 정보 또한 매우 주요한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 프레임 정보를 확장하는 방법을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank는 3.14, 위키피디아 문서 기반의 WiseQA 평가셋인 GS 3.0에서는 6.57의 성능 향상을 보였다.

  • PDF

Development of a Dialogue State Tracking System utilizing the Results of Rule and Statistics-based System and Evaluation using User Simulator (규칙 및 통계 기반 시스템의 결과를 활용하는 대화 상태 추적 시스템의 개발 및 사용자 시뮬레이터를 이용한 평가)

  • Shin, Chang-Uk;Chang, Du-Seong;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.518-523
    • /
    • 2020
  • 본 논문에서는 목적 지향 대화 시스템을 위한 대화 상태 추적 시스템과 사용자 시뮬레이터를 설계 및 제안한다. 사용자 시뮬레이터는 작성된 대화 상태 추적 시스템을 평가하기 위한 용도로 사용된다. 본 논문에서 제안하는 대화 상태 추적 시스템은 대화 기록과 함께 사전에 학습된 대화 기록 및 규칙/통계 기반 추론 시스템의 추론 결과를 입력으로 받는다. 그리고 입력된 발화 기록 중 마지막 사용자 발화의 사용자 목표와 개체명 그리고 다음 시스템 발화의 화행을 추론한다. 또한, 작성된 대화 상태 추적기의 성능을 평가하고 분석하기 위해, 주어진 환경에서 시스템과 대화를 수행하며 대화 시스템의 성능을 평가하는 사용자 시뮬레이터를 구현 및 적용하였다. 본 연구에서 수행된 실험과 분석을 통해, 규칙 및 통계 기반의 기반 시스템을 이용해 목표 시스템의 성능 개선이 가능함을 보인다. 또한, 제안하는 사용자 시뮬레이터는 규칙과 통계를 이용해 평가 코퍼스 없이 여러 상황에 대해 대화 시스템의 성능을 평가할 수 있다.

  • PDF

A Study on the Database Integration Methodology using XML (XML을 이용한 데이터베이스 통합방안에 관한 연구)

  • Oh Se-Woong;Lee Hong-Girl;Lee Chul-Young;Park Jong-Min;Suh Sang-Hyung
    • Journal of Navigation and Port Research
    • /
    • v.29 no.10 s.106
    • /
    • pp.883-890
    • /
    • 2005
  • Database Integration problems has been recognized as a critical issue for effective logistics service in logistics environment. However, researches related to effective methodology for this have been studied theoretically in the DB schema integration, are insufficient in the side of the system realization. The aim of this paper is to present a schema integration technique to integrate DB using XML( eXtensible Markup Language) in the part of practical DB integration, a quantitative methodology for the identification of conflict that is a representative problem on database integration. To achieve this aim, we extracted the entity name and attribute name from DB schema and suggested a quantitative methodology to easily fine name conflict that frequently give raise to a trouble when schema integration, based on the level of semantic similarity between attributes and entities.

A Study on the Database Integration Methodology using XML (XML을 이용한 데이터베이스 통합방안에 관한 연구)

  • OH Se-Woong;Lee Hong-Girl;Lee Chul-Young;Park Jong-Min;Suh Sang-Hyung
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2005.10a
    • /
    • pp.353-360
    • /
    • 2005
  • Database Integration problems has been recognized as a critical issue for effective logistics service in logistics environment. However, researches related to effective methodology for this have been studied theoretically in the DB schema integration, are insufficient in the side of the system realization. The aim of this paper is to present a schema integration technique to integrate DB using XML(eXtensible Markup Language) in the part of practical DB integration, a quantitative methodology for the identification of conflict that is a representative problem on database integration. To achieve this aim, we extracted the entity name and attribute name from DB schema and suggested a quantitative methodology to easily fine name conflict that frequently give raise to a trouble when schema integration, based on the level of semantic similarity between attributes and entities.

  • PDF

A Method to Solve the Entity Linking Ambiguity and NIL Entity Recognition for efficient Entity Linking based on Wikipedia (위키피디아 기반의 효과적인 개체 링킹을 위한 NIL 개체 인식과 개체 연결 중의성 해소 방법)

  • Lee, Hokyung;An, Jaehyun;Yoon, Jeongmin;Bae, Kyoungman;Ko, Youngjoong
    • Journal of KIISE
    • /
    • v.44 no.8
    • /
    • pp.813-821
    • /
    • 2017
  • Entity Linking find the meaning of an entity mention, which indicate the entity using different expressions, in a user's query by linking the entity mention and the entity in the knowledge base. This task has four challenges, including the difficult knowledge base construction problem, multiple presentation of the entity mention, ambiguity of entity linking, and NIL entity recognition. In this paper, we first construct the entity name dictionary based on Wikipedia to build a knowledge base and solve the multiple presentation problem. We then propose various methods for NIL entity recognition and solve the ambiguity of entity linking by training the support vector machine based on several features, including the similarity of the context, semantic relevance, clue word score, named entity type similarity of the mansion, entity name matching score, and object popularity score. We sequentially use the proposed two methods based on the constructed knowledge base, to obtain the good performance in the entity linking. In the result of the experiment, our system achieved 83.66% and 90.81% F1 score, which is the performance of the NIL entity recognition to solve the ambiguity of the entity linking.

A Out-of-vocabulary Processing Technology for the Spoken Language Understanding Module of a Dialogue Based Private Secretary Software (대화형 개인 비서 시스템의 언어 인식 모듈(SLU)을 위한 미등록어(OOV) 처리 기술)

  • Lee, ChangSu;Ko, YoungJoong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.3-8
    • /
    • 2014
  • 대화형 개인 비서 시스템은 사람의 음성을 통해 인식된 음성 인식 결과를 분석하여 사용자에게 제공할 정보가 무엇인지 파악한 후, 정보가 포함되어 있는 앱(app)을 실행시켜 사용자가 원하는 정보를 제공하는 시스템이다. 이러한 대화형 개인 비서 시스템의 가장 중요한 모듈 중 하나는 음성 대화 인식 모듈(SLU: Spoken Language Understanding)이며, 발화의 "의미 분석"을 수행하는 모듈이다. 본 논문은 음성 인식결과가 잘못되어 의미 분석이 실패하는 것을 방지하기 위하여 음성 인식 결과에서 잘못 인식된 명사, 개체명 단어를 보정 시켜주는 미등록어(OOV:Out-of-vocabulary) 처리 모듈을 제안한다. 제안하는 미등록어 처리 모듈은 미등록어 탐색 모듈과 미등록어 변환 모듈로 구성되며, 미등록어 탐색 모듈을 통해 사용자의 발화에서 미등록어를 분류하고, 미등록어 변환 모듈을 통해 미등록어를 사전에 존재하는 유사한 단어로 변환하는 방법을 제안한다. 제안한 방법을 적용하였을 때의 실험 결과, 전체 미등록어 중 최대 52.5%가 올바르게 수정되었으며, 음성 인식 결과를 그대로 사용했을 경우 "원본 문장"과 문장 단위 67.6%의 일치율을 보인 것에 반해 미등록어 처리 모듈을 적용했을 때 17.4% 개선된 최대 85%의 문장 단위 일치율을 보였다.

  • PDF