• Title/Summary/Keyword: 자연어 질의 처리

Search Result 151, Processing Time 0.023 seconds

Korean Machine Reading Comprehension for Patent Consultation Using BERT (BERT를 이용한 한국어 특허상담 기계독해)

  • Min, Jae-Ok;Park, Jin-Woo;Jo, Yu-Jeong;Lee, Bong-Gun
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.9 no.4
    • /
    • pp.145-152
    • /
    • 2020
  • MRC (Machine reading comprehension) is the AI NLP task that predict the answer for user's query by understanding of the relevant document and which can be used in automated consult services such as chatbots. Recently, the BERT (Pre-training of Deep Bidirectional Transformers for Language Understanding) model, which shows high performance in various fields of natural language processing, have two phases. First phase is Pre-training the big data of each domain. And second phase is fine-tuning the model for solving each NLP tasks as a prediction. In this paper, we have made the Patent MRC dataset and shown that how to build the patent consultation training data for MRC task. And we propose the method to improve the performance of the MRC task using the Pre-trained Patent-BERT model by the patent consultation corpus and the language processing algorithm suitable for the machine learning of the patent counseling data. As a result of experiment, we show that the performance of the method proposed in this paper is improved to answer the patent counseling query.

RNN Based Natural Language Sentence Generation from a Knowledge Graph and Keyword Sequence (핵심어 시퀀스와 지식 그래프를 이용한 RNN 기반 자연어 문장 생성)

  • Kwon, Sunggoo;Noh, Yunseok;Choi, Su-Jeong;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.425-429
    • /
    • 2018
  • 지식 그래프는 많은 수의 개채와 이들 사이의 관계를 저장하고 있기 때문에 많은 연구에서 중요한 자원으로 활용된다. 최근에는 챗봇과 질의응답과 같은 연구에서 자연어 생성을 위한 연구에 활용되고 있다. 특히 자연어 생성에서 최근 발전 된 심층 신경망이 사용되고 있는데, 이러한 방식은 모델 학습을 위한 많은 양의 데이터가 필요하다. 즉, 심층신경망을 기반으로 지식 그래프에서 문장을 생성하기 위해서는 많은 트리플과 문장 쌍 데이터가 필요하지만 학습을 위해 사용하기엔 데이터가 부족하다는 문제가 있다. 따라서 본 논문에서는 데이터 부족 문제를 해결하기 위해 핵심어 시퀀스를 추출하여 학습하는 방법을 제안하고, 학습된 모델을 통해 트리플을 입력으로 하여 자연어 문장을 생성한다. 부족한 트리플과 문장 쌍 데이터를 대체하기 위해 핵심어 시퀀스를 추출하는 모듈을 사용해 핵심어 시퀀스와 문장 쌍 데이터를 생성하였고, 순환 신경망 기반의 인코더 - 디코더 모델을 사용해 자연어 문장을 생성하였다. 실험 결과, 핵심어 시퀀스와 문장 쌍 데이터를 이용해 학습된 모델을 이용해 트리플에서 자연어 문장 생성이 원활히 가능하며, 부족한 트리플과 문장 쌍 데이터를 대체하는데 효과적임을 밝혔다.

  • PDF

An E-Mail Question Answering System using Question Generation Model (질의생성 모델을 이용한 전자우편 질의응답 시스템)

  • Zhang, Jeong-Sun;Kim, Sang-Bum;Seo, Hee-Chul;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.176-183
    • /
    • 2002
  • 전자우편과 같이 일정한 질의 형식을 가지고 있는 긴 자연어 질의에 대해서 사용자 질의 단어에 가중치를 부과하는 방법과 질의에 대한 정답을 기존의 질의응답 집합에서 유사한 질의를 검색하여 그 정답을 사용자에게 제공하는 전자우편 질의응답 시스템을 제안한다. 사용자의 긴 자연어 질의가 주어지면 질의의 범주와 문장의 중요도 정보를 이용하여 질의에서 사용된 단어가 주제어로 쓰였을 확률을 계산하고, 계산된 확률에 기반하여 중요도를 할당하는 질의생성 모델을 제안한다. 또한 사용자 질의와 기존에 문의되어진 전자우편 질의의 유사도를 단어의 빈도를 고려한 어휘유사도, 한글 시소러스(Thesaurus)를 이용한 의미유사도와 본 논문에서 제안한 질의생성 모델을 이용한 주제 유사도를 이용하여 계산한다. 실험을 위하여 실세계에서 사용 중인 질의응답 집합을 이용하여 실험을 하였으며 각 유사도 계산 방법의 기여도를 비교 평가하고 제안한 질의생성모델이 성능향상에 미치는 영향을 평가하였다.

  • PDF

Fine-grained Named Entity Recognition using Hierarchical Label Embedding (계층적 레이블 임베딩을 이용한 세부 분류 개체명 인식)

  • Kim, Hong-Jin;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.251-256
    • /
    • 2021
  • 개체명 인식은 정보 추출의 하위 작업으로, 문서에서 개체명에 해당하는 단어를 찾아 알맞은 개체명을 분류하는 자연어처리 기술이다. 질의 응답, 관계 추출 등과 같은 자연어처리 작업에 대한 관심이 높아짐에 따라 세부 분류 개체명 인식에 대한 수요가 증가했다. 그러나 기존 개체명 인식 성능에 비해 세부 분류 개체명 인식의 성능이 낮다. 이러한 성능 차이의 원인은 세부 분류 개체명 데이터가 불균형하기 때문이다. 본 논문에서는 이러한 데이터 불균형 문제를 해결하기 위해 대분류 개체명 정보를 활용하여 세부 분류 개체명 인식을 수행하는 방법과 대분류 개체명 인식의 오류 전파를 완화하기 위한 2단계 학습 방법을 제안한다. 또한 레이블 주의집중 네트워크 기반의 구조에서 레이블의 공통 요소를 공유하여 세부 분류 개체명 인식에 효과적인 레이블 임베딩 구성 방법을 제안한다.

  • PDF

Automatic Grading System for Subjective Questions Through Analyzing Question Type (질의문 유형 분석을 통한 서답형 자동 채점 시스템)

  • Kang, Won-Seog
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.2
    • /
    • pp.13-21
    • /
    • 2011
  • It is not easy to develop the system as the subjective-type evaluation has the difficulty in natural language processing. This thesis designs and implements the automatic evaluation system with natural language processing technique. To solve the degradation of general evaluation system, we define the question type and improve the performance of evaluation through the adaptive process for each question type. To evaluate the system, we analyze the correlation between human evaluation and term-based evaluation, and between human evaluation and this system evaluation. We got the better result than term-based evaluation. It needs to expand the question type and improve the adaptive processing technique for each type.

A Study on the Ontology Query Module based on Natural Language (자연어 기반 온톨로지 질의 모듈 연구)

  • Kim, Won-Pil;Kong, Hyun-Jang
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.47 no.1
    • /
    • pp.146-151
    • /
    • 2010
  • For an application of ontology, query processing is mandatory field for efficient information search in the ontology. Other query processing systems tend to analyze only facts and to simply provide structural information for users. In fact, the systems do not have big difference with database systems or text based information processing systems. Therefore, in this research, the method which can provide the inferred information based on axioms is suggested in order to maximize reusability of ontology.

Denoising Response Generation for Learning Korean Conversational Model (한국어 대화 모델 학습을 위한 디노이징 응답 생성)

  • Kim, Tae-Hyeong;Noh, Yunseok;Park, Seong-Bae;Park, Se-Yeong
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.29-34
    • /
    • 2017
  • 챗봇 혹은 대화 시스템은 특정 질문이나 발화에 대해 적절한 응답을 해주는 시스템으로 자연어처리 분야에서 활발히 연구되고 있는 주제 중 하나이다. 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 프레임워크가 많이 이용되고 있다. 하지만 해당 방식을 적용한 모델의 경우 학습 데이터에 나타나지 않은 다양한 형태의 질의문에 대해 응답을 잘 못해주는 문제가 있다. 이 논문에서는 이러한 문제점을 해결하기 위하여 디노이징 응답 생성 모델을 제안한다. 제안하는 방법은 다양한 형태의 노이즈가 임의로 가미된 질의문을 모델 학습 시에 경험시킴으로써 강건한 응답 생성이 가능한 모델을 얻을 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 질의-응답 쌍으로 구성된 한국어 대화 데이터에 대해 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델에 비해 정량 평가인 ROUGE 점수와 사람이 직접 평가한 정성 평가 모두에서 더 우수한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

Neural Question Difficulty Estimator with Bi-directional Attention in VideoQA (비디오 질의 응답 환경에서 양방향 어텐션을 이용한 질의 난이도 분석 모델)

  • Yoon, Su-Hwan;Park, Seong-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.501-506
    • /
    • 2020
  • 질의 난이도 분석 문제는 자연어 질의문을 답변할 때 어려움의 정도를 측정하는 문제이다. 질의 난이도 분석 문제는 문서 독해, 의학 시험, 비디오 질의 등과 같은 다양한 데이터셋에서 연구되어 왔다. 본 논문에서는 질의문과 질의문에 응답하기 위한 정보들 간의 관계를 파악하는 것으로 질의 난이도 분석 문제를 접근하여 이를 BERT와 Dual Multi-head Attention을 사용하여 모델링 하였다. 본 논문에서 제안하는 모델의 우수성을 증명하기 위하여 최근 자연언어이해 부분에서 높은 성능을 보여주는 기 학습 언어 모델과 이전 연구의 질의 난이도 분석 모델과의 성능을 비교하였고, 제안 모델은 대표적인 비디오 질의 응답 데이터셋인 DramaQA의 Memory Complexity에서 99.76%, Logical Complexity에서는 89.47%의 정확도로 가장 높은 질의 난이도 분석 성능을 보여주었다.

  • PDF

Inverse Document Frequency-Based Word Embedding of Unseen Words for Question Answering Systems (질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법)

  • Lee, Wooin;Song, Gwangho;Shim, Kyuseok
    • Journal of KIISE
    • /
    • v.43 no.8
    • /
    • pp.902-909
    • /
    • 2016
  • Question answering system (QA system) is a system that finds an actual answer to the question posed by a user, whereas a typical search engine would only find the links to the relevant documents. Recent works related to the open domain QA systems are receiving much attention in the fields of natural language processing, artificial intelligence, and data mining. However, the prior works on QA systems simply replace all words that are not in the training data with a single token, even though such unseen words are likely to play crucial roles in differentiating the candidate answers from the actual answers. In this paper, we propose a method to compute vectors of such unseen words by taking into account the context in which the words have occurred. Next, we also propose a model which utilizes inverse document frequencies (IDF) to efficiently process unseen words by expanding the system's vocabulary. Finally, we validate that the proposed method and model improve the performance of a QA system through experiments.

The Bi-Cross Pretraining Method to Enhance Language Representation (Bi-Cross 사전 학습을 통한 자연어 이해 성능 향상)

  • Kim, Sung-ju;Kim, Seonhoon;Park, Jinseong;Yoo, Kang Min;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.320-325
    • /
    • 2021
  • BERT는 사전 학습 단계에서 다음 문장 예측 문제와 마스킹된 단어에 대한 예측 문제를 학습하여 여러 자연어 다운스트림 태스크에서 높은 성능을 보였다. 본 연구에서는 BERT의 사전 학습 문제 중 다음 문장 예측 문제에 대해 주목했다. 다음 문장 예측 문제는 자연어 추론 문제와 질의 응답 문제와 같이 임의의 두 문장 사이의 관계를 모델링하는 문제들에 성능 향상을 위해 사용되었다. 하지만 BERT의 다음 문장 예측 문제는 두 문장을 특수 토큰으로 분리하여 단일 문자열 형태로 모델에 입력으로 주어지는 cross-encoding 방식만을 학습하기 때문에 문장을 각각 인코딩하는 bi-encoding 방식의 다운스트림 태스크를 고려하지 않은 점에서 아쉬움이 있다. 본 논문에서는 기존 BERT의 다음 문장 예측 문제를 확장하여 bi-encoding 방식의 다음 문장 예측 문제를 추가적으로 사전 학습하여 단일 문장 분류 문제와 문장 임베딩을 활용하는 문제에서 성능을 향상 시키는 Bi-Cross 사전 학습 기법을 소개한다. Bi-Cross 학습 기법은 영화 리뷰 감성 분류 데이터 셋인 NSMC 데이터 셋에 대해 학습 데이터의 0.1%만 사용하는 학습 환경에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 5점 가량의 성능 향상이 있었다. 또한 KorSTS의 bi-encoding 방식의 문장 임베딩 성능 평가에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 1.5점의 성능 향상을 보였다.

  • PDF