• Title/Summary/Keyword: 문서 독해

Search Result 64, Processing Time 0.025 seconds

Web-Scale Open Domain Korean Question Answering with Machine Reading Comprehension (기계 독해를 이용한 웹 기반 오픈 도메인 한국어 질의응답)

  • Choi, DongHyun;Kim, EungGyun;Shin, Dong Ryeol
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.87-92
    • /
    • 2019
  • 본 논문에서는 기계 독해를 이용한 웹 기반 오픈 도메인 한국어 질의응답 시스템에 대하여 서술한다. 하나의 사용자 질의에 대하여, 본 논문에서 제안된 시스템은 기 존재하는 검색 엔진을 이용하여 실시간으로 최대 1,500 개의 문서를 기계 독해 방식으로 분석하고, 각 문서별로 얻어진 답을 종합함으로써 최종 답변을 도출한다. 실험 결과, 제안된 시스템은 평균적으로 2초 이내의 실행 시간을 보였으며, 사람과 비교하여 86%의 성능을 나타내었다. 본 논문에서 제안된 시스템의 데모는 http://nlp-api.kakao.com에서 확인 가능하다.

  • PDF

PALM for Improving Korean T5: Application to Machine Reading Comprehension & Text Summarization (PALM 기반 한국어 T5 개선: 기계독해 및 텍스트 요약으로의 응용)

  • Park, Eunhwan;Na, Seung-Hoon;Lim, Joon-Ho;Kim, Tae-Hyeong;Choi, Yun-Su;Chang, Du-Seong
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.501-504
    • /
    • 2021
  • 최근 언어 모델은 분류, 기계 독해, 생성 등의 태스크에서 성공적인 결과를 보여주고 있다. 본 논문에서는 최근 많은 관심을 받고 있는 인코더-디코더 구조의 언어 모델인 BART, T5 그리고 PALM을 위키피디아 한국어 데이터 집합으로 사전 학습한 후 기계 독해와 문서 생성 요약 태스크에 대하여 미세 조정을 하고 성능 비교를 한다.

  • PDF

Using Answer-Separated Encoder And Copying Mechanism (정답 분리 인코더와 복사 메커니즘을 이용한 한국어 질문 생성)

  • Kim, Geon-Yeong;Lee, Chang-Ki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.419-423
    • /
    • 2019
  • 질문과 그에 대한 근거가 있는 문서를 읽고 정답을 예측하는 기계 독해 연구가 최근 활발하게 연구되고 있다. 기계 독해 문제를 위해 주로 사용되는 방법은 다층의 신경망으로 구성된 딥러닝 모델로 좋은 성능을 위해서는 양질의 대용량 학습 데이터가 필요하다. 그러나 질과 양을 동시에 만족하는 학습 데이터를 구축하는 작업에는 많은 경제적 비용이 소모된다. 이러한 문제를 해결하기 위해, 본 논문에서는 정답 분리 인코더와 복사 메커니즘을 이용한 단답 기반 한국어 질문 자동 생성 모델을 제안한다.

  • PDF

TOEIC Model Training Through Template-Based Fine-Tuning (템플릿 기반 미세조정을 통한 토익 모델 훈련)

  • Jeongwoo Lee;Hyeonseok Moon;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.324-328
    • /
    • 2022
  • 기계 독해란 주어진 문서를 이해하고 문서 내의 내용에 대한 질문에 답을 추론하는 연구 분야이며, 기계 독해 문제의 종류 중에는 여러 개의 선택지에서 질문에 대한 답을 선택하는 객관식 형태의 문제가 존재한다. 이러한 자연어 처리 문제를 해결하기 위해 기존 연구에서는 사전학습된 언어 모델을 미세조정하여 사용하는 방법이 널리 활용되고 있으나, 학습 데이터가 부족한 환경에서는 기존의 일반적인 미세조정 방법으로 모델의 성능을 높이는 것이 제한적이며 사전학습된 의미론적인 정보를 충분히 활용하지 못하여 성능 향상에 한계가 있다. 이에 본 연구에서는 기존의 일반적인 미세조정 방법에 템플릿을 적용한 템플릿 기반 미세조정 방법을 통해 사전학습된 의미론적인 정보를 더욱 활용할 수 있도록 한다. 객관식 형태의 기계 독해 문제 중 하나인 토익 문제에 대해 모델을 템플릿 기반 미세조정 방법으로 실험을 진행하여 템플릿이 모델 학습에 어떠한 영향을 주는지 확인하였다.

  • PDF

XML document transformation for small-screen device (소형 스크린 장치를 위한 XML 문서 변환)

  • 이영호;김상훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.856-858
    • /
    • 2004
  • PDA나 휴대폰 같은 모바일 장치는 데스크 탑 컴퓨터에 비해 상대적으로 작은 스크린을 가진다 웹 문서는 일반적으로 데스크 탑 컴퓨터 스크린을 기준으로 작성되기 때문에 이러한 웹 문서가 모바일 장치에서 표현되기 위해서는 다수의 좌, 우 스크롤을 필요하게 된다. 이는 문서 내용의 독이성을 떨어뜨리며 사용자에게 많은 불편함을 준다. 본 논문에서는 XML로 작성된 웹 문서를 소형 스크린 장치에 적합하도록 변환하는 주석 기반 XML 변환 시스템을 제안한다. XML 변환 시스템은 분할 정보가 기술된 외부 주석을 이용하여 XML 문서를 소형 스크린에 알맞은 다수의 XML 문서로 분할하고, 분할된 XML 문서를 HTML 문서로 변환하는 과정으로 XML 문서 변환을 처리한다.

  • PDF

Korean Baseball League Q&A System Using BERT MRC (BERT MRC를 활용한 한국 프로야구 Q&A 시스템)

  • Seo, JungWoo;Kim, Changmin;Kim, HyoJin;Lee, Hyunah
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.459-461
    • /
    • 2020
  • 매일 게시되는 다양한 프로야구 관련 기사에는 경기 결과, 각종 기록, 선수의 부상 등 다양한 정보가 뒤섞여있어, 사용자가 원하는 정보를 찾아내는 과정이 매우 번거롭다. 본 논문에서는 문서 검색과 기계 독해를 이용하여 야구 분야에 대한 Q&A 시스템을 제안한다. 기사를 형태소 분석하고 BM25 알고리즘으로 얻은 문서 가중치로 사용자 질의에 적합한 기사들을 선정하고 KorQuAD 1.0과 직접 구축한 프로야구 질의응답 데이터셋을 이용해 학습시킨 BERT 모델 기반 기계 독해로 답변 추출을 진행한다. 야구 특화 데이터 셋을 추가하여 학습시켰을 때 F1 score, EM 모두 15% 내외의 정확도 향상을 보였다.

  • PDF

Pre-trained Language Model for Table Question and Answering (표 질의응답을 위한 언어 모델 학습 및 데이터 구축)

  • Sim, Myoseop;Jun, Changwook;Choi, Jooyoung;Kim, Hyun;Jang, Hansol;Min, Kyungkoo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.335-339
    • /
    • 2021
  • 기계독해(MRC)는 인공지능 알고리즘이 문서를 이해하고 질문에 대한 정답을 찾는 기술이다. MRC는 사전 학습 모델을 사용하여 높은 성능을 내고 있고, 일반 텍스트문서 뿐만 아니라 문서 내의 테이블(표)에서도 정답을 찾고자 하는 연구에 활발히 적용되고 있다. 본 연구에서는 기존의 사전학습 모델을 테이블 데이터에 활용하여 질의응답을 할 수 있는 방법을 제안한다. 더불어 테이블 데이터를 효율적으로 학습하기 위한 데이터 구성 방법을 소개한다. 사전학습 모델은 BERT[1]를 사용하여 테이블 정보를 인코딩하고 Masked Entity Recovery(MER) 방식을 사용한다. 테이블 질의응답 모델 학습을 위해 한국어 위키 문서에서 표와 연관 텍스트를 추출하여 사전학습을 진행하였고, 미세 조정은 샘플링한 테이블에 대한 질문-답변 데이터 약 7만건을 구성하여 진행하였다. 결과로 KorQuAD2.0 데이터셋의 테이블 관련 질문 데이터에서 EM 69.07, F1 78.34로 기존 연구보다 우수한 성능을 보였다.

  • PDF

Generative Evidence Inference Method using Document Summarization Dataset (문서 요약 데이터셋을 이용한 생성형 근거 추론 방법)

  • Yeajin Jang;Youngjin Jang;Harksoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.137-140
    • /
    • 2023
  • 자연어처리는 인공지능 발전과 함께 주목받는 분야로 컴퓨터가 인간의 언어를 이해하게 하는 기술이다. 그러나 많은 인공지능 모델은 블랙박스처럼 동작하여 그 원리를 해석하거나 이해하기 힘들다는 문제점이 있다. 이 문제를 해결하기 위해 설명 가능한 인공지능의 중요성이 강조되고 있으며, 활발히 연구되고 있다. 연구 초기에는 모델의 예측에 큰 영향을 끼치는 단어나 절을 근거로 추출했지만 문제 해결을 위한 단서 수준에 그쳤으며, 이후 문장 단위의 근거로 확장된 연구가 수행되었다. 하지만 문서 내에 서로 떨어져 있는 근거 문장 사이에 누락된 문맥 정보로 인하여 이해에 어려움을 줄 수 있다. 따라서 본 논문에서는 사람에게 보다 이해하기 쉬운 근거를 제공하기 위한 생성형 기반의 근거 추론 연구를 수행하고자 한다. 높은 수준의 자연어 이해 능력이 필요한 문서 요약 데이터셋을 활용하여 근거를 생성하고자 하며, 실험을 통해 일부 기계독해 데이터 샘플에서 예측에 대한 적절한 근거를 제공하는 것을 확인했다.

  • PDF

Korean Coreference Resolution using Machine Reading Comprehension (기계 독해 기술을 이용한 한국어 대명사 참조해결)

  • Lee, Dong-heon;Kim, Ki-hun;Lee, Chang-ki;Ryu, Ji-hee;Lim, Joon-ho
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.151-154
    • /
    • 2020
  • 대명사 참조해결은 문서 내에 등장하는 대명사와 이에 대응되는 선행사를 찾는 자연어처리 태스크이다. 기계 독해는 문단과 질문을 입력 받아 질문에 해당하는 알맞은 정답을 문단 내에서 찾아내는 태스크이며, 최근에는 주로 BERT 기반의 모델이 가장 좋은 성능을 보이고 있다. 이러한 BERT 기반 모델의 성공에 따라, 최근 여러 연구에서 자연어처리 태스크를 기계 독해 문제로 변환하여 해결하는 연구들이 진행되고 있다. 본 논문에서는 최근 여러 자연어처리에서 뛰어난 성능을 보이고 있는 BERT 기반 기계 독해 모델을 이용하여 한국어 대명사 참조해결 연구를 진행하였다. 사전 학습 된 기계 독해 모델을 사용하여 한국어 대명사 참조해결 데이터로 fine-tuning하여 실험한 결과, 개발셋에서 EM 78.51%, F1 84.79%의 성능을 보였고, 평가셋에서 EM 70.78%, F1 80.19%의 성능을 보였다.

  • PDF

Machine Reading Comprehension based on Language Model with Knowledge Graph (대규모 지식그래프와 딥러닝 언어모델을 활용한 기계 독해 기술)

  • Kim, Seonghyun;Kim, Sungman;Hwang, Seokhyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.922-925
    • /
    • 2019
  • 기계 독해 기술은 기계가 주어진 비정형 문서 내에서 사용자의 질문을 이해하여 답변을 하는 기술로써, 챗봇이나 스마트 스피커 등, 사용자 질의응답 분야에서 핵심이 되는 기술 중 하나이다. 최근 딥러닝을 이용한 기학습 언어모델과 전이학습을 통해 사람의 기계 독해 능력을 뛰어넘는 방법론들이 제시되었다. 하지만 이러한 방식은 사람이 인식하는 질의응답 방법과 달리, 개체가 가지는 의미론(Semantic) 관점보다는 토큰 단위로 분리된 개체의 형태(Syntactic)와 등장하는 문맥(Context)에 의존해 기계 독해를 수행하였다. 본 논문에서는 기존의 높은 성능을 나타내던 기학습 언어모델에 대규모 지식그래프에 등장하는 개체 정보를 함께 학습함으로써, 의미학적 정보를 반영하는 방법을 제시한다. 본 논문이 제시하는 방법을 통해 기존 방법보다 기계 독해 분야에서 높은 성능향상 결과를 얻을 수 있었다.