• 제목/요약/키워드: 오픈 도메인 질문 응답

검색결과 19건 처리시간 0.022초

KorQuAD를 활용한 한국어 오픈도메인 질의응답 시스템 (Korean Open Domain Question Answering System Using KorQuAD)

  • 조상현;김민호;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.321-325
    • /
    • 2019
  • 오픈 도메인 질의응답이란, 질문을 줬을 때 그 질문과 연관성이 높은 문서를 검색하고 검색된 문서에서 정답을 추출하는 태스크이다. 본 논문은 기계 독해 데이터인 KorQuAD를 활용한 오픈도메인 질의응답 시스템을 제안한다. 문서 검색기를 이용하여 질문과 관련 있는 위키피디아 문서들을 검색하고 검색된 문서에 단락 선택 모델을 통해서 문서 질문과 연관성이 높은 단락들을 선별하여 기계 독해 모델에서 처리해야 할 입력의 수를 줄였다. 문서 선별모델에서 선별된 여러 단락에서 추출된 정답 후보에서 여러 가지 정답 모형을 적용하여 성능을 비교하는 실험을 하였다. 본 논문에서 제안한 오픈도메인 질의응답 시스템을 KorQuAD에 적용했을 때, 개발 데이터에서 EM 40.42%, F1 55.34%의 성능을 보였다.

  • PDF

다중 작업, 다중 홉 질문 응답을 위한 그래프 추론 및 맥락 융합 (Graph Reasoning and Context Fusion for Multi-Task, Multi-Hop Question Answering)

  • 이상의;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권8호
    • /
    • pp.319-330
    • /
    • 2021
  • 최근 오픈 도메인 자연어 질문 응답 분야에서는 다중 작업, 다중 홉 질문 응답에 관한 연구들이 활발히 진행되어 오고 있다. 본 논문에서는 이러한 다중 작업, 다중 홉 질문들에 효과적으로 응답하기 위해, 계층적 그래프 기반의 새로운 심층 신경망 모델을 제안한다. 제안 모델에서는 계층적 그래프와 그래프 신경망을 이용해 여러 문단들로부터 서로 다른 수준의 맥락 정보를 얻어낸 후, 이들을 활용하여 답변 유형, 뒷받침 문장들과 답변 영역 등을 동시에 예측해낸다. 본 논문에서는 오픈 도메인 자연어 질문 응답 데이터 집합인 HotpotQA를 이용한 실험들을 통해, 제안 모델의 높은 성능과 긍정적 효과를 입증한다.

FiD를 이용한 멀티 모달 오픈 도메인 질의 응답 (Fusion-in-Decoder for Open Domain Multi-Modal Question Answering)

  • 박은환;이성민;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-99
    • /
    • 2022
  • 오픈 도메인 질의 응답 (ODQA, Open-Domain Question Answering)은 주어진 질문에 대한 답을 찾는 과업으로서 질문과 관련있는 지식을 찾는 "검색" 단계를 필요로 한다. 최근 이미지, 테이블 등의 검색을 요구하는 멀티 모달 ODQA에 대한 연구가 많이 진행되었을 뿐만 아니라 산업에서의 중요도 또한 높아지고 있다. 본 논문은 여러 종류의 멀티 모달 ODQA 중에서도 테이블 - 텍스트 기반 멀티 모달 ODQA 데이터 집합으로 Fusion-in-Decoder (FiD)를 이용한 멀티 모달 오픈 도메인 질의 응답 연구를 제안하며 베이스라인 대비 최대 EM 20.5, F1 23.2 향상을 보였다.

  • PDF

다중 홉 다중 작업 질문 응답을 위한 계층적 그래프 추론 (Hierarchical Graph Reasoning for Multi-hop, Multi-task Question Answering)

  • 이상의;이기호;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.984-987
    • /
    • 2020
  • 최근 오픈 도메인 자연어 질문 응답 분야에서는 폭넓은 다중 문서들을 토대로 다중 홉 추론과 동시에 서로 다른 수준의 여러 문제들을 한꺼번에 해결해야 하는 다중 작업 질문 응답에 관한 관심이 높다. 본 논문에서는 이러한 다중 홉 추론과 다중 작업을 요구하는 복잡 질문들에 효과적으로 응답하기 위해, 계층적 그래프 기반의 새로운 심층 신경망 모델을 제안한다. 제안 모델에서는 계층적 그래프와 그래프 신경망을 이용해 다중 문서들로부터 서로 다른 수준의 맥락 정보를 얻어낸 후, 이들을 활용하여 뒷받침 문장들, 답변 영역, 응답 유형 등을 동시에 구해야 하는 다중 작업 문제에 관한 답들을 예측해낸다. 본 논문에서는 오픈 도메인 자연어 질문 응답 데이터 집합인 HotpotQA를 이용한 실험들을 통해, 제안 모델의 긍정적 효과를 입증한다.

오픈도메인 질의문 자동 분류를 위한 주석 말뭉치 구축 연구 (A study on the Construction of Annotated corpora for the Automatic Classification of Open Domain Queries)

  • 안애림;이서진;최동현;김응균;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.309-314
    • /
    • 2019
  • 본 연구는 오픈도메인 자연어 질의문 유형을 '질문 초점(Question Focus)'에 따라 분류하고, 기계학습 기반 질의문 유형 분류기의 성능 향상을 위한 주석 말뭉치 구축을 목표로 한다. 오픈도메인 질의문 분석을 통해 의문사 등의 키워드 기반 질의문 유형 분류의 한계를 설명하고, 질의문 내의 비명시적인 의미자질을 고려한 질문 초점 기반 질의문 유형 분류 기준을 정의하였다. 이 기준에 따라 구축된 112,856 문장의 주석 말뭉치를 기계학습(CNN) 기반 문장 분류 시스템의 학습 데이터로 사용하여 실험한 결과 F1-Score 97.72%성능을 보였다. 또한 이를 카카오 오픈도메인 질의응답시스템에 적용하여 질의문 확장을 위한 의미 자질로 사용하였고 그 결과 전체 시스템 성능을 1.6%p 향상시켰다.

  • PDF

R2FID: Joint Reranker기반 Fusion-In-Decoder를 이용한 오픈 도메인 테이블 질의 응답 (R2FID: Joint Reranker in Fusion-In-Decoder for Open Domain Question Answering over Tables)

  • 이성민;박은환;나승훈;서대룡;전동현;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-104
    • /
    • 2022
  • 오픈 도메인 질의 응답(Open Domain Question Answering)은 주어진 질문에 대한 단서가 주어지지 않은 환경에서 정답을 도출해 내는 어려운 문제이다. 최근 테이블 데이터와 같은 구조화된 데이터에서의 질의응답 시스템에 대한 중요도가 점차 높아지면서, 본 논문에서는 위키피디아에 등장하는 테이블들을 대상으로 한국어 테이블 오픈 도메인 질의 응답 시스템을 구성하기로 한다. 또한, 테이블 검색의 한계를 보완하기 위해 Joint Reranker 기반 Fusion-In-Decoder를 제안하고 적용하여 질의응답 Task에서 베이스라인에 대비하여 EM 3.36, F1-Score 3.25 향상을 이루어냈다.

  • PDF

REALM을 이용한 한국어 오픈도메인 질의 응답 (REALM for Open-domain Question Answering of Korean)

  • 강동찬;나승훈;최윤수;이혜우;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.192-196
    • /
    • 2020
  • 최근 딥러닝 기술의 발전에 힘입어 오픈 도메인 QA 시스템의 발전은 가속화되고 있다. 특히 IR 시스템(Information Retrieval)과 추출 기반의 기계 독해 모델을 결합한 접근 방식(IRQA)의 경우, 문서와 질문 각각을 연속 벡터로 인코딩하는 IR 시스템(Dense Retrieval)의 연구가 진행되면서 검색 성능이 전통적인 키워드 기반 IR 시스템에 비해 큰 폭으로 상승하였고, 이를 기반으로 오픈 도메인 질의응답의 성능 또한 개선 되었다. 본 논문에서는 경량화 된 BERT 모델을 기반으로 하여 Dense Retrieval 모델 ORQA와 REALM을 사전 학습하고, 한국어 오픈 도메인 QA에서 QA 성능과 검색 성능을 도출한다. 실험 결과, 키워드 기반 IR 시스템 BM25를 기반으로 했던 이전 IRQA 실험결과와 비교하여 더 적은 문서로 더 나은 QA 성능을 보였으며, 검색 결과의 경우, BM25의 성능을 뛰어넘는 결과를 보였다.

  • PDF

오픈 도메인 질의응답을 위한 질문-구절의 밀집 벡터 표현 연구 (A Study on the Dense Vector Representation of Query-Passage for Open Domain Question Answering)

  • 정민지;이새벽;김영준;허철훈;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-121
    • /
    • 2022
  • 질문에 답하기 위해 관련 구절을 검색하는 기술은 오픈 도메인 질의응답의 검색 단계를 위해 필요하다. 전통적인 방법은 정보 검색 기법인 빈도-역문서 빈도(TF-IDF) 기반으로 희소한 벡터 표현을 활용하여 구절을 검색한다. 하지만 희소 벡터 표현은 벡터 길이가 길 뿐만 아니라, 질문에 나오지 않는 단어나 토큰을 검색하지 못한다는 취약점을 가진다. 밀집 벡터 표현 연구는 이러한 취약점을 개선하고 있으며 대부분의 연구가 영어 데이터셋을 학습한 것이다. 따라서, 본 연구는 한국어 데이터셋을 학습한 밀집 벡터 표현을 연구하고 여러 가지 부정 샘플(negative sample) 추출 방법을 도입하여 전이 학습한 모델 성능을 비교 분석한다. 또한, 대화 응답 선택 태스크에서 밀집 검색에 활용한 순위 재지정 상호작용 레이어를 추가한 실험을 진행하고 비교 분석한다. 밀집 벡터 표현 모델을 학습하는 것이 도전적인 과제인만큼 향후에도 다양한 시도가 필요할 것으로 보인다.

  • PDF

지식베이스상 뉴로 심볼릭 관계 모델을 이용한 오픈 도메인 질의응답 (Neuro-symbolic relational models on knowledge base for open-domain question answering)

  • 이영훈;나승훈;최윤수;이혜우;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.433-436
    • /
    • 2020
  • 오픈 도메인 질의응답은 주로 관련된 문서를 검색하고 문서 집합에서 정답을 찾는 방식으로 문제를 해결하는 검색 기반 질의응답 방법을 사용한다. 이러한 검색 기반 질의응답은 정답이 검색된 문서 집합에 존재하지 않는 경우 정답을 찾을 수 없다는 한계가 존재하게 된다. 본 연구에서는 NIL-Aware 방법을 이용하여 Unanswerable한 질문인 경우 문서 자원이 아닌 지식 베이스 자원을 활용하는 뉴로-심볼릭 지식 베이스 질의응답과의 결합 모델을 제안하고 한국어 질의응답 데이터에 적용함으로 제안하는 결합 방법의 유의미성을 확인한다.

  • PDF

다중 홉 질문 응답을 위한 쌍 선형 그래프 신경망 기반 추론 (Bilinear Graph Neural Network-Based Reasoning for Multi-Hop Question Answering)

  • 이상의;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권8호
    • /
    • pp.243-250
    • /
    • 2020
  • 지식 그래프 기반의 질문 응답 문제는 자연어 질문들에 대한 깊은 이해뿐만 아니라, 대규모 지식 그래프 상에서 올바른 답변을 찾기 위한 효과적인 추론 능력을 필요로 한다. 본 논문에서는 다중 홉 추론을 요구하는 복잡한 자연어 질문에 대해 연관 지식 그래프 위에서 답변 추론을 효과적으로 수행할 수 있는 심층 신경망 모델을 제안한다. 제안 모델에서는 지식 그래프 상의 각 개체 노드와 이웃 노드 간의 양방향 특징 전파를 허용할뿐만 아니라, 두 이웃 노드 쌍 간의 맥락 정보까지 활용할 수 있는, 표현력이 뛰어난 쌍 선형 그래프 신경망(BGNN)을 이용한다. 본 논문에서는 오픈 도메인의 지식 베이스인 Freebase, 자연어 질문 응답을 위한 벤치마크 데이터 집합들인 WebQuestionsSP와 MetaQA를 이용한 실험들을 통해, 제안 모델의 효과와 우수성을 확인하였다.