• 제목/요약/키워드: 오픈 도메인

검색결과 68건 처리시간 0.025초

R2FID: Joint Reranker기반 Fusion-In-Decoder를 이용한 오픈 도메인 테이블 질의 응답 (R2FID: Joint Reranker in Fusion-In-Decoder for Open Domain Question Answering over Tables)

  • 이성민;박은환;나승훈;서대룡;전동현;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-104
    • /
    • 2022
  • 오픈 도메인 질의 응답(Open Domain Question Answering)은 주어진 질문에 대한 단서가 주어지지 않은 환경에서 정답을 도출해 내는 어려운 문제이다. 최근 테이블 데이터와 같은 구조화된 데이터에서의 질의응답 시스템에 대한 중요도가 점차 높아지면서, 본 논문에서는 위키피디아에 등장하는 테이블들을 대상으로 한국어 테이블 오픈 도메인 질의 응답 시스템을 구성하기로 한다. 또한, 테이블 검색의 한계를 보완하기 위해 Joint Reranker 기반 Fusion-In-Decoder를 제안하고 적용하여 질의응답 Task에서 베이스라인에 대비하여 EM 3.36, F1-Score 3.25 향상을 이루어냈다.

  • PDF

BM25 기반 고난도 부정 지식 검색을 통한 오픈 도메인 지식 기반 한국어 대화의 지식 검색 모듈 성능 향상 (Improvement of Knowledge Retriever Performance of Open-domain Knowledge-Grounded Korean Dialogue through BM25-based Hard Negative Knowledge Retrieval)

  • 문선아;김산;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.125-130
    • /
    • 2022
  • 최근 자연어처리 연구로 지식 기반 대화에서 대화 내용에 자유로운 주제와 다양한 지식을 포함하는 연구가 활발히 이루어지고 있다. 지식 기반 대화는 대화 내용이 주어질 때 특정 지식 정보를 포함하여 이어질 응답을 생성한다. 이때 대화에 필요한 지식이 검색 가능하여 선택에 제약이 없는 오픈 도메인(Open-domain) 지식 기반 대화가 가능하도록 한다. 오픈 도메인 지식 기반 대화의 성능 향상을 위해서는 대화에 이어지는 자연스러운 답변을 연속적으로 생성하는 응답 생성 모델의 성능 뿐만 아니라, 내용에 어울리는 응답이 생성될 수 있도록 적합한 지식을 선택하는 지식 검색 모델의 성능 향상도 매우 중요하다. 본 논문에서는 오픈 도메인 지식 기반 한국어 대화에서 지식 검색 성능을 높이기 위해 밀집 벡터 기반 검색 방식과 주제어(Keyword) 기반의 검색 방식을 함께 사용하는 것을 제안하였다. 먼저 밀집 벡터 기반의 검색 모델을 학습하고 학습된 모델로부터 고난도 부정(Hard negative) 지식 후보를 생성하고 주제어 기반 검색 방식으로 고난도 부정 지식 후보를 생성하여 각각 밀집 벡터 기반의 검색 모델을 학습하였다. 성능을 측정하기 위해 전체 지식 중에서 하나의 지식을 검색했을 때 정답 지식인 경우를 계산하였고 고난도 부정 지식 후보로 학습한 주제어 기반 검색 모델의 성능이 6.175%로 가장 높은 것을 확인하였다.

  • PDF

지식베이스상 뉴로 심볼릭 관계 모델을 이용한 오픈 도메인 질의응답 (Neuro-symbolic relational models on knowledge base for open-domain question answering)

  • 이영훈;나승훈;최윤수;이혜우;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.433-436
    • /
    • 2020
  • 오픈 도메인 질의응답은 주로 관련된 문서를 검색하고 문서 집합에서 정답을 찾는 방식으로 문제를 해결하는 검색 기반 질의응답 방법을 사용한다. 이러한 검색 기반 질의응답은 정답이 검색된 문서 집합에 존재하지 않는 경우 정답을 찾을 수 없다는 한계가 존재하게 된다. 본 연구에서는 NIL-Aware 방법을 이용하여 Unanswerable한 질문인 경우 문서 자원이 아닌 지식 베이스 자원을 활용하는 뉴로-심볼릭 지식 베이스 질의응답과의 결합 모델을 제안하고 한국어 질의응답 데이터에 적용함으로 제안하는 결합 방법의 유의미성을 확인한다.

  • PDF

기계 독해를 이용한 웹 기반 오픈 도메인 한국어 질의응답 (Web-Scale Open Domain Korean Question Answering with Machine Reading Comprehension)

  • 최동현;김응균;신동렬
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.87-92
    • /
    • 2019
  • 본 논문에서는 기계 독해를 이용한 웹 기반 오픈 도메인 한국어 질의응답 시스템에 대하여 서술한다. 하나의 사용자 질의에 대하여, 본 논문에서 제안된 시스템은 기 존재하는 검색 엔진을 이용하여 실시간으로 최대 1,500 개의 문서를 기계 독해 방식으로 분석하고, 각 문서별로 얻어진 답을 종합함으로써 최종 답변을 도출한다. 실험 결과, 제안된 시스템은 평균적으로 2초 이내의 실행 시간을 보였으며, 사람과 비교하여 86%의 성능을 나타내었다. 본 논문에서 제안된 시스템의 데모는 http://nlp-api.kakao.com에서 확인 가능하다.

  • PDF

LLM을 활용한 오픈 도메인 대화 시스템의 유해성을 완화하는 데이터 증강 기법 (Data Augmentation for Alleviating Toxicity of Open-Domain Dialogue System using LLM)

  • 김산;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.346-351
    • /
    • 2023
  • 오픈 도메인 대화 시스템은 산업에서 다양하게 활용될 수 있지만 유해한 응답을 출력할 수 있다는 위험성이 지적되어 왔다. 본 논문에서는 언급된 위험성을 완화하기 위해 데이터 측면에서 대화 시스템 모델을 개선하는 방법을 제안한다. 대화 모델의 유해한 응답을 유도하도록 설계된 데이터셋을 사용하여 모델이 올바르지 못한 응답을 생성하게 만들고, 이를 LLM을 활용하여 안전한 응답으로 수정한다. 또한 LLM이 정확하게 수정하지 못하는 경우를 고려하여 추가적인 필터링 작업으로 데이터셋을 보완한다. 생성된 데이터셋으로 추가 학습된 대화 모델은 기존 대화 모델에 비해 대화 일관성 및 유해성 면에서 성능이 향상되었음을 확인했다.

  • PDF

베이지안 모델 불확실성에 기반한 오픈도메인 질의응답 (Bayesian Model Uncertainty for Open-domain Question Answering)

  • 이영훈;나승훈;최윤수;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.93-96
    • /
    • 2019
  • 최근 딥러닝 모델을 다양한 도메인에 적용하여 뛰어난 성능을 보여주고 있다. 하지만 딥러닝 모델은 정답으로 제시된 결과가 정상적으로 예측된 결과인지, 단순히 오버피팅에 의해 예측된 결과인지를 구분하기 어렵다. 이러한 불확실성(Uncertainty)을 측정 할 수 없다는 문제점을 해결하기 위해서 본 논문에서는 베이지안 딥러닝 방법 중 하나인 변분추론(Variational Inference)과 몬테카를로 Dropout을 오픈도메인(Open-Domain) 태스크에 적용하고, 예측 결과에 대한 불확실성을 측정하여 예측결과에 영향을 주는 모델의 성능을 측정해 효과성을 보인다.

  • PDF

다중 작업, 다중 홉 질문 응답을 위한 그래프 추론 및 맥락 융합 (Graph Reasoning and Context Fusion for Multi-Task, Multi-Hop Question Answering)

  • 이상의;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권8호
    • /
    • pp.319-330
    • /
    • 2021
  • 최근 오픈 도메인 자연어 질문 응답 분야에서는 다중 작업, 다중 홉 질문 응답에 관한 연구들이 활발히 진행되어 오고 있다. 본 논문에서는 이러한 다중 작업, 다중 홉 질문들에 효과적으로 응답하기 위해, 계층적 그래프 기반의 새로운 심층 신경망 모델을 제안한다. 제안 모델에서는 계층적 그래프와 그래프 신경망을 이용해 여러 문단들로부터 서로 다른 수준의 맥락 정보를 얻어낸 후, 이들을 활용하여 답변 유형, 뒷받침 문장들과 답변 영역 등을 동시에 예측해낸다. 본 논문에서는 오픈 도메인 자연어 질문 응답 데이터 집합인 HotpotQA를 이용한 실험들을 통해, 제안 모델의 높은 성능과 긍정적 효과를 입증한다.

오픈 도메인 질의응답을 위한 질문-구절의 밀집 벡터 표현 연구 (A Study on the Dense Vector Representation of Query-Passage for Open Domain Question Answering)

  • 정민지;이새벽;김영준;허철훈;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-121
    • /
    • 2022
  • 질문에 답하기 위해 관련 구절을 검색하는 기술은 오픈 도메인 질의응답의 검색 단계를 위해 필요하다. 전통적인 방법은 정보 검색 기법인 빈도-역문서 빈도(TF-IDF) 기반으로 희소한 벡터 표현을 활용하여 구절을 검색한다. 하지만 희소 벡터 표현은 벡터 길이가 길 뿐만 아니라, 질문에 나오지 않는 단어나 토큰을 검색하지 못한다는 취약점을 가진다. 밀집 벡터 표현 연구는 이러한 취약점을 개선하고 있으며 대부분의 연구가 영어 데이터셋을 학습한 것이다. 따라서, 본 연구는 한국어 데이터셋을 학습한 밀집 벡터 표현을 연구하고 여러 가지 부정 샘플(negative sample) 추출 방법을 도입하여 전이 학습한 모델 성능을 비교 분석한다. 또한, 대화 응답 선택 태스크에서 밀집 검색에 활용한 순위 재지정 상호작용 레이어를 추가한 실험을 진행하고 비교 분석한다. 밀집 벡터 표현 모델을 학습하는 것이 도전적인 과제인만큼 향후에도 다양한 시도가 필요할 것으로 보인다.

  • PDF

다중 홉 다중 작업 질문 응답을 위한 계층적 그래프 추론 (Hierarchical Graph Reasoning for Multi-hop, Multi-task Question Answering)

  • 이상의;이기호;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.984-987
    • /
    • 2020
  • 최근 오픈 도메인 자연어 질문 응답 분야에서는 폭넓은 다중 문서들을 토대로 다중 홉 추론과 동시에 서로 다른 수준의 여러 문제들을 한꺼번에 해결해야 하는 다중 작업 질문 응답에 관한 관심이 높다. 본 논문에서는 이러한 다중 홉 추론과 다중 작업을 요구하는 복잡 질문들에 효과적으로 응답하기 위해, 계층적 그래프 기반의 새로운 심층 신경망 모델을 제안한다. 제안 모델에서는 계층적 그래프와 그래프 신경망을 이용해 다중 문서들로부터 서로 다른 수준의 맥락 정보를 얻어낸 후, 이들을 활용하여 뒷받침 문장들, 답변 영역, 응답 유형 등을 동시에 구해야 하는 다중 작업 문제에 관한 답들을 예측해낸다. 본 논문에서는 오픈 도메인 자연어 질문 응답 데이터 집합인 HotpotQA를 이용한 실험들을 통해, 제안 모델의 긍정적 효과를 입증한다.