• 제목/요약/키워드: 오픈도메인 질의응답

검색결과 23건 처리시간 0.028초

오픈 도메인 질의응답을 위한 질문-구절의 밀집 벡터 표현 연구 (A Study on the Dense Vector Representation of Query-Passage for Open Domain Question Answering)

  • 정민지;이새벽;김영준;허철훈;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-121
    • /
    • 2022
  • 질문에 답하기 위해 관련 구절을 검색하는 기술은 오픈 도메인 질의응답의 검색 단계를 위해 필요하다. 전통적인 방법은 정보 검색 기법인 빈도-역문서 빈도(TF-IDF) 기반으로 희소한 벡터 표현을 활용하여 구절을 검색한다. 하지만 희소 벡터 표현은 벡터 길이가 길 뿐만 아니라, 질문에 나오지 않는 단어나 토큰을 검색하지 못한다는 취약점을 가진다. 밀집 벡터 표현 연구는 이러한 취약점을 개선하고 있으며 대부분의 연구가 영어 데이터셋을 학습한 것이다. 따라서, 본 연구는 한국어 데이터셋을 학습한 밀집 벡터 표현을 연구하고 여러 가지 부정 샘플(negative sample) 추출 방법을 도입하여 전이 학습한 모델 성능을 비교 분석한다. 또한, 대화 응답 선택 태스크에서 밀집 검색에 활용한 순위 재지정 상호작용 레이어를 추가한 실험을 진행하고 비교 분석한다. 밀집 벡터 표현 모델을 학습하는 것이 도전적인 과제인만큼 향후에도 다양한 시도가 필요할 것으로 보인다.

  • PDF

멀티-세션 오픈 도메인 지식기반 대화 수집 툴 (Multi-Session Open Domain Knowledge-based dialog collection Tool)

  • 김태용;김산;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-496
    • /
    • 2022
  • 최근 멀티-세션 데이터로 장기간 페르소나와 대화 일관성을 유지하며 인터넷에서 대화와 관련된 지식을 활용하는 대화모델 연구가 활발히 진행되고 있다. 하지만 이를 위한 한국어 멀티-세션 오픈 도메인 지식 기반 대화 데이터는 공개되지 않아 한국어 대화모델 연구에 어려움이 있다. 따라서 본 논문에서는 한국어 멀티-세션 오픈 도메인 지식 기반 데이터의 필요성을 시사하고, 데이터 수집을 위한 툴을 제안한다. 제안하는 수집 툴은 양질의 데이터 수집을 위해 작업자들이 사용하기 편하도록 UI/UX를 구성하였으며, 대화 생성 시 텍스트뿐만 아니라 정보가 밀집된 테이블도 대화에 활용할 지식으로 참조할 수 있도록 구현하였다. 제안하는 수집 툴은 웹 랜덤채팅 시스템에 기반을 두어 작업자가 여러 다른 작업자와 같은 확률로 매칭되게 구현되었으며, 일정 확률로 기존 대화로부터 대화를 시작하도록 함으로써 멀티-세션 대화 수집이 가능하도록 하였다.

  • PDF

다중소스 기반 질의 응답 시스템 (Multi-source based Question Answering System)

  • 박선영;권순철;최준휘;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.209-212
    • /
    • 2015
  • 본 논문에서는 지식베이스와 다중 소스 레이블 문서를 동시에 활용한 다중소스 기반 오픈 도메인 질의 응답 시스템에 대해 소개한다. 제안하는 질의 응답 시스템은 자연어처리를 기반으로 한 질의 분석 모듈, SPARQL (Simple protocol and RDF Query Language) query 생성 및 검색 부분, 다중 소스 레이블 문서 검색 부분으로 이루어져 있다. 정확도가 높은 지식베이스 기반의 질의 응답 시스템으로 정답을 우선 탐색한다. 지식베이스 기반 질의 응답 시스템으로 정답을 찾는 데 실패하거나, SPARQL query 생성에 실패하면, 다중 소스가 레이블된 문서 검색을 통해 정답을 찾는다. 제안하는 질의 응답 시스템은 지식베이스만 사용한 질의 응답 시스템보다 높은 성능을 보인다.

  • PDF

한국어 질의 응답에서의 화제성을 고려한 딥러닝 기반 정답 유형 분류기 (Deep learning-based Answer Type Classifier Considering Topicality in Korean Question Answering)

  • 조승우;최동현;김응균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.103-108
    • /
    • 2019
  • 한국어 질의 응답의 입력 질문에 대한 예상 정답 유형을 단답형 또는 서술형으로 이진 분류하는 방법에 대해 서술한다. 일반적인 개체명 인식으로 확인할 수 없는 질의 주제어의 화제성을 반영하기 위하여, 검색 엔진 쿼리를 빈도수로 분석한다. 분석된 질의 주제어 정보와 함께, 정답의 범위를 제약할 수 있는 속성 표현과 육하원칙 정보를 입력 자질로 사용한다. 기존 신경망 분류 모델과 비교한 실험에서, 추가 자질을 적용한 모델이 4% 정도 향상된 분류 성능을 보이는 것을 확인할 수 있었다.

  • PDF

검색모델과 LLM의 상호작용을 활용한 사고사슬 기반의 한국어 질의응답 (Interactions of Retriever and LLM on Chain-of-Thought Reasoning for Korean Question Answering)

  • 박민준;심묘섭;민경구;최주영;정해민;최정규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.618-621
    • /
    • 2023
  • 최근 거대언어모델(LLM)이 기계 번역 및 기계 독해를 포함한 다양한 문제들에서 높은 성능을 보이고 있다. 특히 프롬프트 기반의 대규모 언어 모델은 사고사슬 방식으로 적절한 프롬프팅을 통해 원하는 형식의 답변을 생성할 수 있으며 자연어 추론 단계에서도 높은 정확도를 보여주고 있다. 그러나 근본적으로 LLM의 매개변수에 질문에 관련된 지식이 없거나 최신 정보로 업데이트 되지 않은 경우 추론이 어렵다. 이를 해결하기 위해, 본 연구는 검색문서와 생성모델의 상호작용을 통해 답변하는 한국어 질의응답 모델을 제안한다. 검색이 어려운 경우 생성형 모델을 통해 질문과 관련된 문장을 생성하며, 이는 다시 검색모델과 추론 과정에서 활용된다. 추가로 "판단불가"라는 프롬프팅을 통해 모델이 답변할 수 없는 경우를 스스로 판단하게 한다. 본 연구결과에서 GPT3를 활용한 사고사슬 모델이 63.4의 F1 점수를 보여주며 생성형 모델과 검색모델의 융합이 적절한 프롬프팅을 통해 오픈-도메인 질의응답에서 성능의 향상을 보여준다.

  • PDF

Lexico-Semantic Pattern을 이용한 오픈 도메인 질의 응답 시스템 (Open-domain Question Answering Using Lexico-Semantic Patterns)

  • 이승우;정한민;곽병관;김동석;차정원;안주희;이근배;김학수;김경선;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.538-545
    • /
    • 2001
  • 본 연구에서는 오픈 도메인에서 동작할 수 있는 질의 응답 시스템(Open-domain Question Answer ing System)을 구현하고 영어권 TREC에 참가한 결과를 기술하였다. 정답 유형을 18개의 상위 노드를 갖는 계층구조로 분류하였고, 질문 처리에서는 LSP(Lexico-Semantic Pattern)으로 표현된 문법을 사용하여 질문의 정답 유형을 결정하고, lemma 형태와 WordNet 의미, stem 형태의 3가지 유형의 키워드로 구성된 질의를 생성한다. 이 질의를 바탕으로, 패시지 선택에서는 문서검색 엔진에 의해 검색된 문서들을 문장단위로 나눠 정수를 계산하고, 어휘체인(Lexical Chain)을 고려하여 인접한 문장을 결합하여 패시지를 구성하고 순위를 결정한다. 상위 랭크의 패시지를 대상으로, 정답 처리에서는 질문의 정답 유형에 따라 품사와 어휘, 의미 정보로 기술된 LSP 매칭과 AAO (Abbreviation-Appositive-Definition) 처리를 통해 정답을 추출하고 정수를 계산하여 순위를 결정한다. 구현된 시스템의 성능을 평가하기 위해 TREC10 QA Track의 main task의 질문들 중, 200개의 질문에 대해 TRIC 방식으로 자체 평가를 한 결과, MRR(Mean Reciprocal Rank)은 0.341로 TREC9의 상위 시스템들과 견줄 만한 성능을 보였다.

  • PDF

질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법 (Inverse Document Frequency-Based Word Embedding of Unseen Words for Question Answering Systems)

  • 이우인;송광호;심규석
    • 정보과학회 논문지
    • /
    • 제43권8호
    • /
    • pp.902-909
    • /
    • 2016
  • 질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고 있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.

디지털 개인비서 동향과 미래 (Trends and Future of Digital Personal Assistant)

  • 권오욱;이기영;이요한;노윤형;조민수;황금하;임수종;최승권;김영길
    • 전자통신동향분석
    • /
    • 제36권1호
    • /
    • pp.1-11
    • /
    • 2021
  • In this study, we introduce trends in and the future of digital personal assistants. Recently, digital personal assistants have begun to handle many tasks like humans by communicating with users in human language on smart devices such as smart phones, smart speakers, and smart cars. Their capabilities range from simple voice commands and chitchat to complex tasks such as device control, reservation, ordering, and scheduling. The digital personal assistants of the future will certainly speak like a person, have a person-like personality, see, hear, and analyze situations like a person, and become more human. Dialogue processing technology that makes them more human-like has developed into an end-to-end learning model based on deep neural networks in recent years. In addition, language models pre-trained from a large corpus make dialogue processing more natural and better understood. Advances in artificial intelligence such as dialogue processing technology will enable digital personal assistants to serve with more familiar and better performance in various areas.

검색의도에 적합한 스니펫 추출 (Extract Snippets Suitable for Search Intent)

  • 이현구;양윤영;김은별;차우준;노윤영;김은영;최규현;신동욱;박찬훈;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.241-246
    • /
    • 2021
  • 스니펫 추출은 정보검색에서 주요한 문서 정보를 짧은 문단 형태로 보여주는 것으로 사용자가 검색결과를 좀 더 효율적으로 확인할 수 있게 도와준다. 그러나 기존 스니펫은 어휘가 일치하는 문장을 찾아 보여주기에 검색의도가 반영되기 어렵다. 또한 의미적 정답을 찾기 위해 질의응답 방법론이 응용되고 있지만 오픈 도메인 환경에서 품질이 낮은 문제가 있다. 본 논문은 이러한 문제를 해결하기 위해 스니펫 추출, 의도 부착, 검증 3단계로 스니펫을 추출하여 추출된 스니펫이 질의 의도에 적합하게 추출되도록 하는 방법을 제안한다. 실험 결과 전통적인 스니펫보다 만족도가 높은 것을 보였고, 스니펫 추출만 했을 때보다 의도 부착, 검증을 하였을 때 정확도가 0.3165만큼 향상되는 것을 보였다.

  • PDF

계층적 검색 모델을 이용한 정답 문장 탐색 (Exploring Answer Sentences using Hierarchical Retrieval Models)

  • 최승호;전현규;김지윤;김봉수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.361-365
    • /
    • 2023
  • 오픈 도메인 질의응답 (ODQA, Open-Domain Question Answering)은 주어진 질문에 대한 답을 찾는 작업으로 일반적으로 질문과 관련 있는 지식을 검색 모델(Retrieval)을 통해 찾는 단계와, 찾은 지식에서 문서의 정답을 독해 모델(Reader)을 이용하여 찾는 단계로 구성되어 있다. 본 논문은 기존의 DPR(Dense Passage Retrieval)을 이용한 복수의 검색 모델(Retrieval)만을 계층적으로 사용하여 독해 모델(Reader)을 사용하지 않고 정답 문장을 찾는 방법과 정답 문장을 찾는 데 특화된 검색 모델 학습을 위한 유효한 성능 향상을 보이는 Hard Negative Sampling 기법을 제안한다. 해당 제안기법을 적용한 결과, 동일 조건에서 학습된 검색 - 독해(Retrieval-Reader) 구조의 베이스라인 모델보다 EM에서 12%, F1에서 10%의 성능 향상을 보였다.

  • PDF