• 제목/요약/키워드: 검색 기반 답변 시스템

검색결과 32건 처리시간 0.029초

기계 독해를 이용한 웹 기반 오픈 도메인 한국어 질의응답 (Web-Scale Open Domain Korean Question Answering with Machine Reading Comprehension)

  • 최동현;김응균;신동렬
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.87-92
    • /
    • 2019
  • 본 논문에서는 기계 독해를 이용한 웹 기반 오픈 도메인 한국어 질의응답 시스템에 대하여 서술한다. 하나의 사용자 질의에 대하여, 본 논문에서 제안된 시스템은 기 존재하는 검색 엔진을 이용하여 실시간으로 최대 1,500 개의 문서를 기계 독해 방식으로 분석하고, 각 문서별로 얻어진 답을 종합함으로써 최종 답변을 도출한다. 실험 결과, 제안된 시스템은 평균적으로 2초 이내의 실행 시간을 보였으며, 사람과 비교하여 86%의 성능을 나타내었다. 본 논문에서 제안된 시스템의 데모는 http://nlp-api.kakao.com에서 확인 가능하다.

  • PDF

웹기반 대화형 에이전트 (A Web-based Conversational Agent)

  • 이승익;오성배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제9권5호
    • /
    • pp.530-540
    • /
    • 2003
  • 인터넷 사이트의 정보량이 증가함에 따라 효율적인 정보제공의 필요성이 커지고 있으나, 대부분의 사이트에서 제공하는 핵심어의 불리언 조합에 기반을 둔 정보검색기법은 사용자의 의도를 제대로 표현하기 어렵기 때문에 지나치게 많거나 의도하지 않은 검색결과를 얻기 쉽다는 문제가 있다. 이 논문에서는 자연어 대화를 통하여 사용자에게 보다 정확하고 친절하게 정보를 제공할 수 있는 대화형 에이전트를 제안한다. 이 에이전트는 자연어 질의에 유한상태 오토마타를 적용하여 사용자의 질의의도를 파악하고 이를 답변지식의 구조적 패턴매칭에 활용함으로써, 어순변화에 강건하고 질의의도에 부합하는 답변을 제공한다. 제안한 시스템의 유용성과 가능성을 알아보기 위하여 간단한 웹 페이지를 소개하는 문제에 적용한 결과, 에이전트가 정확하고 친근하게 응답하는 것을 확인할 수 있었다.

데이터 전처리와 자연어처리를 기반으로 한 교직원 번호안내 챗봇 시스템 (Faculty Number Guidance Chat-Bot System Based on Data Preprocessing and Natural Language Processing)

  • 허태성;백재원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.243-244
    • /
    • 2021
  • 대학교에 민원, 문의 등 업무용 전화가 많이 오가는 상황에서 사용자가 원하는 부서, 교직원의 전화번호를 알아내기 위해 직접 검색하는 과정에 대한 솔루션을 제공하기 위해 본 논문에서는 대학 교직원들의 전화번호와 부서의 정보를 저장하고 있는 CSV 파일을 챗봇 시스템에서 요구하는 모양과 특성에 맞게 데이터를 가공하고 알맞은 정보를 제공하기 위해 사용자의 질의 문장을 해체 분석하여 필요 정보에 대하여 답변을 해주는 대학 교직원 번호 안내 챗봇 시스템을 개발하였다.

  • PDF

지식기반 객체지향 공간 데이터베이스 시스템 (Knowledge-Based Approach for an Object-Oriented Spatial Database System)

  • Kim, Yang-Hee
    • 지능정보연구
    • /
    • 제9권3호
    • /
    • pp.99-115
    • /
    • 2003
  • 본 논문은 지식 기반 객체지 향 공간 데이터베이스시스템 KOBOS를 제안한다. 객체지향 공간 데이터베이스 시스템의 데이터 모델링과 근접 질의답변에 지식기반 접근법을 도입한다. 공간객체와 근접 공간 연산자를 다루기 위해 다음과 같은 세 단계 객체지향 데이터 모델을 제안하고 있다: (1) 공간 형상 모델; (2) 공간 객체 모델: (3) 내부 기술 모델. 근접 공간 연산자의 범위는 공간 타입 추상 계층으로 알 수 있다. 또한 객체지향 공간 질의어인 SOQL을 제안한다. SOQL은 공간 객체의 다양한 출력과 공간 및 비 공간 객체의 검색을 수행할 수 있는 통합 기능을 제공해준다. 효율적인 혼합 질의 처리를 위하여, 하향 공간 질의 처리 방법을 이용하여 처리해 준다.

  • PDF

BERT MRC를 활용한 한국 프로야구 Q&A 시스템 (Korean Baseball League Q&A System Using BERT MRC)

  • 서정우;김창민;김효진;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.459-461
    • /
    • 2020
  • 매일 게시되는 다양한 프로야구 관련 기사에는 경기 결과, 각종 기록, 선수의 부상 등 다양한 정보가 뒤섞여있어, 사용자가 원하는 정보를 찾아내는 과정이 매우 번거롭다. 본 논문에서는 문서 검색과 기계 독해를 이용하여 야구 분야에 대한 Q&A 시스템을 제안한다. 기사를 형태소 분석하고 BM25 알고리즘으로 얻은 문서 가중치로 사용자 질의에 적합한 기사들을 선정하고 KorQuAD 1.0과 직접 구축한 프로야구 질의응답 데이터셋을 이용해 학습시킨 BERT 모델 기반 기계 독해로 답변 추출을 진행한다. 야구 특화 데이터 셋을 추가하여 학습시켰을 때 F1 score, EM 모두 15% 내외의 정확도 향상을 보였다.

  • PDF

동영상 기반 디자인 지식 공유 시스템 개발 (The Development of Video Based System for Sharing Design Knowledge)

  • 한현영;박우영;이준호;이상용
    • 디지털융복합연구
    • /
    • 제15권3호
    • /
    • pp.313-318
    • /
    • 2017
  • PhotoShop 등과 같은 디자인 관련 소프트웨어의 사용자들은 관련 지식에 관하여 알고 싶을 경우, 일반적으로 인터넷을 검색하게 된다. 그러나 인터넷에서 원하는 디자인 관련 지식만을 검색하기는 매우 어려운 실정이다. 왜냐하면 기존의 지식 공유 시스템들은 다루는 분야가 광범위하고, 디자인에 특화된 다양한 형태의 질문 및 답변, 지식 거래 등을 제공하는 곳은 거의 없기 때문이다. 본 논문에서는 디자인 지식의 특성을 반영하여 텍스트 뿐만 아니라 이미지, 동영상 등을 통한 자유로운 질의 응답 기능, 강의 기능, 지식거래 기능 등을 제공하는 동영상 기반 디자인 지식 공유 시스템을 개발하였다. 본 시스템을 이용하여 디자인 지식을 공유함으로써 제품 경쟁력 확보에 기여할 수 있을 것으로 기대된다. 향후 본 시스템은 디자인 지식뿐만 아니라 다양한 지식을 공유할 수 있는 프레임으로 확대가 필요할 것이다.

QA Pair Passage RAG 기반 LLM 한국어 챗봇 서비스 (QA Pair Passage RAG-based LLM Korean chatbot service)

  • 신중민;이재욱;김경민;이태민;안성민;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.683-689
    • /
    • 2023
  • 자연어 처리 분야는 최근에 큰 발전을 보였으며, 특히 초대규모 언어 모델의 등장은 이 분야에 큰 영향을 미쳤다. GPT와 같은 모델은 다양한 NLP 작업에서 높은 성능을 보이고 있으며, 특히 챗봇 분야에서 중요하게 다루어지고 있다. 하지만, 이러한 모델에도 여러 한계와 문제점이 있으며, 그 중 하나는 모델이 기대하지 않은 결과를 생성하는 것이다. 이를 해결하기 위한 다양한 방법 중, Retrieval-Augmented Generation(RAG) 방법이 주목받았다. 이 논문에서는 지식베이스와의 통합을 통한 도메인 특화형 질의응답 시스템의 효율성 개선 방안과 벡터 데이터 베이스의 수정을 통한 챗봇 답변 수정 및 업데이트 방안을 제안한다. 본 논문의 주요 기여는 다음과 같다: 1) QA Pair Passage RAG을 활용한 새로운 RAG 시스템 제안 및 성능 향상 분석 2) 기존의 LLM 및 RAG 시스템의 성능 측정 및 한계점 제시 3) RDBMS 기반의 벡터 검색 및 업데이트를 활용한 챗봇 제어 방법론 제안

  • PDF

위치문답형 지역광고 기반의 문화정보 서비스 모델링 (Regional Culture Contents Service Modeling Based On Localized Advertising of Question And Answer Format)

  • 신환섭;이재원
    • 한국콘텐츠학회논문지
    • /
    • 제19권8호
    • /
    • pp.465-472
    • /
    • 2019
  • 지역에서 생산되는 문화행사 및 문화 콘텐츠가 다양하고 많지만 관련한 경제소비의 확대를 위한 지역정보의 유통과 확산이 부족하다. 본 연구는 지역 문화정보의 확산과 사용을 목적으로 위치기반 서비스 관점에서 지역광고주의 지역광고를 질문과 답변 형식의 지식검색 방법과 결합하고 서비스화 하였다. 접근 방법으로는 지역에 기반한 지식검색에 대한 국내외 사례와 위치기반 광고 연구를 살펴보고, 위치문답형 정보서비스의 커뮤니티 모델 그리고 지역광고의 수익 모델을 제시하였다. 이를 통해 본 연구는 지역 문화행사와 문화콘텐츠의 정보유통을 위한 문답기반 커뮤니티와 지역광고의 운영구조 모델을 설계하고 정보 서비스 시스템을 프로토타이핑 형태로 개발하였다. 사용자간의 문답 데이터의 유통을 위치정보에 확장함으로써 지역의 문화콘텐츠 정보와 사용자 접근의 수요를 지역광고의 수익모델과 결합하여 제공하는 비즈니스 서비스 모델을 제시하였다는 의의를 갖는다.

생성 기반 질의응답 채팅 시스템 구현을 위한 지식 임베딩 방법 (Knowledge Embedding Method for Implementing a Generative Question-Answering Chat System)

  • 김시형;이현구;김학수
    • 정보과학회 논문지
    • /
    • 제45권2호
    • /
    • pp.134-140
    • /
    • 2018
  • 채팅 시스템은 사람의 말을 기계가 이해하고 적절한 응답을 하는 시스템이다. 채팅 시스템은 사용자의 간단한 정보 검색 질문에 대답해야 하는 경우가 있다. 그러나 기존의 생성 채팅 시스템들은 질의응답에 필요한 정보인 지식 개체(트리플 형태 지식에서의 주어와 목적어)의 임베딩을 고려하지 않아 발화에 나타나는 지식 개체가 다르더라도 같은 형태의 답변이 생성되었다. 본 논문에서는 생성 기반 채팅 시스템의 질의응답 정확도를 향상시키기 위한 지식 임베딩 방법을 제안한다. 개체와 유의어의 지식 임베딩을 위해 샴 순환 신경망을 사용하며 이를 이용해 주어와 술어를 인코딩 하고 목적어를 디코딩하는 sequence-to-sequence 모델의 성능을 향상 시켰다. 자체 구축한 채팅데이터를 통한 실험에서 제안된 임베딩 방법은 종래의 합성곱 신경망을 통한 임베딩 방법 보다 12.48% 높은 정확도를 보였다.

검색 기반의 질문생성에서 중복 방지를 위한 유사 응답 검출 (Detection of Similar Answers to Avoid Duplicate Question in Retrieval-based Automatic Question Generation)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.27-36
    • /
    • 2019
  • 본 연구는 검색 기반의 질문 자동 생성 시스템에서 사용자가 이미 답변한 내용을 재질문하지 않도록 사용자의 응답과 유사도가 높은 응답을 질문-데이터베이스에서 찾는 방법을 제안한다. 유사도가 높게 검출된 응답의 질문은 이미 사용자가 아는 내용일 확률이 높기 때문에 질문 후보군에서 제거한다. 유사 응답 검출에는 두 응답간의 동일 단어, 바꿔쓰기 표현, 문장 내용을 모두 사용하였다. 바꿔쓰기 표현은 통계기반의 기계번역에서 사용하는 구절 테이블을 사용하여 구축하였다. 문장 내용은 두 문장을 주의-기반 컨볼루션 신경망으로 압축하여 유사도를 계산하였다. 평가를 위해 구축한 100개의 평가 응답에 질문-응답 데이터베이스로부터 가장 유사한 응답을 추출해서 얻은 결과는 MRR값 71%의 성능을 보였다.