• Title/Summary/Keyword: 유사 질문 검색

Search Result 19, Processing Time 0.032 seconds

Question Retrieval using Deep Semantic Matching for Community Question Answering (심층적 의미 매칭을 이용한 cQA 시스템 질문 검색)

  • Kim, Seon-Hoon;Jang, Heon-Seok;Kang, In-Ho
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.116-121
    • /
    • 2017
  • cQA(Community-based Question Answering) 시스템은 온라인 커뮤니티를 통해 사용자들이 질문을 남기고 답변을 작성할 수 있도록 만들어진 시스템이다. 신규 질문이 인입되면, 기존에 축적된 cQA 저장소에서 해당 질문과 가장 유사한 질문을 검색하고, 그 질문에 대한 답변을 신규 질문에 대한 답변으로 대체할 수 있다. 하지만, 키워드 매칭을 사용하는 전통적인 검색 방식으로는 문장에 내재된 의미들을 이용할 수 없다는 한계가 있다. 이를 극복하기 위해서는 의미적으로 동일한 문장들로 학습이 되어야 하지만, 이러한 데이터를 대량으로 확보하기에는 어려움이 있다. 본 논문에서는 질문이 제목과 내용으로 분리되어 있는 대량의 cQA 셋에서, 질문 제목과 내용을 의미 벡터 공간으로 사상하고 두 벡터의 상대적 거리가 가깝게 되도록 학습함으로써 의사(pseudo) 유사 의미의 성질을 내재화 하였다. 또한, 질문 제목과 내용의 의미 벡터 표현(representation)을 위하여, semi-training word embedding과 CNN(Convolutional Neural Network)을 이용한 딥러닝 기법을 제안하였다. 유사 질문 검색 실험 결과, 제안 모델을 이용한 검색이 키워드 매칭 기반 검색보다 좋은 성능을 보였다.

  • PDF

Similar Question Search System for Q&A board of The National Institute of the Korean Language using Topic Classification (주제 분류를 활용한 국립국어원 질의응답 게시판 유사 질문 검색 시스템)

  • Mun, Jung-Min;Song, Yeong-Ho;Jin, Ji-Hwan;Lee, Hyun-Seob;Lee, Hyun-Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.201-205
    • /
    • 2014
  • 국립국어원의 온라인 가나다 서비스는 한국어에 대한 다양한 질문과 정확한 답변을 제공한다. 만일 새롭게 등록되는 질문에 대해 유사한 질문을 자동으로 찾을 수 있다면, 질문자는 빠른 시간에 답변을 얻을 수 있고 서비스 관리자는 수동 답변 작성의 부담을 덜 수 있다. 본 논문에서는 국립국어원 질의응답게시판의 특성을 분석하여 질문의 주제를 6가지로 분류하고, 주제 분류 정보와 벡터 유사도, 수열 유사도를 결합하여 유사한 질문을 검색하는 시스템을 제안한다. 평가에서는 본 논문에서 제시한 주제 분류 정보를 활용한 결과 1위 정답 검색 정확률이 향상되는 결과를 얻었다. 최종 실험에서는 MRR이 0.62, 정답이 1위, 5위내에 검색될 확률은 각각 54.2%, 78.2%를 보였다.

  • PDF

Question Retrieval using Deep Semantic Matching for Community Question Answering (심층적 의미 매칭을 이용한 cQA 시스템 질문 검색)

  • Kim, Seon-Hoon;Jang, Heon-Seok;Kang, In-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.116-121
    • /
    • 2017
  • cQA(Community-based Question Answering) 시스템은 온라인 커뮤니티를 통해 사용자들이 질문을 남기고 답변을 작성할 수 있도록 만들어진 시스템이다. 신규 질문이 인입되면, 기존에 축적된 cQA 저장소에서 해당 질문과 가장 유사한 질문을 검색하고, 그 질문에 대한 답변을 신규 질문에 대한 답변으로 대체할 수 있다. 하지만, 키워드 매칭을 사용하는 전통적인 검색 방식으로는 문장에 내재된 의미들을 이용할 수 없다는 한계가 있다. 이를 극복하기 위해서는 의미적으로 동일한 문장들로 학습이 되어야 하지만, 이러한 데이터를 대량으로 확보하기에는 어려움이 있다. 본 논문에서는 질문이 제목과 내용으로 분리되어 있는 대량의 cQA 셋에서, 질문 제목과 내용을 의미 벡터 공간으로 사상하고 두 벡터의 상대적 거리가 가깝게 되도록 학습함으로써 의사(pseudo) 유사 의미의 성질을 내재화 하였다. 또한, 질문 제목과 내용의 의미 벡터 표현(representation)을 위하여, semi-training word embedding과 CNN(Convolutional Neural Network)을 이용한 딥러닝 기법을 제안하였다. 유사 질문 검색 실험 결과, 제안 모델을 이용한 검색이 키워드 매칭 기반 검색보다 좋은 성능을 보였다.

  • PDF

Similar Question Search System for online Q&A for the Korean Language Based on Topic Classification (온라인가나다를 위한 주제 분류 기반 유사 질문 검색 시스템)

  • Mun, Jung-Min;Song, Yeong-Ho;Jin, Ji-Hwan;Lee, Hyun-Seob;Lee, Hyun Ah
    • Korean Journal of Cognitive Science
    • /
    • v.26 no.3
    • /
    • pp.263-278
    • /
    • 2015
  • Online Q&A for the National Institute of the Korean Language provides expert's answers for questions about the Korean language, in which many similar questions are repeatedly posted like other Q&A boards. So, if a system automatically finds questions that are similar to a user's question, it can immediately provide users with recommendable answers to their question and prevent experts from wasting time to answer to similar questions repeatedly. In this paper, we set 5 classes of questions based on its topic which are frequently asked, and propose to classify questions to those classes. Our system searches similar questions by combining topic similarity, vector similarity and sequence similarity. Experiment shows that our method improves search correctness with topic classification. In experiment, Mean Reciprocal Rank(MRR) of our system is 0.756, and precision for the first result is 68.31% and precision for top five results is 87.32%.

Retrieval Model Re-ranking Method using 'Question-Passage' Attention ('질문-단락'간 주의 집중을 이용한 검색 모델 재순위화 방법)

  • Jang, Youngjin;Kim, Harksoo;Ji, Hyesung;Lee, Chunghee
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.411-414
    • /
    • 2019
  • 검색 모델은 색인된 문서 내에서 입력과 유사한 문서를 검색하는 시스템이다. 최근에는 기계독해 모델과 통합하여 질문에 대한 답을 검색 모델의 결과에서 찾는 연구가 진행되고 있다. 위의 통합 모델이 좋은 결과를 내기 위해서는 검색 모델의 높은 성능이 요구된다. 따라서 본 논문에서는 검색 모델의 성능을 보완해 줄 수 있는 재순위화 모델을 제안한다. 검색 모델의 결과 후보를 일괄적으로 입력받고 '질문-단락'간 주의 집중을 계산하여 재순위화 한다. 실험 결과 P@1 기준으로 기존 검색 모델 성능대비 5.58%의 성능 향상을 보였다.

  • PDF

Detection of Similar Answers to Avoid Duplicate Question in Retrieval-based Automatic Question Generation (검색 기반의 질문생성에서 중복 방지를 위한 유사 응답 검출)

  • Choi, Yong-Seok;Lee, Kong Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.1
    • /
    • pp.27-36
    • /
    • 2019
  • In this paper, we propose a method to find the most similar answer to the user's response from the question-answer database in order to avoid generating a redundant question in retrieval-based automatic question generation system. As a question of the most similar answer to user's response may already be known to the user, the question should be removed from a set of question candidates. A similarity detector calculates a similarity between two answers by utilizing the same words, paraphrases, and sentential meanings. Paraphrases can be acquired by building a phrase table used in a statistical machine translation. A sentential meaning's similarity of two answers is calculated by an attention-based convolutional neural network. We evaluate the accuracy of the similarity detector on an evaluation set with 100 answers, and can get the 71% Mean Reciprocal Rank (MRR) score.

Experimental Analysis of Correct Answer Characteristics in Question Answering Systems (질의응답시스템에서 정답 특징에 관한 실험적 분석)

  • Han, Kyoung-Soo
    • Journal of Digital Contents Society
    • /
    • v.19 no.5
    • /
    • pp.927-933
    • /
    • 2018
  • One of the factors that have the greatest influence on the error of the question answering system that finds and provides answers to natural language questions is the step of searching for documents or passages that contain correct answers. In order to improve the retrieval performance, it is necessary to understand the characteristics of documents and passages containing correct answers. This paper experimentally analyzes how many question words appear in the correct answer documents, how the location of the question word is distributed, and how the topic of the question and the correct answer document are similar using the corpus composed of the question, the documents with correct answer, and the documents without correct answer. This study explains the causes of previous search research results for question answer system and discusses the necessary elements of effective search step.

A Comparative Study of WWW Search Engine Performance (WWW 탐색도구의 색인 및 탐색 기능 평가에 관한 연구)

  • Chung Young-Mee;Kim Seong-Eun
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.31 no.1
    • /
    • pp.153-184
    • /
    • 1997
  • The importance of WWW search services is increasing as Internet information resources explode. An evaluation of current 9 search services was first conducted by comparing descriptively the features concerning indexing, searching, and ranking of search results. Secondly, a couple of search queries were used to evaluate search performance of those services by the measures of retrieval effectiveness. the degree of overlap in searching sites, and the degree of similarity between services. In this experiment, Alta Vista, HotBot and Open Text Index showed better results for the retrieval effectiveness. The level of similarity among the 9 search services was extremely low.

  • PDF

Development of a Regulatory Q&A System for KAERI Utilizing Document Search Algorithms and Large Language Model (거대언어모델과 문서검색 알고리즘을 활용한 한국원자력연구원 규정 질의응답 시스템 개발)

  • Hongbi Kim;Yonggyun Yu
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.28 no.5
    • /
    • pp.31-39
    • /
    • 2023
  • The evolution of Natural Language Processing (NLP) and the rise of large language models (LLM) like ChatGPT have paved the way for specialized question-answering (QA) systems tailored to specific domains. This study outlines a system harnessing the power of LLM in conjunction with document search algorithms to interpret and address user inquiries using documents from the Korea Atomic Energy Research Institute (KAERI). Initially, the system refines multiple documents for optimized search and analysis, breaking the content into managable paragraphs suitable for the language model's processing. Each paragraph's content is converted into a vector via an embedding model and archived in a database. Upon receiving a user query, the system matches the extracted vectors from the question with the stored vectors, pinpointing the most pertinent content. The chosen paragraphs, combined with the user's query, are then processed by the language generation model to formulate a response. Tests encompassing a spectrum of questions verified the system's proficiency in discerning question intent, understanding diverse documents, and delivering rapid and precise answers.

Abductive Reasoning based Question Answering System for Yes/No Quiz (가추적 추론에 기반한 가부형(O/X 퀴즈) 질의응답 시스템)

  • Heo, Jeong;Lee, Hyung-Jik;Bae, Yong-Jin;Kim, Hyun-Ki;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.46-49
    • /
    • 2015
  • 본 논문에서는 가추적 추론에 기만한 질의응답 기술을 활용하여 O/X 퀴즈 질문에 대한 질의응답을 수행하는 기술에 대해서 소개한다. O/X 퀴즈를 기존의 질의응답 기술에 적용하기 위해서는 O/X 퀴즈 문장을 단답형 질문으로 재생성해야 한다. 질문재생성에서는 단답형 질문으로 변환하기 위해 특정 어휘(또는 개체나 구)를 <지시대명사>나 <지시관형사+명사>로 대체한다. 이때 대체된 어휘는 정답후보로 인식된다. 단답형질문과 정답후보의 쌍으로 구성된 정답가설은 근거검색과 유사도에 기반한 신뢰도 값 계산을 통해, O/X를 결정하게 된다. 실험을 통해, 신뢰도 임계값이 0.45일 때 정확률이 69.17%를 보였다.

  • PDF