• 제목/요약/키워드: 질문 검색

검색결과 166건 처리시간 0.036초

심층적 의미 매칭을 이용한 cQA 시스템 질문 검색 (Question Retrieval using Deep Semantic Matching for Community Question Answering)

  • 김선훈;장헌석;강인호
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.116-121
    • /
    • 2017
  • cQA(Community-based Question Answering) 시스템은 온라인 커뮤니티를 통해 사용자들이 질문을 남기고 답변을 작성할 수 있도록 만들어진 시스템이다. 신규 질문이 인입되면, 기존에 축적된 cQA 저장소에서 해당 질문과 가장 유사한 질문을 검색하고, 그 질문에 대한 답변을 신규 질문에 대한 답변으로 대체할 수 있다. 하지만, 키워드 매칭을 사용하는 전통적인 검색 방식으로는 문장에 내재된 의미들을 이용할 수 없다는 한계가 있다. 이를 극복하기 위해서는 의미적으로 동일한 문장들로 학습이 되어야 하지만, 이러한 데이터를 대량으로 확보하기에는 어려움이 있다. 본 논문에서는 질문이 제목과 내용으로 분리되어 있는 대량의 cQA 셋에서, 질문 제목과 내용을 의미 벡터 공간으로 사상하고 두 벡터의 상대적 거리가 가깝게 되도록 학습함으로써 의사(pseudo) 유사 의미의 성질을 내재화 하였다. 또한, 질문 제목과 내용의 의미 벡터 표현(representation)을 위하여, semi-training word embedding과 CNN(Convolutional Neural Network)을 이용한 딥러닝 기법을 제안하였다. 유사 질문 검색 실험 결과, 제안 모델을 이용한 검색이 키워드 매칭 기반 검색보다 좋은 성능을 보였다.

  • PDF

심층적 의미 매칭을 이용한 cQA 시스템 질문 검색 (Question Retrieval using Deep Semantic Matching for Community Question Answering)

  • 김선훈;장헌석;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.116-121
    • /
    • 2017
  • cQA(Community-based Question Answering) 시스템은 온라인 커뮤니티를 통해 사용자들이 질문을 남기고 답변을 작성할 수 있도록 만들어진 시스템이다. 신규 질문이 인입되면, 기존에 축적된 cQA 저장소에서 해당 질문과 가장 유사한 질문을 검색하고, 그 질문에 대한 답변을 신규 질문에 대한 답변으로 대체할 수 있다. 하지만, 키워드 매칭을 사용하는 전통적인 검색 방식으로는 문장에 내재된 의미들을 이용할 수 없다는 한계가 있다. 이를 극복하기 위해서는 의미적으로 동일한 문장들로 학습이 되어야 하지만, 이러한 데이터를 대량으로 확보하기에는 어려움이 있다. 본 논문에서는 질문이 제목과 내용으로 분리되어 있는 대량의 cQA 셋에서, 질문 제목과 내용을 의미 벡터 공간으로 사상하고 두 벡터의 상대적 거리가 가깝게 되도록 학습함으로써 의사(pseudo) 유사 의미의 성질을 내재화 하였다. 또한, 질문 제목과 내용의 의미 벡터 표현(representation)을 위하여, semi-training word embedding과 CNN(Convolutional Neural Network)을 이용한 딥러닝 기법을 제안하였다. 유사 질문 검색 실험 결과, 제안 모델을 이용한 검색이 키워드 매칭 기반 검색보다 좋은 성능을 보였다.

  • PDF

질문 유형에 따른 인터넷 검색엔진의 성능 비교 (Comparing the Performance of Internet Search Engines according to the Query Types)

  • 이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.185-192
    • /
    • 2003
  • 국내 인터넷 검색엔진의 성능을 질문의 유형별로 비교해보았다. 실험에는 30명의 대학생이 참여하여 탐색질문을 작성하고 직접 탐색하여 검색결과의 적합성을 판정하였다. 실험참가자마다 탐색어 1개, 2개, 3개짜리 질문을 하나씩 작성하도록 한 결과 총 90개의 질문이 실험에 사용되었다. 질문의 유형은 질문의 길이 이외에 주제의 최신성 여부와 고유명사의 포함 여부를 기준으로 나누었다. 실험 결과 전체적인 성능은 구글이 가장 뛰어났으나, 고유명사를 포함한 최신주제 질문에 대해서는 네이트와 엠파스가 구글보다 좋은 성능을 보였다.

  • PDF

주제 분류를 활용한 국립국어원 질의응답 게시판 유사 질문 검색 시스템 (Similar Question Search System for Q&A board of The National Institute of the Korean Language using Topic Classification)

  • 문정민;송영호;진지환;이현섭;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.201-205
    • /
    • 2014
  • 국립국어원의 온라인 가나다 서비스는 한국어에 대한 다양한 질문과 정확한 답변을 제공한다. 만일 새롭게 등록되는 질문에 대해 유사한 질문을 자동으로 찾을 수 있다면, 질문자는 빠른 시간에 답변을 얻을 수 있고 서비스 관리자는 수동 답변 작성의 부담을 덜 수 있다. 본 논문에서는 국립국어원 질의응답게시판의 특성을 분석하여 질문의 주제를 6가지로 분류하고, 주제 분류 정보와 벡터 유사도, 수열 유사도를 결합하여 유사한 질문을 검색하는 시스템을 제안한다. 평가에서는 본 논문에서 제시한 주제 분류 정보를 활용한 결과 1위 정답 검색 정확률이 향상되는 결과를 얻었다. 최종 실험에서는 MRR이 0.62, 정답이 1위, 5위내에 검색될 확률은 각각 54.2%, 78.2%를 보였다.

  • PDF

대규모 문서 데이터 집합에서 Q&A를 위한 질의문 분류 기법 (A Query Classification Method for Question Answering on a Large-Scale Text Data)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.253-255
    • /
    • 2000
  • 어떠한 질문에 대한 구체적 해답을 얻고 싶은 경우, 일반적인 정보 검색이 가지는 문제점은 검색 결과가 사용자가 찾고자 하는 답이라 하기 보다는 해답을 포함하는(또는 포함하지 않는) 문서의 집합이라는 점이다. 사용자가 후보문서를 모두 읽을 필요 없이 빠르게 원하는 정보를 얻기 위해서는 검색의 결과로 문서집합을 제시하기 보다는 실제 원하는 답을 제공하는 시스템의 필요성이 대두된다. 이를 위해 기존의 TF-IDF(Term Frequency-Inversed Document Frequency)기반의 정보검색의 방삭에 자연언어처리(Natural Language Processing)를 이용한 질문의 분류와 문서의 사전 표지(Tagging)를 사용할 수 있다. 본 연구에서는 매년 NIST(National Institute of Standards & Technology)와 DARPA(Defense Advanced Research Projects Agency)주관으로 열리는 TREC(Text REtrieval Conference)중 1999년에 열린 TREC-8의 사용자의 질문(Question)에 대한 답(Answer)을 찾는 ‘Question & Answer’문제의 실험 환경에서 질문을 특징별로 분류하고 검색 대상의 문서에 대한 사전 표지를 이용한 정보검색 시스템으로 사용자의 질문(Question)에 대한 해답을 보다 정확하고 효율적으로 제시할 수 있음을 실험을 통하여 보인다.

  • PDF

'질문-단락'간 주의 집중을 이용한 검색 모델 재순위화 방법 (Retrieval Model Re-ranking Method using 'Question-Passage' Attention)

  • 장영진;김학수;지혜성;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.411-414
    • /
    • 2019
  • 검색 모델은 색인된 문서 내에서 입력과 유사한 문서를 검색하는 시스템이다. 최근에는 기계독해 모델과 통합하여 질문에 대한 답을 검색 모델의 결과에서 찾는 연구가 진행되고 있다. 위의 통합 모델이 좋은 결과를 내기 위해서는 검색 모델의 높은 성능이 요구된다. 따라서 본 논문에서는 검색 모델의 성능을 보완해 줄 수 있는 재순위화 모델을 제안한다. 검색 모델의 결과 후보를 일괄적으로 입력받고 '질문-단락'간 주의 집중을 계산하여 재순위화 한다. 실험 결과 P@1 기준으로 기존 검색 모델 성능대비 5.58%의 성능 향상을 보였다.

  • PDF

수자원분야 색인시스템의 검색효율 비교와 질적 분석 (Retrieval Effectiveness of the Two Indexing Systems in the Water Resources : A Qualitative Analysis)

  • 이명희
    • 한국문헌정보학회지
    • /
    • 제30권1호
    • /
    • pp.49-67
    • /
    • 1996
  • 수자원 분야의 데이터 베이스를 대상으로 한 실험연구에서 검색효율의 차이는 질문특성의 차이에서 기인한다는 것이 밝혀졌기 때문에 특정성, 복잡성, 최신성의 세 요소를 가지고 질문에 대한 질적 분석이 행해졌다. 그 결과, 특정적인 질문보다 일반적인 질문을 위해서 보다 많은 적합문헌이 주제탐색을 통하여 검색되었으며, 박사학위논문의 연구질문은 특정성을 지닌 질문이었기 때문에 주제탐색보다 인용탐색을 통해 적합문헌이 더욱 많이 검색되었다. 또한 자연과학분야, 공학분야 및 사회과학 분야의 질문에 대한 개별적인 분석이 이루어졌다.

  • PDF

이용자 피이드백에 의한 검색질문의 자동 수정에 관한 연구 (An Experiment on Automatic Query Modification In Information Retrieval Using the Relevance Feedback)

  • 신영실
    • 정보관리학회지
    • /
    • 제2권1호
    • /
    • pp.108-135
    • /
    • 1985
  • 이용자와 시스템간에 상호작용이 이루어질수 있는 온라인 정보검색 시스템에서는 검색결과에 대한 이용자의 피이드백을 이용하여 검색질문을 수정함으로써 시스템의 성능을 향상시킬수 있다. 본 논문에서는 샐톤과 우가 제시한 검색질문의 자동수정 모형을 통제된 키이워어드 시스템에 적용시켜 보았다.

  • PDF

FRBR 모형 기반 서지검색시스템의 검색 효율성 평가 연구 (An Experimental Study on the Retrieval Efficiency of the FRBR Based Bibliographic Retrieval System)

  • 김현희
    • 한국도서관정보학회지
    • /
    • 제38권3호
    • /
    • pp.223-246
    • /
    • 2007
  • 본 연구에서는 FRBR 모형 기반 서지검색시스템의 검색 효율성을 평가하기 위해서 두 개의 실험 시스템을 구축하였다. 즉, FRBR화 알고리즘을 적용한 FRBR 기반 시스템과 일반 OPAC 기반 시스템을 387건의 KORMARC 기반 음악 자료를 데이터베이스로 활용하여 구성하였다. 그런 다음, 6개의 연구 가설을 세우고 28명의 피조사자와 표현형 질문 6개와 구현형질문 6개로 구성된 총 12개의 검색 질문을 이용하여 이 두 시스템을 재현율, 정확률 및 검색 시간을 측정 기준으로 하여 비교, 분석하였다. 중다변량분석과 t-검증을 이용하여 실험 결과를 분석한 결과, FRBR 시스템이 질문의 유형을 가리지 않고 평균 재현율이 OPAC 시스템 보다 단연 앞서는 것으로 나타났고, 구현형 질문의 경우 OPAC 기반 시스템이 FRBR 기반 실험시스템보다 평균 정확률이 조금 높았고 평균 검색 시간이 더 짧게 나타났다. 현 검색 환경에 FRBR 기반 시스템을 적용시키기 위해서는 우선 서지적 연관성이 높은 분야에 활용될 수 있으며 이러한 분야에 적용될 때 OPAC 시스템을 대체하기보다는 이를 보완하면서 FRBR 시스템의 특성을 살려 질의 유형이 표현형인 경우 또는 높은 재현율을 요하는 경우 특히 효율적으로 적용될 수 있음을 제안하였다.

  • PDF

온라인가나다를 위한 주제 분류 기반 유사 질문 검색 시스템 (Similar Question Search System for online Q&A for the Korean Language Based on Topic Classification)

  • 문정민;송영호;진지환;이현섭;이현아
    • 인지과학
    • /
    • 제26권3호
    • /
    • pp.263-278
    • /
    • 2015
  • 국립국어원의 온라인가나다 서비스는 한국어에 대한 질문을 등록하면 전문가가 답변을 작성하는 인터넷 서비스이다. 이러한 서비스는 유사한 질문이 자주 등록되는 문제점이 있다, 만일 새롭게 등록되는 질문과 유사한 질문을 자동으로 찾아 그 질문에 대한 답변을 등록 즉시 제공한다면, 질문자는 빠른 시간에 답변을 얻을 수 있고 서비스 관리자는 수동 답변 작성의 부담을 덜 수 있다. 본 논문에서는 온라인가나다의 특성을 분석하여 자주 질문되는 다섯 개의 주제 분류를 설정하고, 주제 분류 유사도와 함께 음소와 음절단위 수열유사도와 벡터 유사도를 결합하여 유사한 질문을 검색하는 시스템을 제안한다. 평가에서는 본 논문에서 제시한 주제 분류 정보를 활용하여 검색 정확률이 향상되는 결과를 얻었다. 최종 실험에서는 Mean Reciprocal Rank(MRR)가 0.756, 정답이 1위와 5위내에 검색될 확률은 각각 68.31%, 87.32%를 보였다.