• Title/Summary/Keyword: 단락검색

Search Result 47, Processing Time 0.028 seconds

Variable Length Passage Retrieval for Q&A System (질의 응답 시스템을 위한 가변 길이 단락 검색)

  • Lee, Young-Shin;Hwang, Young-Sook;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.259-266
    • /
    • 2002
  • 질의 응답 시스템에서 보다 정확하게 정답을 판별하기 위해서는 구문분석 혹은 의미분석 등과 같은 복잡도가 높은 분석작업이 요구되며, 이러한 질의 응답 시스템 성능의 상한을 결정하는 검색 시스템은 가급적 적은 양의 검색 결과를 내주어서 질의 응답 시스템이 처리해야 할 작업량에 대한 부담을 덜어주어야 한다. 본 논문에서는 이러한 요구를 만족시키는 검색 시스템으로 가변 길이 단락 검색 시스템(variable length passage retrieval system)을 제안한다. 제안하는 검색 시스템은 질의에 대한 정답을 포함하고 있을 가능성이 있는 텍스트 영역은 질의에 따라 그 크기가 다를 것이라는 가정으로부터 출발한다. 그러므로 문서 전체를 검색하거나 고정 길이 단락으로 나누어져 색인되어 있는 부분 문서들을 검색하는 기존의 검색 방법과 달리, 제안된 시스템은 문서에서 임의의 길이로 이루어진 단락을 대상으로 동적인 단락 검객을 수행한다. TREC QA track의 질의집합 중 1번부터 100번까지의 질의에 대해 실험을 수행한 견과, 문서 검색 시스템이나 고정 길이 단락 검색 시스템은 상위 1000개의 문장까지 검색을 하였을 때 각각 96%, 98%의 재현율을 보인 반면, 가변 길이 단락 검색 시스템은 800개의 문장만으로도 98%의 재현율을 보이고, 900개의 문장을 검색하였을 경우 100%의 재현율을 보였다.

  • PDF

Paragraph Retrieval Model for Machine Reading Comprehension using IN-OUT Vector of Word2Vec (Word2Vec의 IN-OUT Vector를 이용한 기계독해용 단락 검색 모델)

  • Kim, Sihyung;Park, Seongsik;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.326-329
    • /
    • 2019
  • 기계독해를 실용화하기 위해 단락을 검색하는 검색 모델은 최근 기계독해 모델이 우수한 성능을 보임에 따라 그 필요성이 더 부각되고 있다. 그러나 기존 검색 모델은 질의와 단락의 어휘 일치도나 유사도만을 계산하므로, 기계독해에 필요한 질의 어휘의 문맥에 해당하는 단락 검색을 하지 못하는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 Word2vec의 입력 단어열의 벡터에 해당하는 IN Weight Matrix와 출력 단어열의 벡터에 해당하는 OUT Weight Matrix를 사용한 단락 검색 모델을 제안한다. 제안 방법은 기존 검색 모델에 비해 정확도를 측정하는 Precision@k에서 좋은 성능을 보였다.

  • PDF

Method of Semantic Passage Generation and Retrieval for Encyclopedia QA system (백과사전 질의응답 시스템을 위한 의미적 단락 생성 및 검색 기법)

  • Lee, Chung-Hee;Oh, Hyo-Jung;Kim, Hyeon-Jin;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.159-166
    • /
    • 2004
  • 본 논문에서는 질의응답 시스템에서 질문의 주제와 개념적으로 일치하는 단락으로부터 정보를 추출할 경우에 보다 정확한 정답을 추출할 수 있다는 가정 하에 문장 주제를 활용한 의미적 단락 생성 및 검색 기법을 제안한다. 문장주제란 백과사전 문서 집합에서 공통으로 기술하는 내용이나 자주 언급하고 있는 사건 혹은 개념들의 집합을 의미하는 것으로, 주제별로 응집된 문장들로 재구성된 단락을 의미적 단락이라고 정의한다. 제안된 방법의 성능을 평가하기 위해 의미적 단락의 신뢰도를 파악하고, 백과사전 본문을 3문장 단위로 잘라서 고정길이 단락을 만든 후 의미적 단락의 검색결과와 비교하였다. 평가척도로는 TREC의 역순위평균(MRR : Mean Reciprocal Rank)과 상위 5개 단락 안에 정답유무를 측정하는 사용자 정답만족도를 사용하였다. ETRI 평가셋을 대상으로 한 실험 결과, 주제를 이용한 의미적 단락 검색 성능이 고정길이 단락 검색보다 우수함을 알 수 있었다.

  • PDF

Passage Re-ranking Model using N-gram attention between Question and Passage (질문-단락 간 N-gram 주의 집중을 이용한 단락 재순위화 모델)

  • Jang, Youngjin;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.554-558
    • /
    • 2020
  • 최근 사전학습 모델의 발달로 기계독해 시스템 성능이 크게 향상되었다. 하지만 기계독해 시스템은 주어진 단락에서 질문에 대한 정답을 찾기 때문에 단락을 직접 검색해야하는 실제 환경에서의 성능 하락은 불가피하다. 즉, 기계독해 시스템이 오픈 도메인 환경에서 높은 성능을 보이기 위해서는 높은 성능의 검색 모델이 필수적이다. 따라서 본 논문에서는 검색 모델의 성능을 보완해 줄 수 있는 오픈 도메인 기계독해를 위한 단락 재순위화 모델을 제안한다. 제안 모델은 합성곱 신경망을 이용하여 질문과 단락을 구절 단위로 표현했으며, N-gram 구절 사이의 상호 주의 집중을 통해 질문과 단락 사이의 관계를 효과적으로 표현했다. KorQuAD를 기반으로한 실험에서 제안모델은 MRR@10 기준 93.0%, Top@1 Precision 기준 89.4%의 높은 성능을 보였다.

  • PDF

An Experimental Study on Generation of User-focused Summaries (이용자 중심 요약문 생성에 관한 실험적 연구)

  • 김정하;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2001.08a
    • /
    • pp.185-188
    • /
    • 2001
  • 본 연구에서는 단락검색 기법을 응용하여 이용자의 질의에 적합한 최적의 요약문을 자동 생성하는 방안을 모색하고자 하였다. 이를 위해 먼저 실험문헌집단을 구축한 후, 실험을 통해 이용자 중심 요약문을 생성하는 정적 단락검색 기법과 동적 단락추출 기법의 최적의 모형을 찾고 이들의 성능을 비교하였다.

  • PDF

A BM25 based Passage Retrieval System for Developing an Efficient Question and Answering System (효율적인 질의응답시스템 개발을 위한 BM25기반의 단락 검색 시스템)

  • Lim, Heui Seok;Lee, Yong Shin;Rim, Hae Chang
    • The Journal of Korean Association of Computer Education
    • /
    • v.6 no.4
    • /
    • pp.23-30
    • /
    • 2003
  • This paper proposes a passage retrieval system based on Okapi's BM25 for developing an efficient QA system and evaluates performances of the passage retrieval system. The test collection of TREC Q&A track which is composed of about one million documents was indexed and a hundred queries of TREC Q&A track are used as testing queries. The experimental results shows that the proposed passage retrieval system can reach to 100% recall rate by searching in only 1700 sentences while the conventional document retrieval system have to search about 120 thousands sentences which are about 70 times more than the proposed passage retrieval system.

  • PDF

A Study on the Improvement of Retrieval Performance Query Expansion in Passage-based Retrieval (질의확장에 의한 단락검색의 성능 향상에 관한 연구)

  • 박지연;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2001.08a
    • /
    • pp.143-148
    • /
    • 2001
  • 본 연구에서는 공기기반 질의-용어간 유사도를 이용한 질의확장을 통해 단락검색의 성능을 향상시키는 방안을 제시하고자 하였다 실험을 통해 전체 문헌집단에 출현한 용어들의 공기정보에 기반한 전역적 질의확장과 이용자의 피드백 없이 초기검색 결과 중 상위 10개 문헌에 출현한 용어들의 공기정보에 기반한 지역적 질의확장의 성능을 비교하고 각각의 성능을 향상시키는 방법을 모색하였다. 마지막으로 문헌집단의 전역 정보와 지역 정보를 함께 이용하는 방안을 제시하고 그 성능을 평가하였다.

  • PDF

Passage Retrieval and Calculation Method of Topic Field by Using Field-Associated Terms (분야연상어를 이용한 화제분야의 계산방법과 단락검색)

  • Lee Samuel-Sangkon
    • The KIPS Transactions:PartB
    • /
    • v.12B no.1 s.97
    • /
    • pp.57-68
    • /
    • 2005
  • It is important to segment a text, which is independent upon any text-embedded auxiliary information. This paper presents a technique for dividing the text into field-coherent passages. The presented method is based upon extracting field-associated terms from the text measuring how the topics grow, shrink and shift from sentence to sentence. We propose measures of topic continuity and of topic transition and suggest how those could be used to find the boundaries among passages. After collecting 12,500 documents, we obtain $88{\%}$ for average precision and $78{\%}$ for recall in Korean training set.

Retrieval Model Re-ranking Method using 'Question-Passage' Attention ('질문-단락'간 주의 집중을 이용한 검색 모델 재순위화 방법)

  • Jang, Youngjin;Kim, Harksoo;Ji, Hyesung;Lee, Chunghee
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.411-414
    • /
    • 2019
  • 검색 모델은 색인된 문서 내에서 입력과 유사한 문서를 검색하는 시스템이다. 최근에는 기계독해 모델과 통합하여 질문에 대한 답을 검색 모델의 결과에서 찾는 연구가 진행되고 있다. 위의 통합 모델이 좋은 결과를 내기 위해서는 검색 모델의 높은 성능이 요구된다. 따라서 본 논문에서는 검색 모델의 성능을 보완해 줄 수 있는 재순위화 모델을 제안한다. 검색 모델의 결과 후보를 일괄적으로 입력받고 '질문-단락'간 주의 집중을 계산하여 재순위화 한다. 실험 결과 P@1 기준으로 기존 검색 모델 성능대비 5.58%의 성능 향상을 보였다.

  • PDF

A Study of Retrieval Model Providing Relevant Sentences in Storytelling on Semantic Web (시맨틱 웹 환경에서 적합한 문장을 제공하는 이야기 쓰기 도우미에 관한 연구)

  • Lee, Tae-Young
    • Journal of the Korean Society for information Management
    • /
    • v.26 no.4
    • /
    • pp.7-34
    • /
    • 2009
  • Structures of stories, paragraphs, and sentences and inferences applied to indexing and searching were studied to construct the full-text and sentence retrieval system for storytelling. The system designed the database of stories, paragraphs, and sentences and the knowledge-base of inference rules to aid to write the story. The Knowledge-base comprised the files of story frames, paragraph scripts, and sentence logics made by mark-up languages like SWRL etc. able to operate in semantic web. It is necessary to establish more precise indexing language represented the sentences and to create a mark-up languages able to construct more accurate inference rules.