• 제목/요약/키워드: Pseudo Non-relevant Documents

검색결과 2건 처리시간 0.018초

잠정적 부적합 문서와 어휘 근접도를 반영한 어휘 그래프 기반 질의 확장 (Query Expansion Based on Word Graphs Using Pseudo Non-Relevant Documents and Term Proximity)

  • 조승현;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.189-194
    • /
    • 2012
  • 본 논문에서는 정보검색 성능 향상을 위해 잠정적 적합 문서 및 부적합 문서와 어휘 그래프를 이용한 질의 확장 방법을 제안한다. 언어모델에 의한 초기 검색 결과 상위 문서들은 질의 어휘 조합과 근접도를 기반으로 핵심 질의를 포함하는 문서들로 구성된 핵심 질의 클러스터와 핵심 질의를 포함하지 않는 문서들로 구성된 비핵심 질의 클러스터로 분류된다. 이때, 핵심 질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심 질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 각 클러스터는 어휘들과 질의 어휘와의 가까운 정도에 따라 어휘 그래프로 표현된다. 각 어휘에 대한 중요도는 핵심 질의 클러스터 그래프에서의 어휘 가중치에서 비핵심 질의 클러스터 그래프에서의 어휘의 가중치를 빼서 계산한다. 이는 부적합 문서에서 높은 가중치를 갖는 어휘는 확장 질의에서 제외시키는 역할을 한다. 중요도가 높은 어휘 순으로 확장할 질의를 선택한다. 웹 문서 테스트컬렉션인 TREC WT10g에서의 실험 결과에서 제안 방법이 언어모델(LM)에 비해 평균 정확률의 평균(MAP)에서 9.4% 성능 향상을 보였다.

의미특징과 워드넷 기반의 의사 연관 피드백을 사용한 질의기반 문서요약 (Query-based Document Summarization using Pseudo Relevance Feedback based on Semantic Features and WordNet)

  • 김철원;박선
    • 한국정보통신학회논문지
    • /
    • 제15권7호
    • /
    • pp.1517-1524
    • /
    • 2011
  • 본 논문은 의미특징과 워드넷 기반의 의사연관피드백을 이용하여 사용자의 질의에 관련 있는 의미 있는 문장을 추출하여 문서요약을 하는 새로운 방법을 제안한다. 제안된 방법은 비음수 행렬 분해로부터 유도된 의미특정이 문서의 잠재의미를 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다. 또한 의미특정과 워드넷기반의 의사연관피드백을 이용하여서 사용자의 요구사항과 제안방법의 요약결과 사이의 의미적 차이를 감소시킨다. 실험결과 제안방법이 유사도, 비음수행렬분해를 이용한 방법들에 비하여 좋은 성능을 보인다.