Text-Confidence Feature Based Quality Evaluation Model for Knowledge Q&A Documents

텍스트 신뢰도 자질 기반 지식 질의응답 문서 품질 평가 모델

  • 이정태 (고려대학교 컴퓨터전파통신공학과) ;
  • 송영인 (고려대학교 컴퓨터학과) ;
  • 박소영 (상명대학교 디지털미디어학부) ;
  • 임해창 (고려대학교 컴퓨터전파통신공학부)
  • Published : 2008.10.15

Abstract

In Knowledge Q&A services where information is created by unspecified users, document quality is an important factor of user satisfaction with search results. Previous work on quality prediction of Knowledge Q&A documents evaluate the quality of documents by using non-textual information, such as click counts and recommendation counts, and focus on enhancing retrieval performance by incorporating the quality measure into retrieval model. Although the non-textual information used in previous work was proven to be useful by experiments, data sparseness problem may occur when predicting the quality of newly created documents with such information. To solve data sparseness problem of non-textual features, this paper proposes new features for document quality prediction, namely text-confidence features, which indicate how trustworthy the content of a document is. The proposed features, extracted directly from the document content, are stable against data sparseness problem, compared to non-textual features that indirectly require participation of service users in order to be collected. Experiments conducted on real world Knowledge Q&A documents suggests that text-confidence features show performance comparable to the non-textual features. We believe the proposed features can be utilized as effective features for document quality prediction and improve the performance of Knowledge Q&A services in the future.

불특정 다수 사용자가 정보를 생성하는 지식 질의응답 서비스에서는 문서의 품질이 검색결과 만족도에 중요한 요소 중 하나이다. 지식 질의응답 문서의 품질 평가에 관한 기존 연구는 조회 수와 추천 수 등의 비텍스트 정보를 이용하여 문서의 품질을 평가하고, 이를 검색 모형에 반영하여 검색 성능을 높이는데 집중하였다. 이러한 비텍스트 정보는 그 유용성이 실험을 통해 증명되었다. 그러나 비텍스트 정보를 이용하여 새로 작성된 문서의 품질을 평가할 경우 심각한 자료 부족 문제가 발생할 수 있다는 단점이 있다. 본 논문에서는 이러한 비텍스트 정보의 자료 부족 문제를 완화할 수 있는 새로운 문서 품질 평가자질로서 문서 내용 자체에 대한 신뢰성을 반영하는 신뢰도 자질을 제안한다. 제안하는 자질은 문서의 내용으로부터 직접 추출되며, 따라서 추천 수나 조회 수 등 서비스 사용자의 참여를 간접적으로 필요로 하는 비텍스트 자질보다 자료 부족 문제에 견고하다는 장점이 있다. 또한 제안하는 신뢰도 자질은 문서 품질 평가에 유용하다고 알려진 비텍스트 자질과 유사하거나 향상된 성능을 실제 지식 질의응답 문서를 대상으로 한 실험에서 보였으며, 추후 효과적인 품질 평가 자질로서 지식 질의응답 서비스의 성능향상에 기여를 할 수 있을 것으로 기대된다.

Keywords

References

  1. Jeon, J., Croft, W. B., Lee, J. H., and Park, S., "A framework to predict the quality of answers with non-textual features," In Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.228-235, 2006
  2. Page, E. B., "Computer grading of student prose, using modern concepts and software," Journal of Experimental Education, Vol.62, No.2, pp.127-142, 1994 https://doi.org/10.1080/00220973.1994.9943835
  3. Brin, S. and Page, L., "The anatomy of a large-scale hypertextual Web search engine," In Proceedings of the 7th International Conference on World Wide Web 7, pp.107-117, 1998 https://doi.org/10.1016/S0169-7552(98)00110-X
  4. Kleinberg, J. M., "Authoritative sources in a hyperlinked environment," J. ACM, Vol.46, No.5, pp.604-632, 1999 https://doi.org/10.1145/324133.324140
  5. Zhu, X. and Gauch, S., "Incorporating quality metrics in centralized/distributed information retrieval on the World Wide Web," In Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.288-295, 2000
  6. Zhou, Y. and Croft, W. B., "Document quality models for Web ad hoc retrieval," In Proceedings of the 14th ACM International Conference on Information and Knowledge Management, pp.331- 332, 2005
  7. 박소연, 이준호, 전지운, "지식 검색 서비스 개선을 위한 문서의 적합도 및 신뢰도 분석," 한국문헌정보학회지, 제40권, 제2호, pp.299-314, 2006
  8. Lee, J.-T., Song, Y.-I., and Rim, H.-C., "Predicting the quality of answers using surface linguistic features," In Proceedings of the 6th International Conference on Advanced Language Processing and Web Information Technology, pp. 111-116, 2007
  9. Berger, A. L., Pietra, V. J. D., and Pietra, S. A. D., "A maximum entropy approach to natural language processing," Comput. Linguist. Vol.22, No.1, pp.39-71, 1996
  10. Malouf, R., "A comparison of algorithms for maximum entropy parameter estimation," In Proceedings of the Conference on Computational Natural Language Learning, pp.49-55, 2002
  11. Ponte, J. M. and Croft, W. B., "A language modeling approach to information retrieval," In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.275-281, 1998
  12. Kekalainen, J. and Jarvelin, K., "Using graded relevance assessments in IR evaluation," Journal of the American Society for Information Science and Technology, Vol.53, No.13, pp.1120-1129, 2002 https://doi.org/10.1002/asi.10137