DOI QR코드

DOI QR Code

Subtopic Mining of Two-level Hierarchy Based on Hierarchical Search Intentions and Web Resources

계층적 검색 의도와 웹 자원을 활용한 2계층 구조의 서브토픽 마이닝

  • Received : 2015.09.08
  • Accepted : 2015.11.19
  • Published : 2016.02.15

Abstract

Subtopic mining is the extraction and ranking of possible subtopics, which disambiguate and specify the search intentions of an input query in terms of relevance, popularity, and diversity. This paper describes the limitations of previous studies on the utilization of web resources, and proposes a subtopic mining method with a two-level hierarchy based on hierarchical search intentions and web resources, in order to overcome these limitations. Considering the characteristics of resources provided by the official subtopic mining task, we extract various second-level subtopics reflecting hierarchical search intentions from web documents, and expand and re-rank them using other provided resources. Terms in subtopics with wider search intentions are used to generate first-level subtopics. Our method performed better than state-of-the-art methods in almost every aspect.

서브토픽 마이닝은 입력 질의에서 나타날 수 있는 검색 의도들의 중의성 해소 및 보다 명확한 의도 전달을 위해 관련 서브토픽들을 연관성, 선호도, 다양성을 고려하여 추출 및 순위화하는 것을 말한다. 본 논문은 웹 자원의 활용에 대한 기존 연구의 한계점을 명시하고, 이를 극복하기 위해 계층적 검색 의도와 웹 자원을 기반으로 한 2계층 구조의 서브토픽 마이닝 방법론을 제안한다. 우리는 서브토픽 마이닝 평가 대회에서 제공한 웹 문서 및 각 자원의 특성을 고려하여 제 2계층 서브토픽들을 추출, 확장 및 재순위화하고, 넓은 검색 의도를 가진 서브토픽 내의 단어들은 제 1계층 서브토픽들을 구성하는데 활용하였다. 본 방법론은 관련 평가 대회에서 최고 성능을 보인 기존 연구들의 결과들과 비교했을 때, 대부분의 평가 척도에서 높은 성능을 보였다.

Keywords

Acknowledgement

Supported by : 정보통신기술진흥센터, 한국연구재단

References

  1. R. Song, M. Zhang, T. Sakai, M. P. Kato, Y. Liu, M. Sugimoto, Q. Wang, and N. Orii, "Overview of the ntcir-9 intent task," Proc. of NTCIR-9 Workshop Meeting, pp. 82-105, 2011.
  2. T. Sakai, Z. Dou, T. Yamamoto, Y. Liu, M. Zhang, and R. Song, "Overview of the ntcir-10 intent-2 task," Proc. of NTCIR-10 Workshop Meeting, pp. 94-123, 2013.
  3. Y. Liu, R. Song, M. Zhang, Z. Dou, T. Yamamoto, M. Kato, H. Ohshima, and K. Zhou, "Overview of the ntcir-11 imine task," Proc. of NTCIR-11 Workshop Meeting, pp. 8-23, 2014.
  4. T. Yamamoto, M. P. Kato, H. Ohshima, and K. Tanaka, "Kuidl at the ntcir-11 imine task," Proc. of NTCIR-11 Workshop Meeting, pp. 53-54, 2014.
  5. C. Luo, X. Li, A. Khodzhaev, F. Chen, K. Xu, Y. Cao, Y. Liu, M. Zhang, and S. Ma, "Thusam at ntcir-11 imine task," Proc. of NTCIR-11 Workshop Meeting, pp. 55-62, 2014.
  6. S. J. Kim and J. H. Lee, "Subtopic Mining Using Simple Patterns and Hierarchical Structure of Subtopic Candidates from Web Documents," Information Processing & Management, Vol. 51, issue 6, pp. 773-785, 2015. https://doi.org/10.1016/j.ipm.2015.07.001
  7. Z. Dou, S. Hu, Y. Luo, R. Song, and J. R. Wen, "Finding dimensions for queries," Proc. of the 20th ACM International Conference on Information and Knowledge Management, pp. 1311-1320, 2011.
  8. D. M. Blei, A. Y. Ng, and M. I. Jordan, "Latent dirichlet allocation," Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.
  9. T. Sakai, "Ntcireval: A generic toolkit for information access evaluation," Proc. of the Forum on Information Technology 2011, Vol. 2, pp. 23-30, 2011.