DOI QR코드

DOI QR Code

A Study on the Frequency Level Preference Tendency of Association Measures

연관성 척도의 빈도수준 선호경향에 대한 연구

  • Published : 2004.12.01

Abstract

Association measures are applied to various applications, including information retrieval and data mining. Each association measure is subject to a close examination to its tendency to prefer high or low frequency level because it has a significant impact on the performance of applications. This paper examines the frequency level preference(FLP) tendency of some popular association measures using artificially generated cooccurrence data, and evaluates the results. After that, a method of how to adjust the FLP tendency of major association measures such as cosine coefficient is proposed. This method is tested on the cooccurrence-based query expansion in information retrieval and the result can be regarded as promising the usefulness of the method. Based on these results of analysis and experiment, implications for related disciplines are identified.

연관성 척도는 정보검색 및 데이터마이닝을 비롯한 다양한 분야에서 사용되고 있다. 각 연관성 척도가 높거나 낮은 빈도 중에서 어떤 쪽을 선호하는가를 나타내는 빈도수준 선호경향은 척도의 적용 결과에 중요한 영향을 미치므로 이에 대한 면밀한 조사가 필요하다. 이 연구에서는 주요 연관성 척도들의 빈도수준 선호경향을 가상의 데이터를 통해 분석하고 그 결과를 제시하였다. 또한 코사인 계수를 비롯한 대표적인 연관성 척도에 대해서 빈도수준 선호경향을 조절할 수 있는 방법을 제안하였다. 이 조절 방법을 동시출현 기반 질의확장 정보검색에 적용해본 결과 그 유용성이 확인되었다. 마지막으로 분석 및 실험 결과가 관련 분야에 시사하는 바를 논하였다.

Keywords

References

  1. 김지영, 장동현, 맹성현, 이석훈, 서정현, 김현. 2000. 한국어 테스트 컬렉션 HANTEC의 확장 및 보완. '제12회 한글 및 한국어 정보치리 학술대회 논문집', 210-215
  2. 사공철 외. 2003. '정보학 사전'. 서울: 문헌정보처리연구회
  3. 이재윤. 2003. 상호정보량의 정규화에 대한 연구. '문헌정보학회지', 37(4): 177-198
  4. 정영미. 1987. '정보검색론'. 서울: 정음사
  5. Chung, Young Mee, and Jae Yun Lee. 2001. 'A corpus-based approach to comparative evaluation of statistical term association measures.' Journal of the American Society for Information Science and Technology. 352 (4): 283-296
  6. Chung, Young Mee. and Jae Yun Lee. 2004. 'Optimization of some factors affecting the performance of query expansion.' Information Processing and Management. 40(6): 891-917 https://doi.org/10.1016/j.ipm.2003.11.003
  7. Forman. George. 2003. 'An extensive empirical study of feature selection metrics for text classification.' Journal of Machine Learning Research 3(Mar): 1289-1305 https://doi.org/10.1162/153244303322753670
  8. Galavotti, L., F. Sebastiani, and M. Simi. 2000. 'Experiments on the use of feature selection and negative evidence in automated text categorization.' In Proceedings of ECDL-00. 4th European Conference on Research and Advanced Technology for Digital Libraries(Lisbon, Portugal, 2000): 59 - 68
  9. Gower, J. C. 1985. 'Measures of similarity, dissimilarity, and distance.' In Encyclopedia of Statistical Sciences, Vol. 5, eds. S. Kotz and N.L. Johnson: 397-405
  10. Meyer, A., A. A. F. Garcia, A. P. de Souza, and C. L. de Souza Jr. 2004. 'Comparison of similarity coefficients used for cluster analysis with dominant markers in maize (Zea mays L).' Genetics and Molecular Biology, 27 (1): 83-91 https://doi.org/10.1590/S1415-47572004000100014
  11. Mladeni'c, D. 1998. 'Feature subset selection in text-learning.' In Proceedings of the Tenth European Conference on Machine Learning(Chemnitz, Germany, 1998): 95-100
  12. Salton, G., and C. S. Yang. 1973. 'On the specification of term values in automatic indexing.' Journal of Documentation, 29(4): 351-372 https://doi.org/10.1108/eb026562
  13. van Rijsbergen, C. J. 1979. Information Retrieval. 2nd ed. London: Butter-worths
  14. Yang, Yiming, and Jan O. Pedersen. 1997. 'A comparative study on feature selection in text categorization.' Proceedings of the 14th International Conference on Machine Learning: 412-420

Cited by

  1. An Analytic Study on the Categorization of Query through Automatic Term Classification vol.19D, pp.2, 2012, https://doi.org/10.3745/KIPSTD.2012.19D.2.133