Optimization of Associative Word Knowledge Base using Apriori-Genetic Algorithm

연역적 유전자 알고리즘을 이용한 연관 단어 지식베이스의 최적화

  • 고수정 (유니버셜 소프트 정보통신(주) 연구원) ;
  • 최준혁 (김포대학 컴퓨터계열) ;
  • 이정현 (인하대학교 전자계산공학과)
  • Published : 2001.08.01

Abstract

지식 기반 정보검색 시스템에서의 질의 확장은 단어간의 의미 관계를 고려한 지식베이스를 필요로 한다. 기존의 단순 마이닝 기법은 사용자의 선호도를 고려하지 않은 채 연관 단어를 추출하므로 재현율은 향상되나 정확도는 저하된다. 본 논문에서는 단어간의 의미 관게를 고려한 연관 단어 중에서 사용자가 선호하는 연관 단어만을 포함하는 정확도가 향상된 최적화된 연관 단어 지식베이스 구축을 위한 방법을 제안한다. 이를 위해 컴퓨터 분야의 웹문서를 8개의 클래스로 분류하고, 각 클래스별 웹문서에서 명사를 추출한다. 추출된 명사를 대상으로 Apriori 알고리즘을 이용하여 연관 단어를 추출하고, 유전자 알고리즘을 이용하여 사용자가 선호하지 않은 연관 단어를 지식베이스의 구축 대상에서 제외시킨다. 본 논문에서 제안된 Apriori 알고리즘과 유전자 알고리즘의 성능을 평가하기 위하여 Apriori 알고리즘은 상호 정보량과 Rocchio 알고리즘과 비교하며, 유전자 알고리즘은 TF.IDF를 이용한 단어 정제 방법과 비교한다.

Keywords

References

  1. R. Agrawal and R. Srikant, 'Fast Algorithms for Mining Association Rules,' Proceedings of the 20th VLDB Conference, Santiago, Chile, 1994
  2. R. Agrawal and T. Imielinski and A. Swami, 'Mining association rules between sets of items in large databases,' Proceedings of the 1993 ACM SIGMOD Conference, Washington DC, USA, May 1993 https://doi.org/10.1145/170035.170072
  3. P. Brown and P. Della and R. Mercer, 'Classbased n-gram models of natural language,' Computational Linguistics, 18(4), pp.467-479, 1992
  4. C. Clifton and R. Steinheiser, 'Data Mining on Text,' Proceedings of the Twenty-Second Annual International Computer Software & Applications Conference, 1998
  5. M. Gondon, 'Probabilistic and genetic algorithms for document retrieval,' Communication of the ACM,31, pp.1208-1218, 1988 https://doi.org/10.1145/63039.63044
  6. V. Hatzivassiloglou and K. McKeown, 'Towards the automatic identification of adjectival scales: Clustering adjectives according to meaning.' Proceedings of the 31st Annual Meeting of the ACL, pp.172-182, 1993
  7. K. Hyun-Jin and P. Jay-Duke and J. Myung-Gil and P. Dong-In. 'Clustering Korean Nouns Based On Syntactic Relations and Corpus Data,' Proceedings of the LASTED International Conference Artificial Intelligence and Soft Computing, 1998
  8. T. Joachims, 'A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization,' Proc. 14th International Conference on Machine Learning, 1997
  9. H. IU and R. Setiono and H. Liu, 'Effective Data Mining Using Neural Networks,' Proceeding of the IEEE Trans. Knowledge and data engineering, V.8 N.6, pp.962-969, 1996 https://doi.org/10.1109/69.553163
  10. Miller, George A., Martin Chodorow, Shari Landes, Claudia Leacock, and Robert G. Thomas, WordNet: An on-line Lexical database, International Journal of Lexicography, 3(4), pp. 235-244, 1990 https://doi.org/10.1093/ijl/3.4.235
  11. K. Miyashita and K. Sycara, 'Improving System Performance in CaseBased Iterative Optimization through Knowledge Filtering,' Proceedings of the International Joint Conference on Artificial Intelligence, 1995
  12. T. Michael, Maching Learning, McGraw-Hill, pp. 249-273, 1997
  13. D. W. Oard and G. Marchionini, 'A Conceptual Framework for Text Filtering,' Tehcnical Report CAR-TR-830, Human Computer Interaction Laboratory, University of Maryland at College Park, 1996
  14. C. Plaunt and B.A.Norgard, 'An association based method for automatic indexing with a controlled vocabulary,' Journal of the American Society for Information Science, 49, pp.888-902. 1998 https://doi.org/10.1002/(SICI)1097-4571(199808)49:10<888::AID-ASI5>3.0.CO;2-Y
  15. 한승희, 이재윤, '문헌 클러스터링을 위한 유사계수간의 연관성 측정', 제6회 한국정보관리학회 논문집, pp. 25-28, 1999