Dynamic recomposition of document category using user intention tree

사용자 의도 트리를 사용한 동적 카테고리 재구성

  • 김효래 (경민대학 컴퓨터정보통신학부) ;
  • 장영철 (경민대학 컴퓨터정보통신학부) ;
  • 이창훈 (건국대학교 정보통신 대학원, 건국대학교 인터넷 멀티미디어학과)
  • Published : 2001.01.01

Abstract

It is difficult that web documents are classified with exact user intention because existing document classification systems are based on word frequency number using single keyword. To improve this defect, first, we use keyword, a query, domain knowledge. Like explanation based learning, first, query is analyzed with knowledge based information and then structured user intention information is extracted. We use this intention tree in the course of existing word frequency number based document classification as user information and constraints. Thus, we can classify web documents with more exact user intention. In classifying document, structured user intention information is helpful to keep more documents and information which can be lost in the system using single keyword information. Our hybrid approach integrating user intention information with existing statistics and probability method is more efficient to decide direction and range of document category than existing word frequency approach.

기존에 단어의 빈도수를 근간으로 하는 문서 분류 시스템에서는 단일 키워드를 사용하기 때문에 사용자의 의도를 충분히 반영한 문서 분류가 어려웠다. 이러한 단점을 개선하기 위하여 우선 기존의 설명에 근거한 학습방법(explanation based learning)에서 한 예제만 있어도 지식베이스 정보와 함께 개념을 학습할 수 있다는 점에 착안하여 먼저 사용자 질의를 분석, 확장한 후 사용자 의도 트리를 생성한다. 이 의도 트리의 정보를 기존의 키워드 빈도 수에 근거한 문서분류 과정에 제약 및 보충 정보로 사용하여 사용자의 의도에 더욱더 근접한 웹 문서를 분류할 수 있다. 문서를 분류하는 측면에서 볼 때 구조화된 사용자 의도 정보는 단순한 키워드의 한계를 극복하여 문서 분류 과정에서 특정 키워드 빈도수의 임계값을 결정함으로서 잃게되는 문서 및 정보를 좀더 보유하고 재적용할 수 있게 된다. 질의에서 분석, 추출된 사용자 의도 트리는 기존의 통계 및 확률을 사용한 문서 분류기법들과 조합하여 사용자 의도정보를 제공함으로서 카테고리의 형성 방향과 범위를 결정하는데 높은 효율성을 보인다.

Keywords

References

  1. Jayanarayan Bhuyan, 'Cluster-Based Adaptive Information Retrieval,' Ph.D. dissertation, Univ of Southwestern Louisiana, 1990
  2. W. Bruce Croft, 'Clustering large files of documents using the single link method,' JASIS 28, 6, pp.341-344, Nov. 1977 https://doi.org/10.1002/asi.4630280606
  3. Webcatcher, http://plum.tuc.noao.edu/webcatcher/webcatcher.Html
  4. 'wisewire,' http://www.wisewire.com/home.wisewire.com/press/netscape.Html
  5. Fisher, D. H., & Langley, P., 'Methods of conceptual clustering and their relation to numerical taxonomy,' in W. Gale, AI and statistics, reading MA : Addison Wesley, 1986
  6. Doug. Fisher. 'interactive optimization and simplification of Hierarchical clustering,' AI access foundation and Morgan Kaufmann publishers, 1996
  7. M. Wooldridge, N. R. jennings 'Agent Theories, Architectures and language,' Intelligent Agent, Springer Verlag, pp.1-39, 1994
  8. M. P. Georgeff, A. S. Rao 'The semantics of intention for rational Agents,' IJACI-95, pp.710-804, 1995
  9. Harman, D. 'How Effective is Suffixing?,' Journal of the American Society for Information science, 1991 https://doi.org/10.1002/(SICI)1097-4571(199101)42:1<7::AID-ASI2>3.0.CO;2-P
  10. Buckely C., Salton G. 'Improving Retrieval Performance by Relevance Feedback,' Journal of the American Society for Information science, 1990 https://doi.org/10.1002/(SICI)1097-4571(199006)41:4<288::AID-ASI8>3.0.CO;2-H
  11. Joachims T. 'A Probabilistic Analysis of the Rocchio Algorithm with TF-IDF for Text Categorization,' March 1996
  12. E. Werner 'A Unified View of Information, Intention and Ability,' Decetralized AI2, pp.109-125, 1990
  13. Gluck, M., & Corter, J., 'Information Uncertainty and the Utility of Categories,' Proceeding of the Seventh Annual Conference of the Cognitive Science Society, pp.283-287. 1985
  14. Fisher, D. H.,'Knowledge Acquisition via Incremental Conceptual Clustering,' Machine Learning, 1987 https://doi.org/10.1023/A:1022852608280