A Genre-based Classification of Digital Documents by using Deviation Statistic of Genre-revealing Term and Subject-revealing Term

장르와 주제 범주간 용어 편차정보를 이용한 디지털 문서의 장르기반 분류

  • 이용배 (전주교육대학교 컴퓨터교육과) ;
  • 맹성현 (한국정보통신대학교)
  • Published : 2003.12.01

Abstract

A genre-based classification means classifying documents by the purpose for which they were written, not by the semantics or subject areas. Most genre classifying methods in the past were based on the existing documents categorization algorithms and ineffective for feature selections, resulting in low quality classification results. In this research, we propose a new method for automatic classification of digital documents by genre. The genre classifier we developed uses the deviation statistic between the genre-revealing term frequencies and between the subject-revealing term frequencies within a genre. We collected Web documents to evaluate the proposed genre classification method. The experimental results show that the proposed method outperforms a direct application of a kai-square feature selection and bayesian classifier often used for subject classification by proving an excellent accuracy of about 30 percent.

장르기반 분류는 문서를 내용이나 주제가 아닌 문서의 형식 또는 스타일에 의해 분류하는 것을 의미한다. 현재 장르분류 방법은 기존의 주제기반 분류방법에 사용되었던 알고리즘을 그대로 이용하거나 자질선택 방법에 있어서도 효과적이지 못하고 비교적 단순하여 분류 정확률 또한 상대적으로 낮았다. 본 연구에서는 장르기반으로 문서를 자동 분류할 수 있는 새로운 방법론을 제시한다. 장르분류 방법은 크게 두 가지 정보를 이용하여 학습과 분류를 하는데 장르 간 용어의 편차정보와 장르 내에 분포되어 있는 주제 범주 간 용어의 편차정보를 이용한다. 제안된 방법의 성능을 측정하기 위해 인터넷상에서 정제되지 않은 문서를 수집하였으며 이를 대상으로 실험한 결과 기존의 카이제곱 자질선택 방법 및 베이지안 분류 알고리즘과 비교하여 약 30% 정도 우수한 정확도를 나타내었다.

Keywords

References

  1. Andrew Dillon, Barbara Gushrowski, 'Genre and the Web: Is the Personal Home Page the First Uniquely Digital Genre?', JASIS, 51(2), 2000 https://doi.org/10.1002/(SICI)1097-4571(2000)51:2<202::AID-ASI11>3.0.CO;2-R
  2. Stephanie Haas, Erika Grams, 'Readers, Authors, and Page Structure: A Discussion of Four Questions Arising from a Content Analysis of Web Pages,' JASIS, 51(2), 2000 https://doi.org/10.1002/(SICI)1097-4571(2000)51:2<181::AID-ASI9>3.0.CO;2-8
  3. Stephanie Haas, Erika Grams, 'Page and Link Classifications: Connecting Diverse Resources,' Digital Libraries 98, Pittsburgh USA, 1998
  4. Johan Dewe, Jussi Karlgren, Ivan Bretan, 'Assembling a Balanced Corpus from the Internet,' 11th Nordic Conference of Computational Linguistics, Copenhagen, 1998
  5. Douglas Biber, A Typology of English Texts, Linguistics, 27:3-43, 1989 https://doi.org/10.1515/ling.1989.27.1.3
  6. Jussi Karlgren, Ivan Brettan, Johan Dewe, Anders Hallberg, Niklas Wolkert, 'Iterative Information Retrieval Using Fast Clustering and Usage-Specific Genres,' 8th DELOS Workshop on User Interfaces in Digital Libraries, 1998
  7. Jussi Karlgren, Douglass Cutting, 'Recognizing Text Genres with Simple Metrics Using Discriminant Analysis', Proc. of COLING94, Kyoto, 1994 https://doi.org/10.3115/991250.991324
  8. Efstathios Stamatatos, Nikos Fakotais, George Kokkinakis, 'Automatic Authorship Attribution,' Proc. of the 9th Conference on EACL'99, Norway, 1999 https://doi.org/10.3115/977035.977057
  9. TO BHMA, http://tovima.dolnet.gr
  10. Brett Kessler, Geoffrey Nunberg, Hinrich Schtze, 'Automatic Detection of Text Genre', ACL'97, July 1997 https://doi.org/10.3115/976909.979622
  11. Brown Corpus Manual, http://www.hit.uib.no/icame/brown/bcm.html
  12. 이석훈, 맹성현, 김지영, 장동현, 서정현, 김현, '정보검색 평가체제 구축을 위한 HANTEC 테스트 컬렉션의 패키징', 제5회 한국과학기술 정보인프라 워크샵(KOSTI) 학술발표논문집
  13. 맹성현, 이석훈, 이준호, 이응봉, 송사광, '정보검색 시스템 평가를 위한 균형 테스트 컬렉션 구축', 한국정보관리학회지, 제16권, 제2호 1999
  14. David Lewis, Marc Ringuette, 'A Comparison of Two Learning Algorithm for Text Categorization,' Proc. of the 3rd Annual Symposium on Document Analysis and Information Retrieval, 1994
  15. Lewis, D. D., Schapire, R. E., Callan, J. P. and Papka, R., 'Training algorithms for linear text classifiers,' Proceedings of the 19th annual international ACM SIGIR conference on research and development in information retrieval, pp. 298-306, 1996 https://doi.org/10.1145/243199.243277
  16. Yiming Yang, Jan Peterson, 'A comparative study on feature selection in text categorization,' Proc. of 14th Int. Conf. On Machine Learning, 1997
  17. Robert Gaizauskas et. al., 'Comparison between a Method based on the Chi-square Test and a Support Vector Machine for Document Classification,' Proc. of ACM SIGIR 2001
  18. 이상준, 김유원, '계층구조를 고려한 텍스트데이터 분류의 성능향상 방안 연구', 한국데이타마이닝학회 2002 추계학술대회 논문집, 2002
  19. 염기종, 권영식, 'Suffix Tree를 이용한 웹문서 클러스터의 제목 생성 방법 성능 비교', 한국데이타마이닝학회 2002 추계학술대회 논문집, 2002
  20. Hyo-Jung Oh, Sung Hyon Myaeng, Mann-Ho Lee, 'A Practical Hypertext Categorization Method using Links and Incrementally Available Class-Information,' Proc. of the 23rd ACM SIGIR Conference, Athenes, Greece, 2000 https://doi.org/10.1145/345508.345594
  21. Mehran Sahami, 'Learning Limited Dependence Bayesian Classifiers,' Proc. of the 2nd International Conference on KDD'96, 1996
  22. Yiming Yang, Xin Liu, 'A Re-examination of Text Categorization Methods', Proc. of the 22nd ACM SIGIR'99, 1999 https://doi.org/10.1145/312624.312647
  23. Andrew McCallum, Kamal Nigram, 'A Comparison of Event Models for Nave Bayes Text Classification,' AAAI '98 Workshop on Learning for Text Categorization, 1998