Browse > Article
http://dx.doi.org/10.9717/kmms.2011.14.6.730

Hierarchical Automatic Classification of News Articles based on Association Rules  

Joo, Kil-Hong (경인교육대학교 컴퓨터교육과)
Shin, Eun-Young (YTN 정보시스템팀)
Lee, Joo-Il (연세대학교 컴퓨터과학과)
Lee, Won-Suk (연세대학교 컴퓨터과학과)
Publication Information
Abstract
With the development of the internet and computer technology, the amount of information through the internet is increasing rapidly and it is managed in document form. For this reason, the research into the method to manage for a large amount of document in an effective way is necessary. The conventional document categorization method used only the keywords of related documents for document classification. However, this paper proposed keyword extraction method of based on association rule. This method extracts a set of related keywords which are involved in document's category and classifies representative keyword by using the classification rule proposed in this paper. In addition, this paper proposed the preprocessing method for efficient keywords creation and predicted the new document's category. We can design the classifier and measure the performance throughout the experiment to increase the profile's classification performance. When predicting the category, substituting all the classification rules one by one is the major reason to decrease the process performance in a profile. Finally, this paper suggested automatically categorizing plan which can be applied to hierarchical category architecture, extended from simple category architecture.
Keywords
Keyword Extraction; Association Rule; Web Information Searching; Clustering;
Citations & Related Records
Times Cited By KSCI : 2  (Citation Analysis)
연도 인용수 순위
1 황성하. "인터넷 문서의 자동분류 서비스 시스템에 관한 구현," 한국 컨텐츠학회 추계종합학술대회 논문집 제3권, 2005.
2 한정기. "구문 패턴과 키워드 집합을 이용한 통계적 자동 문서 분류의 성능 향상," 한국정보처리학회 학술대회 논문집, 2000.
3 박흠, "문서 자동분류에서 자질의 대표성 향상을 위한 자질 축소와 자질 필터링 방법," 부산대학교 정보통신대학원 박사학위 논문, 2008.
4 하원식, "협력적 필터링을 위해 연관단어 빈도를 이용한 웹 문서 분류," 한국정보과학회 학술대회 논문집 Vol.31, No.2, 2004.
5 김흥남, "가중치가 부여된 단어 연관 규칙 기반의 문서 분류," 인하대 대학원 석사학위 논문, 2004.
6 백용규, "인터넷 뉴스기사에 대한 자동 분류 정보 시스템에 관한 연구," 한국경영정보학회 학술대회 논문집, 2003.
7 L. Larkey. and W. Croft, "Combining classifiers in text categorization," SIGIR'96, 1996.
8 이형우, 김태수, "온톨로지 기반에서 연관 마이닝 방법을 이용한 지식 추론 알고리즘 연구," 한국멀티미디어학회논문지, 제11권, 제11호, pp.1601-1614, 2008.
9 P. Hayes, P. Anderson, I. Nirenburg, and L. Schmandt. "TCS: A Shell for Content-based Text Categorization," Proceedings of the 6th IEEE Conference on Artificial Intelligence.
10 J. R. Hobbs., D. Appelt, M. Tyson, J. Bear and D. Israel, "FASTUS: System summary," Proceedings of Fourth Message Understanding Conference, 1992.
11 D. Lewis. "An Evaluation of Phrasal and Clustered Representations on a Text Categorization Task," SIGIR'92.
12 B. Masand., "Classifying News Stories using Memory Based Reasoning," SIGIR'92.
13 M. Maron, "Automatic indexing: An experimental inquiry," Journal of the ACM, 1961.
14 R. Hoch., "Using IR techniques for text classification in document analysis," SIGIR'94, 1994.
15 P. Jacobs., Using statistical methods to improve knowledge-based news.
16 M. Blosseville. G. Hebrail, M. Monteil, and N. Penot., "Automatic document classification: natural language processing, statistical analysis, and expert system techniques used together," SIGIR'92, 1992.
17 윤종찬, 윤성대, "스퀀스 연관규칙을 이용한 개인화 웹 마이닝 설계," 한국멀티미디어학회논문지, 제11권, 제11호, pp.1566-1574, 2008.
18 김국희. "웹 기반 문서 자동분류시스템 설계 및 성능실험," 국방대 국방관리 대학원, 2005.
19 명진. "인공지능을 이용한 웹 문서의 자동분류," 서강대학교 경영대학원 석사학위 논문, 2004