Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2003.10d
- /
- Pages.101-107
- /
- 2003
- /
- 2005-3053(pISSN)
Clustering Method Using the Union Information of Term Frequency and Link in Hypertext
웹 문서의 단어정보와 링크정보 결합을 이용한 클러스터링 기법
- Lee, Won-Hee (Department of Computer Science Busan National University) ;
- Lee, Kyo-Woon (Department of Computer Information Ulsan College,) ;
- Park, Heum (Department of Computer Science Busan National University) ;
- Kim, Young-Ki (Department of Computer Science Busan National University) ;
- Kwon, Hyuck-Chul (Department of Computer Science Busan National University)
- 이원희 (부산대학교 전자계산학과) ;
- 이교운 (울산과학대학 컴퓨터정보학부) ;
- 박흠 (부산대학교 전자계산학과) ;
- 김영기 (부산대학교 전자계산학과) ;
- 권혁철 (부산대학교 전자계산학과)
- Published : 2003.10.10
Abstract
최근의 웹 문서는 텍스트 위주의 구성이 아닌 이미지, 사운드, 동영상 등의 다양한 타입으로 구성되는 추세이다. 이에 따라 단순히 웹 문서 내의 단어 정보추출 만으로는 좋은 성능의 클러스터링을 기대하기 어렵다. 본 논문은 전통적인 문서 클러스터링 기법인 단어기반 클러스터링 기법의 취약점을 제시하고, 웹 문서간의 링크구조정보 중 동시인용 정보를 이용하여 웹 문서 클러스터링 성능향상의 가능성을 보이고자 한다. 실험에서는 네이버디렉토리 중 '자연과학' 범주에 포함된 문서를 대상으로 위의 두 가지 방식과 이 두 가지를 혼합한 단어-링크 혼합 클러스터링을 통해 기존의 방식보다 더 낳은 성능을 얻을 수 있었다.
Keywords