메타데이터를 활용한 조사자료의 문서범주화에 관한 연구

An Exploratory Study on Survey Data Categorization using DDI metadata

  • 박자현 (연세대학교 문헌정보학과) ;
  • 송민 (연세대학교 문헌정보학과)
  • Park, Ja-Hyun (Dept. of Library & Information Science, Yonsei University) ;
  • Song, Min (Dept. of Library & Information Science, Yonsei University)
  • 발행 : 2012.08.16

초록

본 연구는 DDI 메타데이터를 활용하여 귀납적 학습모델(supervised learning model)의 문서범주화 실험을 수행함으로써 조사자료의 체계적이고 효율적인 분류작업을 설계하는데 그 목적이 있다. 구체적으로 조사자료의 DDI 메타데이터를 대상으로 단순 TF 가중치, TF-IDF 가중치, Okapi TF 가중치에 따른 나이브 베이즈(Naive Bayes), kNN(k nearest neighbor), 결정트리(Decision tree) 분류기의 성능비교 실험을 하였다. 그 결과, 나이브 베이즈가 가장 좋은 성능을 보였으며, 단순 TF 가중치와 TF-IDF 가중치는 나이브 베이즈, kNN, 결정트리 분류기에서 동일한 성능을 보였으나, Okapi TF 가중치의 경우 나이브 베이즈에서 가장 좋은 성능을 보였다.

키워드