정보검색 기법을 이용한 효율적인 자동 키워드 태깅

An Efficient Method of IR-based Automated Keyword Tagging

  • 김진숙 (한국과학기술정보연구원 지식정보센터 콘텐츠융합팀) ;
  • 최호섭 (한국과학기술정보연구원 정보기술개발단 정보시스템개발팀) ;
  • 류범종 (한국과학기술정보연구원 지식정보센터 콘텐츠융합팀)
  • Kim, Jinsuk (Content Convergence Team, Korea Institute of Science & Technology Information (KISTI)) ;
  • Choe, Ho-Seop (KISTI) ;
  • You, Beom-Jong (Content Convergence Team, Korea Institute of Science & Technology Information (KISTI))
  • 발행 : 2008.05.01

초록

위키피디아의 백과사전에서 보여주는 바와 같이 주요한 용어에 대한 링크를 통한 태깅은 문서의 가독성을 크게 향상시킨다. 웹 2.0에서도 사회적 태깅(Social Tagging)의 중요성이 부각되고 있으며 시멘틱웹의 태그클라우드(Tag Cloud) 형태로 발전하고 있다. 본 논문에서는 대용량 통제어 사전에 등재된 주요 용어를 대상문서에 태깅하는 방법에 대해 연구결과를 제시한다. 기본적으로 사전에 있는 모든 용어(항목수 N)를 주어진 문서(길이 m)에서의 출현 여부를 문자열탐색을 통해 비교하여 태깅하는 방식은 O(mN)의 계산복잡도를 가진다. 그러나 본 논문에서 제시하는 바와 같이 정보검색을 이용할 경우에는 계산복잡도를 O(mlogN)으로 줄일 수 있었다. 정보검색을 활용하면 단순문자열 탐색에 비해서 평균 17.8배, 빠른 문자열탐색 알고리즘에 비해서도 평균 5.6배 이상 태깅 속도가 향상되었다.

As shown in Wikipedia, tagging or cross-linking through major key-words improves the readability of documents. Recently, the Semantic Web rises the importance of social tagging as a key feature of the Web 2.0 and Tag Cloud has emerged as its crucial phenotype. In this paper we provides an efficient method of automated keyword tagging based on controlled term collection, where the computational complexity of O(mN) - if pattern matching algorithm is used - can be reduced to O(mlogN) - if Information Retrieval is adopted - while m is the length of target document and N is the total number of candidate terms to be tagged. The result shows that IR-based tagging speeds up 5.6 times compared with fast pattern matching algorithm.

키워드