Abstract
Data which is created and shared on the Web is characterized by the massive amount of user generated content on various applications and dynamically evolving content on the basis of user interests. Thus, in order to benefit from Web data, it is essential to provide (a) the mechanisms which enable scalable processing of large data collections and (b) the organization schemes which reduce the navigational overhead within complex and dynamically growing content. Between these two impending needs, in this paper, we are interested in developing an indexing scheme which aims to reduce the time and effort needed to access the relevant piece of information by leveraging ontologies. In particular, considering evolving nature of Web contents, the proposed technique in this paper computes the sub-ontology, which best matches a given data collection, from the existing large size of ontology. Case studies show that the proposed indexing scheme in this paper indeed helps organize dynamically evolving content.
웹상에서 생성 공유되는 데이터는 다양한 분야에서 대용량으로 생성되고, 콘텐츠가 사회적 관심에 따라 지속적으로 변화 한다는 특징이 있다. 이로 인하여, 웹 데이터를 분석하여 유용한 정보를 얻기 위해서는 (a) 대용량의 데이터를 빠르게 처리하고, (b) 사용자가 쉽게 정보를 찾을 수 있도록 데이터를 구성하는 것이 필수적이다. 이러한 두 가지 측면 중에서, 본 논문은 사용자의 정보 검색 부담을 덜어주기 위해 온톨로지를 활용한 데이터 구성 방법을 제시한다. 특히, 본 논문에서는 콘텐츠가 사회적 관심에 따라 지속적으로 변화하는 웹 데이터의 특성을 고려하여, 데이터 콘텐츠를 인덱싱하기에 가장 적합한 온톨로지를 기존에 존재하는 범용 온톨로지로부터 추출한다. 또한, 사례 연구를 통하여 제시한 알고리즘의 유용성을 보인다.