초록
역파일 인덱스 구조는 대용량 텍스트 데이터의 색인저장 기법을 위한 효율적인 데이터 구조로 널리 활용 되고 있다. 특히, 최근 이슈가 되고 있는 온라인 색인관리 측면에서는 동적 검색 환경에 적합한 In-Place 방식과 Merge-based 색인 방식이 주로 사용 되고 있다. 위 방법들의 핵심은 검색 처리시간을 줄이기 위해서 포스팅 정보의 저장 연속성(Contiguity)을 보장하면서 동시에 색인정보 관리(Index Maintenance) 시간을 최소화 하기위한 색인저장 구조에 중점을 두고 연구가 진행 되었다. 그러나 최근 기존 저장장치(HDD)와 근본적으로 구조가 다른 새로운 저장장치(SSD, SCRAM)가 데이터 저장소로 이용되면서 이러한 장치들의 특성을 효과적으로 활용할 수 있는 새로운 형태의 색인저장 기법 또한 필요하게 되었다. 따라서 본 논문에서는 새로운 저장장치의 빠른 접근 속도(Low access latency) 특성을 최대한 활용할 수 있는 분할(Segmentation) 포스팅 구조를 기반으로 새로운 저장장치에 적합하도록 변형된 In-Place 방식(Pulsing)과 수정된 Merge-based 방식(Merging)을 혼합하여 검색 처리시간 및 색인정보관리시간을 크게 향상시킬 수 있는 새로운 색인저장 구조(SPM)를 제안한다.
Inverted index structures have become the most efficient data structure for high performance indexing of large text collections, especially online index maintenance, In-Place and merge-based index structures are the two main competing strategies for index construction in dynamic search environments. In the above-mentioned two strategies, a contiguity of posting information is the mainstay of design for online index maintenance and query time. Whereas with the emergence of new storage device(SSD, SCRAM), those do not consider a contiguity of posting information in the design of index structures because of its superiority such as low access latency and I/O throughput speeds. However, SSD(Solid State Drive) is not well suited for traditional inverted structures due to the poor random write throughput in practical systems. In this paper, we propose the new efficient online index structure(SPM) for SSD that significantly reduces the query time and improves the index maintenance performance.