Real-Time Indexing Performance Optimization of Search Platform Based on Big Data Cluster

빅데이터 클러스터 기반 검색 플랫폼의 실시간 인덱싱 성능 최적화

  • 금나연 (숙명여자대학교 IT 공학전공) ;
  • 박동철 (중앙대학교 산업보안학과)
  • Received : 2023.10.04
  • Accepted : 2023.11.26
  • Published : 2023.12.30

Abstract

With the development of information technology, most of the information has been converted into digital information, leading to the Big Data era. The demand for search platform has increased to enhance accessibility and usability of information in the databases. Big data search software platforms consist of two main components: (1) an indexing component to generate and store data indices for a fast and efficient data search and (2) a searching component to look up the given data fast. As an amount of data has explosively increased, data indexing performance has become a key performance bottleneck of big data search platforms. Though many companies adopted big data search platforms, relatively little research has been made to improve indexing performance. This research study employs Elasticsearch platform, one of the most famous enterprise big data search platforms, and builds physical clusters of 3 nodes to investigate optimal indexing performance configurations. Our comprehensive experiments and studies demonstrate that the proposed optimal Elasticsearch configuration achieves high indexing performance by an average of 3.13 times.

정보기술의 발달로 모든 데이터는 데이터베이스화 되어 빅데이터 시대를 맞이하였으며 방대한 양의 데이터에 대한 접근성과 활용 가능성을 높이고자 빅데이터 검색 플랫폼의 필요성이 증가되었다. 검색 플랫폼은 기본적으로 효율적인 검색을 위해 인덱스를 빠르게 생성하고 저장하는 인덱싱 (indexing) 과정과 생성된 인덱스를 활용하여 필요한 정보를 찾는 검색 (searching) 과정으로 구성된다. 빅데이터 시대를 지나 초빅데이터 시대를 맞이하여 데이터의 용량이 거대해짐에 따라 데이터 인덱싱 성능이 검색 플랫폼의 매우 중요한 성능문제로 대두되고 있다. 많은 기업들이 효율적인 빅데이터 검색을 위해 검색 플랫폼들을 도입하고 있으나, 검색 효율성 및 검색 정확도 관련 연구에 비해 검색 성능의 핵심이 되는 인덱싱(indexing)의 성능을 최적화하는 연구는 상대적으로 미흡한 실정이다. 또한 인덱싱(indexing) 기본 단위인 샤드(Shard) 수와 크기를 최적화하는 연구에 비해 검색 플랫폼을 클러스터 기반으로 운영하기 위한 다양한 성능 비교 관련 연구는 미흡하다. 이에 본 연구에서는 대표적인 엔터프라이즈 빅데이터 검색 플랫폼인 Elasticsearch 클러스터를 구성하여 확장성 높은 검색 환경을 위해 최적의 인덱싱 성능을 낼 수 있는 구성을 제안한다. 본 논문은 클러스터와 검색 플랫폼의 다양한 구성 변경을 통해 최고의 인덱싱 성능을 낼 수 있는 구성을 도출하여 최적 구성에서 기본 구성보다 평균 3.13배 높은 인덱싱 성능의 향상을 확인하였다

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 대학 ICT 연구센터지원사업의 연구결과로 수행되었음 (IITP-2023-2018-0-01799).

References

  1. B. Jin and Y. Ji, "A Study about Search Engine Interface Design including User's Search Goal," The Journal of Society for e-Business Studies, Vol. 13, No. 4, pp111-124. February 2008.
  2. K. Kim and Y. Cho, "Improving Elasticsearch for Chinese, Japanese, and Korean Text Search through Language Detector," Journal of information and communication convergence engineering (Journal of Information and Communication Convergence Engineering), Vol. 18 No. 1, pp 33-38. 2020. https://doi.org/10.6109/JICCE.2020.18.1.33
  3. O. Kononenko, O. Baysal, R. Holmes and M. W. Godfrey, "Mining modern repositories with elasticsearch." Proceedings of the 11th working conference on mining software repositories, pp 328-331, 2014.
  4. D. Sharma, R. Shukla, A. K. Giri and S. Kumar, "A Brief Review on Search Engine Optimization," 9th International Conference on Cloud Computing, Data Science & Engineering (Confluence), Noida, India, pp. 687-692, 2019.
  5. E. Tomes and N. Altiparmak, "A Comparative Study of HDD and SSD RAIDs' Impact on Server Energy Consumption," 2017 IEEE International Conference on Cluster Computing (CLUSTER), Honolulu, HI, USA, pp 625-626, 2017.
  6. E. Lee and D. Park, "Performance Analysis of Real-Time Big Data Search Platform Based on High-Capacity Persistent Memory," Journal of Platform Technology, Vol. 11, No. 4, August 2023.
  7. J. He, "Research on Personalized Search Based on ElasticSearch," 2020 IEEE 2nd International Conference on Civil Aviation Safety and Information Technology (ICCASIT, Weihai, China, 2020, pp. 572-575
  8. B. Wei, J. Dai, L. Deng and H. Huang, "An Optimization Method for Elasticsearch Index Shard Number," 2020 16th International Conference on Computational Intelligence and Security (CIS), Guangxi, China, 2020, pp. 191-195
  9. S. Iyer, S. Chaturvedi, T. Dash, "Image Captioning-Based Image Search Engine: An Alternative to Retrieval by Metadata." Soft Computing for Problem Solving, vol. 817, pp 181-192, 2019. https://doi.org/10.1007/978-981-13-1595-4_14
  10. T. Kwon, D. Kim, H. Kim, J. Park, Y. Choi, and H. Hwang, "Elasticsearch practical guide," Wikibooks, pp 29-33, 2019.
  11. P. M. Dhulavvagol, V. H. Bhajantri, and S. G. Totad, "Performance analysis of distributed processing system using shard selection techniques on elasticsearch". Procedia Computer Science, 167, pp 1626-1635, 2020. https://doi.org/10.1016/j.procs.2020.03.373
  12. Elastic Guide book, Chapter 3.2. Index & Shards, https://esbook.kimjmin.net/03-cluster/3.2-indexand-shards
  13. S. Park and J. Kang. Elasticsearch operation know-how, Insight, pp 1-20, pp 75-107, 2021.
  14. Elasticsearch Best Practice Architecture, https://www.elastic.co/kr/webinars/elasticsearcharchitecture-best-practices
  15. What it ELK Stack?, https://www.elastic.co/kr/what-is/elk-stack
  16. The Complete Guide to the ELK Stack, https://logz.io/learn/complete-guide-elk-stack/#what-elkstack
  17. J. Hamilton, B. Schofield, M. G. Berges, and J. C. Tournier. "SCADA Statistics monitoring using the elastic stack (Elasticsearch, Logstash, Kibana).", International Conference on Accelerator and Large Experimental Physics Control Systems, January 2018.
  18. Introduction to Logstash, https://www.elastic.co/guide/kr/logstash/current/introduction.html
  19. What is Kibana?, https://www.elastic.co/kr/what-is/kibana
  20. W. Takase, T. Nakamura, Y. Watase, and T. Sasaki. "A solution for secure use of Kibana and Elasticsearch in multi-user environment." arXiv preprint arXiv:1706.10040, 2017.