Multi-Dimensional Keyword Search and Analysis of Hotel Review Data Using Multi-Dimensional Text Cubes

다차원 텍스트 큐브를 이용한 호텔 리뷰 데이터의 다차원 키워드 검색 및 분석

  • Kim, Namsoo (Dept. of Computer Science, Kangwon, National University) ;
  • Lee, Suan (Dept. of Computer Science, Kangwon, National University) ;
  • Jo, Sunhwa (Dept. of Computer Science, Kangwon, National University) ;
  • Kim, Jinho (Dept. of Computer Science, Kangwon, National University)
  • 김남수 (강원대학교 컴퓨터과학과) ;
  • 이수안 (강원대학교 컴퓨터과학과) ;
  • 조선화 (강원대학교 컴퓨터과학과) ;
  • 김진호 (강원대학교 컴퓨터과학과)
  • Received : 2013.12.12
  • Accepted : 2013.12.31
  • Published : 2014.03.30

Abstract

As the advance of WWW, unstructured data including texts are taking users' interests more and more. These unstructured data created by WWW users represent users' subjective opinions thus we can get very useful information such as users' personal tastes or perspectives from them if we analyze appropriately. In this paper, we provide various analysis efficiently for unstructured text documents by taking advantage of OLAP (On-Line Analytical Processing) multidimensional cube technology. OLAP cubes have been widely used for the multidimensional analysis for structured data such as simple alphabetic and numberic data but they didn't have used for unstructured data consisting of long texts. In order to provide multidimensional analysis for unstructured text data, however, Text Cube model has been proposed precently. It incorporates term frequency and inverted index as measurements to search and analyze text databases which play key roles in information retrieval. The primary goal of this paper is to apply this text cube model to a real data set from in an Internet site sharing hotel information and to provide multidimensional analysis for users' reviews on hotels written in texts. To achieve this goal, we first build text cubes for the hotel review data. By using the text cubes, we design and implement the system which provides multidimensional keyword search features to search and to analyze review texts on various dimensions. This system will be able to help users to get valuable guest-subjective summary information easily. Furthermore, this paper evaluats the proposed systems through various experiments and it reveals the effectiveness of the system.

웹의 발달로 텍스트 등으로 이루어진 비정형 데이터의 활용에 대한 관심이 높아지고 있다. 웹상에서 사용자들이 작성한 대부분의 비정형 데이터는 사용자의 주관이 담겨져 있어 이를 적절히 분석할 경우 사용자의 취향이나 주관적인 관점 등의 아주 유용한 정보를 얻을 수 있다. 이 논문에서는 이러한 비정형 텍스트 문서를 다양한 차원으로 분석하기 하는데 OLAP(온라인 분석 처리)의 다차원 데이터 큐브 기술을 활용한다. 다차원 데이터 큐브는 간단한 문자나 숫자 형태의 정형적인 데이터에 대해 다차원 분석하는데 널리 사용되었지만, 텍스트 문장으로 이루어진 비정형 데이터에 대해서는 활용되지 않았다. 이러한 텍스트 데이터베이스에 포함된 정보를 다차원으로 분석하기 위한 방법으로 텍스트 큐브 모델이 최근에 제안되었는데, 이 텍스트 큐브는 정보 검색에서 널리 사용하는 용어 빈도수(Term Frequency)와 역 인덱스(Inverted Index)를 측정값으로 이용하여 텍스트 데이터베이스에 대한 다차원 분석을 지원한다. 이 논문에서는 이러한 다차원 텍스트 큐브를 활용하여 실제 서비스되고 있는 호텔 정보 공유 사이트의 리뷰 데이터 분석에 활용하였다. 이를 위해 호텔 리뷰 데이터에 대한 다차원 텍스트 큐브를 생성하였으며, 이를 이용하여 다차원 키워드 검색 기능을 제공하여 사용자 중심의 의미있는 정보 검색이 가능한 시스템을 설계 및 구현하였다. 또한, 본 논문에서 제안하는 시스템에 대해 다양한 실험을 수행하였으며 이를 통해 제안된 시스템의 실효성을 검증하였다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. 최수민, 최광희, 인터넷 검색서비스 주요이슈 및 정책방향, Internaet & Security Focus 2013 10월호, 7-9.
  2. Scaffidi, C., Bierhoff, K., Chang, E., Felker, M., Ng, H., and Jin, C., "Red Opal: Product-Feature Scoring from Reviews," In Proceedings of the 8th ACM conference on Electronic Commerce, 2007.
  3. Adrien Guille, Hakim Hacid, Cecile Favre, Djamel A. Zighed, "Information Diffusion in Online Social Networks: A Survey," in SIGMOD Record, June 2013 (Vol. 42, No. 2).
  4. Qingliang Miao, Shu Zhang, Yao Meng, Hao Yu Fujitsu R&D Center Co., LTD, "Domain-sensitive Opinion Leader Mining from Online Review Communities," In WWW 2013 Companion, May 13-17, 2013.
  5. http://en.wikipedia.org/wiki/Online_Analytical_Processing.
  6. Gray, J., Bosworth, A., Layman, A., and Pirahesh, H., "Datacube: A relational aggregation operator generalizing group by, cross-tab, and sub-total," In ICDE, 1996.
  7. Lin, X., Ding, B., Han, J., Zhu, F., and Zhao, B., "Text cube: Computing ir measures for multidimensional text database analysis," in ICDM, 2008.
  8. TripAdvisor, http://www.tripadvisor.com
  9. Nenad Jukic, Boris Jukic, Mary Malliaris, Online Analytical Processing (OLAP) for Decision Support, International Handbooks Information System 2008, pp. 259-276.
  10. Seungkyu Choi, Jaehong Pack and JooseokPark, "Impact of ERP System Adoption on Corporate Performance in the Korean Listed Company," In Journal of Information Technology and Arechitecture, Vol. 10. No. 2, June 2013, pp 211-222.
  11. Ynkun Hahm, Seogjun Lee, Hansoo Kang and jinsung Kim, "Business Model Components and Challenges in Korean IT Companies: A Comparative Case Study," In Journal of Information Technology and Arechitecture, Vol. 9. No. 1, March 2012, pp 95-110.
  12. Jaehak Yu, Junsang Park, Hansung Lee, Younghee Im, Myungsup Kim, Daihee Park, "Network Traffic Analysis on Multi-dimensional Data Cube," In Kiise Fall Conference, 11, 100-105, 2010.
  13. Hoseok Jung, Jonguk Lee, Hansung Lee, Daihee Park, "A Multi-dimensional Analysis of Soccer Video using Data Cube," In KCC, 2011.6, 21-24.
  14. Yoke Yie Chen and Ken Vinn Lee, "User -Centered Sentiment Analysis on Customer Product Review," In World Applied Sciences Journal 12 (Special Issue on Computer Applications & Knowledge Management): 32-38, 2011.
  15. D. Zhang, C. Zhai, and J. Han, "Topic Cube: Topic modeling for OLAP on multidimensional text databases," In SDM, 2009.
  16. Bolin Ding, Bo Zhao, Cindy Xide Lin, Jiawei Han, Chengxiang Zhai, "TopCells: Keyword-Based Search of Top-k Aggregated Documents in Text Cube," In ICDE, 2010.
  17. Yintao Yu, Cindy X. Lin, Yuzhou Sun, Chen Chen, Jianwei Han, Binbin Liao, Tianyi Wu, ChengXiang Zhai, Duo Zhang, Bo Zhao, "iNextCube: Information Network-Enhanced Text Cube," In VLDB, 2009.
  18. Suan Lee, Sunhwa jo and Jinho kim,"An Iterative Algorithm for the Bottom Up Computation of the Data Cube using MapReduce,", In Journal of Information Technology and Architecture, Vol. 9, No. 4, December 2012, pp 455-464.