DOI QR코드

DOI QR Code

Categorization of POIs Using Word and Context information

관심 지점 명칭의 단어와 문맥 정보를 활용한 관심 지점의 분류

  • Choi, Su Jeong (School of Computer Science and Engineering, Kyungpook National University) ;
  • Park, Seong-Bae (School of Computer Science and Engineering, Kyungpook National University)
  • Received : 2014.02.11
  • Accepted : 2014.05.23
  • Published : 2014.10.25

Abstract

A point of interest is a specific point location such as a cafe, a gallery, a shop, or a park. It consists of a name, a category, a location, and so on. Its information is necessary for location-based application, above all category is basic information. However, category information should be automatically gathered because it costs high to gather it manually. In this paper, we propose a novel method to estimate category of POIs automatically using an inner word and local context. An inner word is a word that contains POI's name. Their name sometimes expose category information. Thus, their name is used as inner word information in estimating category of POIs. Local context information means words around a POI's name in a document that mentioned the name. The context include information to estimate category. The evaluation of the proposed method is performed on two data sets. According to the experimental results, proposed model using combination inner word and local context show higher accuracy than that of model using each.

관심 지점이란 상점이나 공원, 음식점 등과 같이 사람들이 관심을 가지거나 유용하다고 생각하는 특정한 지리적 위치를 의미한다. 관심 지점은 명칭과 제공 서비스, 카테고리 등과 같은 여러 정보들로 구성되어 있다. 이와 같은 정보들은 위치기반 어플리케이션에서 필수적인 정보이고, 그 중에서도 카테고리 정보는 위치기반 서비스에서 가장 핵심적인 역할을 한다. 그러나 관심 지점의 카테고리 정보를 직접 모으는 것은 많은 비용과 노력이 들기 때문에 자동으로 수집되어야 한다. 본 논문에서는 카테고리를 자동으로 추정하기 위해서 관심 지점 명칭의 단어 정보와 제한적 주변 문맥 정보를 결합하여 사용하는 방법을 제안한다. 관심 지점 명칭의 단어에는 카테고리를 반영하는 단어들을 포함하고 있어 카테고리를 추정하는데 있어서 중요한 단서가 된다. 제한적 주변 문맥 정보는 관심 지점의 명칭이 언급된 문서에서 명칭이 언급된 주변의 문맥을 의미한다. 명칭이 언급된 주변의 문맥에는 관심 지점의 카테고리를 추정할 정보들을 포함하고 있어 카테고리를 추정하는 것에 있어서 가치있는 정보를 제공한다. 우리는 제안한 모델의 성능을 측정하기 위해 두 가지 데이터셋에서 성능을 평가한 결과, 각 정보를 따로 사용하여 카테고리를 추정한 성능보다 결합하여 사용한 모델의 성능이 더 높게 나타났다.

Keywords

References

  1. A. Rae, V. Murdock, A. Popescu, and H. Bouchard, "Mining the Web for Points of Interest," In Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.711-702, 2012.
  2. A. McCallum and W. Li, "Early Results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-enhanced Lexicons," In Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL, Vol. 4, pp. 188-191, 2003.
  3. M. Collins, "Ranking Algorithms Named-Entity Extraction: Boosting and the Voted Perceptron," In Proceedings of the 40th Annual Meeting of the Association of Computational Linguistics, pp. 489-496, 2002.
  4. J. Lafferty, A. McCallum, and F. Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," In Proceedings of the 18th International Conference on Machine Learning, pp. 282-289, 2001.
  5. E. Amitay, N. Har'El, R. Sivan, and A.Soffer, "Web-a-Where: Geotagging Web Content," In Proceedings of the 27th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 273-280. 2004.
  6. W. Zong, D. Wu, A. Sun, E. Lim, and D. Goh, "On Assigning Place Names to Geography Related Web Pages," In Proceedings of the 5th ACM/ IEEE Joint Conference on Digital Libraries, pp. 354-365, 2005.
  7. C. Wang, J. Wang, X. Xie, and W. Ma, "Ming Geographic Knowledge Using Location Aware Topic Model," In Proceedings of the 4th ACM Workshop on Geographical Information Retrieval, pp. 65-70, 2007.
  8. D. Blei, A. Ng, and M. Jordan, "Latent Dirichlet Allocation," The Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.
  9. A. Alves, F. Pereira, A. Biderman, and C. Ratti, "Place Enrichment by Mining The Web," In Proceedings of the European Conference on Ambient Intelligence, pp. 66-77, 2009.
  10. K. Crammer and Y. Singer, "On the Algorithmic Implementation of Multiclass Kernel-based Vector Machines," The Journal of Machine Learning Research, Vol. 2, pp. 265-293, 2002.
  11. S. Kang, "English-Korean Cross-lingual Link Discovery Using Link Probability and Named Entity Recognition," Journal of The Korean Institute of Intelligent Systems, pp. 191-195, 2013. https://doi.org/10.5391/JKIIS.2013.23.3.191

Cited by

  1. Comparison Between Optimal Features of Korean and Chinese for Text Classification vol.25, pp.4, 2015, https://doi.org/10.5391/JKIIS.2015.25.4.386