DOI QR코드

DOI QR Code

Entity Embeddings for Enhancing Feasible and Diverse Population Synthesis in a Deep Generative Models

심층 생성모델 기반 합성인구 생성 성능 향상을 위한 개체 임베딩 분석연구

  • Donghyun Kwon (Dept. of Cho Chun Shik Graduate School of Mobility, KAIST) ;
  • Taeho Oh (Dept. of Cho Chun Shik Graduate School of Mobility, KAIST) ;
  • Seungmo Yoo (Graduate Program in Technology Policy, Yonsei Univ.) ;
  • Heechan Kang (Mobility Research Department, Korea Transportation Safety Authority)
  • 권동현 (한국과학기술원 조천식모빌리티대학원) ;
  • 오태호 (한국과학기술원 조천식모빌리티대학원) ;
  • 유승모 (연세대학교 기술정책협동과정) ;
  • 강희찬 (한국교통안전공단 모빌리티플랫폼처)
  • Received : 2023.10.23
  • Accepted : 2023.11.06
  • Published : 2023.12.31

Abstract

An activity-based model requires detailed population information to model individual travel behavior in a disaggregated manner. The recent innovative approach developed deep generative models with novel regularization terms that improves fidelity and diversity for population synthesis. Since the method relies on measuring the distance between distribution boundaries of the sample data and the generated sample, it is crucial to obtain well-defined continuous representation from the discretized dataset. Therefore, we propose an improved entity embedding models to enhance the performance of the regularization terms, which indirectly supports the synthesis in terms of feasible and diverse populations. Our results show a 28.87% improvement in the F1 score compared to the baseline method.

활동기반 모델은 현대의 복잡한 개인의 통행행태를 반영한 정교한 기반의 수요예측이 가능하지만, 분석 대상지의 상세한 인구정보가 필수적으로 요구된다. 최근 다양한 심층생성 모델을 활용한 합성인구 생성 기법이 개발되었고, 설문조사를 통해 수집된 샘플 데이터에 존재하지 않는 실제 인구와 유사한 인구 특성을 모사한 데이터를 생성해내는 방법론이 제시되었다. 이는 이산형으로 이루어진 샘플 데이터를 연속형 데이터로 변환하여 분포 영역을 정의한 뒤 생성된 표본 데이터의 거리를 정교하게 계산하여, 불가능한 인구 특성 조합을 억제하는 방식으로 데이터의 확률 분포를 학습한다. 하지만 데이터 변환 과정에 활용되는 개체 임베딩이 잘 학습되지 않으면 의도와 다르게 왜곡된 연속형 분포 영역이 정의될 수 있고, 원본 데이터 표현의 오류로 인한 잘못된 합성인구를 생성할 가능성이 존재한다. 따라서 본 연구에서는 정확도 높은 임베딩을 추출하여 간접적으로 합성인구 생성 성능을 증가시키고자 한다. 결과적으로 합성인구의 다양성과 정확성 측면에서 기존 대비 약 28.87% 성능이 향상하였다.

Keywords

Acknowledgement

본 연구는 국토교통부 및 국토교통과학기술진흥원의 지원으로 수행되었음(과제번호 RS-2022-00141102)

References

  1. Aemmer, Z. and MacKenzie, D.(2022), "Generative population synthesis for joint household and individual characteristics", Computers, Environment and Urban Systems, vol. 96, 101852. 
  2. Borysov, S. S., Rich, J. and Pereira, F. C.(2019), "How to generate micro-agents? A deep generative modeling approach to population synthesis", Transportation Research Part C: Emerging Technologies, vol. 106, pp.73-97.  https://doi.org/10.1016/j.trc.2019.07.006
  3. Castiglione, J., Bradley, M. and Gliebe, J.(2015), Activity-based travel demand models: A primer, Transportation Research Board.
  4. Chen, T., Tang, L. A., Sun, Y., Chen, Z. and Zhang, K.(2016), Entity embedding-based anomaly detection for heterogeneous categorical events, arXiv preprint arXiv:1608.07502. 
  5. Devlin, J., Chang, M. W., Lee, K. and Toutanova, K.(2018), Bert: Pre-training of deep bidirectional transformers for language understanding, arXiv preprint arXiv:1810.04805. 
  6. Garrido, S., Borysov, S. S., Pereira, F. C. and Rich, J.(2020), "Prediction of rare feature combinations in population synthesis: Application of deep generative modelling", Transportation Research Part C: Emerging Technologies, vol. 120, 102787. 
  7. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. and Bengio, Y.(2014), "Generative adversarial nets", Advances in Neural Information Processing Systems, vol. 27. 
  8. Gulrajani, I., Ahmed, F., Arjovsky, M., Dumoulin, V. and Courville, A. C.(2017), "Improved training of wasserstein gans", Advances in Neural Information Processing Systems, vol. 30. 
  9. Guo, C. and Berkhahn, F.(2016), Entity embeddings of categorical variables, arXiv preprint arXiv:1604.06737. 
  10. Hancock, J. T. and Khoshgoftaar, T. M.(2020), "Survey on categorical data for neural networks", Journal of Big Data, vol. 7, no. 1, pp.1-41.  https://doi.org/10.1186/s40537-019-0278-0
  11. Kim, E. J. and Bansal, P.(2023), "A deep generative model for feasible and diverse population synthesis", Transportation Research Part C: Emerging Technologies, vol. 148, 104053. 
  12. Kim, E. J., Kim, D. K. and Sohn, K.(2022), "Imputing qualitative attributes for trip chains extracted from smart card data using a conditional generative adversarial network", Transportation Research Part C: Emerging Technologies, vol. 137, 103616. 
  13. Palangi, H., Deng, L., Shen, Y., Gao, J., He, X., Chen, J., Song, X. and Ward, R.(2016), "Deep sentence embedding using long short-term memory networks: Analysis and application to information retrieval", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 4, pp.694-707.  https://doi.org/10.1109/TASLP.2016.2520371
  14. Sutskever, I., Vinyals, O. and Le, Q. V.(2014), "Sequence to sequence learning with neural networks", Advances in Neural Information Processing Systems, vol. 27. 
  15. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L. and Polosukhin, I.(2017), "Attention is all you need", Advances in Neural Information Processing Systems, vol. 30. 
  16. Xu, L. and Veeramachaneni, K.(2018), Synthesizing tabular data using generative adversarial networks, arXiv preprint arXiv:1811.11264.