DOI QR코드

DOI QR Code

Sign Language Dataset Built from S. Korean Government Briefing on COVID-19

대한민국 정부의 코로나 19 브리핑을 기반으로 구축된 수어 데이터셋 연구

  • 심호현 (고려대학교 컴퓨터정보학과) ;
  • 성호렬 (고려대학교 컴퓨터정보학과) ;
  • 이승재 (고려대학교 컴퓨터정보학과) ;
  • 조현중 (고려대학교 컴퓨터융합소프트웨어학과)
  • Received : 2021.09.15
  • Accepted : 2022.01.01
  • Published : 2022.08.31

Abstract

This paper conducts the collection and experiment of datasets for deep learning research on sign language such as sign language recognition, sign language translation, and sign language segmentation for Korean sign language. There exist difficulties for deep learning research of sign language. First, it is difficult to recognize sign languages since they contain multiple modalities including hand movements, hand directions, and facial expressions. Second, it is the absence of training data to conduct deep learning research. Currently, KETI dataset is the only known dataset for Korean sign language for deep learning. Sign language datasets for deep learning research are classified into two categories: Isolated sign language and Continuous sign language. Although several foreign sign language datasets have been collected over time. they are also insufficient for deep learning research of sign language. Therefore, we attempted to collect a large-scale Korean sign language dataset and evaluate it using a baseline model named TSPNet which has the performance of SOTA in the field of sign language translation. The collected dataset consists of a total of 11,402 image and text. Our experimental result with the baseline model using the dataset shows BLEU-4 score 3.63, which would be used as a basic performance of a baseline model for Korean sign language dataset. We hope that our experience of collecting Korean sign language dataset helps facilitate further research directions on Korean sign language.

본 논문은 한국 수어에 대하여 수어 인식, 수어 번역, 수어 영상 시분할과 같은 수어에 관한 딥러닝 연구를 위한 데이터셋의 수집 및 실험을 진행하였다. 수어 연구를 위한 어려움은 2가지로 볼 수 있다. 첫째, 손의 움직임과 손의 방향, 표정 등의 종합적인 정보를 가지는 수어의 특성에 따른 인식의 어려움이 있다. 둘째, 딥러닝 연구를 진행하기 위한 학습데이터의 절대적 부재이다. 현재 알려진 문장 단위의 한국 수어 데이터셋은 KETI 데이터셋이 유일하다. 해외의 수어 딥러닝 연구를 위한 데이터셋은 Isolated 수어와 Continuous 수어 두 가지로 분류되어 수집되며 시간이 지날수록 더 많은 양의 수어 데이터가 수집되고 있다. 하지만 이러한 해외의 수어 데이터셋도 방대한 데이터셋을 필요로 하는 딥러닝 연구를 위해서는 부족한 상황이다. 본 연구에서는 한국 수어 딥러닝 연구를 진행하기 위한 대규모의 한국어-수어 데이터셋을 수집을 시도하였으며 베이스라인 모델을 이용하여 수어 번역 모델의 성능 평가 실험을 진행하였다. 본 논문을 위해 수집된 데이터셋은 총 11,402개의 영상과 텍스트로 구성되었다. 이를 이용하여 학습을 진행할 베이스라인 모델로는 수어 번역 분야에서 SOTA의 성능을 가지고 있는 TSPNet 모델을 이용하였다. 본 논문의 실험에서 수집된 데이터셋에 대한 특성을 정량적으로 보이고, 베이스라인 모델의 실험 결과로는 BLEU-4 score 3.63을 보였다. 또한, 향후 연구에서 보다 정확하게 데이터셋을 수집할 수 있도록, 한국어-수어 데이터셋 수집에 있어서 고려할 점을 평가 결과에 대한 고찰로 제시한다.

Keywords

Acknowledgement

이 논문은 2021년도 정부의 재원으로 한국연구재단 기초연구사업의 지원을 받아 수행된 연구임(2021R1F1A1049202).

References

  1. S. Jiang, B. Sun, L. Wang, Y. Bai, K. Li, and Y. Fu, "Skeleton aware multi-modal sign language recognition," In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021.
  2. S.-K. Ko, C. J. Kim, H. Jung, and C. Cho, "Neural sign language translation based on human keypoint estimation," Applied Sciences, Vol.9, No.13, pp.2683, 2019.
  3. S. Russell and P. Norvig, "Artificial intelligence: A modern approach," 3th ed., New York: Prentice Hall, 2009.
  4. J. L. Hennessy and D. A. Patterson, "Instruction-level parallelism and its exploitation," in Computer Architecture: A Quantitative Approach, 4th ed., San Francisco, CA: Morgan Kaufmann Pub., ch.2, pp.66-153, 2007.
  5. N. Cihan Camgoz, S. Hadfield, O. Koller, H. Ney, and R. Bowden "Neural sign language translation," In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)," 2018.
  6. N. C. Camgoz, O. Koller, S. Hadfield, and R. Bowden, "Sign language transformers: Joint end-to-end sign language recognition and translation," In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020.
  7. D. Li, C. Xu, X. Yu, K. Zhang, B. Swift, H. Suominen, and H. Li, "Tspnet: Hierarchical feature learning via temporal semantic pyramid for sign language translation," In Advances in Neural Information Processing Systems, Vol.33, pp.12034-12045, 2020.
  8. J. Carreira and A. Zisserman, "Quo vadis, action recognition? a new model and the kinetics dataset. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
  9. G. Varol, L. Momeni, S. Albanie, T. Afouras, and A. Zisserman, "Read and attend: Temporal localisation in sign language videos," arXiv preprintarXiv:2103.16481, 2021.
  10. K. Renz, N. C. Stache, N. Fox, G. Varol, and S. Albanie, "Sign segmentation with changepoint-modulated pseudolabelling," in IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2021.
  11. C. Neidle, A. Thangali, and S. Sclaroff, "Challenges in development of the American sign language lexicon video dataset (ASLLVD) corpus," in 5th Workshop Represent. Processing of Sign Languages: Interactions between Corpus Lexicon (LREC), 2012. [Internet], https://open.bu.edu/handle/2144/31899.
  12. X. Chai, H. Wanga, M. Zhoub, G. Wub, H. Lic, and X. Chena, "DEVISIGN: Dataset and evaluation for 3D sign language recognition," Beijing, China, Technical Report, 2015.
  13. H. R. V. Joze and O. Koller, "MS-ASL: A large-scale data set and benchmark for understanding American sign language," 2018, arXiv:1812.01053. [Internet], http://arxiv.org/abs/1812.01053.
  14. D. Li, C. R. Opazo, X. Yu, and H. Li, ''Word-level deep sign language recognition from video: A new large-scale dataset and methods comparison,'' in Prodeedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp.1459-1469, 2020.
  15. O. M. Sincan and H. Y. Keles, "AUTSL: A large scale multimodal turkish sign language dataset and baseline methods," IEEE Access, Vol.8, pp.181340-181355, 2020. https://doi.org/10.1109/access.2020.3028072
  16. J. Forster, C. Schmidt, O. Koller, M. Bellgardt, and H. Ney, "Extensions of the Sign Language Recognition and Translation Corpus RWTH-PHOENIX-Weather," In International Conference on Language Resources and Evaluation (LREC), 2014.
  17. U. von Agris and K.-F. Kraiss, "Towards a video corpus for signer-independent continuous sign language recognition," In Proceedings of the 7th Intl. Workshop on Gesture in Human-Computer Interaction and Simulation, May 2007.
  18. V. Viitaniemi, T. Jantunen, L. Savolainen, M. Karppa, and J. Laaksonen, "Spot - a benchmark in spotting signs within continuous signing," In: LREC. 2014.
  19. A. Schembri, J. Fenlon, R. Rentelis, S. Reynolds, and K. Cormier, "Building the british sign language corpus," Language Documentation & Conservation, Vol.7, pp.136-154, 2013.
  20. K. Simonyan and A. Zisserman. "Very deep convolutional networks for large-scale image recognition," In Proceedings of the International Conference on Learning Representations, 2014.
  21. C. Szegedy, et al. "Going deeper with convolutions," In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.1-9, 2015.