Выделение отдельных участков тела человека на изображении с использованием нейронных сетей и модели внимания

  • Виктория Вадимовна Сорокина Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь
  • Сергей Владимирович Абламейко Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь; Объединенный институт проблем информатики НАН Беларуси, ул. Сурганова, 6, 220012, г. Минск, Беларусь

Аннотация

Выделение отдельных участков тела человека является сложной задачей, которая имеет множество приложений. В данной работе предлагается алгоритм выделения частей тела человека на изображениях с помощью системы OpenPose и модели внимания. Новизна представленного алгоритма заключается в том, что он основан на сверточной нейронной сети, использующей непараметрическое представление для связывания частей тела с людьми на изображении, в сочетании с моделью внимания, которая учится сосредоточиваться на определенных областях входного изображения. Алгоритм является частью разработанной авторами системы Smart Cropping, цель которой – вырезать на изображении нужные части одежды и подготовить каталог электронной коммерции.

Биографии авторов

Виктория Вадимовна Сорокина, Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь

аспирантка кафедры вебтехнологий и компьютерного моделирования механико-математического факультета. Научный руководитель – С. В. Абламейко

Сергей Владимирович Абламейко, Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь; Объединенный институт проблем информатики НАН Беларуси, ул. Сурганова, 6, 220012, г. Минск, Беларусь

академик НАН Беларуси, доктор технических наук, профессор; профессор кафедры веб-технологий и компьютерного моделирования механикоматематического факультета Белорусского государственного университета; главный научный сотрудник отдела интеллектуальных информационных систем Объединенного института проблем информатики НАН Беларуси

Литература

  1. Yucheng Chen, Yingli Tian, Mingyi He. Monocular human pose estimation: a survey of deep learning-based methods. Computer Vision and Image Understanding. 2020;192:102897. DOI: 10.1016/j.cviu.2019.102897.
  2. Rolley-Parnell E-J, Kanoulas D, Laurenzi A, Delhaisse B, Rozo L, Caldwell DG, et al. Bi-manual articulated robot teleoperation using an external RGB-D range sensor. In: 15th International conference on control, automation, robotics and vision; 2018 November 18–21; Singapore. [S. l.]: Institute of Electrical and Electronics Engineers; 2018. p. 298–304. DOI: 10.1109/ICARCV.2018.8581174.
  3. Murdock H. The ultimate eCommerce product image guide for 2021 [Internet]. [S. l.]: Threekit Inc.; 2020 January 30 [cited 2021 March 25]. Available from: https://www.threekit.com/blog/ecommerce-product-image-guide-2020.
  4. Ablameyko SV, Krasnoproshin VV, Obraztsov VA. [Models and technologies of pattern recognition with application in data mining]. Vestnik BGU. Seriya 1. Fizika. Matematika. Informatika. 2011;3:62–72. Russian.
  5. Zhao Liu, Jianke Zhu, Jiajun Bu, Chun Chen. A survey of human pose estimation: the body parts parsing based methods. Journal of Visual Communication and Image Representation. 2015;32:10–19. DOI: 10.1016/j.jvcir.2015.06.013.
  6. Luvizon DC, Picard D, Tabia H. 2D/3D pose estimation and action recognition using multitask deep learning. In: 2018 IEEE /CVF conference on computer vision and pattern recognition; 2018 June 18–22; Salt Lake City, USA. Los Alamitos: Conference Publishing Services, IEEE Computer Society; 2018. p. 5137–5146. DOI: 10.1109/CVPR.2018.00539.
  7. Insafutdinov E. DeeperCut: a deeper, stronger, and faster multi-person pose estimation model. In: Leibe B, Matas J, Sebe N, Welling M, editors. Computer vision – ECCV 2016. 14th European conference; 2016 October 11–14; Amsterdam, The Netherlands. Part 6. Cham: Springer; 2016. p. 34–50 (Lecture notes in computer science; volume 9910). DOI: 10.1007/978-3-319-46466-4_3.
  8. Hao-Shu Fang, Shuqin Xie, Yu-Wing Tai, Cewu Lu. RMPE: regional multi-person pose estimation. In: 2017 IEEE International conference on computer vision (ICCV); 2017 October 22–29; Venice, Italy. [S. l.]: Institute of Electrical and Electronics Engineers; 2017. p. 2353–2362. DOI: 10.1109/ICCV.2017.256.
  9. Xiao Chu, Wei Yang, Wanli Ouyang, Cheng Ma, Yuille AL, Xiaogang Wang. Multi-context attention for human pose estimation. In: 2017 IEEE conference on computer vision and pattern recognition (CVPR); 2017 July 21–26; Honolulu, USA. [S. l.]: Institute of Electrical and Electronics Engineers; 2017. p. 5669–5678. DOI: 10.1109/CVPR.2017.601.
  10. He K, Gkioxari G, Dollár P, Girshick R. Mask R-CNN. In: 2017 IEEE International conference on computer vision (ICCV); 2017 October 22–29; Venice, Italy. [S. l.]: Institute of Electrical and Electronics Engineers; 2017. p. 2980–2988. DOI: 10.1109/ICCV.2017.322.
  11. Toshev A, Szegedy C. DeepPose: human pose estimation via Deep Neural Networks. In: 2014 IEEE conference on computer vision and pattern recognition; 2014 June 23–28; Columbus, USA. [S. l.]: Institute of Electrical and Electronics Engineers; 2017. p. 1653–1660. DOI: 10.1109/CVPR.2014.214.
  12. Tompson J, Jain A, LeCun Y, Bregler C. Join training of a convolutional network and a graphical model for human pose estimation. In: 28th annual conference on Neural Information Processing Systems; 2014 December 8–13; Montreal, Canada. Red Hook: Curran Associates Inc.; 2015. p. 1799–1807 (Advances in Neural Information Processing Systems; volume 27).
  13. Tompson J, Goroshin R, Jain A, LeCun Y, Bregler C. Efficient object localization using convolutional networks. In: 2015 IEEE conference on computer vision and pattern recognition (CVPR); 2015 June 7–12; Boston, USA. [S. l.]: Institute of Electrical and Electronics Engineers; 2015. p. 648–656. DOI: 10.1109/CVPR.2015.7298664.
  14. Yang Y, Ramanan D. Articulated human detection with flexible mixtures of parts. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013;35(12):2878–2890. DOI: 10.1109/TPAMI.2012.261.
  15. Cao Z, Simon T, Wei S, Sheikh Y. Realtime multi-person 2D pose estimation using part affinity fields. In: 2017 IEEE conference on computer vision and pattern recognition (CVPR); 2017 July 21–26; Honolulu, USA. [S. l.]: Institute of Electrical and Electronics Engineers; 2017. p. 1302–1310. DOI: 10.1109/CVPR.2017.143.
  16. Bahdanau D, Cho KH, Bengio Y. Neural machine translation by jointly learning to align and translate. arXiv:1409.0473v7 [Preprint]. 2016 [cited 2019 April 5]: [15 p.]. Available from: https://arxiv.org/abs/1409.0473v7.
  17. Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556v6 [Preprint]. 2015 [cited 2019 April 5]: [14 p.]. Available from: https://arxiv.org/abs/1409.1556v6.
  18. Wang F, Tax DMJ. Survey on the attention based RNN model and its applications in computer vision. arXiv:1601.06823v1 [Preprint]. 2016 [cited 2019 April 5]: [42 p.]. Available from: https://arxiv.org/abs/1601.06823v1.
  19. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep residual learning for image recognition. In: 2016 IEEE conference on computer vision and pattern recognition (CVPR); 2016 June 26 – Jule 1; Las Vegas, USA. Los Alamitos: Conference Publishing Services, IEEE Computer Society; 2016. p. 770–778. DOI: 10.1109/CVPR.2016.90.
  20. Sim T, Baker S, Bsat M. The CMU Pose, Illumination, and Expression (PIE) database. In: Proceedings of Fifth IEEE International conference on automatic face gesture recognition; 2002 May 21–22; Washington, USA. [S. l.]: Institute of Electrical and Electronics Engineers; 2002. p. 53–58. DOI: 10.1109/AFGR.2002.1004130.
Опубликован
2022-08-03
Ключевые слова: выделение частей тела человека, модель внимания, сверточная нейронная сеть, Smart Cropping
Как цитировать
Сорокина, В. В., & Абламейко, С. В. (2022). Выделение отдельных участков тела человека на изображении с использованием нейронных сетей и модели внимания. Журнал Белорусского государственного университета. Математика. Информатика, 2, 94-106. https://doi.org/10.33581/2520-6508-2022-2-94-106