Использование сверточных вейвлет-блоков в задаче классификации изображений
Аннотация
На примере задачи классификации изображений и вейвлет-семейства CDF-9/7 показано, как можно внедрить дискретное вейвлет-преобразование в модель компьютерного зрения, сохранив возможность ее обучения методом обратного распространения ошибки. Предложен и успешно встроен в ряд моделей нейронных сетей сверточный вейвлет-блок, который сочетает в себе обработку признаков входного сигнала на нескольких уровнях вейвлет-разложения и позволяет уменьшить исходный размер модели на 30 – 40 %, обеспечивая при этом сопоставимое качество. Продемонстрирована возможность эффективно выполнять дискретное вейвлет-преобразование на графическом процессоре при использовании лифтинг-схемы. Реализация вейвлет-преобразования построена на поэлементных операциях сложения и умножения, что позволяет при необходимости экспортировать обученную модель в требуемый формат для запуска на новых данных без дополнительных сложностей. В качестве базовых моделей использованы архитектуры ResNetV2-50, MobileNetV2 и EfficientNetV2-B0. Для проведения экспериментов подготовлен набор данных на основе подвыборки категорий датасета LSUN.
Литература
- Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556v6 [Preprint]. 2015 [cited 2024 January 2]: [14 p.]. Available from: https://arxiv.org/abs/1409.1556v6.
- He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. arXiv:1512.03385 [Preprint]. 2015 [cited 2024 January 2]: [12 p.]. Available from: https://arxiv.org/abs/1512.03385.
- Tan M, Le QV. EfficientNet: rethinking model scaling for convolutional neural networks. arXiv:1905.11946v5 [Preprint]. 2020 [cited 2024 January 2]: [11 p.]. Available from: https://arxiv.org/abs/1905.11946v5.
- Cheng H, Zhang M, Shi JQ. A survey on deep neural network pruning-taxonomy, comparison, analysis, and recommendations. arXiv:2308.06767 [Preprint]. 2023 [cited 2024 January 2]: [23 p.]. Available from: https://arxiv.org/abs/2308.06767.
- Blake C, Orr D, Luschi C. Unit scaling: out-of-the-box low-precision training. arXiv:2303.11257v2 [Preprint]. 2023 [cited 2024 January 2]: [29 p.]. Available from: https://arxiv.org/abs/2303.11257v2.
- Zhang Shuai, Guangdi Ma, Yang Weichen, Fang Zuo, Ablameyko SV. Car parking detection in images by using a semi-supervised modified YOLOv5 model. Journal of the Belarusian State University. Mathematics and Informatics. 2023;3:72–81. EDN: XVDRSN.
- Singh A, Kingsbury N. Efficient convolutional network learning using parametric log based dual-tree wavelet ScatterNet. arXiv:1708.09259 [Preprint]. 2017 [cited 2024 January 2]: [8 p.]. Available from: https://arxiv.org/abs/1708.09259.
- Li Q, Shen L, Guo S, Lai Z. Wavelet integrated CNNs for noise-robust image classification. arXiv:2005.03337v2 [Preprint]. 2020 [cited 2024 January 2]: [17 p.]. Available from: https://arxiv.org/abs/2005.03337v2.
- Wolter M, Blanke F, Heese R, Garcke J. Wavelet-packets for deepfake image analysis and detection. arXiv:2106.09369v4 [Preprint]. 2022 [cited 2024 January 2]: [29 p.]. Available from: https://arxiv.org/abs/2106.09369v4.
- He K, Zhang X, Ren S, Sun J. Identity mappings in deep residual networks. arXiv:1603.05027v3 [Preprint]. 2016 [cited 2024 January 2]: [15 p.]. Available from: https://arxiv.org/abs/1603.05027v3.
- Sandler M, Howard A, Zhu M, Zhmoginov A, Chen L-C. MobileNetV2: interested residuals and linear bottlenecks. arXiv: 1801.04381v4 [Preprint]. 2019 [cited 2024 January 2]: [14 p.]. Available from: https://arxiv.org/abs/1801.04381v4.
- Tan M, Le QV. EfficientNetV2: smaller models and faster training. arXiv:2104.00298v3 [Preprint]. 2021 [cited 2024 January 2]: [11 p.]. Available from: https://arxiv.org/abs/2104.00298v3.
- Lepik Ü, Hein H. Haar wavelets: with applications. Cham: Springer; 2014. X, 207 p. (Hillermeier C, Schröder J, Weigand B, editors. Mathematical engineering). DOI:10.1007/978-3-319-04295-4.
- Daubechies I. Ten lectures on wavelets. Philadelphia: Society for Industrial and Applied Mathematics; 1992. XIX, 357 p. (CBMSNSF regional conference series in applied mathematics; volume 61).
- Cohen A, Daubechies I, Feauveau J-C. Biorthogonal bases of compactly supported wavelets. Communications on Pure and Applied Mathematics. 1992;45(5):485–560. DOI: 10.1002/cpa.3160450502.
- Yu F, Seff A, Zhang Y, Song S, Funkhouser T, Xiao J. LSUN: construction of a large-scale image dataset using deep learning with humans in the loop. arXiv:1506.03365v3 [Preprint]. 2016 [cited 2024 January 2]: [9 p.]. Available from: https://arxiv.org/abs/ 1506.03365v3.
Copyright (c) 2024 Журнал Белорусского государственного университета. Математика. Информатика
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.
Авторы, публикующиеся в данном журнале, соглашаются со следующим:
- Авторы сохраняют за собой авторские права на работу и предоставляют журналу право первой публикации работы на условиях лицензии Creative Commons Attribution-NonCommercial. 4.0 International (CC BY-NC 4.0).
- Авторы сохраняют право заключать отдельные контрактные договоренности, касающиеся неэксклюзивного распространения версии работы в опубликованном здесь виде (например, размещение ее в институтском хранилище, публикацию в книге) со ссылкой на ее оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в интернете (например, в институтском хранилище или на персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу. (См. The Effect of Open Access).