Использование сверточных вейвлет-блоков в задаче классификации изображений

Владислав Александрович  Воробей; Александр Эрнестович  Малевич

Владислав Александрович Воробей Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь
Александр Эрнестович Малевич Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь

Аннотация

На примере задачи классификации изображений и вейвлет-семейства CDF-9/7 показано, как можно внедрить дискретное вейвлет-преобразование в модель компьютерного зрения, сохранив возможность ее обучения методом обратного распространения ошибки. Предложен и успешно встроен в ряд моделей нейронных сетей сверточный вейвлет-блок, который сочетает в себе обработку признаков входного сигнала на нескольких уровнях вейвлет-разложения и позволяет уменьшить исходный размер модели на 30 – 40 %, обеспечивая при этом сопоставимое качество. Продемонстрирована возможность эффективно выполнять дискретное вейвлет-преобразование на графическом процессоре при использовании лифтинг-схемы. Реализация вейвлет-преобразования построена на поэлементных операциях сложения и умножения, что позволяет при необходимости экспортировать обученную модель в требуемый формат для запуска на новых данных без дополнительных сложностей. В качестве базовых моделей использованы архитектуры ResNetV2-50, MobileNetV2 и EfficientNetV2-B0. Для проведения экспериментов подготовлен набор данных на основе подвыборки категорий датасета LSUN.

Биографии авторов

Владислав Александрович Воробей, Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь

аспирант кафедры дифференциальных уравнений и системного анализа механико-математического факультета. Научный руководитель – А. Э. Малевич.

Александр Эрнестович Малевич, Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь

кандидат физико-математических наук, доцент; доцент кафедры дифференциальных уравнений и системного анализа механико-математического факультета

Литература

Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556v6 [Preprint]. 2015 [cited 2024 January 2]: [14 p.]. Available from: https://arxiv.org/abs/1409.1556v6.
He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. arXiv:1512.03385 [Preprint]. 2015 [cited 2024 January 2]: [12 p.]. Available from: https://arxiv.org/abs/1512.03385.
Tan M, Le QV. EfficientNet: rethinking model scaling for convolutional neural networks. arXiv:1905.11946v5 [Preprint]. 2020 [cited 2024 January 2]: [11 p.]. Available from: https://arxiv.org/abs/1905.11946v5.
Cheng H, Zhang M, Shi JQ. A survey on deep neural network pruning-taxonomy, comparison, analysis, and recommendations. arXiv:2308.06767 [Preprint]. 2023 [cited 2024 January 2]: [23 p.]. Available from: https://arxiv.org/abs/2308.06767.
Blake C, Orr D, Luschi C. Unit scaling: out-of-the-box low-precision training. arXiv:2303.11257v2 [Preprint]. 2023 [cited 2024 January 2]: [29 p.]. Available from: https://arxiv.org/abs/2303.11257v2.
Zhang Shuai, Guangdi Ma, Yang Weichen, Fang Zuo, Ablameyko SV. Car parking detection in images by using a semi-supervised modified YOLOv5 model. Journal of the Belarusian State University. Mathematics and Informatics. 2023;3:72–81. EDN: XVDRSN.
Singh A, Kingsbury N. Efficient convolutional network learning using parametric log based dual-tree wavelet ScatterNet. arXiv:1708.09259 [Preprint]. 2017 [cited 2024 January 2]: [8 p.]. Available from: https://arxiv.org/abs/1708.09259.
Li Q, Shen L, Guo S, Lai Z. Wavelet integrated CNNs for noise-robust image classification. arXiv:2005.03337v2 [Preprint]. 2020 [cited 2024 January 2]: [17 p.]. Available from: https://arxiv.org/abs/2005.03337v2.
Wolter M, Blanke F, Heese R, Garcke J. Wavelet-packets for deepfake image analysis and detection. arXiv:2106.09369v4 [Preprint]. 2022 [cited 2024 January 2]: [29 p.]. Available from: https://arxiv.org/abs/2106.09369v4.
He K, Zhang X, Ren S, Sun J. Identity mappings in deep residual networks. arXiv:1603.05027v3 [Preprint]. 2016 [cited 2024 January 2]: [15 p.]. Available from: https://arxiv.org/abs/1603.05027v3.
Sandler M, Howard A, Zhu M, Zhmoginov A, Chen L-C. MobileNetV2: interested residuals and linear bottlenecks. arXiv: 1801.04381v4 [Preprint]. 2019 [cited 2024 January 2]: [14 p.]. Available from: https://arxiv.org/abs/1801.04381v4.
Tan M, Le QV. EfficientNetV2: smaller models and faster training. arXiv:2104.00298v3 [Preprint]. 2021 [cited 2024 January 2]: [11 p.]. Available from: https://arxiv.org/abs/2104.00298v3.
Lepik Ü, Hein H. Haar wavelets: with applications. Cham: Springer; 2014. X, 207 p. (Hillermeier C, Schröder J, Weigand B, editors. Mathematical engineering). DOI:10.1007/978-3-319-04295-4.
Daubechies I. Ten lectures on wavelets. Philadelphia: Society for Industrial and Applied Mathematics; 1992. XIX, 357 p. (CBMSNSF regional conference series in applied mathematics; volume 61).
Cohen A, Daubechies I, Feauveau J-C. Biorthogonal bases of compactly supported wavelets. Communications on Pure and Applied Mathematics. 1992;45(5):485–560. DOI: 10.1002/cpa.3160450502.
Yu F, Seff A, Zhang Y, Song S, Funkhouser T, Xiao J. LSUN: construction of a large-scale image dataset using deep learning with humans in the loop. arXiv:1506.03365v3 [Preprint]. 2016 [cited 2024 January 2]: [9 p.]. Available from: https://arxiv.org/abs/ 1506.03365v3.