Функция потерь, учитывающая семантику пространства, для синтеза эмбеддингов на транзакционных данных
Аннотация
Популярные в банковской сфере транзакционные данные часто представляются в виде разреженных (с большим количеством признаков) векторов. Использование разреженных векторов в задачах глубинного обучения является неэффективным и может вести к переобучению. Для извлечения полезных признаков в пространстве меньшей размерности широко применяют автокодировщики. В настоящей работе предлагается новая функция потерь, которая основана на метрике, оценивающей качество отображения исходных табличных данных в пространство эмбеддингов. Эта функция служит для преобразования снижения размерности и позволяет сохранить структуру отношений объектов исходного пространства. Полученные результаты показывают улучшение качества получаемых эмбеддингов посредством использования новой функции потерь в комбинации с традиционной средней квадратической ошибкой функции.
Литература
- Gupta P, Banchs RE, Rosso P. Squeezing bottlenecks: exploring the limits of autoencoder semantic representation capabilities. Neurocomputing. 2016;175(PB):1001–1008. DOI: 10.1016/j.neucom.2015.06.091.
- Mikolov T, Sutskever I, Chen K, Corrado GS, Dean J. Distributed representations of words and phrases and their compositionality. In: Burges CJC, Bottou L, Welling M, editors. NIPS-2013. Proceedings of the 26 th International conference on neural information processing system; 2013 December 5–10; Lake Tahoe, Nevada, USA. Volume 2. New York: Curran Associates Inc.; 2013. p. 3111–3119.
- Bourlard H, Kamp Y. Auto-association by multilayer perceptrons and singular value decomposition. Biological Cybernetics. 1988;59:291–294. DOI: 10.1007/BF00332918.
- Credit card fraud detection [Internet]. Cambridge: Machine Learning Group; 2018 [cited 2021 March 5]. Available from: https://www.kaggle.com/mlg-ulb/creditcardfraud/data.
- Al-Shabi MA. Credit card fraud detection using autoencoder model in unbalanced datasets. Journal of Advances in Mathematics and Computer Science. 2019;33(5):1–16. DOI: 10.9734/jamcs/2019/v33i530192.
- Husejinović A. Credit card fraud detection using naive Bayesian and C4.5 decision tree classifiers. Periodicals of Engineering and Natural Sciences. 2020;8(1):1–5. DOI: 10.21533/pen.v%25vi%25i.300.
- Saito T, Rehmsmeier M. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLoS One. 2015;10(3):e0118432. DOI: 10.1371/journal.pone.0118432.
- Davis J, Goadrich M. The relationship between precision-recall and ROC curves. In: Cohen WW, Moore A, editors. ICML-06. Proceedings of the 23 rd International conference on machine learning; 2006 June 25–29; Pittsburgh, USA. New York: Association for Computing Machinery; 2006. p. 233–240. DOI: 10.1145/1143844.1143874.
- Marushko EE, Doudkin AA, Zheng X. Identification of Earth’s surface objects using ensembles of convolutional neural networks. Journal of the Belarusian State University. Mathematics and Informatics. 2021;2:114–123. DOI: 10.33581/2520-6508-2021-2-114-123.
Copyright (c) 2022 Журнал Белорусского государственного университета. Математика. Информатика
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.
Авторы, публикующиеся в данном журнале, соглашаются со следующим:
- Авторы сохраняют за собой авторские права на работу и предоставляют журналу право первой публикации работы на условиях лицензии Creative Commons Attribution-NonCommercial. 4.0 International (CC BY-NC 4.0).
- Авторы сохраняют право заключать отдельные контрактные договоренности, касающиеся неэксклюзивного распространения версии работы в опубликованном здесь виде (например, размещение ее в институтском хранилище, публикацию в книге) со ссылкой на ее оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в интернете (например, в институтском хранилище или на персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу. (См. The Effect of Open Access).