Функция потерь, учитывающая семантику пространства, для синтеза эмбеддингов на транзакционных данных

  • Максим Евгеньевич Ваткин ОАО «Сбер Банк», бул. Мулявина, 6, 220005, г. Минск, Беларусь https://orcid.org/0000-0002-6923-9998
  • Дмитрий Александрович Воробей ОАО «Сбер Банк», бул. Мулявина, 6, 220005, г. Минск, Беларусь

Аннотация

Популярные в банковской сфере транзакционные данные часто представляются в виде разреженных (с большим количеством признаков) векторов. Использование разреженных векторов в задачах глубинного обучения является неэффективным и может вести к переобучению. Для извлечения полезных признаков в пространстве меньшей размерности широко применяют автокодировщики. В настоящей работе предлагается новая функция потерь, которая основана на метрике, оценивающей качество отображения исходных табличных данных в пространство эмбеддингов. Эта функция служит для преобразования снижения размерности и позволяет сохранить структуру отношений объектов исходного пространства. Полученные результаты показывают улучшение качества получаемых эмбеддингов посредством использования новой функции потерь в комбинации с традиционной средней квадратической ошибкой функции.

Биографии авторов

Максим Евгеньевич Ваткин, ОАО «Сбер Банк», бул. Мулявина, 6, 220005, г. Минск, Беларусь

главный специалист по данным

Дмитрий Александрович Воробей, ОАО «Сбер Банк», бул. Мулявина, 6, 220005, г. Минск, Беларусь

специалист по данным

Литература

  1. Gupta P, Banchs RE, Rosso P. Squeezing bottlenecks: exploring the limits of autoencoder semantic representation capabilities. Neurocomputing. 2016;175(PB):1001–1008. DOI: 10.1016/j.neucom.2015.06.091.
  2. Mikolov T, Sutskever I, Chen K, Corrado GS, Dean J. Distributed representations of words and phrases and their compositionality. In: Burges CJC, Bottou L, Welling M, editors. NIPS-2013. Proceedings of the 26 th International conference on neural information processing system; 2013 December 5–10; Lake Tahoe, Nevada, USA. Volume 2. New York: Curran Associates Inc.; 2013. p. 3111–3119.
  3. Bourlard H, Kamp Y. Auto-association by multilayer perceptrons and singular value decomposition. Biological Cybernetics. 1988;59:291–294. DOI: 10.1007/BF00332918.
  4. Credit card fraud detection [Internet]. Cambridge: Machine Learning Group; 2018 [cited 2021 March 5]. Available from: https://www.kaggle.com/mlg-ulb/creditcardfraud/data.
  5. Al-Shabi MA. Credit card fraud detection using autoencoder model in unbalanced datasets. Journal of Advances in Mathematics and Computer Science. 2019;33(5):1–16. DOI: 10.9734/jamcs/2019/v33i530192.
  6. Husejinović A. Credit card fraud detection using naive Bayesian and C4.5 decision tree classifiers. Periodicals of Engineering and Natural Sciences. 2020;8(1):1–5. DOI: 10.21533/pen.v%25vi%25i.300.
  7. Saito T, Rehmsmeier M. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLoS One. 2015;10(3):e0118432. DOI: 10.1371/journal.pone.0118432.
  8. Davis J, Goadrich M. The relationship between precision-recall and ROC curves. In: Cohen WW, Moore A, editors. ICML-06. Proceedings of the 23 rd International conference on machine learning; 2006 June 25–29; Pittsburgh, USA. New York: Association for Computing Machinery; 2006. p. 233–240. DOI: 10.1145/1143844.1143874.
  9. Marushko EE, Doudkin AA, Zheng X. Identification of Earth’s surface objects using ensembles of convolutional neural networks. Journal of the Belarusian State University. Mathematics and Informatics. 2021;2:114–123. DOI: 10.33581/2520-6508-2021-2-114-123.
Опубликован
2022-04-14
Ключевые слова: данные, эмбеддинг, вектор, функция потерь, автокодировщик
Как цитировать
Ваткин, М. Е., & Воробей, Д. А. (2022). Функция потерь, учитывающая семантику пространства, для синтеза эмбеддингов на транзакционных данных. Журнал Белорусского государственного университета. Математика. Информатика, 1, 97-102. https://doi.org/10.33581/2520-6508-2022-1-97-102