Методы интеллектуального анализа данных в исследованиях эпидемии COVID-19

  • Олег Валентинович Сенько Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, 111123, г. Москва, Россия; Федеральный исследовательский центр «Информатика и управление» Российской академии наук, ул. Вавилова, 44, корп. 2, 119333, г. Москва, Россия
  • Анна Викторовна Кузнецова Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, 111123, г. Москва, Россия; Институт биохимической физики им. Н. М. Эмануэля Российской академии наук, ул. Косыгина, 4, 119334, г. Москва, Россия
  • Евгений Михайлович Воронин Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, 111123, г. Москва, Россия
  • Ольга Анатольевна Кравцова Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, 111123, г. Москва, Россия; Московский государственный университет им. М. В. Ломоносова, Ленинские горы, 1, 119991, г. Москва, Россия https://orcid.org/0000-0002-7757-5334
  • Людмила Робертовна Борисова Финансовый университет при Правительстве Российской Федерации, пр. Ленинградский, 49/2, 125167, г. Москва, Россия https://orcid.org/0000-0002-5757-0341
  • Игорь Леонидович Кирилюк Институт экономики Российской академии наук, пр. Нахимовский, 32, 117218, г. Москва, Россия https://orcid.org/0000-0002-8935-9241
  • Василий Геннадьевич Акимкин Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, 111123, г. Москва, Россия

Аннотация

Представлен оригинальный метод поиска связи хода эпидемии с социально-экономическими, демографическими и климатическими факторами. В рамках предложенного метода проведена иерархическая агломеративная кластеризация 110 стран мира по кривым темпа роста COVID-19 за период с января 2020 по август 2021 г. Выделены четыре крупных кластера с единообразными кривыми, включающих 11, 39, 17 и 13 стран соответственно. Еще 30 стран не вошли ни в один из кластеров. Методами машинного обучения в выделенных кластерах выявлены различия социально-экономических, демографических и географо-климатических показателей. Наиболее важными показателями, по которым кластеры отличаются друг от друга, стали амплитуда температур в течение года, высокотехнологичный экспорт, коэффициент Джини, численность городского населения и населения в целом, индекс чистых бартерных условий торговли, рост населения, средняя температура января, территория (площадь суши), количество погибших в результате стихийных бедствий, коэффициент рождаемости, длина береговой линии, запасы нефти, доля населения в городских агломерациях с численностью населения более 1 млн человек и др. Данный подход (применение кластеризации в сочетании с классификацией методами логико-статистического анализа) ранее никем не использовался. Найденные закономерности позволят более точно проводить прогнозирование эпидемиологического процесса в странах, принадлежащих к разным кластерам. Дополнение представленного подхода авторегрессионными моделями позволит автоматизировать прогноз и повысить его точность.

Биографии авторов

Олег Валентинович Сенько, Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, 111123, г. Москва, Россия; Федеральный исследовательский центр «Информатика и управление» Российской академии наук, ул. Вавилова, 44, корп. 2, 119333, г. Москва, Россия

доктор физико-математических наук, профессор; старший научный сотрудник научной группы математических методов и эпидемиологического прогнозирования Центрального научно-исследовательского института эпидемиологии Роспотребнадзора, ведущий научный сотрудник Вычислительного центра имени А. А. Дородницына Российской академии наук Федерального исследовательского центра «Информатика и управление» Российской академии наук

Анна Викторовна Кузнецова, Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, 111123, г. Москва, Россия; Институт биохимической физики им. Н. М. Эмануэля Российской академии наук, ул. Косыгина, 4, 119334, г. Москва, Россия

кандидат биологических наук; старший научный сотрудник научной группы математических методов и эпидемиологического прогнозирования Центрального научно-исследовательского института эпидемиологии Роспотребнадзора, старший научный сотрудник лаборатории математической биофизики Института биохимической физики им. Н. М. Эмануэля Российской академии наук

Евгений Михайлович Воронин, Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, 111123, г. Москва, Россия

кандидат медицинских наук; руководитель научной группы математических методов и эпидемиологического прогнозирования

Ольга Анатольевна Кравцова, Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, 111123, г. Москва, Россия; Московский государственный университет им. М. В. Ломоносова, Ленинские горы, 1, 119991, г. Москва, Россия

статистик научной группы математических методов и эпидемиологического прогнозирования, Центрального научно-исследовательского института эпидемиологии Роспотребнадзора, аспирантка кафедры математических методов прогнозирования факультета вычислительной математики и кибернетики Московского государственного университета им. М. В. Ломоносова. Научный руководитель – О. В. Сенько.

Людмила Робертовна Борисова, Финансовый университет при Правительстве Российской Федерации, пр. Ленинградский, 49/2, 125167, г. Москва, Россия

кандидат физико-математических наук; доцент Департамента математики

Игорь Леонидович Кирилюк, Институт экономики Российской академии наук, пр. Нахимовский, 32, 117218, г. Москва, Россия

научный сотрудник сектора институционально-эволюционной экономики Центра институционально-эволюционной экономики и прикладных проблем воспроизводства

Василий Геннадьевич Акимкин, Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, 111123, г. Москва, Россия

академик Российской академии наук, доктор математических наук, профессор; директор

Литература

  1. Romanyukha AA, Sannikova TE, Drynov ID. [Emergence of epidemics of acute respiratory diseases]. Vestnik Rossiiskoi akademii nauk. 2011;81(2):122–126. Russian.
  2. Borisova LR, Fridman MN. Some aspects of the impact of the coronavirus pandemic on the economy. Samoupravlenie. 2021;5:147–152. Russian.
  3. Sengupta P, Ganguli B, SenRoy S, Chatterjee A. An analysis of COVID-19 clusters in India. BMC Public Health. 2021;21:631. DOI: 10.1186/s12889-021-10491-8.
  4. Zarikas V, Poulopoulos SG, Gareiou Z, Zervas E. Clustering analysis of countries using the COVID-19 cases dataset. Data in Brief. 2020;31:105787. DOI: 10.1016/j.dib.2020.105787.
  5. Mengyang Liu, Mengmeng Liu, Zhiwei Li, Yingxuan Zhu, Yue Liu, Xiaonan Wang, et al. The spatial clustering analysis of COVID-19 and its associated factors in mainland China at the prefecture level. Science of the Total Environment. 2021;777:145992. DOI: 10.1016/j.scitotenv.2021.145992.
  6. Rios RA, Nogueira T, Coimbra DB, Lopes TJS, Abraham A, de Mello RF. Country transition index based on hierarchical clustering to predict next COVID-19 waves. Scientific Reports. 2021;11(1):15271. DOI: 10.1038/s41598-021-94661-z.
  7. Rizvi SA, Umair M, Cheema MA. Clustering of countries for COVID-19 cases based on disease prevalence, health systems and environmental indicators. Chaos, Solitons & Fractals. 2021;151:111240. DOI: 10.1016/j.chaos.2021.111240.
  8. Brzyska J, Szamrej-Baran I. Classification of the EU countries according to the vulnerability of their economies to the impact of COVID-19 pandemic. European Research Studies Journal. 2021;XXIV(2B):967–978. DOI: 10.35808/ersj/2318.
  9. Kuznetsova AV, Kostomarova IV, Senko OV. Modification of the method of optimal valid partitioning for comparison of patterns related to the occurrence of ischemic stroke in two groups of patients. Pattern Recognition and Image Analysis: Advances in Mathematical Theory and Applications. 2014;24(1):114–123. DOI: 10.1134/S105466181401009X.
  10. Senko OV, Dzyba DS, Pigarova EA, Rozhinskaya LYa, KuznetsovaAV. Amethod for evaluating validity of piecewise-linear models. In: Fred ALN, Filipe J, editors. Proceedings of the 6th International Conference on Knowledge Discovery and Information Retrieval; 2014 October 21–24; Rome, Italy. [S. l.]: Science and Technology Publications; 2014. p. 437–442. DOI: 10.5220/0005156904370443.
  11. Senko OV, Kuznetsova AV. A recognition method based on collective decision making using systems of regularities of various types. Pattern Recognition and Image Analysis: Advances in Mathematical Theory and Applications. 2010;20(2):152–162. DOI: 10.1134/S1054661810020069.
  12. Kirilyuk IL, Volynsky AI, Kruglova MS, Kuznetsova AV, Rubinstein AA, Senko OV. Empirical testing of institutional matrices theory by data mining. Computer Research and Modeling. 2015;7(4):923–939. Russian. DOI: 10.20537/2076-7633-2015-7-4-923-939.
  13. Borisova LR. [Study of the dynamics of the incidence of coronavirus infection in Moscow]. In: Sovremennye problemy fizikomatematicheskikh nauk. Materialy VII Vserossiiskoi nauchno-prakticheskoi konferentsii s mezhdunarodnym uchastiem; 18–21 noyabrya 2021 g.; Orel, Rossiya [Modern problems of physical and mathematical sciences. Materials of the 7th All-Russian scientific and practical conference with international participation; 2021 November 18–21; Orel, Russia]. Orel: Orel State University named after I. S. Turgenev; 2021. p. 217–220. Russian.
  14. Smirnov VYu, Kuznetsova AV. Approximation of experimental data by solving linear difference equations with constant coefficients (in particular, by exponentials and exponential cosines). Pattern Recognition and Image Analysis: Advances in Mathematical Theory and Applications. 2017;27(2):175–183. DOI: 10.1134/S1054661817020109.
Опубликован
2022-04-06
Ключевые слова: кластерный анализ, методы машинного обучения, статистика, эпидемиологический процесс, COVID-19
Поддерживающие организации 1ФБУН ЦНИИ Эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, г. Москва, Россия 2ФГУ ФИЦ «Информатика и управление» РАН, ул. Вавилова, 42, г. Москва, Россия 3 ФГБУН Институт биохимической физики им. Н.М. Эмануэля РАН, ул. Косыгина, 4, г. Москва, Россия 4Московский государственный университет имени М.В. Ломоносова, Ленинские горы, д. 1, стр. 2, г. Москва, Россия 5Финансовый университет при Правительстве Российской Федерации, Ленинградский пр-т., 49, г. Москва, Россия 6ФГБУН Институт экономики РАН, Нахимовский просп., 32, г. Москва, Россия
Как цитировать
Сенько, О. В., Кузнецова, А. В., Воронин, Е. М., Кравцова, О. А., Борисова, Л. Р., Кирилюк, И. Л., & Акимкин, В. Г. (2022). Методы интеллектуального анализа данных в исследованиях эпидемии COVID-19. Журнал Белорусского государственного университета. Математика. Информатика, 1, 83-96. https://doi.org/10.33581/2520-6508-2022-1-83-96