Об обнаружении выбросов с помощью неравенства Чебышева

  • Михаил Артемович Чепулис Санкт-Петербургский политехнический университет Петра Великого, ул. Политехническая, 29, 195251, г. Санкт-Петербург, Россия https://orcid.org/0000-0001-7340-9323
  • Георгий Леонидович Шевляков Санкт-Петербургский политехнический университет Петра Великого, ул. Политехническая, 29, 195251, г. Санкт-Петербург, Россия

Аннотация

Рассматриваются алгоритмы, основанные на использовании неравенства Чебышева. Эти алгоритмы сравниваются с такими классическими методами, как боксплот Тьюки, правило N-сигм и его робастные модификации с MAD- и FQ-оценками масштаба. Для настройки алгоритмов используется процедура выбора параметров на основе полного знания модели распределения данных. Строятся области субоптимальных параметров при неполном знании модели засорения. Показывается, что непосредственное применение неравенства Чебышева приводит к классическому правилу N-сигм. При использовании неклассического неравенства Чебышева получается робастное правило отбраковки, которое зачастую не уступает, а иногда и превосходит прочие рассматриваемые
алгоритмы.

Биографии авторов

Михаил Артемович Чепулис, Санкт-Петербургский политехнический университет Петра Великого, ул. Политехническая, 29, 195251, г. Санкт-Петербург, Россия

магистрант высшей школы прикладной математики и вычислительной физики Института прикладной математики и механики. Научный руководитель – Г. Л. Шевляков

Георгий Леонидович Шевляков, Санкт-Петербургский политехнический университет Петра Великого, ул. Политехническая, 29, 195251, г. Санкт-Петербург, Россия

доктор физико-математических наук, профессор; профессор высшей школы прикладной математики и вычислительной физики Института прикладной математики и механики

Литература

  1. Tchebichef P. Des valeurs moyennes. Journal de Mathematiques Pures et Appliquees. 1867;12:177–184.
  2. Shevlyakov G, Kan M. Stream data preprocessing: outlier detection based on the Chebyshev inequality with applications. In: Proceeding of 26 th Conference of Open Innovations Association (FRUCT); 2020 April 20–24; Yaroslavl, Russia. [S. l.]: IEEE; 2020. p. 402–407. DOI: 10.23919/FRUCT48808.2020.9087459.
  3. Shevlyakov GL, Oja H. Robust correlation: theory and applications. [S. l.]: Wiley; 2016. 352 p. (Wiley series in probability and statistics). DOI: 10.1002/9781119264507.
  4. Andrea K. Metody i algoritmy razvedochnogo analiza dannykh, osnovannye na robastnykh modifikatsiyah boksplotov [Methods and algorithms for exploratory data analysis based on robust boxplot modification] [dissertation]. Saint Petersburg: Peter the Great St. Petersburg Polytechnic University; 2013. 164 p. Russian.
  5. Tukey JW. Exploratory data analysis. Reading, MA: Addison Wesley; 1977. 711 p.
Опубликован
2020-12-08
Ключевые слова: аномалия, обнаружение выбросов, неравенство Чебышева, робастность
Поддерживающие организации Это исследование частично поддержано грантом РФФИ № 18-29-03250.
Как цитировать
Чепулис, М. А., & Шевляков, Г. Л. (2020). Об обнаружении выбросов с помощью неравенства Чебышева. Журнал Белорусского государственного университета. Математика. Информатика, 3, 28-35. https://doi.org/10.33581/2520-6508-2020-3-28-35
Раздел
Теория вероятностей и математическая статистика