Об обнаружении выбросов с помощью неравенства Чебышева
Аннотация
Рассматриваются алгоритмы, основанные на использовании неравенства Чебышева. Эти алгоритмы сравниваются с такими классическими методами, как боксплот Тьюки, правило N-сигм и его робастные модификации с MAD- и FQ-оценками масштаба. Для настройки алгоритмов используется процедура выбора параметров на основе полного знания модели распределения данных. Строятся области субоптимальных параметров при неполном знании модели засорения. Показывается, что непосредственное применение неравенства Чебышева приводит к классическому правилу N-сигм. При использовании неклассического неравенства Чебышева получается робастное правило отбраковки, которое зачастую не уступает, а иногда и превосходит прочие рассматриваемые
алгоритмы.
Литература
- Tchebichef P. Des valeurs moyennes. Journal de Mathematiques Pures et Appliquees. 1867;12:177–184.
- Shevlyakov G, Kan M. Stream data preprocessing: outlier detection based on the Chebyshev inequality with applications. In: Proceeding of 26 th Conference of Open Innovations Association (FRUCT); 2020 April 20–24; Yaroslavl, Russia. [S. l.]: IEEE; 2020. p. 402–407. DOI: 10.23919/FRUCT48808.2020.9087459.
- Shevlyakov GL, Oja H. Robust correlation: theory and applications. [S. l.]: Wiley; 2016. 352 p. (Wiley series in probability and statistics). DOI: 10.1002/9781119264507.
- Andrea K. Metody i algoritmy razvedochnogo analiza dannykh, osnovannye na robastnykh modifikatsiyah boksplotov [Methods and algorithms for exploratory data analysis based on robust boxplot modification] [dissertation]. Saint Petersburg: Peter the Great St. Petersburg Polytechnic University; 2013. 164 p. Russian.
- Tukey JW. Exploratory data analysis. Reading, MA: Addison Wesley; 1977. 711 p.
Copyright (c) 2020 Журнал Белорусского государственного университета. Математика. Информатика
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.
Авторы, публикующиеся в данном журнале, соглашаются со следующим:
- Авторы сохраняют за собой авторские права на работу и предоставляют журналу право первой публикации работы на условиях лицензии Creative Commons Attribution-NonCommercial. 4.0 International (CC BY-NC 4.0).
- Авторы сохраняют право заключать отдельные контрактные договоренности, касающиеся неэксклюзивного распространения версии работы в опубликованном здесь виде (например, размещение ее в институтском хранилище, публикацию в книге) со ссылкой на ее оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в интернете (например, в институтском хранилище или на персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу. (См. The Effect of Open Access).