К вопросу об оптимальном разделении совокупной выборки при машинном обучении

  • Валентин Олегович Сувалов Белорусский государственный университет, пр. Независимости 4, 220030, г. Минск, Беларусь https://orcid.org/0000-0001-6748-5805

Аннотация

Изучаются современные подходы к разделению массива данных на тренировочную, контрольную и проверочную выборки, применяемые в ходе машинного обучения для целей прогнозирования. Рассматривается актуальный вопрос выбора подходящего разделения всей имеющейся совокупности данных на названные выборки. Анализируются результаты работы программного алгоритма, разработанного для поиска оптимального разделения массива данных на отдельные выборки в целях машинного обучения прогнозирующих моделей. Дается рекомендация отделять 80 % совокупной выборки, чтобы минимизировать ошибки прогноза разрабатываемых моделей.

Биография автора

Валентин Олегович Сувалов , Белорусский государственный университет, пр. Независимости 4, 220030, г. Минск, Беларусь

аспирант кафедры цифровой экономики экономического факультета. Научный руководитель – кандидат экономических наук, доцент И. А. Карачун

Литература

  1. Dobbin KK, Simon RM. Optimally splitting cases for training and testing high dimensional classifiers [Internet; cited 2020 March 19]. Available from: https://bmcmedgenomics.biomedcentral.com/articles/10.1186/1755-8794-4-31.
  2. Afendras G, Markatou M. Optimality of training / test size and resampling effectiveness of cross-validation estimators of the generalization error. Journal of Statistical Planning and Inference. 2019;199:286–301.
  3. Hyndman RJ, Khandakar Y. Automatic time series forecasting: the forecast package for R. Journal of Statistical Software. 2008;27(3):1–22. DOI: 10.18637/jss.v027.i03.
  4. Xiaozhe Wang, Smith K, Hyndman R. Characteristic-based clustering for time series data. Data Mining and Knowledge Discovery. 2006;13(3):335–364. DOI: 10.1007/s10618-005-0039-x.
  5. Hyndman RJ, Athanasopoulos G. Forecasting: principles and practice. Melbourne: OTexts; 2013. 291 p.
  6. Akaike H. A new look at the statistical model identification. IEEE Transactions on Automatic Control. 1974;19(6):716–723. DOI: 10.1109/TAC.1974.1100705.
  7. Schwarz G. Estimating the dimension of a model. Annals of Statistics. 1978;6(2):461– 464. DOI: 10.1214/aos/1176344136.
  8. Sugiura N. Further analysis of the data by Akaike’s information criterion and the finite corrections. Communications in Statistics. 1978;7(1):13–26. DOI: 10.1080/03610927808827599.
  9. Hyndman RJ, Koehler AB. Another look at measures of forecast accuracy. International Journal of Forecasting. 2006;22(4):679–688. DOI: 10.1016/j.ijforecast.2006.03.001.
Опубликован
2021-07-30
Ключевые слова: машинное обучение, большие данные, анализ данных, эконометрический инструментарий, тренировочная выборка, контрольная выборка, проверочная выборка
Поддерживающие организации Автор выражает благодарность специалисту первой категории управления регулирования ликвидности Национального банка Республики Беларусь Е. С. Боголюбской-Синяковой и заместителю начальника управления регулирования ликвидности Национального банка Республики Беларусь А. А. Казакевичу за их комментарии и предложения, которые помогли улучшить статью.
Как цитировать
Сувалов , В. О. (2021). К вопросу об оптимальном разделении совокупной выборки при машинном обучении. Журнал Белорусского государственного университета. Экономика, 1, 37-45. Доступно по https://journals.bsu.by/index.php/economy/article/view/3687
Раздел
C. Математические и количественные методы