К вопросу об оптимальном разделении совокупной выборки при машинном обучении
Аннотация
Изучаются современные подходы к разделению массива данных на тренировочную, контрольную и проверочную выборки, применяемые в ходе машинного обучения для целей прогнозирования. Рассматривается актуальный вопрос выбора подходящего разделения всей имеющейся совокупности данных на названные выборки. Анализируются результаты работы программного алгоритма, разработанного для поиска оптимального разделения массива данных на отдельные выборки в целях машинного обучения прогнозирующих моделей. Дается рекомендация отделять 80 % совокупной выборки, чтобы минимизировать ошибки прогноза разрабатываемых моделей.
Литература
- Dobbin KK, Simon RM. Optimally splitting cases for training and testing high dimensional classifiers [Internet; cited 2020 March 19]. Available from: https://bmcmedgenomics.biomedcentral.com/articles/10.1186/1755-8794-4-31.
- Afendras G, Markatou M. Optimality of training / test size and resampling effectiveness of cross-validation estimators of the generalization error. Journal of Statistical Planning and Inference. 2019;199:286–301.
- Hyndman RJ, Khandakar Y. Automatic time series forecasting: the forecast package for R. Journal of Statistical Software. 2008;27(3):1–22. DOI: 10.18637/jss.v027.i03.
- Xiaozhe Wang, Smith K, Hyndman R. Characteristic-based clustering for time series data. Data Mining and Knowledge Discovery. 2006;13(3):335–364. DOI: 10.1007/s10618-005-0039-x.
- Hyndman RJ, Athanasopoulos G. Forecasting: principles and practice. Melbourne: OTexts; 2013. 291 p.
- Akaike H. A new look at the statistical model identification. IEEE Transactions on Automatic Control. 1974;19(6):716–723. DOI: 10.1109/TAC.1974.1100705.
- Schwarz G. Estimating the dimension of a model. Annals of Statistics. 1978;6(2):461– 464. DOI: 10.1214/aos/1176344136.
- Sugiura N. Further analysis of the data by Akaike’s information criterion and the finite corrections. Communications in Statistics. 1978;7(1):13–26. DOI: 10.1080/03610927808827599.
- Hyndman RJ, Koehler AB. Another look at measures of forecast accuracy. International Journal of Forecasting. 2006;22(4):679–688. DOI: 10.1016/j.ijforecast.2006.03.001.
Copyright (c) 2021 Журнал Белорусского государственного университета. Экономика
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.
Авторы, публикующиеся в данном журнале, соглашаются со следующим:
- Авторы сохраняют за собой авторские права на работу и предоставляют журналу право первой публикации работы на условиях лицензии Creative Commons Attribution-NonCommercial. 4.0 International (CC BY-NC 4.0).
- Авторы сохраняют право заключать отдельные контрактные договоренности, касающиеся неэксклюзивного распространения версии работы в опубликованном здесь виде (например, размещение ее в институтском хранилище, публикацию в книге) со ссылкой на ее оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в интернете (например, в институтском хранилище или на персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу. (См. The Effect of Open Access).