Имитационное моделирование однонуклеотидных генетических полиморфизмов

  • Николай Николаевич Яцков Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь
  • Владимир Владимирович Апанасович Независимый исследователь, г. Минск, Беларусь
  • Василий Викторович Гринев Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь

Аннотация

Для идентификации однонуклеотидных полиморфизмов в последовательностях молекул ДНК предложен подход, основанный на имитационном моделировании сайтов отдельных нуклеотидов с использованием генерации случайных событий по бета-распределению или нормальному распределению, параметры которых оцениваются на базе имеющихся экспериментальных данных. Разработанный подход повышает точность определения однонуклеотидных полиморфизмов в молекулах ДНК и позволяет исследовать достоверность результатов отдельных экспериментов и оценить точность параметров, полученных в реальных условиях проведения эксперимента. Имитационная модель и методы анализа верифицированы на наборе данных геномного секвенирования молекул ДНК человека, предоставленных консорциумом GIAB (Genome in a Bottle Consortium). Выполнен сравнительный анализ известных статистических алгоритмов идентификации однонуклеотидных полиморфизмов и методов машинного обучения, параметры которых настраиваются по смоделированным данным геномного секвенирования молекул ДНК человека. Лучшие результаты получены для моделей машинного обучения, у которых точность идентификации сайтов однонуклеотидных полиморфизмов на 2–5 % выше, чем у классических статистических методов.

Биографии авторов

Николай Николаевич Яцков, Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь

кандидат физико-математических наук, доцент; заведующий кафедрой системного анализа и компьютерного моделирования факультета радиофизики и компьютерных технологий

Владимир Владимирович Апанасович, Независимый исследователь, г. Минск, Беларусь

доктор физико-математических наук, профессор; независимый исследователь

Василий Викторович Гринев, Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Беларусь

кандидат биологических наук, доцент; доцент кафедры генетики биологического факультета

Литература

  1. Sung WK. Algorithms for next-generation sequencing. 1st edition. New York: Chapman & Hall/CRC; 2017. 364 p. DOI: 10.1201/9781315374352.
  2. Kappelmann-Fenzl M, editor. Next generation sequencing and data analysis. 1st edition. Cham: Springer; 2021. 218 p. DOI: 10.1007/978-3-030-62490-3.
  3. Wu XL, Xu J, Feng G, Wiggans GR, Taylor JF, He J, et al. Optimal design of low-density SNP arrays for genomic prediction: algorithm and applications. PLoS ONE. 2016;11(9):e0161719. DOI: 10.1371/journal.pone.0161719.
  4. Korani W, Clevenger JP, Chu Y, Ozias-Akins P. Machine learning as an effective method for identifying true single nucleotide polymorphisms in polyploid plants. Plant Genome. 2019;12(1):180023. DOI: 10.3835/plantgenome2018.05.0023.
  5. Masoudi-Nejad A, Narimani Z, Hosseinkhan N. Next generation sequencing and sequence assembly. Methodologies and algorithms. 1st edition. New York: Springer; 2013. 86 p. DOI: 10.1007/978-1-4614-7726-6.
  6. Su Z, Marchini J, Donnelly P. HAPGEN2: simulations of multiple disease SNPs. Bioinformatics. 2011;27(16):2304–2305. DOI: 10.1093/bioinformatics/btr341.
  7. Oh JH, Deasy JO. SITDEM: a simulation tool for disease/endpoint models of association studies based on single nucleotide polymorphism genotypes. Computers in Biology and Medicine. 2014;45:136–142. DOI: 10.1016/j.compbiomed.2013.11.021.
  8. Meyer HV, Birney E. PhenotypeSimulator: a comprehensive framework for simulating multi-trait, multi-locus genotype to phenotype relationships. Bioinformatics. 2018;34(17):2951–2956. DOI: 10.1093/bioinformatics/bty197.
  9. Hendricks AE, Dupuis J, Gupta M, Logue MW, Lunetta KL. A comparison of gene region simulation methods. PLoS ONE. 2012;7(7):e40925. DOI: 10.1371/journal.pone.0040925.
  10. Peng B, Chen HS, Mechanic LE, Racine B, Clarke J, Clarke L, et al. Genetic Simulation Resources: a website for the registration and discovery of genetic data simulators. Bioinformatics. 2013;29(8):1101–1102. DOI:10.1093/bioinformatics/btt094.
  11. Peng B, Chen HS, Mechanic LE, Racine B, Clarke J, Gillanders E, et al. Genetic data simulators and their applications: an overview. Genetic Epidemiology. 2015;39(1):2–10. DOI: 10.1002/gepi.21876.
  12. Yatskou MM, Apanasovich VV. Simulation modelling and machine learning platform for processing fluorescence spectroscopy data. In: Tuzikov AV, Belotserkovsky AM, Lukashevich MM, editors. Pattern Recognition and Information Processing. PRIP-2021. Cham: Springer; 2022. p. 178–190 (Communications in computer and information science; volume 1562). DOI: 10.1007/978-3-030- 98883-8_13.
  13. Jacquin L, Cao TV, Grenier C, Ahmadi N. DHOEM: a statistical simulation software for simulating new markers in real SNP marker data. BMC Bioinformatics. 2015;16:404. DOI: 10.1186/s12859-015-0830-7.
  14. Volkau AU, Yatskou MM, Grinev VV. Selecting informative features of human gene exons. Journal of the Belarusian State University. Mathematics and Informatics. 2019;1:77–89. Russian. DOI: 10.33581/2520-6508-2019-1-77-89.
  15. Xu Silun, Skakun VV. Comparative analysis of deep learning neural networks for the segmentation of cancer cell nuclei on immunohistochemical fluorescent images. Journal of the Belarusian State University. Mathematics and Informatics. 2024;1:59–70. Russian. EDN: TOOSJI.
  16. Grinev VV, Yatskou MM, Skakun VV, Chepeleva MV, Nazarov PV. ORFhunteR: an accurate approach to the automatic identification and annotation of open reading frames in human mRNA molecules. Software Impacts. 2022;12:100268. DOI: 10.1016/j.simpa. 2022.100268.
  17. Hothorn T, Hornik K, Zeileis A. Unbiased recursive partitioning: a conditional inference framework. Journal of Computational and Graphical Statistics. 2006;15(3):651–674. DOI: 10.1198/106186006X133933.
  18. Breiman L, Friedman J, Olshen R, Stone C. Classification and regression trees. 1st edition. Wadsworth: Wadsworth International Group; 1984. 358 p.
  19. Vapnik VN. The nature of statistical leaning theory. 2nd edition. New York: Springer; 2000. 314 p. DOI: 10.1007/978-1-4757- 3264-1.
  20. Murphy KP. Probabilistic machine learning [Internet]. London: The MIT Press; 2022. 864 p. Available from: https://mitpress. mit.edu/9780262369305/probabilistic-machine-learning.
  21. R Core Team. R: a language and environment for statistical computing. R foundation for statistical computing [Internet]. Vienna: [s. n.]; 2021. Available from: https://www.R-project.org.
  22. Zook JM, McDaniel J, Olson ND, Wagner J, Parikh H, Heaton H, et al. An open resource for accurately benchmarking small variant and reference calls. Nature Biotechnology. 2019;37(5):561–566. DOI: 10.1038/s41587-019-0074-6.
  23. Liao Y, Smyth GK, Shi W. The R-package Rsubread is easier, faster, cheaper and better for alignment and quantification of RNA sequencing reads. Nucleic Acids Research. 2019;47(8):e47. DOI: 10.1093/nar/gkz114.
  24. Yatskou MM, Smolyakova EV, Skakun VV, Grinev VV. Entropy-based detection of single-nucleotide genetic polymorphism sites. In: A. N. Sevchenko Institute of Applied Physical Problems of Belarusian State University. Proceedings of the 7 th International scientific-practical conference «Applied problems of optics, informatics, radiophysics and condensed matter physics»; 2023 May 18–19; Minsk, Belarus. Minsk: Belarusian State University; 2023. p. 191–193. Russian.
Опубликован
2024-08-02
Ключевые слова: однонуклеотидный генетический полиморфизм, обнаружение однонуклеотидных полиморфизмов, имитационное моделирование, машинное обучение
Поддерживающие организации Работа выполнена в рамках государственной программы научных исследований «Конвергенция-2025» (грант № 3.04.3.1, № гос. регистрации 20211918).
Как цитировать
Яцков, Н. Н., Апанасович, В. В., & Гринев, В. В. (2024). Имитационное моделирование однонуклеотидных генетических полиморфизмов. Журнал Белорусского государственного университета. Математика. Информатика, 2, 104-112. Доступно по https://journals.bsu.by/index.php/mathematics/article/view/6114