Разработка модели машинного обучения для прогнозирования числа впервые выявленных пациентов с ВИЧ инфекцией в субъектах Российской Федерации
https://doi.org/10.25881/18110193_2023_3_16
Аннотация
Цель: разработать модель прогнозирования числа впервые выявленных пациентов с ВИЧ-инфекцией в субъектах Российской Федерации с использованием методов машинного обучения.
Материалы и методы: исходные данные были получены из формы федерального статистического наблюдения №61 и данных Росстата о среднегодовой численности населения - из 85 субъектов РФ (2016-2022 годы). Проведено сравнение методов машинного обучения и их ансамблей при построении регрессионной модели для прогнозирования числа впервые выявленных пациентов с ВИЧ-инфекцией в субъектах РФ.
Результаты: модель строилась с помощью методов: линейной регрессии, решающего дерева, случайного леса, градиентного бустинга на решающих деревьях и бэггинга. Использовалась интерактивная вычислительная среда «Jupiter Notebook» (6.5.2) и программные библиотеки «Pandas» (1.5.3), «Scikit-learn» (1.0.2), «Statsmodels» (0.13.5) и CatBoost. Оптимальные гиперпараметры подбирались с использованием фреймворка «Optuna». В качестве метрик качества выступили: корень из среднеквадратичной ошибки (RMSE); коэффициент детерминации (R2); средняя абсолютная ошибка (MAE); средняя абсолютная процентная ошибка (MAPE); медианная абсолютная ошибка (MedAE).
Выводы: применение методов и алгоритмов машинного обучения дает разные результаты в части метрик точности работы моделей. Наихудшие значения всех метрик качества продемонстрировал метод линейной регрессии (MAPE 67%). Наилучшим являлось сочетание (Бэггинг) двух ансамблевых методов — случайного леса и градиентного бустинга на решающих деревьях, поскольку было достигнуто максимальное значение большего числа метрик качества. В этой связи целесообразно проверять все доступные методы и алгоритмы машинного обучения и затем выбирать из полученных результатов наиболее качественную модель.
Об авторах
М. Ю. КотловскийРоссия
д.м.н.
Москва
Э. Б. Цыбикова
Россия
д.м.н.
Москва
С. М. Лорсанов
Россия
г. Грозный
П. А. Фадеев
Россия
к.м.н.
г. Грозный
С. О. Фадеева
Россия
г. Грозный
г. Ярославль
А. В. Гусев
Россия
к.т.н.
Москва
Список литературы
1. ВИЧ-инфекция и СПИД. Национальное руководство. Под ред. акад. РАН, профессора В.В. Покровского, Москва: ГЭОТАР-МЕДИА, 2020. — 686 с.
2. Бодрин К.А., Красноперова А.А. Использование технологий машинного обучения в медицине // Теория и практика современной науки. — 2018. — №10(40). — С.52-56.
3. Вострокнутов М.Е., Дюжева Е.В., Кузнецова А.В., Сенько О.В. Факторы риска госпитальной летальности больных с сочетанием туберкулеза и ВИЧ-инфекции в учреждениях уголовно-исполнительной системы // Туберкулез и болезни легких. — 2019. — Т.97. — №7. — С.34-41. doi: 10.21292/2075-1230-2019-97-7-34-41.
4. Тарасова О.А., Филимонов Д.А., Поройков В.В. Компьютерный прогноз резистентности вируса иммунодефицита человека к ингибиторам обратной транскриптазы ВИЧ // Биомедицинская химия. — 2017. — Т.63. — №5. — С.457-460. doi: 10.18097/PBMC20176305457.
5. Rajendran M, Ferran MC, Mouli L, Babbitt GA. Lynch Evolution of drug resistance drives destabilization of flap region dynamics in HIV-1 protease. Biophys Rep (NY). 2023; 3(3): 100121. doi: 10.1016/j.bpr.2023.100121.
6. Bukic E, Milasin J, Toljic B, Jadzic J, Jevtovic D, Obradovic B, Dragovic G. Association between Combination Antiretroviral Therapy and Telomere Length in People Living with Human Immunodeficiency Virus. Biology (Basel). 2023; 12(9): 1210. doi: 10.3390/biology12091210.
7. Birri Makota RB, Musenge E. Predicting HIV infection in the decade (2005-2015) pre-COVID-19 in Zimbabwe: A supervised classification-based machine learning approach. PLOS Digit Health. 2023; 2(6): e0000260. doi: 10.1371/journal.pdig.0000260.
8. Mamo DN, Yilma TM, Fekadie M, Sebastian Y, Bizuayehu T, Melaku MS, Walle AD. Machine learning to predict virological failure among HIV patients on antiretroviral therapy in the University of Gondar Comprehensive and Specialized Hospital, in Amhara Region, Ethiopia, 2022. BMC Med Inform Decis Mak. 2023; 23(1): 75. doi: 10.1186/s12911-023-02167-7.
9. Jupyter Notebook. Available at: https://docs.jupyter.org/en/latest/. Accessed 10.10.2023.
10. Pandas. Available at: https://pandas.pydata.org/docs/. Accessed 10.10.2023.
11. Scikit-learn. Documentation. Available at: https://scikit-learn.org/stable/index.html. Accessed 10.10.2023.
12. Statsmodels. Available at: https://www.statsmodels.org/stable/user-guide.html. Accessed 10.10.2023.
13. CatBoost. Available at: https://catboost.ai/en/docs/. Accessed 10.10.2023.
14. Optuna. Available at: https://optuna.org/#key_features. Accessed 10.10.2023.
15. Scikit-learn. Evaluation of models. Available at: https://scikit-learn.org/stable/modules/model_evaluation.html. Accessed 10.10.2023.
16. Лысенко А.А. Введение в регрессионный анализ данных и регрессионные модели // Труды Санкт-Петербургского государственного морского технического университета. — 2020. — Т.1. — №S2. — С.15.
17. Пернебай Б.А. Python. Регрессия дерева решений с использованием sklearn // Polish Journal of Science. — 2021. — №38-1(38). — С.51-56.
18. Scikit-learn. Linear models. Available at: https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model. Accessed 10.10.2023.
19. Scikit-learn. Decision tree, regressor. Available at: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html#sklearn.tree.DecisionTreeRegressor. Accessed 10.10.2023.
20. Scikit-learn. Common errors in the interpretation of linear model coefficients. Available at: https://scikit-learn.org/stable/auto_examples/inspection/plot_linear_model_coefficient_interpretation.html#sphx-glr-auto-examples-inspection-plot-linear-model-coefficient-interpretation-py. Accessed 10.10.2023.
21. Scikit-learn. Robust scaling. Available at: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html. Accessed 10.10.2023.
22. Scikit-learn. Lasso regression. Available at: scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html. Accessed 10.10.2023.
23. Scikit-learn. Cross-validation. Available at: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html. Accessed 10.10.2023.
24. Носова Г.С., Абдуллин А.Х. Машинное обучение на основе непараметрического и нелинейного алгоритма Random Forest (RF) // Инновации. Наука. Образование. — 2021. — №35. — С.33-39.
25. Scikit-learn. Random forest, regressor. Available at: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html. Accessed 10.10.2023.
26. Zhang И, Ren J, Wei Z, et al. Health data driven on continuous blood pressure prediction based on gradient boosting decision tree algorithm. IEEE Access. 2019; 7: 32423-32433. doi: 10.1109/ACCESS.2019.2902217.
27. Plaia A, Buscemi S, Fürnkranz J, Mencía EL. Comparing Boosting and Bagging for Decision Trees of Rankings. Journal of Classification. 2022; 39(1): 78-99. doi: 10.1007/s00357-021-09397-2.
Рецензия
Для цитирования:
Котловский М.Ю., Цыбикова Э.Б., Лорсанов С.М., Фадеев П.А., Фадеева С.О., Гусев А.В. Разработка модели машинного обучения для прогнозирования числа впервые выявленных пациентов с ВИЧ инфекцией в субъектах Российской Федерации. Врач и информационные технологии. 2023;(3):16-29. https://doi.org/10.25881/18110193_2023_3_16
For citation:
Kotlovskiy M.Yu., Tsybikova E.B., Lorsanov S.M., Fadeev P.A., Fadeeva S.O., Gusev A.V. Development of a machine learning model predicting the incidence of newly diagnosed HIV infection in the subjects of the Russian Federation. Medical Doctor and Information Technologies. 2023;(3):16-29. (In Russ.) https://doi.org/10.25881/18110193_2023_3_16