Preview

Врач и информационные технологии

Расширенный поиск

Многоуровневая категоризация непрерывных переменных в задачах объяснения прогнозных оценок моделей машинного обучения в клинической медицине

https://doi.org/10.25881/18110193_2023_3_44

Аннотация

Цель. Сравнительная оценка качества прогностических моделей внутригоспитальной летальности (ВГЛ) у больных инфарктом миокарда с подъемом сегмента ST (ИМnST) после чрескожного коронарного вмешательства (ЧКВ), разработанных на основе предикторов в непрерывной, дихотомической и многоуровневой категориальной формах.
Материалы и методы. Проведено одноцентровое ретроспективное исследование, в рамках которого анализировали данные 4677 историй болезни пациентов с ИМnST после ЧКВ, находившихся на лечении в Региональном сосудистом центре г. Владивостока. Было выделено 2 группы больных: первая - 318 (6,8%) человек, умерших в стационаре, вторая — 4359 (93,2%) — с благоприятным исходом лечения. Прогностические модели ВГЛ с непрерывными переменными были разработаны методами многофакторной логистической регрессии, случайного леса и стохастического градиентного бустинга. Дихотомизация предикторов выполнялась методами поиска на сетке оптимальных точек отсечения, расчета центроидов и аддитивного объяснения Шепли (SHAP). Для многоуровневой категоризации предложено использовать объединение пороговых значений, выделенных при дихотомизации, а также ранжирование порогов отсечения с помощью весовых коэффициентов многофакторной логистической регрессии.
Результаты. По результатам многоступенчатого анализа показателей клинико-функционального статуса больных ИМnST были выделены и валидированы новые предикторы ВГЛ, выполнена их категоризация и разработаны прогностические модели с непрерывными, дихотомическими и многоуровневыми категориальными переменными (AUС: 0.885-0.902). Модели, предикторы которых были выделены методом мультиметрической категоризации, не уступали по точности моделям с непрерывными переменными и имели более высокие метрики качества, чем алгоритмы с дихотомическими предикторами. Преимущество моделей с многоуровневой категоризацией предикторов заключалось в возможности объяснения и клинической интерпретации результатов прогнозирования ВГЛ.
Заключение. Многоуровневая категоризация предикторов является перспективным инструментом для объяснения прогнозных оценок в клинической медицине.

Об авторах

К. И. Шахгельдян
Владивостокский государственный университет
Россия

д.т.н., доцент

Владивосток



Б. И. Гельцер
Дальневосточный федеральный университет
Россия

член-корр. РАН, д.м.н., профессор

г. Владивосток



Н. С. Куксин
Дальневосточный федеральный университет
Россия

г. Владивосток



И. Г. Домжалов
Дальневосточный федеральный университет
Россия

г. Владивосток



Список литературы

1. Mabikwa OV, Greenwood DC, Baxter PD, Fleming SJ. Assessing the reporting of categorised quantitative variables in observational epidemiological studies. BMC Health Serv Res. 2017; 17(1): 201. doi:10.1186/s12913-017-2137-z.

2. MacCallum RC, Zhang S, Preacher KJ, Rucker DD. On the practice of dichotomization of quantitative variables. Psychol Methods. 2002; 7(1): 19-40. doi:10.1037/1082-989x.7.1.19.

3. Gupta R, Day CN, Tobin WO, Crowson CS. Understanding the effect of categorization of a continuous predictor with application to neuro-oncology. Neurooncol Pract. 2021; 9(2): 87-90. doi:10.1093/nop/npab049.

4. Гельцер Б.И., Шахгельдян К.И., Рублев В.Ю. и др. Фенотипирование факторов риска и прогнозирование внутригоспитальной летальности у больных ишемической болезнью сердца после коронарного шунтирования на основе методов объяснимого искусственного интеллекта // Российский кардиологический журнал. — 2023. — Т.28. — №4. — С.85-93. doi:10.15829/1560-4071-2023-5302.

5. Altman DG, Lausen B, Sauerbrei W, Schumacher M. Dangers of using «optimal» cutpoints in the evaluation of prognostic factors. J Natl Cancer Inst. 1994; 86(11): 829-835. doi:10.1093/jnci/86.11.829.

6. Collins GS, Reitsma JB, Altman DG, Moons KG. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD Statement. BMC Med. 2015; 13: 1. doi:10.1186/s12916-014-0241-z.

7. Dawson NV, Weiss R. Dichotomizing continuous variables in statistical analysis: a practice to avoid. Med Decis Making. 2012; 32(2): 225-226. doi:10.1177/0272989X12437605.

8. Salis Z, Gallego B, Sainsbury A. Researchers in rheumatology should avoid categorization of continuous predictor variables. BMC Med Res Methodol. 2023; 23(1): 104. doi:10.1186/s12874-023-01926-4.

9. Altman DG, Royston P. The cost of dichotomising continuous variables. BMJ. 2006; 332(7549): 1080. doi:10.1136/bmj.332.7549.1080.

10. Austin PC, Brunner LJ. Inflation of the type I error rate when a continuous confounding variable is categorized in logistic regression analyses. Stat Med. 2004; 23(7): 1159-1178. doi:10.1002/sim.1687.

11. Streiner DL. Breaking up is hard to do: the heartbreak of dichotomizing continuous data. Can J Psychiatry. 2002; 47(3): 262-266. doi: 10.1177/070674370204700307.

12. Chen Y, Huang J, He X, et al. A novel approach to determine two optimal cut-points of a continuous predictor with a U-shaped relationship to hazard ratio in survival data: simulation and application. BMC Med Res Methodol. 2019; 19(1): 96. Published 2019. doi:10.1186/s12874-019-0738-4.

13. von Elm E, Altman DG, Egger M, et al. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. Lancet. 2007; 370(9596): 1453-1457. doi:10.1016/S0140-6736(07)61602-X.

14. The World Health Organization, The top 10 causes of death [Internet]. 2019. Available from: https://www.who.int/news-room/fact-sheets/detail/the-top-10-causes-of-death [cited 2023 Nov 30].

15. Ibánez B, James S, Agewall S, et al. 2017 ESC Guidelines for the management of acute myocardial infarction in patients presenting with ST-segment elevation. Rev Esp Cardiol (Engl Ed). 2017; 70(12): 1082. doi:10.1016/j.rec.2017.11.010.

16. Pfuntner A, Wier LM, Stocks C. Most Frequent Procedures Performed in U.S. Hospitals, 2011. In: Healthcare Cost and Utilization Project (HCUP) Statistical Briefs. Rockville (MD): Agency for Healthcare Research and Quality (US); October 2013.

17. Wang JJ, Fan Y, Zhu Y, et al. Biomarkers enhance the long-term predictive ability of the KAMIR risk score in Chinese patients with ST-elevation myocardial infarction. Chin Med J. 2019; 132(1): 30-41. doi:10.1097/CM9.0000000000000015.

18. Liu XJ, Wan ZF, Zhao N, et al. Adjustment of the GRACE score by HemoglobinA1c enables a more accurate prediction of long-term major adverse cardiac events in acute coronary syndrome without diabetes undergoing percutaneous coronary intervention. Cardiovasc Diabetol. 2015; 14: 110. doi: 10.1186/s12933-015-0274-4.

19. Chen X, Shao M, Zhang T, et al. Prognostic value of the combination of GRACE risk score and mean platelet volume to lymphocyte count ratio in patients with ST-segment elevation myocardial infarction after percutaneous coronary intervention. Exp Ther Med. 2020; 19(6): 3664-3674. doi: 10.3892/etm.2020.8626.

20. Wenzl FA, Kraler S, Ambler G, et al. Sex-specific evaluation and redevelopment of the GRACE score in non-ST-segment elevation acute coronary syndromes in populations from the UK and Switzerland: a multinational analysis with external cohort validation. Lancet. 2022; 400(10354): 744-756. doi: 10.1016/S0140-6736(22)01483-0.

21. Гельцер Б.И., Шахгельдян К.И., Домжалов И.Г., и др. Прогностическая оценка клинико-функционального статуса пациентов с инфарктом миокарда с подъемом сегмента ST после чрескожного коронарного вмешательства. Свидетельство о регистрации базы данных 2023622740, 10.08.2023. Заявка № 2023622516 от 28.07.2023.

22. Valente F, Henriques J, Paredes S, et al. A new approach for interpretability and reliability in clinical risk prediction: Acute coronary syndrome scenario. Artif Intell Med. 2021; 117: 102113. doi: 10.1016/j.artmed.2021.102113.

23. Lundberg SM, Lee SI. A unified approach to interpreting model predictions, in: Advances in Neural Information Processing Systems. Proceedings of the 31st Annual Conference on Neural Information Processing Systems; 2017 Dec 04-09; Long Beach, USA. doi: 10.48550/arXiv.1705.07874.

24. Evenson KR, Wen F, Herring AH. Associations of Accelerometry-Assessed and Self-Reported Physical Activity and Sedentary Behavior With All-Cause and Cardiovascular Mortality Among US Adults. Am J Epidemiol. 2016; 184(9): 621-632. doi: 10.1093/aje/kww070.

25. Гельцер Б.И., Шахгельдян К.И., Домжалов И.Г. и др. Прогнозирование внутригоспитальной летальности у больных острым инфарктом миокарда с подъемом сегмента ST после чрескожного коронарного вмешательства // Российский кардиологический журнал. — 2023. — Т.28 — №6. — С.31-39. doi: 10.15829/1560-4071-2023-5414.

26. Molnar C. Interpretable Machine Learning. A Guide for Making Black Box Models Explainable [Internet]. North Charleston: Independently published. 2023. [cited 2023 Nov 30]. Available from https://christophm.github.io/interpretable-ml-book.

27. Turner EL, Dobson JE, Pocock SJ. Categorisation of continuous risk factors in epidemiological publications: a survey of current practice. Epidemiol Perspect Innov. 2010; 7: 9. doi:10.1186/1742-5573-7-9.


Рецензия

Для цитирования:


Шахгельдян К.И., Гельцер Б.И., Куксин Н.С., Домжалов И.Г. Многоуровневая категоризация непрерывных переменных в задачах объяснения прогнозных оценок моделей машинного обучения в клинической медицине. Врач и информационные технологии. 2023;(3):44-57. https://doi.org/10.25881/18110193_2023_3_44

For citation:


Shakhgeldyan K.I., Geltser B.I., Kuksin N.S., Domzhalov I.G. Multilevel categorization of continuous variables in the tasks of explaining predictive estimates of machine learning models in clinical medicine. Medical Doctor and Information Technologies. 2023;(3):44-57. (In Russ.) https://doi.org/10.25881/18110193_2023_3_44

Просмотров: 15


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1811-0193 (Print)
ISSN 2413-5208 (Online)