Разработка и валидация инструмента статистического сравнения характеристических кривых на примере работы алгоритмов на основе технологий искусственного интеллекта
https://doi.org/10.25881/18110193_2023_3_4
Аннотация
Актуальность: Благодаря Национальной стратегии развития искусственного интеллекта в Российской Федерации активно разрабатываются и внедряются новые технологии на основе искусственного интеллекта, что приводит к появлению большого количества различных практических и научных задач, которые в свою очередь требуют удобных инструментов для их решения. Одним из них является инструмент, предназначенный для ROC-анализа, который был разработан и успешно применялся в рамках проекта «Эксперимент по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения города Москвы». Однако для решения более широкого спектра задач, связанных с аналитикой работы технологий на основе искусственного интеллекта, возникла острая необходимость в разработке модуля сравнения ROC-кривых.
Цель: реализовать модуль инструмента ROC-анализа по сравнению площади под характеристической кривой с помощью статистических критериев и расчётом p-значения и апробировать его на реальных данных.
Материалы и методы: инструмент реализован на языке Python 3.9. 95% доверительный интервал для ROC-кривых рассчитывался с помощью метода случайных выборок с возвратом (бутстреппинг) и метода ДеЛонг (DeLong). Сравнение площадей под ROC-кривыми осуществлялось с помощью перестановочного теста.
Апробация инструмента осуществлялась на результатах работы 6 алгоритмов на основе технологий искусственного интеллекта на 2 наборах данных. Проводилось попарное сравнение площади под ROC-кривой и полученные результаты сравнивали с результатами анализа тех же данных методом ДеЛонг функции roc.test языка R 3.6.1.
Результаты: р-значения, полученные с помощью перестановочного теста, оказались в большинстве случаев сопоставимы с результатами roc.test, однако в 4 из 30 случаев р-значения принципиально отличались, что приводило к изменениям интерпретации теста.
Обсуждение: различия в результатах, рассчитанных двумя способами, вероятно, обусловлены особенностями используемых методов: ДеЛонг является более консервативным. Также из-за использования метода псевдорандомизации в перестановочном тесте возможна вариативность результатов, что может привести к неопределенности. Кроме того, разработанный инструмент сравнивает наборы данных с одинаковым количеством элементов, что является ограничением его использования, однако возможна дальнейшая его разработка с целью преодоления данного ограничения.
Заключение: был успешно реализован и апробирован модуль сравнения ROC-кривых с помощью статистических критериев с расчётом p-значения.
Об авторах
Т. М. БобровскаяРоссия
Москва
Ю. С. Кирпичев
Россия
Москва
Е. Ф. Савкина
Россия
Москва
С. Ф. Четвериков
Россия
к.т.н.
Москва
К. М. Арзамасов
Россия
к.м.н.
Москва
Список литературы
1. Указ Президента Российской Федерации от 10.10.2019 г. № 490 «О развитии искусственного интеллекта в Российской Федерации». 2019. Доступ по ссылке: http://www.kremlin.ru/acts/bank/44731. Ссылка активна на 14.02.2023.
2. Гусев А.В., Владзимирский А.В., Шарова Д.Е. и др. Развитие исследований и разработок в сфере технологий искусственного интеллекта для здравоохранения в Российской Федерации: итоги 2021 года // Digital Diagnostics. — 2022. — Т.3. — №3. — C.178-194. doi: 10.17816/DD107367.
3. Морозов С.П., Гаврилов А.В., Архипов И.В. и др. Влияние технологий искусственного интеллекта на длительность описаний результатов компьютерной томографии пациентов с COVID-19 в стационарном звене здравоохранения // Профилактическая медицина. 2022;25(1):14–20. doi: 10.17116/PROFMED20222501114.
4. Raya-Povedano JL, Romero-Martín S, Elías-Cabot E, et al. AI-based Strategies to Reduce Workload in Breast Cancer Screening with Mammography and Tomosynthesis: A Retrospective Evaluation. Radiology. 2021; 300(1): 57-65. doi: 10.1148/RADIOL.2021203555.
5. Морозов С.П., Владзимирский А.В., Ледихова Н.В. и др. Московский эксперимент по применению компьютерного зрения в лучевой диагностике: вовлеченность врачей-рентгенологов // Врач и информационные технологии. 2020. — №4. — С.14-23.
6. Andreychenko AE, Logunova TA, Gombolevskiy VA, et al. A methodology for selection and quality control of the radiological computer vision deployment at the megalopolis scale. medRxiv. 2022: 2022.02.12.22270663. doi: 10.1101/2022.02.12.22270663.
7. Свидетельство о государственной регистрации программы для ЭВМ №2022617324 Российская Федерация. Веб-инструмент для выполнения ROC анализа результатов диагностических тестов: № 2022616046: заявл. 05.04.2022: опубл. 19.04.2022. С.П. Морозов, А.Е. Андрейченко, С.Ф. Четвериков и др.
8. ROC Analysis. Доступно по: https://roc-analysis.mosmed.ai/ Ссылка активна на 12.08.2023.
9. Goncalves S, Fong PC, Blokhina M. Artificial intelligence for early diagnosis of lung cancer through incidental nodule detection in low- and middle-income countries-acceleration during the COVID-19 pandemic but here to stay. Am J Cancer Res. 2022; 12(1): 1.
10. Dash Documentation & User Guide Plotly. Available at: https://dash.plotly.com/docs. Accessed 08.08.2023.
11. roc-utils. Available at: https://github.com/hirsch-lab/roc-utils. Accessed 21.08.2022.
12. Sun X, Xu W. Fast implementation of DeLong’s algorithm for comparing the areas under correlated receiver operating characteristic curves. IEEE Signal Process Lett. 2014; 21(11): 1389-1393. doi: 10.1109/LSP.2014.2337313.
13. Pauly M, Asendorf T, Konietschke F. Permutation-based inference for the AUC: A unified approach for continuous and discontinuous data. Biom J. 2016; 58(6): 1319-1337. doi: 10.1002/BIMJ.201500105.
14. Metz CE. ROC analysis in medical imaging: a tutorial review of the literature. Radiol Phys Technol. 2008; 1(1): 2-12. doi: 10.1007/S12194-007-0002-1/FIGURES/2.
15. Statistical Software. Sample Size Software. NCSS. Available at: https://www.ncss.com/ Accessed 08.02.2023.
16. Goksuluk D, Korkmaz S, Zararsiz G, Karaagaoglu AE. EasyROC: An interactive web-tool for roc curve analysis using r language environment. R Journal. 2016; 8(2): 213-230. doi: 10.32614/RJ-2016-042.
17. ROC Analysis: Online ROC Curve Calculator. Available at: http://www.rad.jhmi.edu/jeng/javarad/roc/JROCFITi.html. Accessed 08.02.2023.
18. Artificial intelligence in radiology. Available at: https://mosmed.ai/ai/ Accessed 08.02.2023.
19. Колядин В.Л. Пермутационные критерии как универсальный непараметрический подход к проверке статистических гипотез // Радиоэлектроника и информатика. — 2002. –№3. — С.20.
20. Demler OV, Pencina MJ, D’ RB, Sr A. Misuse of DeLong test to compare AUCs for nested models. Published online 2012. doi: 10.1002/sim.5328.
21. Клинические испытания систем искусственного интеллекта (лучевая диагностика) / сост. Ю.А. Васильев, А.В. Владзимирский, Д.Е. Шарова и др. // Серия «Лучшие практики лучевой и инструментальной диагностики». — Вып. 113. — 2-е изд., перераб. и доп. — М.: НПКЦ ДиТ ДЗМ, 2023. — 40 с.
22. Тыров И.А., Васильев Ю.А., Арзамасов К.М и др. Оценка зрелости технологий искусственного интеллекта для здравоохранения: методология и ее применение на материалах московского эксперимента по компьютерному зрению в лучевой диагностике // Врач и информационные технологии. — 2022. — №4. — С.76-92. doi: 10.25881/18110193_2022_4_76.21.
23. Probabilistic Graphical Models: Principles and Techniques — Daphne Koller, Nir Friedman.
Рецензия
Для цитирования:
Бобровская Т.М., Кирпичев Ю.С., Савкина Е.Ф., Четвериков С.Ф., Арзамасов К.М. Разработка и валидация инструмента статистического сравнения характеристических кривых на примере работы алгоритмов на основе технологий искусственного интеллекта. Врач и информационные технологии. 2023;(3):4-15. https://doi.org/10.25881/18110193_2023_3_4
For citation:
Bobrovskaya T.M., Kirpichev Y.S., Savkina E.F., Chetverikov S.F., Arzamasov K.M. Development and validation of a tool for statistical comparison of ROC-curves using the example of algorithms based on artificial intelligence technologies. Medical Doctor and Information Technologies. 2023;(3):4-15. (In Russ.) https://doi.org/10.25881/18110193_2023_3_4