Preview

Врач и информационные технологии

Расширенный поиск

Автоматизированная система извлечения аббревиатур терминов унифицированной национальной медицинской номенклатуры из текстов научных статей

https://doi.org/10.25881/18110193_2023_4_24

Аннотация

Унифицированная национальная медицинская номенклатура (УНМН) разрабатывается с 2022 г. с использованием международного метатезауруса Unified Medical Language System (UMLS) и других источников. УНМН является терминологической системой, организованной по онтологическому принципу и потенциально применимой для аннотирования медицинских текстов на русском языке. В настоящее время словари и справочники УНМН наполняются различными вариантами возможных формулировок медицинских терминов автоматизированным и экспертным способами. В медицине часто используются аббревиатуры, которые позволяют в сокращенной форме выразить смысл используемых понятий. Однако их распознавание в неструктурированном тексте является нетривиальной задачей. Разработка программного инструмента для автоматического извлечения аббревиатур из текста научных статей позволит обогатить УНМН и ускорить создание систем поддержки принятия клинических решений на её основе.

 Цель исследования. Создание алгоритма автоматического извлечения аббревиатур терминов УНМН из текста научных статей на русском языке.

 Материалы и методы. Для валидации и тестирования алгоритма использовались неструктурированные тексты аннотаций к научным статьям на русском языке, полученные из информационно-поисковой системы eLIBRARY. Полнотекстовые расшифровки извлеченных аббревиатур корректировались с применением билингвального перевода (на русский язык и обратно).

 Результаты. Разработанный на основе семантических правил алгоритм позволил обеспечить извлечение аббревиатур и их полнотекстовых расшифровок с ~93% чувствительностью и ~99% специфичностью. Для большинства (~87%) терминов с использованием билингвального перевода удавалось скорректировать орфографические ошибки и выполнить приведение к начальной форме. Половина (~49%) аббревиатур со 100% точностью сопоставлялась с терминами УНМН. Обработка текстов аннотаций к научным статьям (168 тыс.) с использованием разработанного алгоритма позволила сформировать основу для создания Единого справочника медицинских аббревиатур, сопоставленных с терминами УНМН (свыше 6,6 тыс. уникальных записей).

Об авторах

П. А. Астанин
ФГАОУ ВО РНИМУ им. Н.И. Пирогова Минздрава России
Россия

Москва



Л. В. Ронжин
ФГАОУ ВО РНИМУ им. Н.И. Пирогова Минздрава России
Россия

 Москва



А. А. Федоров
ФГАОУ ВО РНИМУ им. Н.И. Пирогова Минздрава России
Россия

Москва



С. Е. Раузина
ФГАОУ ВО РНИМУ им. Н.И. Пирогова Минздрава России
Россия

 к.м.н., доцент

 Москва



Т. В. Зарубина
ФГАОУ ВО РНИМУ им. Н.И. Пи-рогова Минздрава России
Россия

 член-корр. РАН, д.м.н., профессор 

Москва



Список литературы

1. Осмоловский И.С., Зарубина Т.В. Разработка и апробация прототипа экспертной системы для диагностики подагры // Социальные аспекты здоровья населения. — 2023. — Т.69. — №4. — С.1-24. doi: 10.21045/2071-5021-2023-69-4-15.

2. Зарубина Т.В., Кобринский Б.А., Белоносов С.С. и др. Медицинская информатика: учебник. 2-е издание, переработанное и дополненное // Москва: ГЭОТАР-Медиа, 2022. — 464 с. doi: 10.33029/9704-6273-7-TMI-2022-1-464

3. Киселев К.В., Потехина А.В., Осяева М.К. и др. Разработка номенклатуры понятий для системы поддержки принятия врачебных решений в области диагностики стенокардии I-IV функциональных классов // Евразийский кардиологический журнал. — 2018. — №3. — С.14-25.

4. Нугуманова А.Б., Байбурин Е.М., Мансурова М.Е., Барахнин В.Б. Автоматическое извлечение решеток понятий из медицинских текстов на основе комбинации анализа формальных понятий и технологий бутстраппинга // Вестник Новосибирского государственного университета. Серия: Информационные технологии. — 2018. — Т.16. — №4. — С.140-152. doi: 10.25205/1818-7900-2018-16-4-140-152

5. Сбоев А.Г., Селиванов А.А., Рыбка Р.Б. и др. Современные методы экстракции связанных именованных сущностей на примере биомедицинских текстовых данных // Вестник Военного инновационного технополиса «Эра». — 2022. — Т.3. — №1. — С.57-67. doi: 10.56304/S2782375X22010193

6. Будыкина А.В., Тихомирова Е.В., Киселев К.В. и др. Формализация знаний о желудочно-кишечном кровотечении неясного генеза для использования в интеллектуальных системах поддержки принятия врачебных решений // Вестник новых медицинских технологий. — 2020. — Т.27. — №4. — С.98-101. doi: 10.24411/1609-2163-2020-16741

7. Шахмаметова Г.Р., Худоба Е.В. Разработка метода структурирования данных и знаний клинических рекомендаций // Информационные технологии интеллектуальной поддержки принятия решений (ITIDS’2019): Труды VII Всероссийской научной конференции (с приглашением зарубежных ученых). — 2019. — Т.2. — С.237-240.

8. Астанин П.А., Ронжин Л.В., Раузина С.Е. Алгоритм оценки специфичности терминов метатезауруса UMLS на примере анализа семантической модели для дифференциальной диагностики аксиального спондилоартрита // Врач и информационные технологии. — 2023. — №3. — С.30-42. doi: 10.25881/18110193_2023_3_30

9. Астанин П.А., Раузина С.Е., Зарубина Т.В. Автоматизированная система извлечения клинически релевантных терминов UMLS из текстов англоязычных статей на примере аксиального спондилоартрита // Социальные аспекты здоровья населения. — 2023. — Т.69. — №3. — С.1-28. doi: 10.21045/2071-5021-2023-69-3-14

10. Gusev A, Korsakov I, Novitsky R, et al. Feature extraction method from electronic health records in Russia. Proceedings of the 26th FRUCT Conference. 2020: 497–500. doi: 10.5281/zenodo.4007408.

11. Орлова Н.В., Суворов Г.Н., Горбунов К.С. Этика и правовое регулирование использования боль ших баз данных в медицине // Медицинская этика. — 2022. — Т.10. — №3. — С.4-9. doi: 10.24075/medet.2022.056

12. Cossin S, Margaux J, Larrouture I, et al. Semi-Automatic Extraction of Abbreviations and their Senses from Electronic Health Records. 2021: 1-12.

13. Ежков А.А. Анализ исследований в области обработки неструктурированных текстов в медицине // Наука и Просвещение: сборник статей II Международной научно-практической конференции «Научное обозрение». — 2022. — С.23-26.

14. Шрайберг Я.Л., Дмитриева Е.Ю., Смирнова О.В. и др. Разработка системы взаимосвязанных классификаций: сопоставление Государственного рубрикатора научно-технической информации и Универсальной десятичной классификации // Научные и технические библиотеки. — 2023. — №11. — С.36-65. doi: 10.33186/1027-3689-2023-11-36-65

15. Пикалёв Я.С. Разработка системы нормализации текстовых корпусов // Проблемы искусственного интеллекта. — 2022. — №25(2). — С.64-78.

16. Астапов Р.Л., Мухмадеева Р.М. Автоматизированная предобработка текста для определения эмоциональной окраски текста // Актуальные научные исследования в современном мире. — 2021. — №5-2(73). — С.19-23. doi: 10.32743/UniTech.2023.107.2.15064

17. Логунова Т.В., Щербакова Л.В., Васюков В.М., Шимкун В.В. Анализ алгоритмов классифи кации текстов // Universum: технические науки. — 2023. — №2-2(107). — С.4-20..

18. Груздев Д.Ю., Макаренко А.С., Коджебаш Д.О. Принципы создания аннотации корпуса текстов // Вестник МИТУ — МАРХИ. — 2023. — №1. — С.88-97. doi: 10.52470/2619046X_2023_1_8

19. Пашук А.В., Гуринович А.Б., Волорова Н.А., Кузнецов А.П. Анализ методов разрешения лексической многозначности в области биомедицины // Доклады БГУИР. — 2019 — №5(123). — С.60-65. doi: 10.35596/1729-7648-2019-123-5-60-65

20. Валиев А.И., Лысенкова С.А. Применение методов машинного обучения для автоматизации процесса анализа содержания текста // Вестник кибернетики. — 2021. — №44(4). — С.12-15. doi: 10.34822/1999-7604-2021-4-12-15

21. Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020; 36(4): 1234-1240. doi: 10.1093/bioinformatics/btz682.

22. Zhang Y, Tiryaki F, Jiang M, et al. Parsing clinical text using the state-of-the-art deep learning based parsers: a systematic comparison. BMC Med Inform Decis Mak. 2019; 19(3): 77. doi: 10.1186/s12911-019-0783-2.

23. Ленивцева Ю.Д., Копаница Г.Д. Автоматическое определение типа аллергии из неструктурированных медицинских текстов на русском языке // Научно-технический вестник информационных технологий, механики и оптики. — 2021. — Т.21. — №3. — С.433-436. doi: 10.17586/2226-1494-2021-21-3-433-436

24. Хоружая А.Н., Козлов Д.В., Арзамасов К.М., Кремнева Е.И. Анализ текстов описаний КТ-исследований головного мозга с признаками внутричерепных кровоизлияний с помощью алгоритма дерева решений // Соврем. технол. мед. — 2022. — Т. 14. — №6. — С. 34-41. doi: 10.17691/stm2022.14.6.04

25. Кротова О.С., Москалев И.В., Хворова Л.А., Назаркина О.М. Реализация эффективных моделей классификации медицинских данных методами интеллектуального анализа текстовой информации // Известия Алтайского государственного университета. — 2020. — №111(1). — С.99-104. doi: 10.14258/izvasu(2020)1-16

26. Ткаченко С.А., Коломыцева Е.П. Разработка подходов по выявлению именованных сущностей в биомедицинских текстах с использованием методов нечеткой логики // Вектор развития современной науки: Сборник статей VII Международной научно-практической конференции. — 2020. — С.34-41.

27. Зулкарнеев Р.Х., Юсупова Н.И., Сметанина О.Н. и др. Методы и модели извлечения знаний из медицинских документов // Информатика и автоматизация. — 2022. — Т.21. — №6. — С.1169-1210. doi: 10.15622/ia.21.6.4

28. Клышинский Э.С., Грибова В.В., Шахгельдян К.И. и др. Алгоритм автоматического выделения жалоб пациентов из историй болезни // Новые информационные технологии в автоматизированных системах. — 2019. — №22. — С.204-209.

29. Легашев Л.В., Шухман А.Е., Болодурина И.П. и др. Обработка русскоязычных неструктурированных медицинских текстов и вероятностное прогнозирование групп заболеваний // Врач и информационные технологии. — 2022. — №4. — С.52-63. doi: 10.25881/18110193_2022_4_52

30. Сердюк Ю.П., Власова Н.А., Момот С.Р. Система извлечения упоминаний симптомов из текстов на естественном языке с помощью нейронных сетей // Программные системы: теория и приложения. — 2023. — Т.14. — №56(1). — С.95-123. doi: 10.25209/2079-3316-2023-14-1-95-123

31. Москалев И.В., Кротова О.С., Хворова Л.А. Автоматизация процесса извлечения структурирован ных данных из неструктурированных медицинских выписок с применением технологий интел лектуального анализа текстов // Высокопроизводительные вычислительные системы и техно логии. — 2020. — Т.4. — №1. — С.163-167.

32. Du X, Zhu R, Li Y, Anjum A. Language model-based automatic prefix abbreviation expansion method for biomedical big data analysis. Future Gener Comput Syst. 2019; 98: 238-251. doi: 10.1016/j.future.2019.01.016.

33. Chang JT, Schütze H, Altman RB. Creating an online dictionary of abbreviations from MEDLINE. J Am Med Inform Assoc. 2002; 9(6): 612-620. doi: 10.1197/jamia.m1139.

34. Qiao J, Jinling L, Xinghua L. Deep contextualized biomedical abbreviation expansion. Proceedings of the 18th BioNLP Workshop and Shared Task in Florence, Italy. 2019: 88-96. doi: 10.18653/v1/W19-5010.

35. Juyong K, Gong L, Khim J, et al. Improved clinical abbreviation expansion via non-sense-based approaches. Proceedings of Machine Learning Research. 2020; 136: 161-178.

36. Skreta M, Arbabi A, Wang J, et al. Automatically disambiguating medical acronyms with ontology aware deep learning. Nat Commun. 2021; 12(1): 5319. doi: 10.1038/s41467-021-25578-4.


Рецензия

Для цитирования:


Астанин П.А., Ронжин Л.В., Федоров А.А., Раузина С.Е., Зарубина Т.В. Автоматизированная система извлечения аббревиатур терминов унифицированной национальной медицинской номенклатуры из текстов научных статей. Врач и информационные технологии. 2023;(4):24-35. https://doi.org/10.25881/18110193_2023_4_24

For citation:


Astanin P.A., Ronzhin L.V., Fedorov A.A., Rauzina S.E., Zarubina T.V. Automated abbreviations recognition system for unified national medical nomenclature filling with using russian language unstructured text of articles. Medical Doctor and Information Technologies. 2023;(4):24-35. (In Russ.) https://doi.org/10.25881/18110193_2023_4_24

Просмотров: 16


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1811-0193 (Print)
ISSN 2413-5208 (Online)