Унифицированная национальная медицинская номенклатура (УНМН) разрабатывается с 2022 г. с использованием международного метатезауруса Unified Medical Language System (UMLS) и других источников. УНМН является терминологической системой, организованной по онтологическому принципу и потенциально применимой для аннотирования медицинских текстов на русском языке. В настоящее время словари и справочники УНМН наполняются различными вариантами возможных формулировок медицинских терминов автоматизированным и экспертным способами. В медицине часто используются аббревиатуры, которые позволяют в сокращенной форме выразить смысл используемых понятий. Однако их распознавание в неструктурированном тексте является нетривиальной задачей. Разработка программного инструмента для автоматического извлечения аббревиатур из текста научных статей позволит обогатить УНМН и ускорить создание систем поддержки принятия клинических решений на её основе.
Цель исследования. Создание алгоритма автоматического извлечения аббревиатур терминов УНМН из текста научных статей на русском языке.
Материалы и методы. Для валидации и тестирования алгоритма использовались неструктурированные тексты аннотаций к научным статьям на русском языке, полученные из информационнопоисковой системы eLIBRARY. Полнотекстовые расшифровки извлеченных аббревиатур корректировались с применением билингвального перевода (на русский язык и обратно).
Результаты. Разработанный на основе семантических правил алгоритм позволил обеспечить извлечение аббревиатур и их полнотекстовых расшифровок с ~93% чувствительностью и ~99% специфичностью. Для большинства (~87%) терминов с использованием билингвального перевода удавалось скорректировать орфографические ошибки и выполнить приведение к начальной форме. Половина (~49%) аббревиатур со 100% точностью сопоставлялась с терминами УНМН. Обработка текстов аннотаций к научным статьям (168 тыс.) с использованием разработанного алгоритма позволила сформировать основу для создания Единого справочника медицинских аббревиатур, сопоставленных с терминами УНМН (свыше 6,6 тыс. уникальных записей).
Цель исследования. Создание алгоритма автоматического извлечения аббревиатур терминов УНМН из текста научных статей на русском языке.
Материалы и методы. Для валидации и тестирования алгоритма использовались неструктурированные тексты аннотаций к научным статьям на русском языке, полученные из информационнопоисковой системы eLIBRARY. Полнотекстовые расшифровки извлеченных аббревиатур корректировались с применением билингвального перевода (на русский язык и обратно).
Результаты. Разработанный на основе семантических правил алгоритм позволил обеспечить извлечение аббревиатур и их полнотекстовых расшифровок с ~93% чувствительностью и ~99% специфичностью. Для большинства (~87%) терминов с использованием билингвального перевода удавалось скорректировать орфографические ошибки и выполнить приведение к начальной форме. Половина (~49%) аббревиатур со 100% точностью сопоставлялась с терминами УНМН. Обработка текстов аннотаций к научным статьям (168 тыс.) с использованием разработанного алгоритма позволила сформировать основу для создания Единого справочника медицинских аббревиатур, сопоставленных с терминами УНМН (свыше 6,6 тыс. уникальных записей).
Литература
1. Осмоловский И.С., Зарубина Т.В. Разработка и апробация прототипа экспертной системы для диагностики подагры // Социальные аспекты здоровья населения. — 2023. — Т.69. — №4. — С.1-24. doi: 10.21045/2071-5021-2023-69-4-15.
2. Зарубина Т.В., Кобринский Б.А., Белоносов С.С. и др. Медицинская информатика: учебник. 2-е издание, переработанное и дополненное // Москва: ГЭОТАР-Медиа, 2022. — 464 с. doi: 10.33029/9704-6273-7-TMI-2022-1-464.
3. Киселев К.В., Потехина А.В., Осяева М.К. и др. Разработка номенклатуры понятий для системы поддержки принятия врачебных решений в области диагностики стенокардии I-IV функциональных классов // Евразийский кардиологический журнал. — 2018. — №3. — С.14-25.
4. Нугуманова А.Б., Байбурин Е.М., Мансурова М.Е., Барахнин В.Б. Автоматическое извлечение решеток понятий из медицинских текстов на основе комбинации анализа формальных понятий и технологий бутстраппинга // Вестник Новосибирского государственного университета. Серия: Информационные технологии. — 2018. — Т.16. — №4. — С.140-152. doi: 10.25205/ 1818-7900-2018-16-4-140-152.
5. Сбоев А.Г., Селиванов А.А., Рыбка Р.Б. и др. Современные методы экстракции связанных именованных сущностей на примере биомедицинских текстовых данных // Вестник Военного инновационного технополиса «Эра». — 2022. — Т.3. — №1. — С.57-67. doi: 10.56304/S2782375X22010193.
6. Будыкина А.В., Тихомирова Е.В., Киселев К.В. и др. Формализация знаний о желудочно-кишечном кровотечении неясного генеза для использования в интеллектуальных системах поддержки принятия врачебных решений // Вестник новых медицинских технологий. — 2020. — Т.27. — №4. — С.98-101. doi: 10.24411/1609-2163-2020-16741.
7. Шахмаметова Г.Р., Худоба Е.В. Разработка метода структурирования данных и знаний клинических рекомендаций // Информационные технологии интеллектуальной поддержки принятия решений (ITIDS’2019): Труды VII Всероссийской научной конференции (с приглашением зарубежных ученых). — 2019. — Т.2. — С.237-240.
8. Астанин П.А., Ронжин Л.В., Раузина С.Е. Алгоритм оценки специфичности терминов метатезауруса UMLS на примере анализа семантической модели для дифференциальной диагностики аксиального спондилоартрита // Врач и информационные технологии. — 2023. — №3. — С.30-42. doi: 10.25881/18110193_2023_3_30.
9. Астанин П.А., Раузина С.Е., Зарубина Т.В. Автоматизированная система извлечения клинически релевантных терминов UMLS из текстов англоязычных статей на примере аксиального спондилоартрита // Социальные аспекты здоровья населения. — 2023. — Т.69. — №3. — С.1-28. doi: 10.21045/2071-5021-2023-69-3-14.
10. Gusev A, Korsakov I, Novitsky R, et al. Feature extraction method from electronic health records in Russia. Proceedings of the 26th FRUCT Conference. 2020: 497–500. doi: 10.5281/zenodo.4007408.
11. Орлова Н.В., Суворов Г.Н., Горбунов К.С. Этика и правовое регулирование использования больших баз данных в медицине // Медицинская этика. — 2022. — Т.10. — №3. — С.4-9. doi: 10.24075/medet.2022.056.
12. Cossin S, Margaux J, Larrouture I, et al. Semi-Automatic Extraction of Abbreviations and their Senses from Electronic Health Records. 2021: 1-12.
13. Ежков А.А. Анализ исследований в области обработки неструктурированных текстов в медицине // Наука и Просвещение: сборник статей II Международной научно-практической конференции «Научное обозрение». — 2022. — С.23-26.
14. Шрайберг Я.Л., Дмитриева Е.Ю., Смирнова О.В. и др. Разработка системы взаимосвязанных классификаций: сопоставление Государственного рубрикатора научно-технической информации и Универсальной десятичной классификации // Научные и технические библиотеки. — 2023. — №11. — С.36-65. doi: 10.33186/1027-3689-2023-11-36-65.
15. Пикалёв Я.С. Разработка системы нормализации текстовых корпусов // Проблемы искусственного интеллекта. — 2022. — №25(2). — С.64-78.
16. Астапов Р.Л., Мухмадеева Р.М. Автоматизированная предобработка текста для определения эмоциональной окраски текста // Актуальные научные исследования в современном мире. — 2021. — №5-2(73). — С.19-23.
17. Логунова Т.В., Щербакова Л.В., Васюков В.М., Шимкун В.В. Анализ алгоритмов классификации текстов // Universum: технические науки. — 2023. — №2-2(107). — С.4-20.
18. Груздев Д.Ю., Макаренко А.С., Коджебаш Д.О. Принципы создания аннотации корпуса текстов // Вестник МИТУ — МАРХИ. — 2023. — №1. — С.88-97. doi: 10.52470/2619046X_2023_1_88.
19. Пашук А.В., Гуринович А.Б., Волорова Н.А., Кузнецов А.П. Анализ методов разрешения лексической многозначности в области биомедицины // Доклады БГУИР. — 2019 — №5(123). — С.60-65. doi: 10.35596/1729-7648-2019-123-5-60-65.
20. Валиев А.И., Лысенкова С.А. Применение методов машинного обучения для автоматизации процесса анализа содержания текста // Вестник кибернетики. — 2021. — №44(4). — С.12-15. doi: 10.34822/ 1999-7604-2021-4-12-15.
21. Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020; 36(4): 1234-1240. doi: 10.1093/bioinformatics/btz682.
22. Zhang Y, Tiryaki F, Jiang M, et al. Parsing clinical text using the state-of-the-art deep learning based parsers: a systematic comparison. BMC Med Inform Decis Mak. 2019; 19(3): 77. doi: 10.1186/ s12911-019-0783-2.
23. Ленивцева Ю.Д., Копаница Г.Д. Автоматическое определение типа аллергии из неструктурированных медицинских текстов на русском языке // Научно-технический вестник информационных технологий, механики и оптики. — 2021. — Т.21. — №3. — С.433-436. doi: 10.17586/2226-1494-2021-21-3-433-436.
24. Хоружая А.Н., Козлов Д.В., Арзамасов К.М., Кремнева Е.И. Анализ текстов описаний КТ-исследований головного мозга с признаками внутричерепных кровоизлияний с помощью алгоритма дерева решений // Соврем. технол. мед. — 2022. — Т. 14. — №6. — С. 34-41. doi: 10.17691/stm2022.14.6.04.
25. Кротова О.С., Москалев И.В., Хворова Л.А., Назаркина О.М. Реализация эффективных моделей классификации медицинских данных методами интеллектуального анализа текстовой информации // Известия Алтайского государственного университета. — 2020. — №111(1). — С.99-104. doi: 10.14258/izvasu(2020)1-16.
26. Ткаченко С.А., Коломыцева Е.П. Разработка подходов по выявлению именованных сущностей в биомедицинских текстах с использованием методов нечеткой логики // Вектор развития современной науки: Сборник статей VII Международной научно-практической конференции. — 2020. — С.34-41.
27. Зулкарнеев Р.Х., Юсупова Н.И., Сметанина О.Н. и др. Методы и модели извлечения знаний из медицинских документов // Информатика и автоматизация. — 2022. — Т.21. — №6. — С.1169-1210. doi: 10.15622/ia.21.6.4.
28. Клышинский Э.С., Грибова В.В., Шахгельдян К.И. и др. Алгоритм автоматического выделения жалоб пациентов из историй болезни // Новые информационные технологии в автоматизированных системах. — 2019. — №22. — С.204-209.
29. Легашев Л.В., Шухман А.Е., Болодурина И.П. и др. Обработка русскоязычных неструктурированных медицинских текстов и вероятностное прогнозирование групп заболеваний // Врач и информационные технологии. — 2022. — №4. — С.52-63. doi: 10.25881/18110193_2022_4_52.
30. Сердюк Ю.П., Власова Н.А., Момот С.Р. Система извлечения упоминаний симптомов из текстов на естественном языке с помощью нейронных сетей // Программные системы: теория и приложения. — 2023. — Т.14. — №56(1). — С.95-123. [doi: 10.25209/2079-3316-2023-14-1-95-123.
31. Москалев И.В., Кротова О.С., Хворова Л.А. Автоматизация процесса извлечения структурированных данных из неструктурированных медицинских выписок с применением технологий интеллектуального анализа текстов // Высокопроизводительные вычислительные системы и технологии. — 2020. — Т.4. — №1. — С.163-167.
32. Du X, Zhu R, Li Y, Anjum A. Language model-based automatic prefix abbreviation expansion method for biomedical big data analysis. Future Gener Comput Syst. 2019; 98: 238-251. doi: 10.1016/ j.future.2019.01.016.
33. Chang JT, Schütze H, Altman RB. Creating an online dictionary of abbreviations from MEDLINE. J Am Med Inform Assoc. 2002; 9(6): 612-620. doi: 10.1197/jamia.m1139.
34. Qiao J, Jinling L, Xinghua L. Deep contextualized biomedical abbreviation expansion. Proceedings of the 18th BioNLP Workshop and Shared Task in Florence, Italy. 2019: 88-96. doi: 10.18653/v1/ W19-5010.
35. Juyong K, Gong L, Khim J, et al. Improved clinical abbreviation expansion via non-sense-based approaches. Proceedings of Machine Learning Research. 2020; 136: 161-178.
36. Skreta M, Arbabi A, Wang J, et al. Automatically disambiguating medical acronyms with ontology-aware deep learning. Nat Commun. 2021; 12(1): 5319. doi: 10.1038/s41467-021-25578-4.
2. Зарубина Т.В., Кобринский Б.А., Белоносов С.С. и др. Медицинская информатика: учебник. 2-е издание, переработанное и дополненное // Москва: ГЭОТАР-Медиа, 2022. — 464 с. doi: 10.33029/9704-6273-7-TMI-2022-1-464.
3. Киселев К.В., Потехина А.В., Осяева М.К. и др. Разработка номенклатуры понятий для системы поддержки принятия врачебных решений в области диагностики стенокардии I-IV функциональных классов // Евразийский кардиологический журнал. — 2018. — №3. — С.14-25.
4. Нугуманова А.Б., Байбурин Е.М., Мансурова М.Е., Барахнин В.Б. Автоматическое извлечение решеток понятий из медицинских текстов на основе комбинации анализа формальных понятий и технологий бутстраппинга // Вестник Новосибирского государственного университета. Серия: Информационные технологии. — 2018. — Т.16. — №4. — С.140-152. doi: 10.25205/ 1818-7900-2018-16-4-140-152.
5. Сбоев А.Г., Селиванов А.А., Рыбка Р.Б. и др. Современные методы экстракции связанных именованных сущностей на примере биомедицинских текстовых данных // Вестник Военного инновационного технополиса «Эра». — 2022. — Т.3. — №1. — С.57-67. doi: 10.56304/S2782375X22010193.
6. Будыкина А.В., Тихомирова Е.В., Киселев К.В. и др. Формализация знаний о желудочно-кишечном кровотечении неясного генеза для использования в интеллектуальных системах поддержки принятия врачебных решений // Вестник новых медицинских технологий. — 2020. — Т.27. — №4. — С.98-101. doi: 10.24411/1609-2163-2020-16741.
7. Шахмаметова Г.Р., Худоба Е.В. Разработка метода структурирования данных и знаний клинических рекомендаций // Информационные технологии интеллектуальной поддержки принятия решений (ITIDS’2019): Труды VII Всероссийской научной конференции (с приглашением зарубежных ученых). — 2019. — Т.2. — С.237-240.
8. Астанин П.А., Ронжин Л.В., Раузина С.Е. Алгоритм оценки специфичности терминов метатезауруса UMLS на примере анализа семантической модели для дифференциальной диагностики аксиального спондилоартрита // Врач и информационные технологии. — 2023. — №3. — С.30-42. doi: 10.25881/18110193_2023_3_30.
9. Астанин П.А., Раузина С.Е., Зарубина Т.В. Автоматизированная система извлечения клинически релевантных терминов UMLS из текстов англоязычных статей на примере аксиального спондилоартрита // Социальные аспекты здоровья населения. — 2023. — Т.69. — №3. — С.1-28. doi: 10.21045/2071-5021-2023-69-3-14.
10. Gusev A, Korsakov I, Novitsky R, et al. Feature extraction method from electronic health records in Russia. Proceedings of the 26th FRUCT Conference. 2020: 497–500. doi: 10.5281/zenodo.4007408.
11. Орлова Н.В., Суворов Г.Н., Горбунов К.С. Этика и правовое регулирование использования больших баз данных в медицине // Медицинская этика. — 2022. — Т.10. — №3. — С.4-9. doi: 10.24075/medet.2022.056.
12. Cossin S, Margaux J, Larrouture I, et al. Semi-Automatic Extraction of Abbreviations and their Senses from Electronic Health Records. 2021: 1-12.
13. Ежков А.А. Анализ исследований в области обработки неструктурированных текстов в медицине // Наука и Просвещение: сборник статей II Международной научно-практической конференции «Научное обозрение». — 2022. — С.23-26.
14. Шрайберг Я.Л., Дмитриева Е.Ю., Смирнова О.В. и др. Разработка системы взаимосвязанных классификаций: сопоставление Государственного рубрикатора научно-технической информации и Универсальной десятичной классификации // Научные и технические библиотеки. — 2023. — №11. — С.36-65. doi: 10.33186/1027-3689-2023-11-36-65.
15. Пикалёв Я.С. Разработка системы нормализации текстовых корпусов // Проблемы искусственного интеллекта. — 2022. — №25(2). — С.64-78.
16. Астапов Р.Л., Мухмадеева Р.М. Автоматизированная предобработка текста для определения эмоциональной окраски текста // Актуальные научные исследования в современном мире. — 2021. — №5-2(73). — С.19-23.
17. Логунова Т.В., Щербакова Л.В., Васюков В.М., Шимкун В.В. Анализ алгоритмов классификации текстов // Universum: технические науки. — 2023. — №2-2(107). — С.4-20.
18. Груздев Д.Ю., Макаренко А.С., Коджебаш Д.О. Принципы создания аннотации корпуса текстов // Вестник МИТУ — МАРХИ. — 2023. — №1. — С.88-97. doi: 10.52470/2619046X_2023_1_88.
19. Пашук А.В., Гуринович А.Б., Волорова Н.А., Кузнецов А.П. Анализ методов разрешения лексической многозначности в области биомедицины // Доклады БГУИР. — 2019 — №5(123). — С.60-65. doi: 10.35596/1729-7648-2019-123-5-60-65.
20. Валиев А.И., Лысенкова С.А. Применение методов машинного обучения для автоматизации процесса анализа содержания текста // Вестник кибернетики. — 2021. — №44(4). — С.12-15. doi: 10.34822/ 1999-7604-2021-4-12-15.
21. Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020; 36(4): 1234-1240. doi: 10.1093/bioinformatics/btz682.
22. Zhang Y, Tiryaki F, Jiang M, et al. Parsing clinical text using the state-of-the-art deep learning based parsers: a systematic comparison. BMC Med Inform Decis Mak. 2019; 19(3): 77. doi: 10.1186/ s12911-019-0783-2.
23. Ленивцева Ю.Д., Копаница Г.Д. Автоматическое определение типа аллергии из неструктурированных медицинских текстов на русском языке // Научно-технический вестник информационных технологий, механики и оптики. — 2021. — Т.21. — №3. — С.433-436. doi: 10.17586/2226-1494-2021-21-3-433-436.
24. Хоружая А.Н., Козлов Д.В., Арзамасов К.М., Кремнева Е.И. Анализ текстов описаний КТ-исследований головного мозга с признаками внутричерепных кровоизлияний с помощью алгоритма дерева решений // Соврем. технол. мед. — 2022. — Т. 14. — №6. — С. 34-41. doi: 10.17691/stm2022.14.6.04.
25. Кротова О.С., Москалев И.В., Хворова Л.А., Назаркина О.М. Реализация эффективных моделей классификации медицинских данных методами интеллектуального анализа текстовой информации // Известия Алтайского государственного университета. — 2020. — №111(1). — С.99-104. doi: 10.14258/izvasu(2020)1-16.
26. Ткаченко С.А., Коломыцева Е.П. Разработка подходов по выявлению именованных сущностей в биомедицинских текстах с использованием методов нечеткой логики // Вектор развития современной науки: Сборник статей VII Международной научно-практической конференции. — 2020. — С.34-41.
27. Зулкарнеев Р.Х., Юсупова Н.И., Сметанина О.Н. и др. Методы и модели извлечения знаний из медицинских документов // Информатика и автоматизация. — 2022. — Т.21. — №6. — С.1169-1210. doi: 10.15622/ia.21.6.4.
28. Клышинский Э.С., Грибова В.В., Шахгельдян К.И. и др. Алгоритм автоматического выделения жалоб пациентов из историй болезни // Новые информационные технологии в автоматизированных системах. — 2019. — №22. — С.204-209.
29. Легашев Л.В., Шухман А.Е., Болодурина И.П. и др. Обработка русскоязычных неструктурированных медицинских текстов и вероятностное прогнозирование групп заболеваний // Врач и информационные технологии. — 2022. — №4. — С.52-63. doi: 10.25881/18110193_2022_4_52.
30. Сердюк Ю.П., Власова Н.А., Момот С.Р. Система извлечения упоминаний симптомов из текстов на естественном языке с помощью нейронных сетей // Программные системы: теория и приложения. — 2023. — Т.14. — №56(1). — С.95-123. [doi: 10.25209/2079-3316-2023-14-1-95-123.
31. Москалев И.В., Кротова О.С., Хворова Л.А. Автоматизация процесса извлечения структурированных данных из неструктурированных медицинских выписок с применением технологий интеллектуального анализа текстов // Высокопроизводительные вычислительные системы и технологии. — 2020. — Т.4. — №1. — С.163-167.
32. Du X, Zhu R, Li Y, Anjum A. Language model-based automatic prefix abbreviation expansion method for biomedical big data analysis. Future Gener Comput Syst. 2019; 98: 238-251. doi: 10.1016/ j.future.2019.01.016.
33. Chang JT, Schütze H, Altman RB. Creating an online dictionary of abbreviations from MEDLINE. J Am Med Inform Assoc. 2002; 9(6): 612-620. doi: 10.1197/jamia.m1139.
34. Qiao J, Jinling L, Xinghua L. Deep contextualized biomedical abbreviation expansion. Proceedings of the 18th BioNLP Workshop and Shared Task in Florence, Italy. 2019: 88-96. doi: 10.18653/v1/ W19-5010.
35. Juyong K, Gong L, Khim J, et al. Improved clinical abbreviation expansion via non-sense-based approaches. Proceedings of Machine Learning Research. 2020; 136: 161-178.
36. Skreta M, Arbabi A, Wang J, et al. Automatically disambiguating medical acronyms with ontology-aware deep learning. Nat Commun. 2021; 12(1): 5319. doi: 10.1038/s41467-021-25578-4.
Для цитирования
Астанин П.А., Ронжин Л.В., Федоров А.А., Раузина С.Е., Зарубина Т.В. Автоматизированная система извлечения аббревиатур терминов унифицированной национальной медицинской номенклатуры из текстов научных статей. Врач и информационные технологии. 2023; 4: 24-35. doi: 10.25881/18110193_2023_4_24.
Документы
Ключевые слова