+7 (499) 463-00-00 (доб. 1233)
Подать статью
О нас
  • Цели и задачи
  • Редакция
Журнал
  • Номера журнала
  • Статьи
  • Авторы
Авторам
  • Правила для авторов
  • Оформление библиографии
  • Отправка статей
  • Рецензирование
  • Этика научных публикаций
  • Авторские права
  • Конфиденциальность
  • Политика свободного доступа
Контакты
ru
en
ru
О нас
  • Цели и задачи
  • Редакция
Журнал
  • Номера журнала
  • Статьи
  • Авторы
Авторам
  • Правила для авторов
  • Оформление библиографии
  • Отправка статей
  • Рецензирование
  • Этика научных публикаций
  • Авторские права
  • Конфиденциальность
  • Политика свободного доступа
Контакты
    ru
    en
    Подать статью
    • О нас
      • О нас
      • Цели и задачи
      • Редакция
    • Журнал
      • Журнал
      • Номера журнала
      • Статьи
      • Авторы
    • Авторам
      • Авторам
      • Правила для авторов
      • Оформление библиографии
      • Отправка статей
      • Рецензирование
      • Этика научных публикаций
      • Авторские права
      • Конфиденциальность
      • Политика свободного доступа
    • Контакты
    Подать статью
    • ru
      • Язык
      • ru
      • en
    • 105203, г. Москва, ул. Нижняя Первомайская, д. 65
    • vit-j@pirogov-center.ru
    Главная
    —
    Номера
    —
    Статьи
    —
    ВиИТ №4 2022

    Обработка русскоязычных неструктурированных медицинских текстов и вероятностное прогнозирование групп заболеваний

    Оригинальные исследования
    DOI: 10.25881/18110193_2022_4_52
    Актуальность. Разработка и внедрение медицинских информационных систем позволило упростить и автоматизировать множество процессов в медицинских организациях. Вместе с тем, постоянно накапливаемый объём данных о здоровье пациентов позволяет решать множество задач, связанных с прогнозированием и диагностикой заболеваний.
    Цель. Исследование подходов к обработке неструктурированных русскоязычных медицинских текстов и прогнозированию групп заболеваний на основе методов машинного обучения.
    Материалы и методы. Исходные данные: Массив деперсонализированных данных медицинских организаций Оренбургской области, содержащий 119 780 записей. Исследуются три подхода к вероятностному прогнозированию групп медицинских заболеваний на основе неструктурированных медицинских текстов жалоб пациентов на русском языке: подход на основе правил, подход на основе логистической регрессии и подход с использованием моделей трансформеров BERT.
    Результаты. Сравнительный анализ показывает, что подход с использованием логистической регрессии и метода TfidfVectorizer демонстрирует наилучшие результаты по метрикам Precision (0,8296), F1-score (0,8269) и Matthews’s correlation coefficient (0,7695).
    Выводы. Традиционный подход на основе правил является наименее эффективным (Precision = 0,7182) среди исследуемых методов, но при этом позволяет интерпретировать результаты работы классификатора в виде визуализации дерева решений. Подход с использованием логистической регрессии (Precision = 0,8296) и подход с использованием предобученных моделей BERT (Precision = 0,8164) показывают лучшие результаты классификации среди исследуемых методов и в дальнейшем могут послужить базисом для построения и развития систем поддержки принятия врачебных решений и найти применение в работе практикующих терапевтов.
    Литература
    1. Chase HS, Mitrani LR, Lu GG, Fulgieri DJ Early recognition of multiple sclerosis using natural language processing of the electronic health record. BMC medical informatics and decision making. 2017; 17(1): 1-8.
    2. Zhao SS, Hong C, Cai T, Xu C, Huang J, Ermann J et al. Incorporating natural language processing to improve classification of axial spondyloarthritis using electronic health records. Rheumatology. 2020; 59(5): 1059-1065.
    3. Sada Y, Hou J, Richardson P, El-Serag H, Davila J Validation of case finding algorithms for hepatocellular cancer from administrative data and electronic health records using natural language processing. Medical care. 2016; 54(2): 1-15.
    4. Zheng L, Wang Y, Hao S, Shin AY, Jin B, Ngo AD et al. Web-based real-time case finding for the population health Management of Patients with Diabetes Mellitus: a prospective validation of the natural language processing–based algorithm with statewide electronic medical records. JMIR medical informatics. 2016; 4(4): 1-13.
    5. Castro VM, Minnier J, Murphy SN, Kohane I, Churchill SE, Gainer V et al. Validation of electronic health record phenotyping of bipolar disorder cases and controls. American Journal of Psychiatry. 2015; 172(4): 363-372.
    6. Zhong QY, Mittal LP, Nathan MD, Brown KM, Knudson González D, Cai T et al. Use of natural language processing in electronic medical records to identify pregnant women with suicidal behavior: towards a solution to the complex classification problem. European journal of epidemiology. 2019; 34(2): 153-162.
    7. Hazlehurst B, Green CA, Perrin NA, Brandes J, Carrell DS, Baer A et al. Using natural language processing of clinical text to enhance identification of opioid- related overdoses in electronic health records data. Pharmacoepidemiology and drug safety. 2019; 28(8): 1143-1151.
    8. Wang M, Wei Z, Jia M, Chen L, Ji H Deep learning model for multi-classification of infectious diseases from unstructured electronic medical records. BMC medical informatics and decision making. 2022; 22(1): 1-13.
    9. Ling AY, Kurian AW, Caswell-Jin JL, Sledge Jr GW, Shah NH, Tamang SR Using natural language processing to construct a metastatic breast cancer cohort from linked cancer registry and electronic medical records data. JAMIA open. 2019; 2(4): 528-537.
    10. Rasmy L, Xiang Y, Xie Z, Tao C, Zhi D Med-BERT: pretrained contextualized embeddings on large-scale structured electronic health records for disease prediction. NPJ digital medicine. 2021; 4(1): 1-13.
    11. Nath N, Lee SH, McDonnell MD, Lee I The quest for better clinical word vectors: Ontology based and lexical vector augmentation versus clinical contextual embeddings. Computers in Biology and Medicine. 2021; 134: 1-11.
    12. Li I, Goldwasser J, et al. Neural natural language processing for unstructured data in electronic health records: A review. Computer Science Review. 2022; 46: 1-29.
    13. Syed S, Angel AJ, Syeda HB, Jennings CF, VanScoy J, Syed M et al. The h-ANN Model: Comprehensive Colonoscopy Concept Compilation Using Combined Contextual Embeddings. NIH Public Access, 2022; 5: 1-24.
    14. Yalunin A, Nesterov A, Umerenkov D RuBioRoBERTa: a pre-trained biomedical language model for Russian language biomedical text mining. arXiv preprint arXiv:2204.03951. 2022.
    15. Blinov P, Reshetnikova A, Nesterov A, Zubkova G, Kokh V RuMedBench: A Russian Medical Language Understanding Benchmark. arXiv preprint arXiv:2201.06499. 2022.
    16. Funkner AA, Balabaeva K, Kovalchuk SV Negation Detection for Clinical Text Mining in Russian. MIE. 2020: 342-346.
    17. Balabaeva K, Funkner AA, Kovalchuk SV Automated Spelling Correction for Clinical Text Mining in Russian. MIE. 2020: 43-47.
    18. Батура Т.В. Математическая лингвистика и автоматическая обработка текстов. — Новосибирск: РИЦ НГУ, 2016.
    19. Tutubalina E, Alimova I, Miftahutdinov Z, Sakhovskiy A, Malykh V, Nikolenko S The Russian Drug Reaction Corpus and Neural Models for Drug Reactions and Effectiveness Detection in User Reviews. Bioinformatics. 2021; 37(2): 243-249.
    Для цитирования
    Легашев Л.В., Шухман А.Е., Болодурина И.П., Гришина Л.С., Жигалов А.Ю. Обработка русскоязычных неструктурированных медицинских текстов и вероятностное прогнозирование групп заболеваний. Врач и информационные технологии. 2022; 4: 52-63. doi: 10.25881/18110193_2022_4_52.
    Авторы
    • Легашев Л.В. ?
    • Шухман А.Е. ?
    • Болодурина И.П. ?
    • Гришина Л.С. ?
    • Жигалов А.Ю. ?
    Документы
    05
    2,8 Мб
    Ключевые слова
    обработка естественного языка цифровая медицина электронные медицинские карты логистическая регрессия BERT
    Назад к списку
    Авторы
    • Легашев Л.В. ?
      ФГБОУ ВО «Оренбургский государственный университет», Оренбург, Россия
    • Шухман А.Е. ?
      ФГБОУ ВО «Оренбургский государственный университет», Оренбург, Россия
    • Болодурина И.П. ?
      ФГБОУ ВО «Оренбургский государственный университет», Оренбург, Россия
    • Гришина Л.С. ?
      ФГБОУ ВО «Оренбургский государственный университет», Оренбург, Россия
    • Жигалов А.Ю. ?
      ФГБОУ ВО «Оренбургский государственный университет», Оренбург, Россия
    О нас
    Журнал
    Авторам
    Контакты
    +7 (499) 463-00-00 (доб. 1233)
    vit-j@pirogov-center.ru
    105203, г. Москва, ул. Нижняя Первомайская, д. 65
    © 2023 ФГБУ «НМХЦ им. Н.И. Пирогова» Минздрава России
    Политика конфиденциальности