Цель исследования. Демонстрация особенностей создания наборов данных для нейровизуализации на примере подготовки набора данных с компьютерно-томографическими изображениями головного мозга с наличием и отсутствием признаков внутричерепного кровоизлияния.
Методы. В основе формирования набора данных использована методология, разработанная Научно-практическим клиническим центром диагностики и телемедицины (регламент подготовки набора данных), которая осуществляется в 4 этапа: планирования (подбор необходимых ключевых слов для первичного отбора исследований, определение критериев включения и исключения, источника медицинской информации), отбора (первичная выгрузка текстовой информации — краткого анамнеза и протоколов описания из Единого радиологического информационного сервиса города Москва за 2020 год, анонимизация полученных данных, анализ по наличию ключевых слов), разметки и верификации (заполнение сопроводительной таблицы с клиническими и техническими данными, отбор исследований двумя врачами-рентгенологами и экспертная верификация врачом-нейрорадиологом) и публикации (публикация набора данных онлайн, государственная регистрация).
Результаты. В процессе создания набора данных отмечены и сформулированы особенности, применимые для нейрорадиологии, которые должны учитываться в задачах обучения, тестирования и дообучения сервисов искусственного интеллекта для диагностики заболеваний головного мозга: использование специфических терминов, использование изображений с наименьшим количеством шума и наибольшей контрастностью, а также использование соотношений подтипов целевой патологии, характерное для её состава в популяции. Подготовлен набор данных с компьютерно-томографическими изображениями, содержащими признаки внутричерепного кровоизлияния. В итоговую версию набора данных включены анонимизированные исследования 209 пациентов (109 — с наличием патологии, 100 — с ее отсутствием): DICOM-изображения, сопроводительная текстовая таблица с клинико-анамнестическими (пол, возраст, тип(ы) и количество кровоизлияний, наличие/отсутствие сопутствующей патологии) и техническими параметрами (толщина среза и реконструкции).
Заключение. Продемонстрирована специфика подготовки наборов данных для обучения и тестирования нейрорадиологических сервисов искусственного интеллекта.
Методы. В основе формирования набора данных использована методология, разработанная Научно-практическим клиническим центром диагностики и телемедицины (регламент подготовки набора данных), которая осуществляется в 4 этапа: планирования (подбор необходимых ключевых слов для первичного отбора исследований, определение критериев включения и исключения, источника медицинской информации), отбора (первичная выгрузка текстовой информации — краткого анамнеза и протоколов описания из Единого радиологического информационного сервиса города Москва за 2020 год, анонимизация полученных данных, анализ по наличию ключевых слов), разметки и верификации (заполнение сопроводительной таблицы с клиническими и техническими данными, отбор исследований двумя врачами-рентгенологами и экспертная верификация врачом-нейрорадиологом) и публикации (публикация набора данных онлайн, государственная регистрация).
Результаты. В процессе создания набора данных отмечены и сформулированы особенности, применимые для нейрорадиологии, которые должны учитываться в задачах обучения, тестирования и дообучения сервисов искусственного интеллекта для диагностики заболеваний головного мозга: использование специфических терминов, использование изображений с наименьшим количеством шума и наибольшей контрастностью, а также использование соотношений подтипов целевой патологии, характерное для её состава в популяции. Подготовлен набор данных с компьютерно-томографическими изображениями, содержащими признаки внутричерепного кровоизлияния. В итоговую версию набора данных включены анонимизированные исследования 209 пациентов (109 — с наличием патологии, 100 — с ее отсутствием): DICOM-изображения, сопроводительная текстовая таблица с клинико-анамнестическими (пол, возраст, тип(ы) и количество кровоизлияний, наличие/отсутствие сопутствующей патологии) и техническими параметрами (толщина среза и реконструкции).
Заключение. Продемонстрирована специфика подготовки наборов данных для обучения и тестирования нейрорадиологических сервисов искусственного интеллекта.
Литература
1. McCarthy J, Minsky ML, Rochester N, Shannon CE. A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955. AI Mag. 2006; 27(4): 12. doi: 10.1609/aimag.v27i4.1904.
2. He J, Baxter SL, Xu J, Xu J, Zhou X, Zhang K. The practical implementation of artificial intelligence technologies in medicine. Nat Med. 2019; 25(1): 3-–6. doi: 10.1038/s41591-018-0307-0.
3. Hosny A, Parmar C, Quackenbush J, Schwartz LH, Aerts HJWL. Artificial intelligence in radiology. Nat Rev Cancer. 2018; 18(8): 500-10. doi: 10.1038/s41568-018-0016-5.
4. Шарова Д.Е., Михайлова А.А., Гусев А.В. и др. Анализ мирового опыта в регулировании использования медицинских данных для целей создания систем искусственного интеллекта на основе машинного обучения // Врач и информационные технологии. — 2022. — №4. — С.28-39. doi: 10.25881/18110193_2022_4_28.
5. Морозов С.П., Владзимирский А.В., Ледихова Н.В. и др. Московский эксперимент по применению компьютерного зрения в лучевой диагностике: вовлеченность врачей-рентгенологов // Врач и информационные технологии. — 2020. — №4. — С.14-23. doi: 10.37690/1811-0193-2020-4-14-23.
6. Salmela MB, Mortazavi S, Jagadeesan BD, Broderick DF, Burns J, Deshmukh TK, et al. ACR Appropriateness Criteria ® Cerebrovascular Disease. J Am Coll Radiol. 2017; 14(5): S34-61.
doi: 10.1016/j.jacr.2017.01.051.
7. Набор данных КТ головного мозга для поиска признаков кровоизлияний — наборы данных в лучевой диагностике Доступно по: https://mosmed.ai/datasets/nabor-dannyih-kt-golovnogo-mozga-s-tselyu-testirovaniya-ii-servisov-dlya-poiska-priznakov-krovoizliyanij/. Ссылка активна на 22.11.2023.
8. Набор данных КТ головного мозга с целью тестирования ИИ-сервисов для поиска признаков кровоизлияний — наборы данных в лучевой диагностике. Доступно по: https://mosmed.ai/datasets/nabor-dannyih-kt-golovnogo-mozga-s-tselyu-testirovaniya-ii-servisov-dlya-poiska-priznakov-krovoizliyanij5/. Ссылка активна на 22.11.2023.
9. Свидетельство о государственной регистрации базы данных RU 2022620559/ 16.03.2022 Морозов С.П., Павлов НА, Петряйкин А.В., Кремнева Е.И., Хоружая А.Н., Сморчкова А.К. MosMedData: набор диагностических компьютерно-томографических изображений головного мозга с наличием и отсутствием признаков внутричерепного кровоизлияния. Доступно по: https://www.elibrary.ru/item.asp?id=48137428. Ссылка активна на 22.11.2023.
10. Wilkinson MD, Dumontier M, Aalbersberg IjJ, Appleton G, Axton M, Baak A, et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data. 2016; 3(1): 160018. doi: 10.1038/sdata.2016.18.
11. Ker J, Singh SP, Bai Y, Rao J, Lim T, Wang L. Image Thresholding Improves 3-Dimensional Convolutional Neural Network Diagnosis of Different Acute Brain Hemorrhages on Computed Tomography Scans. Sensors. 2019; 19(9): 2167. doi: 10.3390/s19092167.
12. Flanders AE, Prevedello LM, Shih G, Halabi SS, Kalpathy-Cramer J, Ball R, et al. Construction of a Machine Learning Dataset through Collaboration: The RSNA 2019 Brain CT Hemorrhage Challenge. Radiol Artif Intell. 2020; 2(4): e209002. doi: 10.1148/ryai.2020190211.
13. Qing L, Linhong W, Xuehai D. A Novel Neural Network-Based Method for Medical Text Classification. Future Internet. 2019; 11(12): 255. doi: 10.3390/fi11120255.
14. Hughes M, Li I, Kotoulas S, Suzumura T. Medical Text Classification Using Convolutional Neural Networks. In: Informatics for Health: Connected Citizen-Led Wellness and Population Health. IOS Press; 2017: 246-50. Available at: https://ebooks.iospress.nl/doi/10.3233/978-1-61499-753-5-246. Accessed 22.11.2023.
15. Kokina D, Meshalkin Y, Gombolevskiy V., Vladzymyrskyy A., Andreychenko A., Morozov S. RPS 605-10 Text mining in Russian radiology reports. ECR 2021 Book of Abstracts. Insights Imaging. 2021; 12(S2): 75. doi: 10.1186/s13244-021-01014–5.
16. Chilamkurthy S, Ghosh R, Tanamala S, Biviji M, Campeau NG, Venugopal VK, et al. Deep learning algorithms for detection of critical findings in head CT scans: a retrospective study. The Lancet. 2018; 392(10162): 2388-96. doi: 10.1016/S0140-6736(18)31645-3.
17. Lee H, Yune S, Mansouri M, Kim M, Tajmir SH, Guerrier CE, et al. An explainable deep-learning algorithm for the detection of acute intracranial haemorrhage from small datasets. Nat Biomed Eng. 2019; 3(3): 173-82. doi: 10.1038/s41551-018-0324-9.
18. Кульберг Н.С., Решетников Р.В., Новик В.П., и др. Вариабельность заключений при интерпретации КТ-снимков: один за всех и все за одного // Digital Diagnostics. — 2021. — Т.2. — №2. — С.105-118. doi: 10.17816/DD60622.
2. He J, Baxter SL, Xu J, Xu J, Zhou X, Zhang K. The practical implementation of artificial intelligence technologies in medicine. Nat Med. 2019; 25(1): 3-–6. doi: 10.1038/s41591-018-0307-0.
3. Hosny A, Parmar C, Quackenbush J, Schwartz LH, Aerts HJWL. Artificial intelligence in radiology. Nat Rev Cancer. 2018; 18(8): 500-10. doi: 10.1038/s41568-018-0016-5.
4. Шарова Д.Е., Михайлова А.А., Гусев А.В. и др. Анализ мирового опыта в регулировании использования медицинских данных для целей создания систем искусственного интеллекта на основе машинного обучения // Врач и информационные технологии. — 2022. — №4. — С.28-39. doi: 10.25881/18110193_2022_4_28.
5. Морозов С.П., Владзимирский А.В., Ледихова Н.В. и др. Московский эксперимент по применению компьютерного зрения в лучевой диагностике: вовлеченность врачей-рентгенологов // Врач и информационные технологии. — 2020. — №4. — С.14-23. doi: 10.37690/1811-0193-2020-4-14-23.
6. Salmela MB, Mortazavi S, Jagadeesan BD, Broderick DF, Burns J, Deshmukh TK, et al. ACR Appropriateness Criteria ® Cerebrovascular Disease. J Am Coll Radiol. 2017; 14(5): S34-61.
doi: 10.1016/j.jacr.2017.01.051.
7. Набор данных КТ головного мозга для поиска признаков кровоизлияний — наборы данных в лучевой диагностике Доступно по: https://mosmed.ai/datasets/nabor-dannyih-kt-golovnogo-mozga-s-tselyu-testirovaniya-ii-servisov-dlya-poiska-priznakov-krovoizliyanij/. Ссылка активна на 22.11.2023.
8. Набор данных КТ головного мозга с целью тестирования ИИ-сервисов для поиска признаков кровоизлияний — наборы данных в лучевой диагностике. Доступно по: https://mosmed.ai/datasets/nabor-dannyih-kt-golovnogo-mozga-s-tselyu-testirovaniya-ii-servisov-dlya-poiska-priznakov-krovoizliyanij5/. Ссылка активна на 22.11.2023.
9. Свидетельство о государственной регистрации базы данных RU 2022620559/ 16.03.2022 Морозов С.П., Павлов НА, Петряйкин А.В., Кремнева Е.И., Хоружая А.Н., Сморчкова А.К. MosMedData: набор диагностических компьютерно-томографических изображений головного мозга с наличием и отсутствием признаков внутричерепного кровоизлияния. Доступно по: https://www.elibrary.ru/item.asp?id=48137428. Ссылка активна на 22.11.2023.
10. Wilkinson MD, Dumontier M, Aalbersberg IjJ, Appleton G, Axton M, Baak A, et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data. 2016; 3(1): 160018. doi: 10.1038/sdata.2016.18.
11. Ker J, Singh SP, Bai Y, Rao J, Lim T, Wang L. Image Thresholding Improves 3-Dimensional Convolutional Neural Network Diagnosis of Different Acute Brain Hemorrhages on Computed Tomography Scans. Sensors. 2019; 19(9): 2167. doi: 10.3390/s19092167.
12. Flanders AE, Prevedello LM, Shih G, Halabi SS, Kalpathy-Cramer J, Ball R, et al. Construction of a Machine Learning Dataset through Collaboration: The RSNA 2019 Brain CT Hemorrhage Challenge. Radiol Artif Intell. 2020; 2(4): e209002. doi: 10.1148/ryai.2020190211.
13. Qing L, Linhong W, Xuehai D. A Novel Neural Network-Based Method for Medical Text Classification. Future Internet. 2019; 11(12): 255. doi: 10.3390/fi11120255.
14. Hughes M, Li I, Kotoulas S, Suzumura T. Medical Text Classification Using Convolutional Neural Networks. In: Informatics for Health: Connected Citizen-Led Wellness and Population Health. IOS Press; 2017: 246-50. Available at: https://ebooks.iospress.nl/doi/10.3233/978-1-61499-753-5-246. Accessed 22.11.2023.
15. Kokina D, Meshalkin Y, Gombolevskiy V., Vladzymyrskyy A., Andreychenko A., Morozov S. RPS 605-10 Text mining in Russian radiology reports. ECR 2021 Book of Abstracts. Insights Imaging. 2021; 12(S2): 75. doi: 10.1186/s13244-021-01014–5.
16. Chilamkurthy S, Ghosh R, Tanamala S, Biviji M, Campeau NG, Venugopal VK, et al. Deep learning algorithms for detection of critical findings in head CT scans: a retrospective study. The Lancet. 2018; 392(10162): 2388-96. doi: 10.1016/S0140-6736(18)31645-3.
17. Lee H, Yune S, Mansouri M, Kim M, Tajmir SH, Guerrier CE, et al. An explainable deep-learning algorithm for the detection of acute intracranial haemorrhage from small datasets. Nat Biomed Eng. 2019; 3(3): 173-82. doi: 10.1038/s41551-018-0324-9.
18. Кульберг Н.С., Решетников Р.В., Новик В.П., и др. Вариабельность заключений при интерпретации КТ-снимков: один за всех и все за одного // Digital Diagnostics. — 2021. — Т.2. — №2. — С.105-118. doi: 10.17816/DD60622.
Для цитирования
Кремнева Е.И., Сморчкова А.К., Хоружая А.Н., Семенов Д.С., Мальцев А.В., Шарова Д.Е., Зинченко В.В., Владзимирский А.В. Особенности формирования наборов данных для сервисов с искусственным интеллектом в нейровизуализации на примере создания набора данных с КТ-изображениями головного мозга с признаками кровоизлияния. Врач и информационные технологии. 2023; 4: 42-53. doi: 10.25881/18110193_2023_4_42.
Документы
Ключевые слова