Использование машинного обучения, одной из технологий искусственного интеллекта, в здравоохранении продемонстрировало огромный потенциал для улучшения диагностики и лечения различных заболеваний. Однако успех программного обеспечения на основе технологий искусственного интеллекта в значительной степени зависит от наличия высококачественных наборов медицинских данных, а также инфраструктуры, обеспечивающей процессы управления ими. Создание релевантных, репрезентативных и корректно размеченных наборов данных — сложная и дорогостоящая задача, требующая привлечения большого количества специалистов различного профиля и разработки алгоритма действий при подготовке наборов данных для лучевой диагностики.
В настоящей статье представлена методика подготовки наборов данных лучевой диагностики, которая позволяет установить принципы и протоколы для обеспечения стандартизированной подготовки наборов, создать удобную инфраструктуру организации и управления данными и является основой для разработки инструментов автоматизации процесса создания качественных наборов данных.
На основании практического опыта внедрения в лучевую диагностику представленной в статье методики дается указание на основные ошибки, возникающие при подготовке наборов данных лучевой диагностики, и предлагаются пути их решения.
В настоящей статье представлена методика подготовки наборов данных лучевой диагностики, которая позволяет установить принципы и протоколы для обеспечения стандартизированной подготовки наборов, создать удобную инфраструктуру организации и управления данными и является основой для разработки инструментов автоматизации процесса создания качественных наборов данных.
На основании практического опыта внедрения в лучевую диагностику представленной в статье методики дается указание на основные ошибки, возникающие при подготовке наборов данных лучевой диагностики, и предлагаются пути их решения.
Литература
1. Указ Президента Российской Федерации от 10.10.2019 №490 «О развитии искусственного интеллекта в Российской Федерации» // Электронный фонд правовых и нормативно-технических документов. Доступно по: https://docs.cntd.ru/document/563441794. Ссылка действительна на 28.08.2023.
2. Гусев А.В., Владзимирский А.В., Шарова Д.Е., и др. Развитие исследований и разработок в сфере технологий искусственного интеллекта для здравоохранения в Российской Федерации: итоги 2021 года // Digital Diagnostics. — 2022. — Т.3. — №3. — C.178-194. doi: 10.17816/DD107367.
3. Арзамасов К.М., Васильев Ю.А., Владзимирский А.В. и др. Применение компьютерного зрения для профилактических исследований на примере маммографии // Профилактическая медицина. — 2023. — Т.26. — №6. — С.117-123. doi: 10.17116/profmed202326061117.
4. Павлов Н.А., Андрейченко А.Е., Владзимирский А.В. и др. Эталонные медицинские датасеты (MosMedData) для независимой внешней оценки алгоритмов на основе искусственного интеллекта в диагностике // Digital Diagnostics. — 2021. — Т.2. — №1. — С.49-66. doi: 10.17816/DD60635.
5. ГОСТ Р 52653-2006. Информационно-коммуникационные технологии в образовании. Термины и определения // Электронный фонд правовых и нормативно-технических документов. Доступно по: https://docs.cntd.ru/document/1200053103. Ссылка действительна на 28.08.2023.
6. Willemink MJ, Koszek WA, Hardell C, et al. Preparing Medical Imaging Data for Machine Learning. Radiology. 2020; 295(1): 4-15. doi:10.1148/radiol.2020192224.
7. Aggarwal R, Sounderajah V, Martin G, et al. Diagnostic accuracy of deep learning in medical imaging: a systematic review and meta-analysis. NPJ Digit Med. 2021; 4(1): 65. doi:10.1038/s41746-021-00438-z.
8. Владзимирский А.В., Васильев Ю.А., Арзамасов К.М. и др. Компьютерное зрение в лучевой диагностике: первый этап Московского эксперимента. — Москва: Издательские решения, 2022. — 388 с.
9. Васильев Ю.А., Бобровская Т.М., Арзамасов К.М. и др. Основополагающие принципы стандартизации и систематизации информации о наборах данных для машинного обучения в медицинской диагностике // Менеджер здравоохранения. — 2023. — №4. — С.28-41. doi: 10.21045/1811-0185-2023-4-28-41.
10. Приказ Министерства здравоохранения Российской Федерации от 24.12.2018 №911н «Об утверждении Требований к государственным информационным системам в сфере здравоохранения субъектов Российской Федерации, медицинским информационным системам медицинских организаций и информационным системам фармацевтических организаций». Доступно по: https://normativ.kontur.ru/document?moduleId=1&documentId=338271. Ссылка действительна на 28.08.2023.
11. Федеральный закон «О персональных данных» от 27.07.2006 №152-ФЗ. Доступно по: https://normativ.kontur.ru/document?moduleId=1&documentId=447363. Ссылка действительна на 28.08.2023.
12. Кульберг Н.С., Гусев М.А., Решетников Р.В. и др. Методология и инструментарий создания обучающих выборок для систем искусственного интеллекта по распознаванию рака легкого на кт-изображениях // Здравоохранение Российской Федерации. — 2020. — Т.64. — №6. — С.343-350. doi: 10.46563/0044-197X-2020-64-6-343-350.
13. Борисов А.А., Семенов С.С., Арзамасов К.М. Использование трансферного обучения для автоматизированного поиска дефектов на рентгенограммах органов грудной клетки // Медицинская визуализация. — 2023. — Т.27. — №1. — С.158-169. doi: 10.24835/1607-0763-1243.
14. Амелина Е.В., Летягин А.Ю., Тучинов Б.Н. и др. Особенности создания базы данных нейроонкологических 3D МРТ-изображений для обучения искусственного интеллекта // Сибирский научный медицинский журнал. — 2022. — Т.42. — №6. — С.51-59. doi: 10.18699/SSMJ20220606.
15. Кивелев Ю.В., Сааренпя И., Кривошапкин А.Л. Формирование набора больших данных для клинических исследований на примере аневризм сосудов головного мозга // Сибирский научный медицинский журнал. — 2023. — Т.43. — №3. — С.86-94. doi: 10.18699/SSMJ20230311.
16. Nguyen HQ, Lam K, Le LT, et al. VinDr-CXR: An open dataset of chest X-rays with radiologist’s annotations. Sci Data. 2022; 9(1): 429. doi: 10.1038/s41597-022-01498-w.
2. Гусев А.В., Владзимирский А.В., Шарова Д.Е., и др. Развитие исследований и разработок в сфере технологий искусственного интеллекта для здравоохранения в Российской Федерации: итоги 2021 года // Digital Diagnostics. — 2022. — Т.3. — №3. — C.178-194. doi: 10.17816/DD107367.
3. Арзамасов К.М., Васильев Ю.А., Владзимирский А.В. и др. Применение компьютерного зрения для профилактических исследований на примере маммографии // Профилактическая медицина. — 2023. — Т.26. — №6. — С.117-123. doi: 10.17116/profmed202326061117.
4. Павлов Н.А., Андрейченко А.Е., Владзимирский А.В. и др. Эталонные медицинские датасеты (MosMedData) для независимой внешней оценки алгоритмов на основе искусственного интеллекта в диагностике // Digital Diagnostics. — 2021. — Т.2. — №1. — С.49-66. doi: 10.17816/DD60635.
5. ГОСТ Р 52653-2006. Информационно-коммуникационные технологии в образовании. Термины и определения // Электронный фонд правовых и нормативно-технических документов. Доступно по: https://docs.cntd.ru/document/1200053103. Ссылка действительна на 28.08.2023.
6. Willemink MJ, Koszek WA, Hardell C, et al. Preparing Medical Imaging Data for Machine Learning. Radiology. 2020; 295(1): 4-15. doi:10.1148/radiol.2020192224.
7. Aggarwal R, Sounderajah V, Martin G, et al. Diagnostic accuracy of deep learning in medical imaging: a systematic review and meta-analysis. NPJ Digit Med. 2021; 4(1): 65. doi:10.1038/s41746-021-00438-z.
8. Владзимирский А.В., Васильев Ю.А., Арзамасов К.М. и др. Компьютерное зрение в лучевой диагностике: первый этап Московского эксперимента. — Москва: Издательские решения, 2022. — 388 с.
9. Васильев Ю.А., Бобровская Т.М., Арзамасов К.М. и др. Основополагающие принципы стандартизации и систематизации информации о наборах данных для машинного обучения в медицинской диагностике // Менеджер здравоохранения. — 2023. — №4. — С.28-41. doi: 10.21045/1811-0185-2023-4-28-41.
10. Приказ Министерства здравоохранения Российской Федерации от 24.12.2018 №911н «Об утверждении Требований к государственным информационным системам в сфере здравоохранения субъектов Российской Федерации, медицинским информационным системам медицинских организаций и информационным системам фармацевтических организаций». Доступно по: https://normativ.kontur.ru/document?moduleId=1&documentId=338271. Ссылка действительна на 28.08.2023.
11. Федеральный закон «О персональных данных» от 27.07.2006 №152-ФЗ. Доступно по: https://normativ.kontur.ru/document?moduleId=1&documentId=447363. Ссылка действительна на 28.08.2023.
12. Кульберг Н.С., Гусев М.А., Решетников Р.В. и др. Методология и инструментарий создания обучающих выборок для систем искусственного интеллекта по распознаванию рака легкого на кт-изображениях // Здравоохранение Российской Федерации. — 2020. — Т.64. — №6. — С.343-350. doi: 10.46563/0044-197X-2020-64-6-343-350.
13. Борисов А.А., Семенов С.С., Арзамасов К.М. Использование трансферного обучения для автоматизированного поиска дефектов на рентгенограммах органов грудной клетки // Медицинская визуализация. — 2023. — Т.27. — №1. — С.158-169. doi: 10.24835/1607-0763-1243.
14. Амелина Е.В., Летягин А.Ю., Тучинов Б.Н. и др. Особенности создания базы данных нейроонкологических 3D МРТ-изображений для обучения искусственного интеллекта // Сибирский научный медицинский журнал. — 2022. — Т.42. — №6. — С.51-59. doi: 10.18699/SSMJ20220606.
15. Кивелев Ю.В., Сааренпя И., Кривошапкин А.Л. Формирование набора больших данных для клинических исследований на примере аневризм сосудов головного мозга // Сибирский научный медицинский журнал. — 2023. — Т.43. — №3. — С.86-94. doi: 10.18699/SSMJ20230311.
16. Nguyen HQ, Lam K, Le LT, et al. VinDr-CXR: An open dataset of chest X-rays with radiologist’s annotations. Sci Data. 2022; 9(1): 429. doi: 10.1038/s41597-022-01498-w.
Для цитирования
Бобровская Т.М., Васильев Ю.А., Никитин Н.Ю., Арзамасов К.М. Подходы к формированию наборов данных в лучевой диагностике. Врач и информационные технологии. 2023; 4: 14-23. doi: 10.25881/18110193_2023_4_14.
Документы
Ключевые слова