Учёные из Сколтеха обучили нейросеть обнаруживать и описывать словами патологии на рентгеновских снимках лёгких. Сейчас эту задачу выполняет врач, который рассматривает снимок и описывает его в небольшом тексте. По словам создателей решения, оно сокращает время работы с одним снимком с нескольких минут до порядка 30 секунд, если не требуется значительная корректировка текста. В большинстве случаев специалисту остаётся лишь подтвердить предложенный машиной диагноз (например, фиброз, увеличенное сердце или подозрение на злокачественную опухоль) или что признаков патологий не обнаружено. Исследование опубликовано в журнале Nature Scientific Reports.
Иллюстрация. В первом ряду таблицы — рентгеновские снимки грудной клетки, во втором — диагноз врача коротко, в третьем — более развёрнутый комментарий врача, в четвёртом — описание, сгенерированное нейросетью. Подчёркнутые фрагменты демонстрируют, что версии искусственного интеллекта и врача в целом сходятся, хоть сам текст и нуждается в редактуре. Источник: Александр Селиванов и др./Scientific Reports
Решение использует современные модели машинного зрения и компьютерной лингвистики, в том числе GPT-3 small, которая предшествовала столь популярным сейчас GPT-3.5 и GPT-4, которые доступны через чатбота ChatGPT.
«Обычные модели просто классифицируют, а наша нейросеть благодаря использованию современных моделей машинного зрения и моделей компьютерной лингвистики учится автоматически описывать рентгеновские снимки», — поясняет один из авторов исследования, научный сотрудник Сколтеха Олег Рогов.
Нейросеть обучена на парах «изображение — текст». «Мы специально составили свой радиологический словарь, чтобы повысить точность с точки зрения именно радиологических терминов, правил их использования в тексте. И, конечно, мы сформировали большую сводную базу рентгеновских снимков для использования в качестве обучающих данных», — рассказывает Рогов, подчёркивая, что нейросеть «знает» лишь те диагнозы, указания на которые действительно можно найти именно на рентгенограмме лёгких. Обучающую выборку сбалансировали по разным болезням.
Возможные варианты развития системы — применить её к МРТ- и КТ-снимкам, а также внедрить активное обучение, то есть позволить модели совершенствоваться с учётом вносимых врачом в текст корректировок. Также можно совместить предложенное решение с другой нейросетью, которая бы подсвечивала на рентгене подозрительные области, о которых идёт речь в сгенерированном тексте.