Исследователи из Института искусственного интеллекта AIRI и Сколтеха создали новый алгоритм для преобразования данных из одного домена в другой оптимальным способом с помощью нейронных сетей. В отличие от большинства существующих аналогов, новый метод не требует парных обучающих выборок – примеров вход-выход – и может обучаться на независимых выборках данных из входного и выходного доменов. При этом результат работы алгоритма обладает большей интерпретируемостью, чем существующие подходы, и имеет строгое теоретическое обоснование.
Современные модели машинного обучения, созданные для решения прикладных задач, например, для распознавания лиц на фотоснимках, анализа медицинских изображений или распознавания речи, требуют большого набора данных для обучения. К сожалению, качественных данных очень часто не хватает для создания достаточного обучающего набора. Именно поэтому у исследователей и инженеров возникает потребность в синтезе искусственных данных, похожих на уже имеющиеся в доступе реальные. Решить проблемы такого рода помогают генеративные модели, которые за последние годы достигли колоссального прогресса в качестве создания изображений и текстов.
Генеративные модели позволяют синтезировать одни данные из других, то есть осуществлять «перенос одного домена в другой». Например, человек нарисовал скетч, а нейросеть на его основе создала цифровую картинку; спутник сделал снимок земли, а нейросеть улучшила его детализацию. Обычно для решения таких задач нужны парные обучающие выборки, наборы изображений вход-выход, знания о которых нейросеть учится обобщать и распространять на новые поступающие изображения. Например, одни и те же снимки разного качества. Обычно парные данные очень сложно или очень дорого собирать, и ученым приходится обходиться непарными наборами данных, а это, в свою очередь, создает трудности в достижении действительно хороших результатов.
«Стандартные подходы к построению генеративных моделей для решения задач переноса одного домена в другой в значительной степени эвристические, они зависят от большого числа влияющих на результаты обучения гиперпараметров, подбор которых затруднен. Для таких подходов нет строгой математической постановки. В результате процесс обучения моделей нестабилен и приходится настраивать его вручную».
Евгений Бурнаев, руководитель исследовательской группы AIRI и руководитель Центра Прикладного ИИ, профессор Сколтеха
Команда исследователей из Института искусственного интеллекта AIRI и Сколтеха обратилась к работам советского математика и экономиста Леонида Канторовича. Основываясь на его идеях об оптимальной перевозке грузов («теория оптимальной транспортировки»), ученые разработали новый алгоритм для расчета планов оптимальной «транспортировки» данных между доменами. Алгоритм получил название Neural Optimal Transport. Он создан на базе глубинных нейронных сетей и использовании независимых друг от друга наборов данных.
На изображении слева можно увидеть результаты оптимального и неоптимального переноса домена, а на изображении справа – пример переноса домена с помощью нового алгоритма.
По результатам проверки качества его работы на задачах непарного переноса домена, алгоритм превосходит существующие методы в ряде экспериментов, в том числе и в задаче стилизации изображений. При этом он имеет гораздо меньше сложно настраиваемых гиперпараметров, чем другие существующие методы, а результат его работы хорошо интерпретируем. Кроме того, алгоритм имеет строгое математическое обоснование.
«Численные методы оптимальной транспортировки уже несколько лет активно используются для построения генеративных нейросетей. Наши предварительные исследования показали, что ошибка вычисления оптимальной транспортировки в таких моделях очень высока. Нам удалось не только обнаружить причины этой ошибки, но и на основе проведенного анализа разработать принципиально новые эффективные способы построения генеративных моделей для непарного переноса домена на основе теории оптимальной транспортировки».
Александр Коротин, научный сотрудник AIRI и руководитель исследовательской группы Сколтеха
Сейчас ознакомиться с публикацией можно с помощью препринта, а в мае алгоритм будет представлен на международной конференции ICLR 2023 (A*).