Команда исследователей из Сколтеха, Института Органической Химии им. Н.Д. Зелинского, Высшей Школы Экономики и Kyungpook National University (Южная Корея) в комментарии к статье DeepMind показала, что приведённые аргументы в пользу достижения поставленной DeepMind цели не настолько надёжны, как кажутся, и требуют дополнительного исследования. В статье, опубликованной в журнале Science в декабре 2021 года, команда DeepMind попыталась решить одну из ключевых проблем современной физики: создать метод Теории Функционала Плотности (DFТ), корректно работающий для самых разных молекулярных систем, включая имеющие нецелое количество электронов.
Современные химия и наука о материалах постепенно переходят от экспериментального метода проб и ошибок к изучению “цифровых двойников”. Вместо того, чтобы ставить десятки или даже сотни экспериментов в надежде найти новый эффективный катализатор или материал, для этого класса катализаторов/материалов создаётся цифровой двойник (математическая модель), который досконально изучается “в компьютере”, и на основании найденных теоретически закономерностей ставятся несколько прицельных экспериментов. Этот подход позволяет экономить килограммы дорогостоящих химических реагентов и тонны токсичных органических растворителей
руководитель Группы теоретической химии Института органической химии им. Н.Д. Зелинского РАН, доцент факультета химии НИУ ВШЭ Михаил Медведев.
Теория Функционала Плотности является самым широко используемым подходом для построения цифровых двойников в химии и науке о материалах. Она позволяет относительно корректно описать взаимодействие большого количества электронов между собой, что необходимо для построения цифровых двойников сложных химических систем: молекул, наночастиц, кристаллов. Основой Теории Функционала Плотности является обменно-корреляционный функционал, для которого точный вид всё ещё не установлен, поэтому в настоящий момент для него используются различные приближённые выражения, которых уже более 400.
С каждым годом количество приближённых выражений для обменно-корреляционного функционала растёт, предлагаются всё более и более точные выражения. DeepMind, известные своей разработкой нейросетевой программы AlphaGo, победившей одного из сильнейших игроков мира в игру Го, решили применить свои наработки в нейронных сетях для создания нейросетевого функционала Теории Функционала Плотности. Их работа была далеко не первой, однако она однозначно является одной из самых амбициозных.
старший научный сотрудник Центра технологий материалов Сколтеха Пётр Жиляев
DeepMind создали новый функционал Теории Функционала Плотности — DM21. Предполагалось, что он будет способен корректно работать с системами, содержащими нецелое количество электронов: несмотря на отсутствие таких систем в природе, корректная работа функционала на них должна помочь ему в описании обычных химических систем. Для того, чтобы научить свой функционал корректно работать на таких системах, команда DeepMind добавила их в базу данных, на которой обучался DM21. Чтобы проверить, что DM21 научился работать на таких системах, авторы протестировали его на тестовом наборе BBB, состоящем из пар атомов на разных расстояниях друг от друга: например, два атома водорода с одним электроном на двоих. DM21 показал превосходную точность на наборе BBB, обойдя стандартные функционалы, а также функционал DM21m, обученный DeepMind на том же датасете, за исключением систем с нецелым количеством электронов.
Авторы постарались обойти одно из ключевых ограничений традиционных функционалов — их неспособность корректно описывать системы с нецелым количеством электронов. DeepMind добавили в функционал новый нелокальный ингредиент (информацию о волновой функции системы, которую функционал может использовать для вычисления энергии), который ранее никогда не использовался — пространственно-разделенную локальную обменную энергию. В дальнейшем она может помочь строить функционалы с лучшим разделением между обменной и корреляционной энергиями.
Команда DeepMind ввела дополнительную регуляризацию, связанную с процедурой самосогласованного поля. Их дополнительное слагаемое в функции ошибки модели приближённо равно выражению для изменения энергии после шага вариационной процедуры минимизации, начинающегося с орбиталей традиционного функционала. Эта регуляризация позволяет сделать обучаемый функционал более стабильным.
“В машинном обучении очень важно не использовать для тестирования нейронной сети данные, на которых она была обучена. Однако, в своей работе команда DeepMind допустила подобную ошибку: наиболее сложные димеры из набора BBB очень близки к системам с нецелым количеством электронов из обучающей выборки”, — рассуждает инженер-исследователь Центра технологий материалов Сколтеха Александр Рябов.
Если нейронные сети не могут понять, как прийти к правильным ответам, они пытаются их зазубрить. Поэтому не столь сложно “обучить” нейронную сеть, насколько сложно показать, что она действительно осознала физические законы, лежащие в основе вопроса, на который она отвечает. Так что тестировать нейронную сеть на данных, на которых она обучалась, — это всё равно как дать студенту на экзамене ту же задачу, которая разбиралась 5 минут назад на доске: мы узнаем, хорошая ли у него память, но вряд ли узнаем, понимает ли он предмет
отмечает Михаил Медведев.
Этот недостаток не был очевидным. Системы в наборе BBB состоят из двух атомов, тогда как DM21 обучался на одноатомных системах с нецелым количеством электронов. Поэтому предвидеть то, что произошло, было очень непросто. Учёные поняли, что при расстояниях между атомами в тест-сете BBB, где обычные функционалы начинают испытывать проблемы, атомы уже практически не взаимодействуют между собой, и каждый атом в отдельности по сути становится тем самым “атомом с нецелым числом электронов”, на которых проводилось обучение.
В тестовом наборе данных «BBB» представлены двухатомные системы с расстоянием между атомами от 0.5 до 10 Ангстрем (Å). На расстояниях больше ~6Å атомы практически перестают друг друга “чувствовать”, и системы из BBB становятся эквивалентны атомам с нецелым количеством электронов, использованным для обучения DM21. Автор изображения: Михаил Медведев.
Учёные отмечают, что, несмотря на отмеченный недостаток, DeepMind построили достаточно точный функционал на основе нейронной сети, который хорошо работает на различных химических задачах, в то время как его работа для систем с нецелым количеством электронов требует дополнительной проверки.
Более того, команда DeepMind провела серьёзную работу по разработке универсального подхода к созданию функционалов DFT на основе нейросетей: их идея о включении физических ограничений в нейронную сеть с помощью обучающего набора, по мнению учёных, будет широко применяться в построении нейросетевых функционалов следующих поколений.
В исследовании также приняли Московский физико-технический институт и Московский государственный университет имени М.В. Ломоносова.