Intel в ходе конференции HotChips 34 представила подробности о о своём топовом ускорителе Ponte Vecchio. Его производительность в 2,5 раза выше, чем у конкурента NVIDIA A100, вышедшего два года назад. При этом готовящаяся к выходу модель NVIDIA H100 уже на анонсе превышала возможности Ponte Vecchio.
Ponte Vecchio включает в себя:
- 47 различных чиплетов, изготовленных по технологиям Intel7 10 нм, TSMC 7 нм и TSMCNS 5 нм и объединённых Foveros и шиной EMIB;
- два стекла суммарно на 128 графических ядер Xe;
- 128 RT-блоков;
- 8 контроллеров памяти HBM2e;
- два блока кеш-памяти L1 на 64 Мбайт и L2 на 408 Мбайт;
- два медиа-движка и 16 интерфейсов Xe Link;
- поддержку интерфейса PCIe 5.0;
- производительность 52 терафлопс в FP32 и FP64;
- упаковка в виде OAM-модуля с TDP на уровне 600 Вт.
На нижнем уровне памяти заложены регистровые файлы на 64 Мбайт, за счёт которых обеспечивается пропускная способность до 419 Тбайт/с. На следующем уровне блок L1 обеспечивает 105 Тбайт/с, L2-кеш — 13 Тбайт/с. HBM2e на 128 Гбайт на последнем уровне обеспечивает пропускную способность 3,2 Тбайт/с.
По заверениям Intel, Ponte Vecchio превзошёл NVIDIA A100 в целом ряде тестаов, показав двукратное преимущество в miniBUDE и полутора кратное в ExaSMR. В созданных на DPC++ задачах ускорители показывают до двух с половиной раз большую производительность по сравнению с A100. Кроме того, в NekRS ускоритель Ponte Vecchio показало производительность в 1,3–1,7 раза выше А100. В тестах для нагрузок 2D-FFT Case и DNN Case ускоритель показывал улучшение производительности с 80 МБ до 408 МБ.
Intel рассчитывала, что Ponte Vecchio выйдет вместе с серверными процессорами компании Sapphire Rapids Xeon на первом в США эксафлопсном суперкомпьютере Aurora. Но первым таким компьютером стал Frontier на 1,1 эксафлопс, построенный AMD EPYC третьего поколения и графических ускорителях AMD Instinct MI250X.