Flow утверждает, что может увеличить мощность любого ЦПУ в 100 раз с помощью своей вспомогательной микросхемы и немного усилий

Финская стартап-компания под названием Flow Computing делает одно из самых дерзких заявлений, когда-либо слышанных в области силиконовой инженерии: добавив свою собственную вспомогательную микросхему, любой ЦПУ мгновенно может удвоить свою производительность, увеличившись до 100 раз с помощью программных настроек.

Если это работает, это может помочь промышленности удовлетворить безудержный спрос на вычисления производителей искусственного интеллекта.

Flow является выдвиженцем из VTT, финской государственно поддерживаемой исследовательской организации, схожей с национальной лабораторией. Технология микросхем, которую она коммерциализирует и которую она назвала Параллельным процессорным блоком, является результатом исследований, проведенных в этой лаборатории (хотя VTT является инвестором, права интеллектуальной собственности принадлежат Flow).

Flow, как первый признает, эта заявка вызывает сомнения. Вы не можете просто волшебным образом выжать дополнительную производительность из ЦПУ с различными архитектурами и кодовыми базами. Если бы это было возможно, то Intel или AMD или кто-то еще давно бы это сделали.

Но Flow работал над чем-то, что было теоретически возможно — просто никто не смог этого добиться.

Центральные процессорные устройства прошли долгий путь с тех пор, как появились первые вакуумные трубки и перфокарты, но в некоторых основных аспектах они все еще остаются теми же. Их основное ограничение заключается в том, что как последовательные, а не параллельные процессоры, они могут выполнять только одну задачу за раз. Конечно, они меняют эту задачу миллиард раз в секунду через несколько ядер и путей — но все это это способы адаптации к однополосному характеру ЦПУ. (В отличие от графического процессора, который выполняет множество связанных вычислений одновременно, но специализируется на определенных операциях).

'ЦПУ является самым слабым звеном в вычислениях', — сказал соучредитель и генеральный директор Flow Тимо Валтонен. 'Он не справляется со своей задачей, и это должно измениться'.

ЦПУ стали очень быстрыми, но даже с откликом на уровне наносекунды есть огромное количество ресурсов, тратящихся на выполнение инструкций просто из-за основного ограничения, что одна задача должна завершиться, прежде чем начнется следующая (я упрощаю здесь, не являясь чиповым инженером).

То, что, как утверждает Flow, было сделано, - это устранение этого ограничения, превращая ЦПУ из улицы с одной полосой движения в многополосное шоссе. ЦПУ все еще ограничено выполнением одной задачи за раз, но PPU Flow, как они его называют, фактически осуществляет управление интерференциями на наносекундном уровне на самом чипе, чтобы задачи быстрее, чем это было ранее, попадают в процессор и из него.

Представьте себе ЦПУ, как повар, работающий на кухне. Повар может работать только так быстро, но что, если у этого человека был помощник, способный сверхчеловечески быстро менять ножи и инструменты в руках повара, убирать готовую еду и добавлять новые ингредиенты, удалять все задачи, которые не являются задачами повара? Повар все равно имеет только две руки, но теперь повар может работать в десять раз быстрее.

Диаграмма (в логарифме, прим. переводчика) показывающая улучшения в FPGA усиленной PPU-микросхеме по сравнению с неизмененными чипами Intel. Увеличение количества ядер PPU продолжает улучшать производительность.
Изображение предоставлено: Flow Computing

Это не идеальная аналогия, но она дает вам представление о том, что происходит здесь, по мнению Flow, по крайней мере, согласно внутренним тестам и демонстрациям компании в индустрии (и они общаются со всеми).

PPU не увеличивает тактовую частоту или не действует иным образом, что привело бы к дополнительному нагреву или потреблению энергии; другими словами, повар не просит резать вдвое быстрее. Он просто более эффективно использует циклы ЦПУ, которые уже происходят.

Такого рода вещь не нова, говорит Валтонен. 'Этот вопрос изучался и обсуждался в академических кругах высшего уровня. Вы уже можете делать параллелизацию, но это разрушает старый код, и тогда это бессмысленно'.

Так что это можно сделать. Просто это нельзя сделать без полной переработки всего кода в мире, что в какой-то степени делает это несостоятельным. Похожая проблема была решена другой нордической компьютерной компанией ZeroPoint, которая добилась высоких уровней сжатия памяти, сохраняя прозрачность данных с остальной системой.

Главное достижение Flow, другими словами, заключается не в быстром управлении трафиком, а в выполнении этого без необходимости модификации любого кода на любом ЦПУ или архитектуре, на которую это было испытано. Звучит немного бредово утверждать, что на любом чипе можно выполнять произвольный код в два раза быстрее без модификации, помимо интеграции PPU с чипом.

Здесь кроется основной вызов успеха Flow как бизнеса: в отличие от программного продукта, технология Flow должна быть включена на уровне проектирования чипа, что означает, что она не работает ретроспективно, и первый чип с PPU будет неизбежно находиться на довольно далеком горизонте. Flow показала, что технология работает в тестовых наборах на основе FPGA, но производители чипов должны были бы вложить довольно много ресурсов, чтобы увидеть обсуждаемые выгоды.

Основная команда Flow, слева: Юсси Ройвайнен, Мартти Форселл и Тимо Валтонен.
Изображение предоставлено: Flow Computing

Размер этих выигрышей, и тот факт, что улучшения ЦПУ были итеративными и дробными в течение последних нескольких лет, могут заставить этих производителей чипов довольно торопиться к двери Flow, однако. Если действительно можно удвоить производительность за одно поколение с одним изменением макета, то это не требует раздумий.

Дополнительные улучшения производительности достигаются путем перепроектирования и повторной компиляции программного обеспечения для лучшей работы с комбинацией PPU-ЦПУ. Flow говорит, что она увеличила производительность до 100 раз с измененным кодом (хотя не обязательно полностью переписанным), чтобы использовать ее технологию наиболее эффективно. Компания работает над предложением инструментов повторной компиляции, чтобы упростить эту задачу для создателей программного обеспечения, которые хотят оптимизировать для чипов с поддержкой Flow.

Аналитик Кевин Кревелл из Tirias Research, который был проинформирован о технологии Flow и назван внешним экспертом по этим вопросам, более обеспокоен принятием отраслью, чем основами.

Он правильно отметил, что ускорение искусственного интеллекта является в настоящее время самым большим рынком, на который можно ориентироваться с помощью специальных силиконов, таких как популярный H100 от Nvidia. Хотя ускоренный PPU-ЦПУ приведет к улучшениям во всех областях, производители чипов могут не захотеть слишком сильно бросать вызов обществу. И вот просто вопрос, будут ли эти компании готовы вкладывать значительные ресурсы в в значительной степени неизведанную технологию, когда у них, вероятно, есть пятилетний план, который будет нарушен этим выбором.

Станет ли технология Flow обязательным компонентом для каждого производителя чипов, выводя ее на пик успеха? Или же скупые производители чипов решат идти проторенным путем и продолжать извлекать выгоду из постоянно растущего рынка вычислений? Вероятно, где-то посередине, но говорит о многом то, что, даже если Flow добилась здесь значительного инженерного успеха, как и у всех стартапов, будущее компании зависит от ее клиентов.

Flow только что вышла из скрытия, с привлечением 4 млн евро (примерно 4,3 млн долларов) в предварительном раунде финансирования от Butterfly Ventures, с участием FOV Ventures, Sarsia, Stephen Industries, Superhero Capital и Business Finland.