Энтузиаст «выжег» microGPT Андрея Карпати в FPGA и получил 53 тыс. токенов/сек

20-летний студент факультета электроники и вычислительной техники университета Торонто Лутира Абейкун выложил на GitHub проект TALOS-V2 — реализацию трансформера microGPT Андрея Карпати, целиком собранную в железе FPGA. По описанию проекта, модель выдает около 53 000 токенов в секунду на плате размером с кредитную карту — без Python, без CUDA и без какой-либо программной прослойки.

TALOS-V2 — это RTL-реализация трансформера, в которой все компоненты модели превращены в логические ячейки чипа. Эмбеддинги, механизм внимания (attention), нормализация, полносвязные слои и даже механизм выборки следующего токена сидят прямо в железе: чип сам вычисляет распределение вероятностей и выбирает следующий символ. Платформа — Intel/Altera Cyclone V (плата DE1-SoC, порядка $250–350). Веса хранятся как ROM-файлы в формате с фиксированной запятой Q4.12, управление — через переключатели и JTAG, симуляция в ModelSim детерминирована: при одном начальном значении результат повторяется бит-в-бит.

Чтобы понять, что значит «выжечь GPT в FPGA», полезно сравнить с привычной картиной. Обычно нейросеть — это веса в памяти и программа, которая их читает: процессор берет инструкцию, достает данные, перемножает, пишет результат, переходит к следующей инструкции. В TALOS-V2 этого слоя нет вообще. Веса лежат в постоянной памяти прямо на чипе, умножения и сложения выполняют логические ячейки, которые соединены проводами под конкретную архитектуру. Чип не выполняет модель — чип становится моделью. Сменить модель на другую означает пересобрать всю схему заново.

Сама идея — не академическое любопытство. В том же Торонто работает стартап Taalas, основанный в 2023 году бывшим главой Tenstorrent Любишей Баичем; в феврале 2026 года компания закрыла раунд на $169 млн (всего привлекла $219 млн). Taalas занимается ровно тем же, что Лутира на FPGA, только в кремнии и в индустриальном масштабе: их первый чип HC1 — это Llama 3.1 8B, выжженная в кристалл по техпроцессу TSMC 6 нм, со скоростью около 17 000 токенов в секунду на одного пользователя. Разница только в масштабе: TALOS-V2 — образовательный объект на 4192 параметра, HC1 — production-ускоритель для модели на 8 миллиардов параметров. Базовая идея у обоих одна: трансформер можно превратить из программы в схему — и Торонто, похоже, становится для этой идеи отдельным хабом.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1032380/