Энтузиаст рассказал, как снизить цену на Claude Code в два раза, перегнав промпты в изображения

Исследователь под ником teamchong выложил на GitHub инструмент pxpipe — локальный прокси, который сокращает расходы на токены Claude Code, превращая объемные текстовые части запроса в картинки. По статистике автора, собранной на 13 709 реальных рабочих запросах, счет в $100 превращается примерно в $41. А если считать только крупные запросы, которые прокси действительно сжимает, — в $28.

Трюк строится на особенности тарификации Anthropic: изображение шириной 1568 пикселей стоит фиксированное число токенов независимо от того, сколько текста в него упаковано. Плотный контент — код, JSON, вывод инструментов — умещается примерно в 3,1 символа на «картиночный» токен, тогда как в текстовом виде тот же контент дает около одного символа на токен. pxpipe перехватывает запросы к API и рендерит в компактные PNG самые тяжелые части контекста: системный промпт, документацию инструментов и старую историю диалога. Свежие реплики всегда остаются текстом. Запускается прокси одной командой npx, после чего Claude Code достаточно направить на локальный адрес; ответы модели инструмент не трогает вообще.

Подвох в том, что сжатие не без потерь. Модель извлекает из картинок суть, но точные строки может тихо переврать: в тесте с поиском 12-символьных hex-строк внутри «картиночного» контента Opus вернул 0 правильных ответов из 15, причем вместо ошибки выдавал правдоподобное неверное значение. За недели ежедневного использования случился и один реальный сбой: модель уверенно вспомнила имя человека из сжатой истории чата — и ошиблась. Поэтому все, что нужно возвращать байт-в-байт — идентификаторы, хэши, точные числа, — должно оставаться текстом.

Работает инструмент только с Claude Fable 5: изначально автор целился в Opus 4.7/4.8, но тот неверно читал около 7% рендеров, превращая, например, 10200 в 9400. Выгода тоже зависит от нагрузки: на плотном коде и логах прокси выигрывает, а на разреженной английской прозе, где и так выходит около 3,5 символа на токен, превращение в картинку приносит убыток. Встроенный фильтр сам решает по каждому запросу, где математика сходится, и мелкие запросы пропускает без изменений.

На качестве работы агента сжатие, судя по замерам, почти не сказывается. На 10 задачах SWE-bench Lite обе конфигурации решили 10 из 10, при этом с pxpipe запуск обошелся в $27 против $54. На более сложном SWE-bench Pro вышло 14 из 19 против 15 из 19 при экономии 60% на запрос — а единственное расхождение при трех повторных прогонах со сжатием стабильно решалось, то есть исходный провал оказался обычной вариативностью агента, а не следствием картинок. Выборки, впрочем, небольшие, и автор этого не скрывает.

Заявленные 59% экономии — это цифра по всему счету целиком, включая примерно 6 тысяч мелких запросов, которые прокси сознательно не трогал, все операции с кэшем и выходные токены. На одних только сжатых запросах экономия достигает 72%, но автор прямо запрещает выносить эту цифру в заголовки — редкое качество для проекта, который мог бы продавать себя куда агрессивнее.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1055444/