От Кремниевой долины к техно-фашизму: почему облачные LLM — это ловушка, и как я собрал свой локальный ИИ на коленке

Предисловие: точка невозврата

Всё началось с неприятного ощущения, которое нарастало постепенно. Я, как и многие разработчики, активно использую Claude, ChatGPT и Gemini в повседневной работе. Эти инструменты стали частью моего профессионального арсенала — как IDE или Git. Но в какой-то момент я поймал себя на мысли: а что будет, когда это закончится?

Не в смысле «закончится хайп» — нет, ИИ никуда не денется. Закончится дешёвый и доступный ИИ. Закончится возможность отправлять свой код в чёрный ящик, не думая о последствиях. Закончится иллюзия, что мы, разработчики, — равноправные пользователи, а не сырьё для обучения следующих моделей.

Я прочитал несколько книг, которые перевернули моё представление о Кремниевой долине и о том, куда движется индустрия. И понял: история с супердешёвым ИИ в кармане в виде чатов типа Claude, ChatGPT и Gemini рано или поздно кончится чем-то не очень хорошим. Причём для всех нас.

Часть первая. Идеологический фундамент: что на самом деле строят в Кремниевой долине

Книга первая: «The Code» — государство как стартап-акселератор

Маргарет О’Мара в своей книге «The Code: Silicon Valley and the Remaking of America» (2019) проделала колоссальную работу. Она работала в администрации Клинтона в первые дни коммерческого интернета и увидела изнутри, как глубоко Кремниевая долина была переплетена с федеральным правительством.

О’Мара показывает, что история успеха Кремниевой долины — это не история одиноких гениев-предпринимателей, а история мощных институтов, создавших фундамент для инноваций: от Пентагона до Стэнфордского университета. ARPANET, первые микропроцессоры, интернет-протоколы — всё это финансировалось государством. Сообщество, которое начиналось как однородное и тесно связанное, сохранило эту закрытость, а его вера в собственную мифологию (мы — свободные гении, мы — disruptors) переросла в коллективную гордыню, которая привела как к триумфам, так и к разрушительным последствиям.

Ключевая мысль: Кремниевая долина обязана своим существованием государству. Это не история свободного рынка — это история государственно-частного партнёрства, которое создало технологическую элиту. И эта элита никогда не забывала, кто платит за их игрушки.

Книга вторая: «The Technological Republic» — моральный долг и милитаризация

В 2025 году вышла книга «The Technological Republic: Hard Power, Weak Faith, and the Future of the West» за авторством Алекса Карпа (генерального директора Palantir) и Николаса Замиски. И вот здесь становится по-настоящему тревожно.

Карп открыто заявляет: Кремниевая долина должна «вернуть моральный долг» государству и принять участие в защите нации. Инженерная элита, по его словам, обязана не только участвовать в обороне, но и «формулировать национальную идею — что такое эта страна, каковы наши ценности и за что мы стоим».

Вот что ещё он пишет в своей книге (и это уже звучит совсем иначе, чем просто «технологии для блага»):

«Послевоенная кастрация Германии и Японии должна быть отменена. Разоружение Германии было чрезмерной коррекцией, за которую Европа теперь платит высокую цену. Аналогичная и весьма театральная приверженность японскому пацифизму, если её сохранить, также угрожает сместить баланс сил в Азии».

Перевод с языка дипломатии: Карп предлагает перевооружить Германию и Японию. И это не просто слова — это прямой экономический интерес Palantir, потому что половина доходов компании уже идёт от контрактов с правительствами США и их союзников.

Карп также пишет, что эпоха ядерного сдерживания уходит, а на её место приходит сдерживание на основе ИИ:

«Мы строим программное обеспечение, которое может стать оружием массового поражения. Потенциальная интеграция ИИ с вооружениями создаёт риски, особенно если программы обретут самосознание и собственные намерения. Но призыв остановить разработку ошибочен. Наши противники не будут тратить время на театральные дебаты о достоинствах разработки технологий, стратегически важных для военной безопасности».

Palantir, компания Карпа, уже поставляет свой ИИ-продукт израильской армии, который, по данным критиков, помогает генерировать «списки на уничтожение» в Газе.

И это не просто один чудак

Карп — не маргинал. Он один из самых влиятельных людей в технологической индустрии США. Публицист Оливье Теске в книге «Apocalypse Nerds» прямо называет это «техно-фашизмом» — «реакционным модернизмом», который использует инструменты технологической современности для борьбы с политической современностью.

Влияние этой идеологии уже очевидно. Карп инвестировал 1 миллион долларов в инаугурацию Трампа, а Palantir работает с ICE над программами массовой депортации. Его компания помогает администрации собирать огромные объёмы данных об американцах, что даёт президенту «невиданную силу слежки».

Исследовательский центр AI Now Institute отмечает: сегодня федеральное правительство и крупнейшие технологические компании, строящие ИИ, заключают эксклюзивные контракты, чтобы сохранить власть в руках немногих игроков. OpenAI, Oracle и Meta добиваются долгосрочных партнёрств с администрацией Трампа для строительства дата-центров и расширения своих рынков.

Часть вторая. Рынок облачных LLM: как это выглядит в 2026 году

Теперь соединим эти факты с тем, что происходит на рынке облачных LLM.

Хроника событий (лето 2026):

Дата	Событие
8 июля 2026	Anthropic вводит KYC для Claude — нужно загружать паспорт и делать селфи
Июль 2026	Облачные ИИ-сервисы резко подорожали
Август 2026	Copilot Pro повышает мультипликаторы: Claude Opus — с 3x до 27x, Sonnet — с 1x до 9x
Август 2026	Бесплатный GPT-4o перестаёт быть таковым

Почему это происходит?

Карп и его единомышленники не скрывают, что видят свою миссию в контроле над ИИ-инфраструктурой. Они не будут продавать вам дешёвый ИИ — они будут собирать ваши данные, чтобы обучать свои модели и укреплять свою власть. Субсидирование подписок и дешёвый доступ к ИИ — это просто способ собрать данные и нарастить модели, пока они не станут достаточно мощными, чтобы полностью контролировать информационное пространство.

Исследователи из AI Now прямо пишут: администрация США не заинтересована в децентрализации власти в экосистеме ИИ. Напротив, они консолидируют её, «всё за счёт конкуренции, пользовательского опыта и потенциального роста малых ИИ-фирм».

Вывод для разработчика:

Облачный ИИ станет либо дорогим, либо потребует полной идентификации, либо и то и другое.
Данные, которые мы отправляем в эти сервисы, используются не просто для улучшения продукта — они становятся частью инфраструктуры, которая, как говорит Карп, должна служить «защите нации».
Цены будут расти, а доступ для частных пользователей — сужаться.

Работодатели и заказчики уже ждут от вас производительности, как будто вы используете лучший ИИ. Мы уже не можем просто отказаться от ИИ — слишком высокая цена проигрыша в продуктивности. Но мы можем выбирать, какой ИИ использовать: облачный, контролируемый корпорациями, или локальный, принадлежащий нам.

Часть третья. Моё приключение с локальным ИИ: хардкорный гайд

И я решил: пора разбираться, что можно сделать своими руками. Для эксперимента я взял свой домашний компьютер и настроил его для работы с локальными ИИ-моделями. Весь процесс я задокументировал.

Железо

Компонент	Модель	Примечание
Процессор	Intel Core i9-14900HX	16 ядер / 24 потока
Оперативная память	32 ГБ DDR5	Для 27B модели в 2-bit квантизации хватило впритык
Видеокарта	NVIDIA GeForce RTX 4060	8 ГБ VRAM — узкое горлышко
ОС	Linux Mint 22	Свежая установка, X11

Глава первая: ад с драйверами NVIDIA

Это была самая нервная часть. В Linux Mint драйвер NVIDIA (версия 550) отказывался работать из-за Secure Boot. Ошибка «Key was rejected by service» преследовала меня несколько дней.

Решение:

Установить драйвер через apt (не через .run файл!)
Перезагрузиться, попасть в MOK (Machine Owner Key) менеджер
Выбрать “Enroll MOK” → “Continue” → “Yes” → ввести пароль
Подписать драйвер цифровым ключом прямо на синем экране при загрузке
Profit

После этого nvidia-smi наконец показал заветную карту, а не сообщение о том, что драйвер не загружен.

Глава вторая: выбор модели

Поскольку я стал увлекаться смарт-контрактами и аудитом Solidity-кода, мне нужна была модель с глубоким пониманием этого языка.

Перебор вариантов:

Модель	Размер	Качество по Solidity	Что получилось
Qwen 2.5-Coder 7B	7B	Среднее	Влезает в VRAM, 35–45 ток/с
DeepSeek-Coder 6.7B	6.7B	Хорошее	Влезает, но хуже понимает контекст
Qwen 3.6 Solidity 27B (IQ3)	27B	Отличное (5 этапов обучения на Solidity)	Не влезает в 8 ГБ → CPU+RAM, 0.5–2 ток/с

Что такое IQ3 (квантизация)?

В двух словах: квантизация — это сжатие весов модели с плавающей запятой (FP16/BF16) до целочисленных форматов (INT8, INT4, даже INT2). Это позволяет хранить модель в меньшем объёме памяти, но за счёт потери точности.

Для 27B модели я использовал 2-битную квантизацию (IQ2_XS). Почему?

В 8 ГБ VRAM модель не влезает даже в 4-bit (требует ~13 ГБ)
В 2-bit она занимает около 7 ГБ, но на моей карте остаётся место только для контекста
В итоге я запускал её на CPU + RAM, а VRAM использовал для небольших моделей

Итоговый выбор для повседневной работы:

Основная модель: qwen2.5-coder:7b — 35–45 токенов в секунду на GPU, отличная для автодополнения и простых задач
Для сложного аудита: batai/qwen3.6-27b:iq3 — медленно, но глубоко. Запускаю на CPU, когда нужен тщательный разбор

Глава третья: инструментарий

Ollama — самый простой способ запускать локальные модели. Установка через curl, запуск через ollama run <model>.

Но для реальной работы я использую связку Ollama + Continue в VS Code.

Настройка ~/.continue/config.json:

{  "models": [    {      "title": "Qwen Coder 7B (быстрый)",      "provider": "ollama",      "model": "qwen2.5-coder:7b"    },    {      "title": "Qwen 27B Solidity (медленный, но умный)",      "provider": "ollama",      "model": "batai/qwen3.6-27b:iq3"    }  ]}

Схема работы:

Автодополнение кода и быстрые вопросы → 7B модель на GPU
Аудит смарт-контракта, рефакторинг, сложная логика → 27B модель на CPU (терпение, 2–3 минуты на ответ)

Глава четвёртая: тест-драйв

Я дал локальной модели реальную задачу: написать сложный смарт-контракт с аукционом, защищённым от повторного входа (reentrancy).

Вот что выдала модель (я привожу полный код, чтобы было видно качество):

// SPDX-License-Identifier: MITpragma solidity ^0.8.17;import "@openzeppelin/contracts/security/ReentrancyGuard.sol";import "@openzeppelin/contracts/access/Ownable.sol";contract SecureAuction is ReentrancyGuard, Ownable {    uint256 public endBlock;    uint256 public highestBid;    address public highestBidder;    mapping(address => uint256) public pendingReturns;    event NewHighestBid(address indexed bidder, uint256 amount);    event AuctionEnded(address winner, uint256 amount);    constructor(uint256 _duration) {        endBlock = block.number + _duration;    }    function bid() external payable nonReentrant {        require(block.number < endBlock, "Auction already ended");        require(msg.value > highestBid, "Bid too low");        if (highestBidder != address(0)) {            pendingReturns[highestBidder] += highestBid;        }        highestBid = msg.value;        highestBidder = msg.sender;        emit NewHighestBid(msg.sender, msg.value);    }    function withdraw() external nonReentrant returns (bool) {        uint256 amount = pendingReturns[msg.sender];        require(amount > 0, "Nothing to withdraw");        pendingReturns[msg.sender] = 0;        (bool success, ) = msg.sender.call{value: amount}("");        require(success, "Transfer failed");        return success;    }    function endAuction() external onlyOwner {        require(block.number >= endBlock, "Auction not ended");        payable(owner()).transfer(address(this).balance);        emit AuctionEnded(highestBidder, highestBid);    }}

Качество кода:

Использован ReentrancyGuard — защита от повторного входа
Паттерн Checks-Effects-Interactions соблюдён (сначала обновляем состояние, потом делаем внешний вызов)
Использованы events для прозрачности
Функция withdraw реализована по принципу pull-over-push (безопаснее)

Для модели, которая бежит на CPU с 2 токенами в секунду, это впечатляющий результат. Да, она медленнее ChatGPT. Но она моя.

Часть четвёртая. Сравнительная таблица: облако vs локальный ИИ

Параметр	Облачные LLM (Claude/GPT)	Локальный ИИ (мой сетуп)
Цена	$20–60/мес + плата за токены	0 (разовое железо)
Скорость	50–100 ток/с	0.5–45 ток/с (зависит от модели)
Конфиденциальность	Данные уходят в облако	Данные остаются на вашем диске
KYC	Требуется паспорт (с 2026)	Не требуется
Зависимость	От сервиса и интернета	От вашего железа
Контроль модели	Нулевой	Полный (выбираете любую модель)
Актуальность	Всегда последняя версия	Вы сами решаете, когда обновлять
Сложность настройки	5 минут на регистрацию	От нескольких часов до нескольких дней

Часть пятая. Что я понял в итоге

1. Локальный ИИ — это суверенитет. И это главное. Модель — это просто файл (в случае Ollama — несколько гигабайт), который действительно принадлежит вам. Вы не отправляете свой код в чужой дата-центр, где он может быть использован для обучения следующей версии модели.

2. Навык настройки становится конкурентным преимуществом. В условиях, когда облачные провайдеры меняют правила игры в одностороннем порядке (вспомните повышение мультипликаторов Copilot Pro), умение развернуть собственную инфраструктуру становится активом, который ценится не меньше, чем знание фреймворка.

3. Технологическая элита не на нашей стороне. Карп, Тиль и их единомышленники не скрывают — они строят инфраструктуру для государства, а не для нас. Их ИИ — это оружие и инструмент контроля. Наша задача — создать свои инструменты, которые не требуют ни паспорта, ни подписки, ни отправки данных в систему, которая может быть использована против нас.

4. Качество локальных моделей уже достаточно для работы. Мой опыт с Qwen показал: для рутинных задач (написание кода, рефакторинг, объяснение сложных концепций) локальные модели дают результат, сравнимый с облачными. Да, медленнее. Но не хуже.

Заключение: что дальше?

Мой эксперимент показал: локальный ИИ на типичном домашнем компьютере — это реально. Он работает, даёт качественный код (хоть и медленнее облачных аналогов) и не требует ни паспорта, ни дорогого тарифа.

Конечно, это не серебряная пуля. Для быстрого прототипирования облачные сервисы всё ещё удобнее. Но когда речь заходит о работе с чувствительными данными или о долгосрочной стратегии — локальные модели выходят на первый план.

Рано или поздно каждый разработчик окажется перед выбором: оставаться в облачной экосистеме, которая всё больше напоминает инструмент государственного контроля, или обрести цифровой суверенитет.

Я свой выбор сделал. И, судя по всему, не жалею.

Что можно сделать прямо сейчас (чек-лист)

Поставьте Ollama — curl -fsSL https://ollama.com/install.sh | sh
Скачайте модель — ollama pull qwen2.5-coder:7b
Установите Continue в VS Code — бесплатный плагин
Настройте конфиг — укажите модели в ~/.continue/config.json
Попробуйте — напишите простую функцию и попросите модель её улучшить

Для сложных моделей (27B+):

Убедитесь, что у вас > 32 ГБ RAM — иначе модель просто не запустится
Используйте квантизацию — :q4_0 или :iq3 суффиксы при pull
Будьте готовы к скорости 1–2 ток/с — это нормально для экспертных моделей

Вместо послесловия

Когда я писал эту статью, я снова запустил Qwen 27B на CPU и попросил её объяснить, как работает механизм MOK в Linux. Модель выдала подробный ответ, включая историю возникновения Secure Boot и архитектурные решения UEFI. Через 4 минуты.

Это медленно. Но это мой медленный ИИ. Мой. И он не требует моего паспорта.

P.S. Если у вас есть вопросы по настройке или вы нашли более эффективную конфигурацию — пишите в комментарии, обсудим. Мы все сейчас учимся жить в мире, где ИИ становится не просто инструментом, а полем битвы за контроль над данными.

ссылка на оригинал статьи https://habr.com/ru/articles/1049870/