Иллюзия безопасности, или как ваши сотрудники прямо сейчас обучают конкурентов

По традиции здесь должна быть баннерная картинка, сгенерированная очередной нейросетью, но если уж я решил поделиться своими наблюдениями о том, что нейросетям не стоит доверять бездумно, начинать статью с этого было бы как минимум странно. Заодно глаза отдохнут.

Интеграция облачных нейросетей давно стала негласным стандартом корпоративной культуры. Разработчики закрывают задачи в трекере при помощи ИИ, аналитики скармливают ему сырые внутренние данные для отчетов, менеджеры просят написать красивую презентацию для инвесторов, а инженеры делятся описанием внутренних технологических процессов, вплоть до рецептов и составов смесей. Все радуются невероятному ускорению рабочих процессов. Но за этой эйфорией скрывается критическая уязвимость, о которой предпочитают молчать: вы собственными руками берете главный конкурентный актив компании и отдаете его в открытый мир.

Каждый раз, когда сотрудник просит облачный чат сделать что-то на основе данных компании, будь то создание презентации или рефакторинг логики в коде, происходит неявная передача знаний. Нейросеть суммирует суть ваших уникальных решений, впитывает контекст ваших задач, и где гарантия, что этот контекст останется только вашим? Формально провайдеры обещают не использовать данные из чата для обучения, но, как мы увидим дальше, обещания в этой индустрии держатся ровно до тех пор, пока не появляется достаточно веская причина их нарушить.

Я осознал масштаб этой проблемы на собственном опыте. На одном из проектов мне потребовалась сильно оптимизированная реализация GLV (Gallant Lambert Vanstone) для расчетов на видеокартах с использованием Nvidia CUDA C++. Базовые алгоритмы в сети есть всегда, но оптимизации под конкретную архитектуру не существовало в природе. Ни одна из топовых нейросетей, включая признанных лидеров рынка, не смогла предложить ничего вменяемого просто потому, что подобных решений не было в их обучающих выборках.

Пришлось закатать рукава и писать математику с нуля. Это была сложная исследовательская работа. Когда ядро было готово, я решил сэкономить время и начал активно использовать облачные сети для финальной доводки мелких блоков логики, отправляя туда фрагменты кода для рутинных правок. Каково же было мое удивление, когда через некоторое время вышла новая версия Claude Sonnet, я зашел в свежий аккаунт с абсолютно чистой историей и просто ради проверки возможностей новой модели попросил решить мою изначальную задачу. Sonnet без малейших запинок выдал мне мое же выстраданное решение. Спустя ещё какое-то время похожий результат показал и Gemini. Не берусь утверждать это как доказанный факт: совпадение вполне может объясняться и тем, что моя задача оказалась не такой уникальной, как мне казалось, но осадок остался, и он подтолкнул меня копнуть глубже, а именно узнать, что вообще известно о том, как крупные лаборатории обращаются с чужими данными и чужой интеллектуальной собственностью.

И тут выясняется любопытная симметрия: правила в этой индустрии не соблюдает практически никто, когда на кону оказываются достаточно ценные данные, причём в обе стороны.

С одной стороны, Anthropic скачал свыше 7 миллионов книг с пиратских библиотек LibGen и PiLiMi для обучения Claude, попался, и в итоге согласился заплатить 1,5 миллиарда долларов и уничтожить пиратский датасет. Компания не отбилась в суде, не отделалась опровержением, а прямо признала факт и заплатила один из крупнейших чеков в истории копирайтных исков. Это тот случай, когда даже строчка в пользовательском соглашении о правах на контент ничего не гарантирует: обязательства нарушались на уровне датасета для базовой модели, причём той самой компанией, которая должна была эти права соблюдать.

С другой стороны, ровно та же готовность обходить правила проявляется и у тех, кто пытается получить выгоду за счёт самой Anthropic. 30 июня пользователь Reddit опубликовал результаты разбора Claude Code и обнаружил, что начиная с апреля 2026 года в инструмент был встроен скрытый, зашифрованный XOR-обфускацией механизм: он считывал системную временную зону и проверял адреса прокси на признаки принадлежности к Китаю, а при совпадении незаметно подменял в системном промпте формат даты и один символ на визуально неотличимый, но другой юникод-символ, после чего эта помеченная версия промпта уходила на серверы Anthropic вместе с обычным запросом, то есть работала как скрытая метка для последующего опознания.

Инженер Claude Code публично назвал это экспериментом против дистилляции и злоупотреблений со стороны неавторизованных реселлеров и подтвердил, что механизм уже готовили к удалению. По собственным заявлениям Anthropic, только за период с 22 апреля по 5 июня 2026 года операторы, связанные с Alibaba Qwen, прогнали через Claude около 25 тысяч фейковых аккаунтов и почти 29 миллионов диалогов, а несколькими месяцами ранее компания предъявляла похожие обвинения DeepSeek, Moonshot AI и MiniMax. Alibaba в ответ расценила находку как шпионаж и временно запретила сотрудникам использовать Claude Code.

Объединяет эти два случая одно: как только на кону оказываются данные или модель, представляющие реальную коммерческую ценность, соглашения и заявленные политики перестают быть барьером, причём работает это в обе стороны. Anthropic сама нарушила обязательства перед авторами ради обучающих данных. А когда чужие модели пытаются нарастить свои возможности за счёт вывода Claude, та же Anthropic реагирует зеркально: тайно встраивает механизм слежки в обход собственных публичных заявлений о прозрачности. Ни одна из сторон этого конфликта не играет по написанным правилам, если игра не по правилам выгоднее.

Если крупные игроки не соблюдают договорённости даже между собой, в схватке, где у каждой стороны есть юристы, пресс-служба и репутационные риски, тем более наивно рассчитывать, что галочка в пользовательском соглашении защитит именно ваши корпоративные данные, которые вы сами, добровольно, каждый день заливаете в чат.

Все это лишь верхушка айсберга, но очевидно, что удобство использования облачных моделей имеет огромную отложенную цену. Ваша интеллектуальная собственность может в любой момент оказаться разменной монетой в этой войне интересов, где вы не сторона конфликта, а просто источник сырья. Бизнес по всему миру уже начал понимать, что для сохранения технологического преимущества единственный надежный путь заключается в полной изоляции экспертизы.

Решается эта проблема созданием закрытых контуров. Вместо публичных чатов нужно брать открытые веса и проводить дообучение модели исключительно на внутренней кодовой базе. Требуется разворачивать собственные RAG-системы, которые ищут ответы по внутренней документации без малейшего доступа во внешний интернет. Важно интегрировать автономные модели прямо в IDE разработчиков и связывать их с внутренними репозиториями и корпоративными трекерами. При таком подходе модель видит весь контекст проекта, но ни один байт информации не покидает физические серверы компании.

Здесь и проявляется главная сложность закрытых контуров: в них используются модели куда меньшего размера, чем облачные модели общего назначения. Попытка просто взять веса и построить на их основе контур ведет в никуда. Модель обязательно нужно дообучать под специфику использования, а это нетривиальная задача, с которой не справится никакой вайбкодинг по принципу «помоги дообучить модель под…».

Построение подобных защищенных систем требует специфической инженерной квалификации и глубокого понимания архитектуры. Правильно дообученные модели в своем домене показывают такие же, а порой и лучшие результаты, чем огромные облачные модели общего назначения, причем домены могут быть совершенно разными: от приведения первичных документов в строгий формат, компьютерного зрения и информационных систем предприятия до автономных ассистентов для инженеров и рефакторинга кода. Из моей практики, почти любую бизнес-задачу можно решить дообучением моделей размером от 30B до 80B параметров. Если задача не решается таким подходом, то и облачная модель с ней не справится, а само решение лежит вне области машинного обучения.

И здесь стоит закрыть последний открытый вопрос: да, такая автоматизация стоит дороже и дольше внедряется, чем облачная подписка, но правильно сделанная автоматизация окупается всегда, просто на горизонте не одного месяца, а нескольких лет владения технологией, а не арендой чужой.

Завершая свою мысль, отмечу главное: корпоративный ИИ в закрытом контуре уже не экзотика, а суровая необходимость. Я профессионально занимаюсь проектированием и внедрением именно таких, полностью изолированных on-prem AI-решений. На практике я вижу, как интеграция автономных моделей без привязки к внешним провайдерам меняет процессы внутри компаний, сохраняя при этом их главные секреты. Перенос экспертизы в закрытый контур требует глубокого погружения в архитектуру и качественного дообучения моделей, но результат всегда окупает вложенные усилия. Если тема вам близка, вы ищете оптимальный подход к безопасному внедрению ML в ваши процессы или просто есть свои мысли на эту тему, то пишите комментарии, с удовольствием обсудим детали.

ссылка на оригинал статьи https://habr.com/ru/articles/1055586/