LLM, персональные данные и 152-ФЗ

от автора

Зачем это вообще

LLM и агенты по типу Codex, Claude Code и т.д. изначально задумывались и использовались для работы с кодом.

Всё больше и больше модели и агенты используются для работы с договорами договорами, таблицами, отвечают на тикеты, разгребают почту, лезут в CRM. А там ФИО, телефоны, ИНН, паспорта. Как только ты отправил такие данные в модель — ты начал обрабатывать персональные данные и попал под 152-ФЗ.

Мы занимаемся внедрением ИИ в операционные, юридические, маркетинговые отделы компании. И это постоянная проблема, с которой нам приходится сталкиваться.

Там куча нюансов. Например:

  • ИНН — персональные данные. Сам по себе, без имени.

  • База, которую легко выгрузить из ЕГРЮЛ, — всё равно твоя зона ответственности.

  • Клиентская база в Google Sheets — нарушение, которое нельзя «дооформить».

  • Галочка «согласен на обработку» при регистрации не закрывает отправку чужих данных в зарубежную модель.

Дальше по порядку: что считается персональными данными, какие правила и наказания, и какие есть варианты у того, кто хочет гонять документы через LLM и не словить штраф. С плюсами, минусами и рабочими схемами.

Сразу оговорюсь: я не юрист. Это разбор для инженеров и продактов, а не юридическая консультация. Перед использованием лучше сверяться с профильным юристом.

Что такое персональные данные

Определение в законе короткое и резиновое. Персональные данные — любая информация, которая прямо или косвенно относится к человеку (ст. 3 152-ФЗ). Закрытого списка нет специально: данные делает персональными не тип, а возможность по ним выйти на конкретного человека.

Удобно делить всё на две группы.

Идентификаторы указывают на человека напрямую: ФИО, телефон, email, паспорт, СНИЛС, ИНН. Это персональные данные всегда.

Признаки человека описывают: должность, образование, город. Сами по себе — не персональные данные. «Инженер с высшим образованием» — таких миллионы. Но рядом с именем или в узкой комбинации признак превращается в персональные данные.

Отдельно про ИНН, потому что это ломает интуицию. ИНН — персональные данные сам по себе, без имени. Это уникальный государственный идентификатор: по нему через открытые сервисы ФНС выходишь на конкретного человека. Та же логика, что с паспортом и СНИЛС. Нюанс: ИНН предпринимателя совпадает с ИНН физлица — это персональные данные. А ИНН компании (ООО) — нет, он про организацию.

Признаки опасны в совокупности. «Выпускник такого-то вуза 2008 года, главный сварщик единственного завода в городе N» — имени нет, а человек определяется однозначно. Это косвенная идентификация. Поэтому вопрос не «какой это тип данных», а «выводит ли это в этом контексте на конкретного человека».

Кроме этого, «Данные из открытого источника» != «можно что угодно». ФИО и ИНН предпринимателей лежат в ЕГРЮЛ, но это всё ещё персональные данные. Реестр открыт для проверки контрагентов, а не для того, чтобы ты собрал из него базу под рассылку. Утечёт такая база — отвечаешь ты, а не ЕГРЮЛ. То, что данные «и так публичные», от штрафа не спасает.

Правила: два уровня требований

Держи в голове картинку из двух уровней. Первый — для всех, кто вообще работает с персональными данными. Второй включается, только если данные уходят за границу.

Первый уровень — общий для всех:

  • Основание обработки (ст. 6). Чтобы законно обрабатывать данные, нужно основание. Для сервиса это обычно не «согласие», а «исполнение договора» с клиентом: человек принял оферту — значит, обрабатывать его данные ради услуги можно без отдельной галочки. Согласие нужно для того, что выходит за рамки услуги: рассылки, передача партнёрам.

  • Договор поручения (ч. 3 ст. 6). Если данные по твоему заданию обрабатывает кто-то ещё (облако, SaaS, модель) — с ним нужен договор поручения. Без него сама передача обработчику уже нарушение, ещё до всякой утечки.

  • Локализация (ч. 5 ст. 18). Первичная запись данных о россиянах должна идти в базу на территории РФ. Нюанс для LLM: вызов модели — это обработка, а не хранение. Если первичная запись у тебя в российской базе, а в модель данные уходят на обработку — локализация не нарушается.

  • Уведомление РКН (ст. 22). Ты оператор — уведоми регулятор, что обрабатываешь ПД.

Второй уровень — только при выходе за границу:

  • Трансграничная передача (ст. 12). Отправка данных в зарубежный сервис — это трансграничная передача. Нужно отдельное уведомление РКН до начала.

  • Адекватность страны. РКН делит страны на «адекватные» и нет (приказ №128). Китай в списке, США — нет. В адекватную можно передавать сразу после уведомления; в неадекватную — только через 10 рабочих дней и если РКН не запретит.

  • Согласие на ТГП. Отдельный документ, не пункт в оферте. С сентября 2025 требования к форме жёстче.

Что будет, если нарушить

После 2024-2025 стало серьёзно.

Штраф за саму обработку с нарушением (ст. 13.11 КоАП) — десятки и сотни тысяч рублей по составам, и они складываются. Передал данные без основания, без договора и без уведомления — это не один штраф, а сумма.

Штраф за утечку (с 30 мая 2025) — отдельная история и считается по объёму: миллионы рублей в зависимости от числа пострадавших, за повторную утечку — оборотный штраф, процент от выручки. Плюс при утечке надо за 24 часа уведомить РКН и за 72 — отдать результаты расследования. Не уведомил — ещё один штраф.

Уголовка (ст. 272.1 УК, с конца 2024) карает незаконный оборот персональных данных, и отдельная часть — про трансграничную передачу, до 8 лет. В основном статья целится в тех, кто торгует ворованными базами. Если данные собраны легально, а ты нарушил процедуру передачи — базовый риск административный. Но при масштабе и систематичности грань размывается, поэтому списывать со счетов нельзя.

Точные суммы и части статей я округляю намеренно. Лучше свериться с актуальной редакцией.

Варианты: куда отправлять данные

Разберём по очереди: зарубеж в лоб, российское облако и своё железо. У каждого одна и та же развилка — данные идут с персоналкой или обезличенными. Обезличивание вынес в отдельную главу ниже, пока считаем, что данные настоящие.

Куда можно отправлять персональные данные в LLM

Куда можно отправлять персональные данные в LLM

Зарубеж в лоб: Claude, OpenAI, DeepSeek

Самый простой в реализации и самый рискованный по закону. Отправляешь данные клиентов прямо в зарубежный API — это трансграничная передача, включается весь верхний уровень. Пройдёмся по требованиям для случая с настоящими персональными данными.

  • Локализация — выполнимо. Первичная запись у тебя в российской базе, в модель уходит копия на обработку. Не нарушено.

  • Уведомление РКН о ТГП — выполнимо. Подаёшь до начала, это процедура.

  • Адекватность страны — как повезёт. Китай (DeepSeek) в списке, передавать можно сразу после уведомления. США (OpenAI, Anthropic, Google) — нет: нужно ждать 10 рабочих дней, ждать не запретят ли.

  • Согласие субъекта на ТГП — сложно, а на чужих данных невыполнимо. Если через модель идут данные самого клиента (он и есть субъект) — согласие взять можно, но не галочкой в оферте: нужен отдельный документ с получателем, страной и целью, его нельзя делать условием доступа, и его могут отозвать. А если в модель попадают данные третьих лиц — клиентов твоего клиента, его сотрудников, контрагентов — согласие за них дать некому. Плюс есть старая база.

  • Договор поручения — невыполнимо. Публичный зарубежный API не подписывает договор по 152-ФЗ и не берёт обязательства российского закона. Это главный стоп, и он не лечится оформлением.

Главная проблема — договор поручения: публичный API его не даёт, и обойти нельзя. Поэтому с настоящими персональными данными путь не «рискованный», а нелегальный. Единственный вариант – обезличивание. Про него дальше.

  • Плюс: лучшие модели, минимум возни.

  • Минус: с персональными данными это прямое нарушение, которое нельзя закрыть оформлением.

Российское облако

Данные не покидают страну — весь верхний уровень отпадает: ни трансграничной передачи, ни согласия на неё, ни уведомления о ней. Остаётся только первый уровень, и он выполним.

  • Договор поручения — выполнимо. Российское облако его даёт, обычно прямо в оферте.

  • Локализация — выполнимо. Обработка и так в РФ.

  • Основание обработки — выполнимо. Обычно «исполнение договора» с клиентом.

Дальше — два подвида.

Российские модели — YandexGPT, GigaChat. Развилка простая: пускает ли сервис персональные данные. Yandex Cloud заключает договор поручения и разрешает слать ПД, есть аттестация. GigaChat в своих условиях прямо запрещает отправлять персональные данные в запросах — значит, ему только обезличенное.

Чужая open-source модель в РФ-облаке — DeepSeek, Qwen например на Yandex Cloud. Раз обработка идёт на серверах в России, а договор поручения у тебя с российским облаком — трансграничной передачи нет. «Китайская модель» здесь не равно «данные ушли в Китай».

  • Плюс: легальный путь для настоящих персональных данных, без верхнего уровня.

  • Минус: модели слабее топовых зарубежных; нужно проверить договор и аттестацию провайдера.

Своё железо

Модель крутится в твоём закрытом контуре, наружу ничего не уходит. Выполнять почти нечего из «трудного».

  • Трансграничная передача — не применяется. Границы нет.

  • Договор поручения — не нужен. Нет третьего лица: обработчик это ты сам.

  • Локализация — выполняется сама. Всё в твоём контуре в РФ.

  • Базовое остаётся: уведомление РКН (ст. 22) и меры защиты — это твоя зона.

Эталон для самого чувствительного.

  • Плюс: максимальный контроль, минимальный юридический риск.

  • Минус: нужны GPU и эксплуатация; локальные модели слабее облачных топов.

Обезличивание: главный приём

Самое лучшее — сделать так, чтобы в модель уходили вообще не персональные данные. Нет персоналки — нет ни трансграничной передачи, ни договора поручения, ни согласия, ни локализации. Все проблема из прошлых разделов отваливаются разом. Именно это, а не «согласие» и не «договор», открывает легальный путь к топовым зарубежным моделям.

Идея простая: перед отправкой в модель находим в тексте персональные данные и заменяем их на заглушки. «Иван Петров, ИНН 770…» превращается в «NAME, INN». Модель работает с обезличенным текстом, а реальные значения подставляются обратно уже в ответе.

Но весь вопрос в том, насколько это «обезличивание» обратимо.

Обезличивание против псевдонимизации

Закон проводит черту (ст. 3 п. 9, плюс приказ РКН №140 с сентября 2025). Данные обезличены, только если без отдельного ключа восстановить личность нельзя — и этого ключа у получателя нет. Если ключ где-то лежит и связь восстановима — это псевдонимизация, а псевдонимизированные данные остаются персональными.

Поэтому важно не «заменили или нет», а что за заглушка и где живёт ключ. Тут есть спектр.

Стабильный токен из базы — худший случай. Если «Иван Петров» всегда превращается в user_8842, а где-то хранится таблица «user_8842 = Иван» — это псевдоним. Мало того что ключ хранится, так ещё и сам токен становится идентификатором: по нему можно связывать запросы и копить профиль. Это персональные данные.

Эфемерная generic-замена — лучший случай. Заглушка не уникальна: имя становится просто NAME, СНИЛС — SNILS, и так у всех. NAME для Вани и для Саши — одно и то же, в нём ноль информации о человеке. Маппинг «заглушка → оригинал» живёт только в оперативной памяти на время одного запроса, в РФ, и стирается после ответа. Получатель за границей видит обезличенный текст и физически не может восстановить, кто это.

Разница принципиальная. Стабильный токен — псевдоним, по которому человека опознают. Generic-заглушка ближе к зачёркиванию: «здесь было имя». Поэтому эфемерный режим — единственный, где можно всерьёз спорить, что за границу ушли не персональные данные.

Важная оговорка: Российская практика по такому маскированию пока не сложилась и возникает вопрос в интерпретации того или иного решения от регулятора.

Чего маскирование не лечит

Даже идеальная замена прямых идентификаторов оставляет две дыры.

Контекст. Детектор вычищает имена, телефоны, номера — но не текст вокруг. «NAME, главный сварщик единственного завода в городе N, оборот SNILS» — все прямые данные скрыты, а человек опознаётся по описанию. Это косвенная идентификация, и она уезжает за границу в открытом виде.

Пропуски. Поиск персональных данных в русском тексте не идеален: имя в редком падеже, нестандартный формат, опечатка — и заглушка не поставилась. Каждый пропуск — реальные персональные данные наружу.

Как маскировать?

Есть 2 варианта: у себя в контуре или на стороне облачного прокси-посредника.

Свой контур. Ставишь детектор персональных данных перед вызовом модели. Оригиналы, карта замен и ключ не покидают периметр — наружу уходит уже обезличенный текст. Бонус — полный контроль: сам крутишь пороги, ловишь сомнительное, держишь поведение fail-closed (детектор не сработал или упал — запрос не уходит) и блокируешь не только персоналку, но и коммерческую тайну.

Из чего собрать. Базовый каркас на опенсорсе — Microsoft Presidio (находит и заменяет сущности) плюс русский NER для имён и организаций (Natasha, DeepPavlov или spaCy). Но из коробки ни один западный инструмент не знает российских идентификаторов — СНИЛС, ИНН, ОГРН, паспорт. Их добавляешь сам. Для структурированных номеров это надёжно: у СНИЛС, ИНН, ОГРН есть контрольные суммы, и regex плюс проверка контрольного числа дают почти нулевой процент ошибок. Слабое звено — имена и организации: русский NER ловит их вероятностно, отсюда и нужен fail-closed.

Это не коробка, а сборка: распознаватели написать, NER подобрать, пороги настроить. Зато всё под твоим контролем.

Облачный прокси-посредник. Сервисы вроде KodikRouter, ProxyAPI, Jay Guard встают между тобой и зарубежной моделью и маскируют на лету. Удобно и быстро, но есть важная развилка.

Важно чтобы посредник реально обезличивал а не просто проксировал. Если посредник реально вычищает персоналку до границы — ок. Если просто проксирует сырые данные, это тот же «зарубеж в лоб», только через российское юрлицо: договор поручения с посредником есть, но конечный OpenAI его всё равно не подписывал, и дыра на месте.

Итого

Сводим всё в один принцип — маршрут по тому, есть ли в запросе персональные данные.

  • Нет персональных данных или они обезличены — можно куда угодно, включая топовые зарубежные модели. Самый качественный и при этом легальный путь.

  • Есть настоящие персональные данные — только российский контур: российское облако с договором поручения или своё железо. Зарубеж в лоб закрыт.

  • Особо чувствительное (здоровье, тайны, большие объёмы) — своё железо или изолированный контур, без внешних API вообще.


Если хотите разбираться глубже в том, как использовать LLM и AI-агентов в продуктивности, работе, бизнесе и повседневной жизни — подписывайтесь на наш Telegram-канал “Вкалывают роботы”.

ссылка на оригинал статьи https://habr.com/ru/articles/1048334/