Нейросетевые модели являются “слепком” информации из интернет из ответов которого разработчики убирают все нежелательное для работы в офисе и проверяющих органов. Цензура у разных моделей проявляется по разному: американские модели “боятся” обидеть пользователя и фильтруют ответы и вопросы на большое количество житейских тем, а китайские в основном на чувствительные для Китая политические темы, Алисы и Гигачаты не ответят вам на запрещенные в России запросы а в последнее время избегают и технических вопросов про сетевые настройки / доступ к информации в интернет. Но что интернационально объеденяет LLM, так это NotSafeForWork фильтр (как говорят на форумах — 99% порно и 1% насилия), отсекающий в ответах вопросы по исходной информации.
И все бы ничего, если в цели не входит обработка, поиск и структурирование любого визуального контента. А в обычной жизни и в интернет не так много единорогов поедающих радугу и производящих из нее бабочек. Облачные сервисы и их API вам с ответами на вопросы по такой информации не помогут, поэтому остается вариант с локальным запуском нейронок.
Для обычных пользователей без опыта в установках и настройках, чтобы запустить на своем компьютере нецензурируемую LLM проще всего использовать Ollama. LMStudio также достаточно простой способ в установке и использовании. Кто-то использует KoboldCpp скачивает и подкладывает ему модели самостоятельно. Более опытные люди используют llama.cpp или vllm запуская в коммандной строке.
Для массовой обработки визуальной информации вам не подойдут обычные abliterated версии мультимодальных моделей, так как нужно четкое следование инструкциям моделью, визуальный энкодер который работает штатно и структурированный вывод информации. А при таком методе снятия с модели цензуры страдает качество ответов, ломается структурированный вывод итп.
Очевидно, что для комфортной производительности (десятки секунд на ответ) при локальном запуске нейросетевых моделей потребуется современный GPU с достаточным для работы объемом видеопамяти. Запускать модель на CPU и ждать ответа десятки минут вам вряд ли захочется.
В этой публикации я рекомендую установить Ollama и скачать одну из моделей:
Для пользовательского интерфейса чата с моделью рекомендую установить OpenWebUI
Мультимодальная qwen2.5vl:7b или qwen2.5vl:32b является наименее цензурированной из современных моделей и не отказывающая в обработке любого NSFW контента, но текст будет очень обтекаемо описывать сцену без подробностей и нецензурных слов. Qwen3VL скромно умолчит и не будет находить на изображении лица попавших под NSFW фильтр, а Gemma4 скорее всего не выдаст вообще никакого ответа по запрошенной схеме.
JoyCaption в отличии от её конкурентов видела многое в своей обучающей выборке, но неплохо отвечает только на английском языке. Обычно ответ на русском у этой модели без смеха и слез не удается прочитать.
Для лучшего качества извлечения признаков и описания медиаконтента для меня работает сочетание цензурированной и нецензурированной модели. Когда ответы и той и этой модели сохраняются в базу данных и позволяют искать запросами по коллекции изображений.
Покажу на примерах как эти модели описывают фотоколлекции.
ссылка на оригинал статьи https://habr.com/ru/articles/1026372/