Где живут LLM: разбираем инференс-кластер YADRO и гоняем в нем модели
—
от автора
—
от автора
Привет, Хабр! В этой статье я расскажу про наш LLM инференс-кластер YADRO: зачем он нужен, что у него под капотом и как в такой конфигурации показывают себя популярные модели. Кроме того, я немного порассуждаю об альтернативных реализациях кластера и поделюсь…
—
от автора
Привет, Хабр! Когда Java 8 впервые подарила нам Stream API, мы все обрадовались ленивому функциональному стилю работы с коллекциями. Но хочется иногда большего. Вот, например, задача — пропустить из потока только по одному элементу каждого размера строки. Или разбить бесконечный стрим на окна фиксированного размера и обработать первые…
—
от автора
Всё самое интересное из мира кибербезопасности /** с моими комментариями. 1) Беспрецедентная кибератака на российскую авиакомпанию «Аэрофлот».Генпрокуратура назвала причиной сбоя «Аэрофлота» хакерскую атаку и организовала надзорные мероприятия в связи с отменой рейсов.Ответственность за атаку на себя взяли «Киберпартизаны» и «Silent…
—
от автора
Реальный эффект применения LLM в программировании противоречит прогнозу разработчиков (диаграмма из исследования METR)На фоне общего хайпа вокруг ИИ холодным душем стали июльские результаты исследования тут Model Evaluation & Threat Research</p>» data-abbr=»METR»>METR о том, как LLM замедляют работу опытных разработчиков в…
—
от автора
ВступлениеИногда кажется, что добавление async/await в тесты — это почти «бесплатный способ» сделать их быстрее. Мы ведь знаем, что тесты часто тратят время на ожидание ответов от серверов или UI‑действий, и в голову сразу приходит мысль: «А что, если пока…
—
от автора
Многообразие решений на базе искусственного интеллекта быстро растет — на смену простым чат-ботам и ассистентам приходят автономные ИИ-агенты, способные самостоятельно планировать и выполнять сложные задачи. Согласно последним исследованиям, включая Artificial Intelligence Index Report 2025, уже 78% компаний активно используют ИИ-решения,…
—
от автора
В программировании микроконтроллеров обычно код исполняется из on-chip NOR flash памяти. Да… Отдельная шина для кода и отдельная шина для данных (Гарвардская архитектура). Однако иной раз надо разместить Си-функцию в RAM памяти. То есть реализовать элементы принстонской архитектуры компьютера: код…
—
от автора
Кажется, что большие языковые модели просто созданы для того, чтобы работать в клиентском сервисе. Они умеют анализировать запрос, генерировать короткие и подробные ответы, структурировать и объяснять. Но в большинстве случаев мы все равно недовольны ответами чат-ботов и просим быстрее «перевести…
—
от автора
После пяти лет работы JavaScript-разработчиком, занимаясь как фронтендом, так и бэкендом, я провел последний год, осваивая Go для серверной разработки. За это время мне пришлось переосмыслить многие вещи. Различия в синтаксисе, базовых принципах, подходах к организации кода и, конечно, в…
—
от автора
Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи.Разумеется, позиционные эмбеддинги эволюционировали от абсолютных к…