Одна из самых широко используемых техник повышения эффективности моделей AI — квантизация — имеет свои ограничения, и индустрия может быстро приближаться к ним. В контексте AI квантизация означает уменьшение количества битов — наименьших единиц, которые может обрабатывать компьютер, — необходимых для представления информации. Рассмотрим аналогию: когда кто-то спрашивает время, вы, вероятно, скажете «полдень», а не «двенадцать часов, одна секунда и четыре миллисекунды». Это и есть квантизация; оба ответа верны, но один из них немного более точный. Насколько точность действительно нужна, зависит от контекста.
Модели AI состоят из нескольких компонентов, которые можно квантизировать, в частности параметров, внутренних переменных, которые модели используют для прогнозов или принятия решений. Это удобно, учитывая, что модели выполняют миллионы вычислений во время работы. Квантизированные модели с меньшим количеством битов для представления их параметров менее требовательны математически, а следовательно, и вычислительно. (Для ясности, это отличается от «дистилляции», которая является более сложной и избирательной обрезкой параметров.)
Но квантизация может иметь больше компромиссов, чем предполагалось ранее. Постоянно уменьшающаяся модель. Согласно исследованию ученых из Гарварда, Стэнфорда, MIT, Databricks и Carnegie Mellon, квантизированные модели работают хуже, если исходная неквантизированная версия модели обучалась в течение длительного времени на большом объеме данных. Другими словами, в определенный момент может оказаться лучше просто обучить меньшую модель, чем ужимать большую.
Это может означать плохие новости для компаний, занимающихся AI, которые обучают чрезвычайно большие модели, а затем квантизируют их, чтобы сделать их менее дорогими в обслуживании.
Эти эффекты уже проявляются. Несколько месяцев назад разработчики и ученые сообщили, что квантизация модели Llama 3 от Meta* оказалась более вредной по сравнению с другими моделями, возможно, из-за способа ее обучения.
«На мой взгляд, стоимость инференса будет и остается самой высокой для всех в области AI, и наша работа показывает, что один из важных способов ее снижения не будет работать вечно», — сказал студент-математик из Гарварда Таниш Кумар, первый автор статьи.
Вопреки распространенному мнению, инференс моделей AI — выполнение модели, как например, когда ChatGPT отвечает на вопрос — часто обходится дороже в совокупности, чем обучение модели. Например, Google потратил около 191 миллиона долларов на обучение одной из своих флагманских моделей Gemini — определенно значительная сумма. Но если бы компания использовала модель для генерации всего лишь 50-словных ответов на половину всех поисковых запросов Google, она бы потратила примерно 6 миллиардов долларов в год.
Крупные лаборатории AI приняли подход обучения моделей на огромных наборах данных, исходя из предположения, что масштабирование — увеличение объема данных и вычислительных ресурсов, используемых для обучения — приведет к созданию все более способных AI.
Например, Meta* обучила Llama 3 на наборе из 15 триллионов токенов. (Токены представляют собой биты сырых данных; 1 миллион токенов равен примерно 750 000 слов.) Предыдущее поколение, Llama 2, обучалось на «всего лишь» 2 триллионах токенов. В начале декабря Meta выпустила новую модель Llama 3.3 70B, которая, по словам компании, «улучшает основную производительность при значительно более низкой стоимости».
Данные свидетельствуют о том, что масштабирование в конечном итоге приносит убывающую отдачу. Сообщается, что Anthropic и Google недавно обучили огромные модели, которые не оправдали внутренних ожиданий по критериям. Но мало признаков того, что индустрия готова существенно отказаться от этих устоявшихся подходов к масштабированию.
Итак, если лаборатории не готовы обучать модели на меньших наборах данных, есть ли способ сделать модели менее подверженными деградации? Возможно. Кумар говорит, что он и его соавторы обнаружили, что обучение моделей в условиях низкой точности может сделать их более устойчивыми. Потерпите немного, пока мы углубимся в детали.
Точность здесь относится к количеству цифр, которые числовой тип данных может точно представить. Типы данных — это коллекции значений данных, обычно определяемые набором возможных значений и разрешенных операций; например, тип данных FP8 использует всего 8 бит для представления числа с плавающей запятой.
Большинство моделей сегодня обучаются с 16-битной или «полупрецизионной» точностью и «пост-тренировочной квантизацией» до 8-битной точности. Определенные компоненты модели (например, ее параметры) конвертируются в формат с более низкой точностью за счет некоторой точности. Это похоже на выполнение вычислений с несколькими десятичными знаками, а затем округление до ближайшей десятой части, что часто дает лучший из обоих миров.
Производители оборудования, такие как Nvidia, продвигают более низкую точность для квантизированного инференса модели. Новый чип Blackwell от компании поддерживает 4-битную точность, в частности, тип данных FP4; Nvidia представила это как преимущество для центров обработки данных с ограниченными ресурсами памяти и энергии.
Но чрезвычайно низкая точность квантизации может быть нежелательной. По словам Кумара, если исходная модель не является чрезвычайно большой по количеству параметров, точности ниже 7- или 8-бит могут привести к заметному снижению качества.
Если все это кажется немного техническим, не переживайте — так и есть. Но главное заключается в том, что модели AI не полностью понятны, и известные сокращения, которые работают во многих видах вычислений, здесь не работают. Вы бы не сказали «полдень», если бы кто-то спросил, когда они начали 100-метровую гонку, верно? Конечно, не все так очевидно, но идея та же.
«Ключевой момент нашей работы заключается в том, что существуют ограничения, которые нельзя обойти бездумно», — заключил Кумар. «Мы надеемся, что наша работа добавит нюансов в обсуждение, которое часто стремится к все более низким настройкам точности для обучения и инференса».
Кумар признает, что его и его коллег исследование проводилось в относительно небольших масштабах — в будущем они планируют протестировать его на большем количестве моделей. Но он считает, что хотя бы одно наблюдение останется верным: бесплатного обеда, когда речь идет о снижении затрат на инференс, не существует.
«Битная точность имеет значение, и она не бесплатна», — сказал он. «Нельзя снижать ее бесконечно, не ухудшая модели. Модели имеют конечную емкость, поэтому, вместо того чтобы пытаться втиснуть квадриллион токенов в небольшую модель, на мой взгляд, гораздо больше усилий будет направлено на тщательную подготовку и фильтрацию данных, чтобы только самые качественные данные попадали в меньшие модели. Я оптимистично настроен, что новые архитектуры, которые сознательно стремятся сделать обучение в условиях низкой точности стабильным, будут важны в будущем».
*Meta и её продукты (Facebook, Instagram) запрещены на территории Российской Федерации
ссылка на оригинал статьи https://habr.com/ru/articles/869358/
Добавить комментарий