История ИИ на пальцах — от перцептрона до GPT-4o

Введение

История развития области искусственного интеллекта — невероятно захватывающая тема. Как из первых, довольно робких идей, которые часто подвергались критике, выросли технологии, меняющие наш мир прямо сейчас? Об этом пути – от почти механических предков ИИ до современных моделей вроде ChatGPT/Claude/Gemini/Grok и других, способных вести осмысленный диалог – я и хочу рассказать.

Это не будет скушняцкий научный трактат, изложение фактов или лекция, а скорее взгляд со стороны человека, которому самому это все супер интересно — взгляд на ключевые вехи, прорывы и интересные моменты этой удивительной истории. Я собираюсь не просто пройтись по истории, но и на пальцах объяснить (вот как сам разобрался — так и расскажу) — как оно все работало. Возможно, без огромной технической глубины — зато интересно и с понятными примерами. Мы с вами получим представление о том, как оно было – от допотопного перцептрона до последних современных моделей-трансформеров. Посмотрим, как это работало, удивимся прорывам и попробуем заглянуть – что там за горизонтом (хотя, конечно, с AI-2027 мне тягаться бесполезно).

Поехали!

Глава 1: Дедушка ИИ – Перцептрон и большие надежды

Итак, представьте: конец 50-х. Элвис качает бедрами, Гагарин еще не полетел в космос, а компьютеры – это огромные, гудящие шкафы, занимающие целые комнаты и питающиеся перфокартами — никто особо ничего про них не знает. И вот на фоне всего этого появляется Фрэнк Розенблатт, психолог и мечтатель, который строит… перцептрон.

Примерно как звучит его название — так он и выглядел. Это была настоящая железяка в самом брутальном смысле слова. Представьте себе стойку размером с холодильник, всю в проводах, гудящую и мигающую лампочками. Внутри – не микросхемы, а хитросплетение всяких проводов и тумблеров, похожее на старую телефонную станцию, какие-то ряды электромеханических реле, которые щелкали при работе, и потенциометры-резисторы, хранящие «веса», которые перцептрон настраивал при обучении. Ко всей этой машине был подключен специальный «глаз» – матрица из фотоэлементов, каждый размером примерно с монету. Цель всего этого монстра: научить его распознавать образы, как человек (ну или хотя бы попытаться).

Как он «видел»?

Представьте его «глаз» как простую сетку 20×20 ячеек (вот вам и 400 фотоэлементов). Эту сетку как бы «накладывали» на картинку, которую показывали перцептрону.

Дальше каждый фотоэлемент смотрел на свой маленький квадратик картинки:

Если квадратик был светлым — фотоэлемент «загорался» (ДА, или 1)
Если квадратик был темным – фотоэлемент оставался «потухшим» (НЕТ, или 0)

В итоге, перцептрон получал на вход мозаику из нулей и единиц – упрощенный «слепок» картинки.

«Так это же просто сложный If-Else?» — подумал я сначала. Но, на самом деле, не совсем так. На выходе перцептрон действительно делал простой выбор: ДА (1) или НЕТ (0). Очень похоже на if-else, но разница на самом деле ключевая: в if-else программист сам прописывает все условия «ЕСЛИ (фотоэлемент_5=1 И фотоэлемент_12=0) ТОГДА это А». Человек заранее решает, что важно — по жестким правилам.

В перцептроне же заранее прописанного правила нет. Есть только входящие данные (нули и единицы от фотоэлементов), настраиваемые веса (важность входящих данных) и настраиваемый порог (планка для принятия решения — ДА или НЕТ). Ну и перцептрон просто считал сумму: Сумма = Сигнал_входа * Вес_входа. Если эта сумма оказывалась больше порога, он говорил ДА, иначе — НЕТ.

Всю магию делало обучение: перцептрон сам подбирал нужные веса и порог, получая «подзатыльники» за ошибки. Он не «понимал» букву «А», он лишь находил такие числовые параметры для своего простого правила «сумма больше порога?», которые лучше всего отделяли примеры «А» от «не А». Он искал наилучшее простое правило, на которое был способен в силу своей конструкции.

Как он учился? Метод «кнута и пряника»

Перцептрону показывали картинку (букву «А») и спрашивали: «Это буква А нет?». Если он угадывал, что это А – ему говорили «молодец, вот тебе пряник», веса не меняем. Если ошибался (сказал «Нет, это не А») – неправильно, бьем кнутом — смена весов.

Ошибки запускали механизм «разбора полетов». Перцептрон смотрел, какие из его фотоэлементов (входов) были активны в момент ошибки, и начиналась корректировка важности (весов):

Если активный вход должен был привести к правильному ответу, но не привел – тогда его вес немного увеличивали. Ему говорили: «Эй, это было важно — в следующий раз прислушайся»
Если активный вход, наоборот, помешал правильному ответу (был активен, когда не надо) – его важность немного уменьшали. «А вот это было неважно и неправильно, не обращай внимания в следующий раз (или обращай, но поменьше)»
Если вход был неактивен, его вес не трогали

Этот процесс повторялся снова и снова для разных примеров (сотни и тысячи картинок с разными буквами). Перцептрон не понимал в привычном нам смысле слово букву «А», он просто автоматически подкручивал веса и параметры до тех пор, пока они не начинали правильно срабатывать для большинства показанных ему «А» и «не А». Постепенно, методом проб и ошибок, он действительно начинал отличать одни простые образы от других.

Эйфория и холодный душ

Это был прорыв. Демонстрации перцептрона каждый раз вызывали восторг. Газеты трубили о рождении «электронного мозга», который вот-вот научится ходить, говорить и осознавать себя. The New York Times писала об «эмбрионе компьютера», способном к самовоспроизведению. Военные и бизнес щедро вливали деньги в исследования. Казалось, будущее из фантастических романов уже стучится в дверь. Были и предсказания о том, что через несколько лет ИИ уничтожит человечество.

Забавно, правда? Можете представить себе эти заголовки? А на деле перцептрон с трудом отличал треугольник от квадрата, букву «А» от буквы «Б», и то далеко не всегда. Говорить о самосознании было, мягко говоря, сильно преждевременно. Наверное, это был первый классический случай в истории ИИ, когда ожидания улетели в космос, а реальность скромно осталась на земле. Чем-то напоминает текущую ситуацию с ИИ, правда ведь?

Однако эйфория эта длилась недолго. Шли годы, а перцептрон, хоть и научился отличать кружочки от квадратиков, так и не стал разумным. Он часто ошибался на задачах чуть сложнее, чем базовое распознавание букв и форм.

Наконец, в 1969 году, два влиятельных ученых из MIT, Марвин Минский и Сеймур Паперт, выпускают книгу «Перцептроны». Они не просто раскритиковали – они математически доказали, что у этой простой модели есть фундаментальные ограничения. Показали, что существуют задачи (даже довольно простые с нашей, человеческой точки зрения), которые такой перцептрон принципиально не может решить, как бы его ни обучали.

Эта книга стала настоящим холодным душем для восторженного ИИ-сообщества. Многие, прочитав ее, сделали вывод: «Ага, эти ваши нейросети – тупиковая ветвь развития». Финансирование проектов и инвестиции резко урезали, интерес к нейросетям упал почти до нуля, и наступил период затишья, который позже назовут «первой зимой ИИ».

Но был ли наш перцептрон бесполезен?

Нет, точно не был. Несмотря на все ограничения и последующую критику, перцептрон Розенблатта:

Заложил фундамент и базовые идеи (взвешенные связи, веса, обучение через коррекцию ошибок, активация при преодолении порогов), которые стали основой для всех будущих нейросетей (в том числе, современных)
Показал, что машина может обучаться на примерах, и зажег искру интереса к машинному обучению
Ограничения перцептрона заставили ученых задуматься: «А как сделать лучше? Как преодолеть эти барьеры?» – что в итоге и привело к созданию более сложных и мощных моделей и нейросетей

Так что перцептрон, хоть и не оправдал всех безумных надежд 50-х (ну реально, сейчас читаю, и в шоке — насколько тогда раздули — жесть), честно отработал свою роль первопроходца и передал эстафету следующим поколениям ИИ.

Глава 2: Зима ИИ

Как мы уже поняли, после эйфории и смелых прогнозов 50х и 60х наступило отрезвление. Книга Минского и Паперта, показавшая и доказавшая ограничения перцептрона — стала последней каплей. Энтузиазм поутих, финансирование иссякло, и на сферу искусственного интеллекта опустилась так называемая «первая зима ИИ». Она продлилась примерно с середины 70х до начала 80х.

Почему все замерло?

Очень просто, представьте: вы пообещали построить летающий автомобиль, а смогли сделать только самокат, который еле ездит, и у него иногда колесо отваливается. Примерно так и вышло с перцептронами.

Первые успехи породили завышенные ожидания, и когда стало ясно, что мыслящие машины не появятся завтра, пришло разочарование
Критика со стороны уважаемых ученых убедила многих, что нейросети – это вообще гиблое дело
Компьютеры того времени были черепахами по сравнению с современными. Обучать на них даже относительно простые сети было долго, дорого и мучительно
Не было интернета с бездной картинок и текстов. Данные для обучения приходилось собирать вручную, их было мало, и они были не очень разнообразными
Перцептрон был ограничен, а как эффективно обучать более сложные сети — тогда еще толком не знали

В общем, сложилось все: и скепсис, и технические трудности, и нехватка ресурсов.

Символьный ИИ и Экспертные Сети

Наука не стояла на месте, просто на какое-то время фокус сместился с нейросетей на другие подходы к созданию разумных машин. Это было время «символьного ИИ» и «экспертных систем». Представьте, что мы хотим научить робота готовить борщ. У нас есть два пути:

Путь 1: Дать роботу точную пошаговую инструкцию (рецепт борща) – так работают экспертные системы и принципы символьного ИИ

Зовем лучшего шеф-повара по борщам (это и есть наш эксперт)
Подробно записываем КАЖДЫЙ его шаг, каждое «если»:
- ЕСЛИ вода закипела, ТО бросай мясо
- ЕСЛИ мясо варится 30 минут, ТО бросай картошку
- … и так далее. Таких правил — очень много, тысячи и десятки тысяч
Загружаем эту огромную инструкцию в систему
Теперь система может готовить борщ, просто следуя нашей инструкции шаг за шагом. Она не понимает, почему надо так делать, просто идет по дереву «если — то» — и так или иначе приходит к финишу

Экспертная система – это и есть наша система с загруженной в нее инструкцией для одной конкретной задачи (сварить именно этот борщ).

Символьный ИИ – это не конкретная реализация системы, а скорее сама идея, что интеллект – это умение следовать таким вот четким инструкциям.

Есть и минусы, конечно: написать такую инструкцию – это адский труд. И если чего-то нет в инструкции — система встанет в ступор. Ну и это очень узкопрофильно и немасштабируемо — если мы написали инструкцию про борщ — яичницу по этой инструкции мы уже не сможем приготовить.

То есть, в работе экспертных систем все зависит от человека. Он дает готовые правила, а машина просто им следует.

Путь 2: Заставить робота учиться на примерах – так работают нейросети

Мы не даем роботу инструкцию, мы показываем ему 10 000 видео готовки борща
Мы даем ему попробовать 1000 разных борщей и говорим: «Вот этот вкусный (1)», «А этот невкусный (0)»
Нейросеть сама пытается уловить закономерности:
- ага, почти всегда кладут свеклу
- кажется, если долго варить мясо — получается вкуснее
- вот эта комбинация специй часто встречается.
- и так далее
Она настраивает свои внутренние веса и пороги, чтобы предсказания «будет вкусно / невкусно» совпадали с нашей оценкой
В итоге, она сама вырабатывает какое-то внутреннее «чувство борща», и пытается ему следовать

Минусы тоже есть: нужно очень много примеров, нейросеть может выучить что-то странное (решит, что вкус зависит от цвета кастрюли, например).

То есть, нейросети устроены так: человек дает примеры, а машина сама ищет закономерности, без участия человека.

В моменте, из-за ограничений железа, теоретических знаний почти все пошли по пути 1 — экспертные системы и символьный ИИ. Но важно понимать: зима ИИ не была полной остановкой всех активностей, связанных с нейросетями. Самые стойкие исследователи продолжали копать в эту сторону, хоть и без особого финансирования и славы. Они искали способы обойти ограничения перцептрона, разрабатывали новые архитектуры сетей, придумывали алгоритмы для их обучения. Это было время тихой, незаметной работы, накопления теоретических знаний и ожидания момента, когда и идеи созреют, и компьютеры станут мощнее. Зима была нужна, чтобы переосмыслить первые шаги, понять ошибки и подготовиться к новому, более осознанному рывку вперед.

Глава 3: Оттепель. Нейросети возвращаются

Схематичное устройство ранних многослойных нейросетей

Зима ИИ не могла длиться вечно. Пока одни разочаровывались, другие продолжали искать ключи к обучающимся машинам. К середине 80х накопилась критическая масса идей, которая позволила нейросетям вернуться в игру.

Главная проблема перцептрона была в его простоте – он был однослойным. Постепенно ученые поняли, что чтобы решать более хитрые задачи, которые были не по зубам простому перцептрону, нужно строить более глубокие сети, добавляя дополнительные, скрытые слои нейронов между входами и выходами. Получались слоеные пироги из нейронов – многослойные перцептроны.

Давайте разберемся, что значит «однослойный» и «многослойный»:

Однослойный простой перцептрон — слушает все входы и сразу решает: либо да, либо нет. Всего один слой принятия решения.

Многослойный работает по иерархии:

Первый слой: замечает простые детали («Тут линия», «Тут светлое пятно») и докладывает дальше
Второй «скрытый» слой: слушает только отчет первого слоя, комбинирует данные, полученные от них, замечает детали посложнее («Ага, линии пересеклись – значит, это угол», «Пятно круглое» и тд) и докладывает дальше
(тут еще N слоев с аналогичным принципом работы)
Выходной слой слушает последний скрытый слой и выносит финальный вердикт («Точно, это буква А»)

Такая многослойная команда может выучить гораздо более сложные закономерности. Первые слои находят простые признаки, средние – уже комбинации признаков, и так далее. Это и позволило решать задачи, которые были не под силу простому однослойному перцептрону.

Но возникла новая проблема: как обучать такой «пирог»? Если выходной слой ошибся, как понять, какой из нейронов в середине «схалтурил» и какой вклад внес в ошибку? Решение пришло с алгоритмом обратного распространения ошибки (backpropagation). Его идея была известна и раньше, но именно в 80х годах его популяризировали и показали и доказали, что он работает.

Метод обратного распространения ошибки работает как испорченный телефон. Представьте команду, которая передает сообщение по цепочке (как нейроны в сети передают сигнал):

Ваня (входной слой) получает исходную картинку
Он шепчет его Пете (первый скрытый слой)
Петя, как понял, шепчет Маше (второй скрытый слой)
Маша шепчет Коле (выходной слой)
Коля объявляет итоговый результат (ответ сети), но на выходе почему-то получилась ошибка

Что делать? Начинаем разбор полетов с конца:

Сначала к Коле: «Коля, ты ошибся! Насколько сильно твой ответ отличается от правильного? И кто тебе последним шептал? Маша? Ясненько»
- Применяем кнут к Коле, и его веса слегка корректируются
- Оцениваем, насколько искажение Маши повлияло на ошибку Коли (это как раз вычисление «вклада» в ошибку)
Идем к Маше: «Маша, из-за твоего шепота Коля ошибся вот настолько. Учти. А кто тебе шептал? Петя?»
- Кнут на Машу, но уже с учетом того, как ее действие повлияло на Колю (ее «вес» в ошибке). Меняем веса
- Оцениваем, насколько искажение Пети повлияло на ошибку Маши (которая привела к ошибке Коли)
Идем к Пете: «Петя, из-за твоего шепота Маша передала не то. Из-за этого и Коля ошибся. А тебе кто нашептал? Ваня?»
- Кнут на Петю, учитывая всю цепочку искажений
И так далее, двигаемся обратно по всей цепочке, от выхода ко входу

Каждый участник (нейрон) корректирует свои веса. Эта корректировка пропорциональна тому, насколько его действие повлияло на итоговую ошибку. В результате таких разборов, вся команда учится передавать сообщение все точнее и точнее. Так и работает backpropagation.

Машинное Обучение выходит на сцену

Параллельно с возрождением нейросетей набирала популярность идея Машинного Обучения (ML). Суть очень проста: вместо того чтобы программист писал жесткие правила (ЕСЛИ то-то — ТО делай так-то), мы даем машине кучу примеров и говорим разбираться самой, искать закономерности (как второй путь научить робота варить борщ, который разбирали выше).

Хотим отличать спам от нормальных писем? Показываем тысячи примеров того и другого
Хотим распознавать котиков на фото? Скачиваем миллион фото котиков (и не котиков) из интернета и показываем сетке
Хотим прогнозировать спрос на товар? Даем данные о продажах за прошлые годы

Система смотрит на эти данные и сама пытается построить модель, которая будет улавливать скрытые паттерны и зависимости. Нейросети, особенно с новым методом обучения backpropagation, стали одним из самых крутых инструментов в арсенале ML.

И это все заработало. Новые алгоритмы, потихоньку растущие мощности компьютеров – и нейросети начали показывать впечатляющие результаты на практических задачах, которые раньше им были не по зубам.

Тут надо понимать, что задачки, конечно, не чета современным. Это все еще что-то очень простое. Например, распознавание рукописных цифр. Представьте: вам нужно научить машину читать почтовые индексы на конвертах. Задача сложная, потому что все пишут по-разному, человеку-то сложно порой закорючки разобрать. Именно здесь многослойные нейросети, обученные с помощью backpropagation на большой базе примеров — показали отличные результаты, превзойдя многие другие подходы.

Это была важная победа, доказавшая: нейросети вернулись и они действительно могут решать реальные задачи.

Глава 4: Эра Deep Learning

Deep Learning - больше слоев — Deep Learning — больше слоев

Если в предыдущей главе мы говорили о самой идее добавить скрытые слои (создав многослойные перцептроны), чтобы преодолеть ограничения однослойных, то Deep Learning – это про то, чтобы сделать эти сети ПО-НАСТОЯЩЕМУ ГЛУБОКИМИ. Речь уже не об одном-двух, а о десятках и сотнях слоев. Такой скачок в глубину, начавшийся в 2010х, стал возможным благодаря сложившимся факторам:

Данные. Появился Интернет — и с ним гигантские, невообразимые раньше объемы информации: миллиарды текстов, картинок, видео. Наконец-то было на чем обучать по-настоящему большие нейросети
GPU – манна небесная для нейросетей. Случилось неожиданное открытие: оказалось, что игровые видеокарты с их сотнями маленьких ядер, созданных для отрисовки графики в компьютерных играх, идеально подходят для параллельных вычислений, необходимых при обучении нейросетей. Обучение, которое раньше занимало недели на процессорах, на видеокартах стало укладываться в дни, а то и часы. Получился гигантский скачок в скорости
Новые трюки, хаки и алгоритмы. Ученые тоже не сидели сложа руки: придумали новые, более эффективные архитектуры сетей, научились бороться с проблемой переобучения (когда сеть слишком хорошо запоминает примеры, но плохо работает на новых данных), разработали улучшенные функции активации нейронов и методы оптимизации обучения

Deep Learning – это использование нейросетей с очень большим количеством слоев. Зачем так много? Идея в иерархии признаков, которую я уже слегка затронул выше (Петя, Маша и Коля). Но именно значительная глубина позволяет сети автоматически выучить по-настоящему сложные зависимости, от самых простых до самых абстрактных. В отличие от относительно неглубоких сетей предыдущей эпохи, глубокие сети могут сами разобраться в гораздо более сложных вещах. И чем глубже сеть, тем более сложные и абстрактные концепции она может «понять» из сырых данных.

Глубокое обучение привело к революции:

В 2012 году глубокая сверточная нейросеть AlexNet с разгромом победила в престижном соревновании ImageNet (распознавание тысяч типов объектов на миллионах картинок). Она показала настолько лучший результат по сравнению со всеми «классическими» подходами, что для всех стало понятно, что именно этот подход — самое то
Голосовой помощник в телефоне стал понимать вас гораздо лучше именно благодаря DL
Качество Google Translate и аналогов резко выросло
В 2016 году программа AlphaGo от DeepMind (лаборатория-дочка Google) победила лучшего в мире игрока в Го – игру, которая раньше считалась неподвластной компьютерам из-за ее сложности и интуитивности

Для разных задач оказались эффективны разные «конструкции» глубоких сетей:

Сверточные Нейронные Сети: идеальны для компьютерного зрения. Их фишка – сверточные слои, которые работают как набор настраиваемых фильтров. Представьте себе фильтр, который ищет вертикальные линии, другой – горизонтальные, третий – уголки. Такие сети используют нужные фильтры для распознавания объектов на картинках, независимо от их положения или размера. AlexNet как раз была такой сверточной сетью
Рекуррентные Нейронные Сети долгое время были стандартом для работы с последовательностями – текстами, речью, временными рядами. Их особенность – наличие «памяти», то есть выход сети на предыдущем шаге подается на вход текущего. Это позволяло учитывать контекст при работе с данными

А потом на смену всему этому пришли Трансформеры.

Глава 5: Эра трансформеров

И вот мы плавно подбираемся к тому, что у всех на слуху последние пару лет. В 2017 году исследователи из Google представили новую архитектуру нейросети – Трансформер. Она произвела настоящую революцию в обработке естественного языка.

Главная фишка трансформера – механизм внимания. Если очень упрощенно: когда модель обрабатывает одно слово в предложении, этот механизм позволяет ей посмотреть на все остальные слова и определить, какие из них наиболее важны для понимания смысла текущего слова в данном контексте. Рекуррентные нейронные сети обрабатывали слова последовательно, и информация о далеких словах могла затухать и забываться. Трансформер же может напрямую соотносить слова, находящиеся далеко друг от друга.

Вместо того чтобы читать слово за словом, трансформер смотрит на все предложение сразу
Для каждого слова он вычисляет, насколько каждое другое слово в предложении важно для понимания смысла именно этого слова в данном контексте. Он как бы задает вопрос: «Так, я смотрю на слово ‘спящего’. Кто из вас – ‘собака’ или ‘кот’ – имеет к нему большее отношение?»
На основе этих оценки важности он понимает, на какие слова нужно обратить больше внимания, чтобы правильно понять или перевести текущее слово. В нашем примере он поймет, что слово «спящего» с высокой вероятностью относится к коту, а не к собаке, даже если они стоят далеко друг от друга

Это оказалось невероятно эффективно. Трансформеры позволили создавать модели, которые гораздо лучше понимали контекст, нюансы языка и могли генерировать очень связные и осмысленные тексты. Именно на архитектуре трансформеров и построены почти все знаменитые современные модели ИИ — они называются большие языковые модели (Large Language Models, LLM). Самыми известными стали модели семейства GPT (Generative Pre-trained Transformer) от компании OpenAI.

Что значит предобученные?

Представьте, что вы хотите научить ребенка понимать мир. Вы же не начинаете с нуля объяснять ему каждое понятие? Вы даете ему читать книги, смотреть фильмы, слушать разговоры. Он постепенно впитывает гигантский объем информации о языке, фактах и закономерностях мира. Так же и с GPT: сначала модель предобучают на огромном количестве текстов из интернета (Википедия, книги, статьи, ютубчик – это терабайты данных). На этом этапе она пока что не решает какую-то конкретную задачу, а просто учится предсказывать следующее слово в тексте. Звучит просто, но чтобы делать это хорошо на таких объемах данных, модели приходится выучить грамматику, факты о мире, стили текста, логические связи – по сути, построить свою внутреннюю картину мира и языка.

После предобучения получается фундаментальная модель, которую уже можно дообучить (fine-tuning) на конкретную задачу (например, отвечать на вопросы, переводить тексты, писать код) с использованием гораздо меньшего объема данных.

Путь был быстрым и впечатляющим:

GPT (2018): первая моделька от OpenAI на основе архитектуры трансформер. Он был относительно небольшим (117 миллионов параметров – по нынешним меркам это просто кроха), обучался на коллекции из ~7000 неопубликованных книг. Главная его задача была простой – предсказывать следующее слово в тексте. Но он показал главное: комбинация трансформера и предобучения на больших текстовых данных – это перспективно. Он уже мог генерировать довольно связные (хоть и короткие) тексты и демонстрировал неплохие результаты на задачах понимания языка после небольшого дообучения
GPT-2 (2019): следующая версия — уже гораздо серьезнее. Их было несколько, и самая большая GPT-2 имела 1.5 миллиарда параметров (на порядок больше GPT-1) и обучалась на гигантском датасете WebText (около 40 Гб текста, собранного с 8 миллионов веб-страниц, отобранных по качеству). Результат поразил даже самих разработчиков: GPT-2 могла писать длинные, осмысленные и стилистически разнообразные тексты на заданную тему, переводить, отвечать на вопросы, кратко излагать содержание. FunFact: Тексты были настолько реалистичными для того времени, что OpenAI изначально побоялась выкладывать эту модель в открытый доступ, опасаясь ее использования для создания фейковых новостей, спама и дезинформации (кхм-кхм). Этот шаг вызвал бурные дискуссии об этике ИИ. Позже, после исследований и обсуждений, модель все же опубликовали
GPT-3 (2020): Собственно, эта модель во многом и определила современный ландшафт LLM. Количество параметров выросло еще на два порядка – было что-то около 175 миллиардов. GPT-3 обучался на еще более колоссальном объеме данных (сотни гигабайт текста из Common Crawl, WebText2, книг, Википедии). Главный «вау-эффект» GPT-3 заключался в ее способности решать множество задач вообще без дообучения или с минимальным количеством примеров, просто получив описание задачи и пару примеров в самом запросе (промпте). Такое вышло из-за того, что объем информации, на котором она обучалась — был настолько огромен, что нам даже и представить сложно. Например, случилось интересное, модель научилась считать (хоть поначалу и не очень) — хотя ее ВООБЩЕ не учили этому

GPT-3 могла:
- Вести диалог на уровне, близком к человеческому
- Переводить тексты
- Отвечать на вопросы, решать логические задачки
Появление API к GPT-3 стало ключевым событием. OpenAI дала возможность разработчикам со всего мира начать использовать эту мощь, что привело к взрывному росту стартапов и приложений на базе GPT-3
ChatGPT (конец 2022, с нее началось мое знакомство с ИИ — казалось бы, всего 2,5 года прошло. Кажется — целая жизнь): формально это не новая модель, а скорее специализированная версия GPT-3.5, дообученная с помощью методики Reinforcement Learning from Human Feedback (когда модель сначала предобучают, а потом скармливают фидбек от людей на миллионы ее ответов и рассуждений). Цель была – сделать модель максимально полезной и безопасной именно для ведения диалога. RLHF помог «научить» модель лучше следовать инструкциям, избегать вредных или неэтичных ответов и общаться в более естественной манере (хотя от галлюцинаций — когда модель придумывает факты, которых на самом деле нет — это не спасло). Простой и доступный веб-интерфейс чата сделал ChatGPT невероятно популярным – миллионы людей смогли впервые лично пообщаться с продвинутым ИИ, что и вызвало нынешнюю волну хайпа
GPT-4 (март 2023): следующее поколение. Ключевые улучшения:
- Лучше справляется со сложными задачами, требующими логики, рассуждений и креативности
- Меньше галлюцинирует, но все еще довольно сильно — требует проверки для ответственных задач
- Точнее выполняет сложные запросы пользователей
- Мультимодальность, самая крутая фишка. GPT-4 изначально мог принимать на вход не только текст, но и изображения и отвечать на вопросы по ним («Что ты видишь на этой картинке?», «Напиши рецепт по фото ингредиентов»). Это открыло совершенно новые возможности для использования
Наконец, весной 2024 года пришел GPT-4o… Но об этой версии, которая болтает голосом почти как человек, смотрит видео и стала шустрее и доступнее, вы наверняка уже сто раз слышали — и, возможно, используете каждый день.

Заключение: Это все только начало?

Что дальше? Честно — без понятия Я не футуролог. Но я вижу, НАСКОЛЬКО стремительно все меняется. Всего несколько лет назад возможности GPT-3 казались фантастикой (я помню, как в первый раз он мне помог написать пару строк кода — я был просто в шоке. Это был настоящий ВАУ-эффект), а сегодня мы уже обсуждаем, что GPT-4o «не очень, и сильно тупит» и ждем, что принесет GPT-5.

Куда все это может двигаться? Немного пофантазирую, опираясь на текущие тренды:

Больше мультимодальности: мне кажется, модели будут все лучше понимать не только текст и картинки, но и видео, звук, возможно, даже тактильные ощущения или другие данные из реального мира
Настоящие персональные ассистенты, по сравнению с которыми нынешние голосовые помощники покажутся детскими игрушками. Они будут глубоко понимать наш контекст, привычки, цели и проактивно помогать в повседневной жизни и работе
Есть надежда, что ИИ сможет ускорить открытия в медицине (поиск лекарств, анализ геномов), материаловедении, физике – там, где нужно анализировать огромные объемы данных и находить сложные закономерности
AGI (Общий Искусственный Интеллект) — тот самый «сильный ИИ» уровня человека из фантастики (как в железном человеке). Кто-то верит, что он уже за углом («инвесторы, дайте денег, мы уже вот-вот»), кто-то – что до него еще десятилетия. Пока сложно сказать, но работы в этом направлении точно идут, и это, кажется, самый волнующий и пугающий вектор развития

Конечно, вопросов масса. Как ИИ повлияет на нашу с вами работу? Не отберут ли у нас, разработчиков, хлеб — не знающие усталости ИИ-ассистенты? А фотографы, адвокаты, консультанты, грузчики, курьеры, таксисты и тд? А как быть с этикой, фейками, предвзятостью алгоритмов? Все эти вопросы нельзя игнорировать.

Несмотря на все опасения, я смотрю в будущее с огромным интересом и скорее с оптимизмом. ИИ – это невероятно мощный инструмент, это не заменитель, а усилитель наших собственных возможностей и способностей. Он уже помогает врачам ставить диагнозы, ученым – делать открытия, художникам – создавать новое, а программистам – писать код быстрее и лучше (ну, или хотя бы генерировать заглушки, документацию и тесты).

Мы прошли огромный путь от первых неуклюжих попыток создать электронный мозг до систем, которые начинают походить на настоящих партнеров. И самое крутое, что эта история пишется прямо сейчас, на наших глазах

Пару слов от автора

Я люблю не просто писать, а делать это так, чтобы было еще и интересно и супер понятно. Помимо этой статьи, я веду телеграм-блог That’s IT, в котором выкладываю ежедневные самые крутые новости мира ИИ и технологий в коротком формате «под утренний кофе», делюсь своими мыслями про тренды и веяния, и мы вместе с подписчиками рассуждаем, например, про то, когда же уже ИИ уничтожит человечество. У нас интересно и очень уютно, а еще есть котики — заходите!

ссылка на оригинал статьи https://habr.com/ru/articles/900228/