Исследование: генеративный ИИ повышает производительность труда разработчиков на 26,08 %

от автора

Исследовательская работа утверждает, что использование инструментов с искусственным интеллектом помогает разработчикам выполнять на 26,08 % больше задач.

На тысячах разработчиков из Microsoft, Accenture и некой анонимной компании проводили эксперимент: примерно половине сотрудников выдали доступ к Copilot, а другим пользоваться инструментом не разрешали. Сравнение данных двух групп говорит о положительном эффекте от написания кода с помощью искусственного интеллекта.

Бум генеративного искусственного интеллекта должен лишить миллионы людей работы. Большие языковые модели (БЯМ), системы генерации картинок, голоса, музыки и видео творят не хуже людей. Такие катастрофические последствия для рынка труда начали предсказывать ещё до выхода ChatGPT и Claude.

К примеру, отчёт McKinsey Global Institute, исследовательского отдела известной международной консалтинговой компании McKinsey, в июне 2018 года утверждал, что к 2030 году 400 миллионов человек (15 % от общего числа работников) потеряют работу. Схожий прогноз — 300 млн рабочих мест будут автоматизированы — дал банк Goldman Sachs уже во время нового «лета» ИИ в апреле 2023 года.

Менее алармистские исследования на тему ИИ (например, отчёт от Международной организации труда ООН) говорят о помощи работникам-людям, а не их замене. Роль этой помощи оценивают по-разному. Одна из статей даже провозглашает, что ChatGPT значительно поможет четвёртой промышленной революции (doi:10.1016/j.ject.2023.08.001). Некоторые утверждают, что макроэкономический эффект от ИИ будет незначительным, не более 0,66 % роста производительности труда за следующее десятилетие (doi:10.3386/w32487).

В июне 2023 года McKinsey выпустила другой документ, который фокусируется на экономическом потенциале от ИИ. Отчёт отмечает, что общий вклад ИИ в росте глобального ВВП составит от 15 до 40 %. Также McKinsey выделила четыре основные сферы, куда придётся ¾ влияния искусственного интеллекта: взаимодействие с клиентами, маркетинг, НИОКР и написание программного обеспечения.

Действительно, много стартапов пытаются создать ИИ для написании кода. На сайте AI Startups собран список из 30 подобных организаций. Не все из них — очередная система автодополнения кода; некоторые предлагают полностью заменить инженеров-людей автономными агентами. К числу подобных относится Devin от Cognition, представленный в марте 2024 года. Об успехах продукта можно судить по тому, что сам стартап-создатель Devin не закрывал наём инженеров программного обеспечения.

Впрочем, системы автодополнения и написания кода с нуля всё же завоевали популярность среди программистов. Некоторые даже утверждают об их абсолютном проникновении. В июне 2023 года данные опроса GitHub говорили, что 92 % разработчиков из США задействуют инструменты с ИИ для написания кода. В аналогичных отчётах GitHub от августа 2024 доля выросла до 97 %.

Другие оценки популярности таких инструментов выглядят скромнее. Только в июле 2024 года вышло как минимум три отчёта на эту тему. Опрос аутсорсера BairesDev оценивает популярность генеративного ИИ для написания кода среди разработчиков в 72 %, Stack Overflow — 62 %, Capgemini — лишь 46 %.

Конкретные числа разнятся, но все подобные отчёты соглашаются, что ИИ значительно помогает разработчикам. Свою лепту в оценки технологии пытается внести опубликованная 5 сентября статья, которую написали Чжэюань (также использует второе имя Кевин) Цуй из Принстонского университета, Мерт Демирер и Тобиас Зальц из Массачусетского технологического института, Соня Яффе из центра Microsoft Research, Леон Музольф из Пенсильванского университета и Сида Пэн из Microsoft.

Инструментов автодополнения кода на основе искусственного интеллекта много: это GitHub Copilot, Amazon CodeWhisperer, Replit Ghostwriter и другие. Исследование фокусировалось только на первом из них. Случайно выбранные программисты получали доступ к Copilot (экспериментальная группа), а другие (контрольная) работали без него. Анализу подвергли разработчиков трёх компаний:

  • Microsoft. Эксперимент шёл на протяжении 7 месяцев и задействовал 1746 разработчиков из американских офисов компании. Из них 50,4 % случайной выборкой попали в экспериментальную группу.

    В один день члены экспериментальной группы получили письмо о возможности получить доступ к новому инструменту. Письмо описывало пользу Copilot для производительности труда и потенциальный эффект на задачи по написанию кода. При этом ни письмо, ни любые другие должностные инструкции никак не требовали задействовать новинку в работе и не объясняли, как пользоваться Copilot.

    Эксперимент шёл с первой недели сентября 2022 года по 3 мая 2023 года. Как объясняет статья, в дате окончания сыграло роль то, что среди контрольной группы возросла информированность о Copilot и появилось желание задействовать его в работе.

    Письма, которые получили экспериментальная (выше) и контрольная (снизу) группы

    Письма, которые получили экспериментальная (выше) и контрольная (снизу) группы
  • Accenture. Здесь эксперимент длился 4 месяца и задействовал разработчиков из, как обтекаемо выражается статья, Юго-Восточной Азии. Если судить по локациям компании с её сайта, это могли быть офисы в Малайзии, Сингапуре, Таиланде, Индонезии и/или на Филиппинах.

    61,3 % из 320 разработчиков получили доступ к Copilot. Аналогичным образом экспериментальной группе объяснили о пользе инструмента, но не в виде письма, а полноценного тренинга. Другое отличие заключается в том, что менеджеров членов экспериментальной группы просили стимулировать использование Copilot.

    Экспериментальной группе выдали Copilot в первую неделю июля 2023 года. В декабре 2023 инструментом разрешили пользоваться и контрольной группе, но среди её членов популярность Copilot оказалась ниже.

    Во время некоторых экспериментов в Accenture прошёл раунд сокращений, затронувший 42 % участников. Данные этих экспериментов были отброшены из основных выводов.

  • Некая третья компания, имя которой не называется. Упоминается лишь, что это производитель электроники, который входит в список Fortune 100. В этом случае Copilot выдали всем 3054 разработчикам, но не одновременно — часть команд получила инструмент на шесть недель раньше остальных. Даты выдачи инвайтов распределили случайно по сентябрю и октябрю 2023 года.

Продуктивность разработки программного обеспечения измерить тяжело. В оценке помогало то, что процесс работы структурирован и разбит на небольшие задачи в системах управления версиями. Говоря проще, исследователи посчитали пул-реквесты в GitHub, поскольку все три компании пользовались этим сервисом. Также подсчитывались коммиты, билды и доля успешных билдов.

Кроме того, учитывалось то, как использовался Copilot, сколько кода ИИ предложил и сколько сгенерированного принял разработчик. В случае Microsoft исследователям дали данные по дате найма сотрудников и их уровень внутри компании, что позволило оценить профессиональные навыки.

Полученные результаты (кроме успешности билдов) имеют высокие значения стандартного отклонения. Отмечается, что высокая вариативность ограничивает качество регрессионного анализа экспериментальных данных.

Сравнение контрольной и экспериментальной группы до начала эксперимента. Чем меньше разница, тем «чище» эксперимент.

Контрольная группа

Экспериментальная группа

Среднее

Стандартное отклонение

Среднее

Стандартное отклонение

Разница

p-значение

Microsoft

Пул-реквесты

0.86

1.49

0.87

1.50

0.01

0.88

Коммиты

9.43

14.86

9.36

14.80

-0.07

0.94

Билды

7.76

12.99

7.67

12.73

-0.09

0.91

Доля успешных билдов

0.72

0.30

0.75

0.29

0.02

0.33

Недавно нанятые

0.48

0.50

0.52

0.50

0.04

0.23

Джуны

0.55

0.50

0.61

0.49

0.06

0.03**

Accenture

Пул-реквесты

0.13

0.47

0.14

0.47

0.00

0.85

Коммиты

2.56

6.00

3.64

7.25

1.08

0.01**

Билды

0.96

2.54

1.10

2.68

0.14

0.38

Доля успешных билдов

0.51

0.37

0.54

0.38

0.03

0.40

Анонимная компания

Пул-реквесты

0.73

1.23

0.73

1.19

-0.00

0.99

Накладывает отпечаток также нежелание самих подопытных прибегать к новому инструменту. Хотя Copilot интегрирован в среды разработки и не требует никаких особых финансовых или трудовых вложений, его популярность далеко не 100 %.

  • В первые две недели эксперимента лишь 8,5 % членов экспериментальной группы Microsoft начали использовать Copilot в работе. Вероятно, что письмо просто утонуло в потоке рабочей переписки. 15 и 28 февраля 2023 года внутри Microsoft разослали два дополнительных письма-напоминания. В последовавшие за этим две недели использование Copilot в экспериментальной группе возросло до 42,5 %.

    Также 0,5 % контрольной группы задействовали Copilot, наплевав на ограничения эксперимента. Когда контрольной группе всё же разрешили инструмент, многие из них быстро к нему подключились.

    К январю 2024 года использование Copilot в контрольной группе оказалось ниже, чем в экспериментальной. Вероятно, что в статье опечатка, поскольку для этого приводятся процентовки 75,6 % и 64,0 %, соответственно.

  • В Accenture популярность Copilot в первые 1–2 месяца послушно выросла до 60 %, но больше почти не менялась. По окончании эксперимента в декабре 2023 года контрольная группа интересовалась инструментом меньше, чем экспериментальная. В апреле 2024 доля использующих Copilot составила 69,4 % в экспериментальной и 24,4 % в контрольной группах.

  • Аналогичным образом ситуация сложилась в анонимной компании: сразу после раскатывания Copilot доля его использующих вышла на плато и в дальнейшем менялась сла́бо.

Данные анализировались в приближении к одной человеко-неделе. Чтобы оценить эффективность Copilot, исследование задействует формулу

y_{it} = \beta D_{it} + \mu_i + \gamma_t + \epsilon_{it}.

Значение оценивалось двухшаговым методом наименьших квадратов. Здесь β — коэффициент интереса, Dit — это фиктивная переменная внедрения, которая активируется после того, как разработчик впервые использует Copilot, µi — это фиксированный эффект разработчика, аγt — это фиксированный эффект недели. Работа с данными, где разработчики постепенно получали доступ к инструменту, оценивалась ещё сложнее.

Данные оценки β собрали в таблицу, сравнив со средним значением контрольной группы. Стандартные ошибки сгруппированы на уровне назначения экспериментальной группы, которое варьируется по компаниям.

Показатель

Microsoft

Accenture

Анонимная компания

Объединённые данные

Пул-реквесты

27.38** (12.88)

17.94 (18.72)

54.03 (42.63)

26.08** (10.3)

Коммиты

18.32 (11.25)

-4.48 (21.88)

13.55 (10.0)

Билды

23.19 (14.20)

92.40*** (26.78)

38.38*** (12.55)

Доля успешных билдов

-1.34 (4.23)

-17.40** (7.12)

-5.53 (3.64)

Число разработчиков

1,521

316

3,030

4,867

Число групп

690

316

432

1,438

Если верить полученным данным, Copilot повысил в Microsoft число пул-реквестов, коммитов и билдов без значимого ущерба для коммитов (лишь –1,34 % при стандартной ошибке 4,23 %). Для других двух компаний заявлены схожие наблюдения, но указывается, что их статистический эффект не так выражен. Вероятно, поэтому усреднённое число в 26,08 % из последней колонки вынесли в раздел Abstract краткого содержания научной статьи и преподнесли как рост продуктивности.

Также в среднем заметно выросло число еженедельных коммитов, на 13,55 % (стандартная ошибка 10,0 %), и количество билдов в неделю, на 38,38 % (стандартная ошибка 12,55 %). Текст статьи утверждает, что Copilot не только помогает делать больше — качество не падает. Как говорит исследование, показатель успешности билдов не снизился. Впрочем, в таблице в последнем столбце с усреднениями всё же заметен отрицательный рост в 5,53 %.

Среди других наблюдений:

  • Сотрудников Microsoft разбили на новых (меньше медианы времени найма) и давно работающих в компании (больше). Оказалось, что новички чаще — 84,3 % против 74,8 % — используют Copilot. Более того, новые сотрудники чаще ветеранов Microsoft продолжают использовать Copilot в дальнейшем и чуть более охотно (25,4 % против 24,3 %) принимают сгенерированный инструментом код.

    Как спекулирует статья, так происходит потому, что новички — люди по возрасту молодые и способные извлечь больше пользы из нового инструмента.

  • Аналогичный эффект наблюдается, если разбить разработчиков Microsoft по уровням. Джуны используют Copilot больше (82,1 % против 76,8 %) старших разработчиков. В данном случае неравенства частоты отказа от Copilot не наблюдается.

    Легко предположить, что сеньоры принимают предложения от ИИ реже, чем джуны. Однако в исследовании эта разница незначительна: всего 1,8 % или половина процентного пункта, 25,2 % против 24,7 %.

  • Вклад Copilot в продуктивность выше для новых сотрудников Microsoft и джунов. Если для давно работающих в компании рост показателей составил от 8 до 13 %, то новички улучшились на 27–39 %. Утверждается, что разница по уровням не так заметна: для джунов она составляет от 21 до 40 %, для сеньоров — от 7 до 16 %.

Сто́ит отметить, что GitHub Copilot перевели на БЯМ GPT-4 лишь 30 ноября 2023 года, уже позже основного периода эксперимента. Большинство полученных данных относится к периоду, когда код писать помогала заметно более примитивная модель GPT-3.5. А со вчерашнего дня GitHub раскатывает на избранных пользователей o1, одну из самых многообещающих БЯМ компании OpenAI. Новая модель опережает в точности и производительности даже GPT-4/GPT-4o.

Препринт научной статьи «The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers» опубликован в хранилище препринтов Social Science Research Network (doi:10.2139/ssrn.4945566).


ссылка на оригинал статьи https://habr.com/ru/articles/844850/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *