Теневой рынок GitHub звезд

от автора

Многие венчурные фаундеры замечают, что последние 2-3 года происходит «инфляция гитхаб-звезд»: их нужно все больше и больше, чтобы производить впечатление. 

И это на удивление важный параметр для венчурных опенсорс-стартапов: по динамике звезд инвесторы частично определяют хайповость, а по форкам — востребованность. Эти метрики я видел много раз в питчах, в том числе на YC demo days. А инвесторы мониторят тренды гитхаба.

Оказывается, инфляция мне не привиделась: есть целый рынок накрутки звезд! Который гонит вверх ожидания от честных проектов.

Исследование

Есть работа, в которой проанализировали динамику звёзд на GitHub за 2019–2024 гг и нашли около 6 миллионов фейковых на 18+ тысячах репозиториев.

До 2022 года накрутка была нишевой историей — ею пользовались в основном откровенно скам-проекты, чтобы выглядеть легитимнее: варез, фишинговые утилиты, криптоботы, клоны популярных библиотек с вредоносной начинкой внутри. Звёзды тут играли роль социального доказательства: если у репозитория 5 тысяч stars, его скорее скачают и запустят без лишних вопросов.

С 2022 года картина изменилась: объём фейков резко вырос и достиг пика к 2024 (дальше, к сожалению, данных нет). И что важнее — изменился профиль накручивающих. Если убрать откровенный скам, то топ-1 категорию с накрутками сегодня занимают AI/LLM-проекты, отобравшие пальму первенства у блокчейн-стартапов. Хайповая ниша плюс инвесторы, которые меряют тракшн звёздами — идеальные условия для взлёта теневого рынка.

Каждый шестой (!) быстрорастущий опенсорс-проект имеет признаки накрутки. А один из лидеров рейтинга ROSS Index, того самого, который инвесторы используют как сигнал, оказался в исследовании с ~47% подозрительных звёзд.

Как устроен рынок

Рынок работает абсолютно открыто. Десятки сайтов, гиги на Fiverr, телеграм-каналы, биржи взаимного обмена звёздами — всё гуглится в три клика. Стоимость фейковой звезды — от 3 до 85 центов. Для сравнения: медианное число звёзд у опенсорс-стартапов на seed-раунде ($3-5M инвестиций) — 2–3 тысячи, на серии A ($5-20M) — около 5 тысяч. То есть «правдоподобный seed-трактор» стоит от сотни долларов до пары тысяч. Недорого!

Фейковые аккаунты почти неотличимы от реальных по профилю: аватар, био, правдоподобная активность. Но 60%+ из них в своей истории занимались почти исключительно раздачей звёзд — паттерн, по которому их в итоге и ловят.

Есть и премиум-сегмент: в телеграме продаются аккаунты с пятилетней историей коммитов + значком Arctic Code Vault Contributor. Такие уходят примерно по $5k. Покупают сервисы накрутки, которые используют их как «премиум-звездарей» для клиентов, требующих особой достоверности.

Накрутка давно вышла за пределы GitHub. Загрузки npm надуваются через AWS Lambda — известный кейс, когда разработчик довёл свой пакет до 1 млн загрузок в неделю при нулевом реальном использовании, просто гоняя его из лямбд. Установки расширений VS Code накручиваются ботами. Логика та же: метрики публичные, проверить тяжело, а решения принимаются на их основе.

Есть риск для честных проектов: конкурент или недоброжелатель может накрутить вам звёзды, после чего вы будете доказывать, что это не вы сами накрутили.

Защиты от такой атаки не существует в принципе.

Как отличить фейки

Bessemer (один из топовых американских фондов) уже несколько лет называет звёзды vanity-метрикой и смотрит вместо них на уникальных контрибьюторов в месяц — тех, кто создал issue, PR или коммит. Планка «250+ в месяц» отсеивает меньше 5% от топ-10000 репозиториев. Это кратно более честный сигнал востребованности: накрутить настоящую активность дороже и сложнее, чем звезду.

Для быстрой проверки снаружи работают два простых соотношения.

Форки к звёздам. У здорового проекта форков примерно 15–25% от звёзд — например, 235 форков на 1000 звёзд выглядит нормально. А вот 20 форков на тысячу звёзд — красный флаг. Если проект никто не форкает, его мало кто не использует.

Watchers к звёздам. В исследовании упоминается показательный случай: репозиторий со 157 тысячами звёзд и 168 watcher’ами. Один watcher на тысячу звёзд — это, мягко говоря, статистическая аномалия.

Сам GitHub активно борется с накрутками: большинство фейк-аккаунтов регулярно банятся волнами, после чего счётчики звёзд у накрученных проектов заметно проседают. Но рынок адаптируется быстрее, чем появляются новые детекторы, и в целом накрутка обгоняет защиту.

Регуляторы регулируют

В США с октября 2024 действует правило FTC (Consumer Review Rule), прямо запрещающее покупку и продажу фейковых отзывов и социальных показателей. Штраф около $53 тыс. за одно нарушение.

Пока его применяли в основном к отзывам на Amazon и в Google Maps, но GitHub-звёзды формально попадают под ту же норму: это социальный показатель, влияющий на коммерческие решения. Прецедентов по опенсорсу пока нет, но это наверное вопрос времени.

Это проблема для всех

Кажется мы живём в эпоху, когда ключевые метрики опенсорса коррумпированы, а их всё ещё используют как основной сигнал для инвестиций.

Честным проектам всё сложнее впечатлять ростом: планка сдвинулась, и сдвинули её не они. Я являюсь фаундером YC компании, и у меня есть доступ к YC alumni demo days (делаю регулярные обзоры важных трендов), так вот в питчах опенсорс-стартапов инфляция звезд бешеная! Теперь мы кажется знаем, почему.

ссылка на оригинал статьи https://habr.com/ru/articles/1025032/