Волею судеб, ко мне в руки попали данные о заработных платах, премиях и сверхурочных множества госслужащих одного крупного портового города, от мэра до сторожа бассейна. Не теряя ни минуты, я бросился вгрызаться в цифры. Нет ничего любопытнее, чем смотреть на чужие зарплаты, особенно, когда можно оправдать себя тем, что занимаешься Data Science!
Как только прошли первые приступы зависти, я осознал, что в датасете присутствует информация не только по крупным руководителям, но и по рядовым сотрудникам от самого низкого уровня. Получается, что по этим данным можно воочию наблюдать основные закономерности в распределении доходов в реальном мире. Пользуясь случаем, я приглашаю всех диванных экономистов в увлекательное турне в мир роскошных окладов и скупой статистики!
Сегодня мы поговорим про средние и медианные зарплаты, индекс социального неравенства Джини, отношения между богатыми и бедными (индекс Rich/Poor), непреодолимый разрыв доходов (эффект Матфея) и карьерный рост.
Сразу вскрою основную интригу — что это за данные и откуда я их взял. Это реальная информация о заработных платах муниципальных служащих города Сан-Франциско (на фото), что в Калифорнии, США. В датасете присутствую настоящие имена, занимаемые должности, оклады, бонусы, сверхурочные и премии некоторых (возможно, всех) служащих за 4 года — с 2011 по 2014 включительно. Данные не очень чистые и не совсем стандартизованные, но работать с ними можно. Все это любезно предоставила администрация штата в рамках проекта Transparent California. Все суммы — в долларах в год, до вычета налогов.
Я осознанно пропущу этапы изучения и подготовки данных, а также код построения графиков. Желающие могут изучить все это в github. Там Python, Jupyter, Pandas и Seaborn. Итак, приступим.
Распределение заработных плат
В датасете есть не только базовые доходы сотрудников, но и различные надбавки. Дабы не углубляться в мелочи, будем рассматривать только базовый доход и общий доход с учетом всех надбавок и премий.
Вот так выглядит распределение базовых доходов сотрудников за 4 года:
Эти четыре… гхм… “морковки” символизируют распределение доходов за 4 года. По оси Y — величина дохода, по оси X — плотность вероятности распределения доходов. Поперечные пунктирные линии — это квартили 25%, 50% (медиана) и 75% распределения. Четко видно несколько уплотнений — в районе $5.000, $65.000, $110.000 и $170.000. Так выглядят классы сотрудников — временные рабочие, линейный персонал, высококлассные специалисты и топ-менеджмент. Кажется, что “морковка” медленно едет вверх, что может означать как растущий уровень благосостояния, так и инфляцию.
Теперь посмотрим на распределение общего дохода сотрудников:
Данные за 2011ый год сильно отличаются от последующих. Оказалось, что у нас нет данных о премиях в течение этого года. Вообще, данные за 2011ый год отформатированы иначе, что сильно затрудняет их использование. Кроме того, в этом году сменилось выборное правительство, из-за чего зарплаты людей на выборных должностях посчитаны не за полный год.
В остальных годах мы видим, что слой премий “сгладил” “морковку” распределения, практически ликвидировав четкое деление сотрудников по классам. Т.е., с учетом премий хороший линейный специалист зарабатывает сравнимо с ненапрягающимся экспертом.
Сан-Франциско — недешевый город. Официальная минимальная зарплата составляет порядка $20.000 в год, субъективный прожиточный минимум — от $40.000 в год. Непонятно, откуда же такое большое число людей с зарплатой меньше МРОТ? Ответ кроется в признаке Status — FT (Full-time) и PT (Part-time), т.е. в выборке есть не только штатные сотрудники, но и совместители, в т.ч. разовые подработки. Признак Status проставлен только для 2014го года.
Вот так выглядит распределение общих доходов с разделением на штатных и внештатных сотрудников:
Как видно, медианный доход штатника составляет около $130.000 в год.
Давайте заодно ответим на вопрос, которому посвящено множество споров в интернетах — как связаны средняя и медианная зарплата. Бытует мнение, что средняя зарплата значительно выше медианной засчет доходов топ-менеджмента.
Проверим, так ли это:
На верхнем рисунке вы видите попытку подогнать распределение зарплат к нормальному. Наибольшему значению плотности распределения соответствует средняя зарплата, которая составляет $90.000. На нижнем рисунке изображены квартили распределения зарплат, средняя линия внутри прямоугольника — медианная зарплата, и она составляет $85.000. Как видим, действительно, средняя зарплата выше медианной, но отнюдь не существенно.
Социальное неравенство
Наиболее волнительным в зарплатах является вопрос их справедливого распределения (от каждого — по способностям, каждому — по труду?). Мудрые предки оставили нам численные метрики неравенства распределения доходов. К наиболее популярным относятся индекс Джини и индекс R/P. Давайте поговорим о них подробнее.
Индекс Джини — это статистический показатель степени расслоения величины. В экономике его обычно используют для измерения расслоения населения по доходам. Считается индекс Джини как выраженное в процентах отношение площади между кривой Лоренца и диагональю y=x (зеленая область) к площади всего треугольника ниже диагонали (синяя + зеленая области):
Показатель измеряется от 0 до 100, где 0 — полное равенство (всё синее), а 100 — все доходы у одного человека (всё зеленое). Для примера, Джини России — 42.0, США — 45.0, Германии — 27.0, Китая — 47.3. Самый маленький Джини у Швеции — 23.0, самый большой — у африканских банановых монархий, где он может подниматься свыше 60.
На рисунке выше изображена кривая Лоренца для доходов штатных сотрудников. Индекс Джини для них составляет 18.9, что говорит о практически коммунистической уравниловке. Можно трактовать это так — если вам удалось попасть в штатные сотрудники мэрии Сан-Франциско, зарплатой вас не обидят. А можно так — если вы работаете в мэрии, карьерная лестница у вас невысокая.
Еще одним любопытным индикатором расслоения является отношение доходов богатых к доходам бедных. Посмотрим на темно-синий “треугольник” на рисунке выше. Его ширина — 20%, это 20% богатейших людей. Высота темно-синего треугольника — 31%. Это значит, что на 20% богатейших людей приходится 31% совокупного дохода. Теперь обратите внимание на красный треугольник. Его ширина — 20% (беднейших людей), а высота — 12% (дохода), т.е. на 20% беднейших людей приходится 12% совокупного дохода. Индекс Rich/Poor 20 отражает отношение доходов богатейших 20% к беднейшим 20% общества. Для штатных сотрудников муниципалитета Сан-Франциско R/P 20 составляет 2,5. Можно трактовать это как высоту потолка роста на карьерной или социальной лестнице.
Теперь для сравнения посмотрим на кривую Лоренца для внештатных сотрудников:
Мы видим разительное отличие от предыдущего графика. Дуга кривой Лоренца прогнулась далеко вниз, зеленая область увеличилась в размерах. Богатый треугольник занимает почти половину высоты, а бедный треугольник почти не видно. Индекс Джини составляет 53.6, а R/P 20 равен 45. Это примерно соответствует бедным странам Южной Америки, с ярко выраженным расслоением на зажиточных капиталистов и простоватых мучачос.
Эффект Матфея
Мудрость поколений гласит, что “всякому имеющему дастся и приумножится, а у неимеющего отнимется и то, что имеет”. Другими словами, зазор между бедными и богатыми постоянно увеличивается. Это забавное явление прото-социологи наблюдают в течение тысячелетий, а в последнее время его осознание стало доступно широким массам. Из Эффекта Матфея, как его называют экономисты, следует вывод, что единственный способ приумножить свое состояние и оставить наследство своим детям — принадлежать к верхушке общества. Эта гипотезу весьма неприятно осознавать, и было бы неплохо, если б она оказалась ложной. Так давайте же ее опровергнем!
На рисунке ниже вы видите суммарный размер фонда оплаты труда муниципалитета Сан-Франциско за 3 года. Он вырос c $3,70 млрд в 2012ом году до $3.82 млрд в 2014ом, показав рост +3,2% общего объема.
Теперь давайте построим графики среднего дохода высшего и нисшего децилей (10% самых больших и самых маленьких зарплат). Как видно, средний доход в высшем дециле увеличился на +3,0%, в то время, как доход в нисшем дециле существенно упал на -12,6%.
Это означает не только то, что эффект Матфея есть, но и то, что он крайне силён и легко заметен невооруженным взглядом. Можно предположить, что именно этим объясняется уверенный рост индекса Джини в США в течение последних 30 лет.
Стоит отметить, что из-за отсутствия разметки full-time/part-time в ранних годах, мы оценивали доходы децилей на смешанной выборке из штатников и внештатников. Это могло внести существенные корректировки в результат, так что я в нем не уверен — чересчур неправдоподобно выглядит величина зазора.
Карьерный рост
Раз уж мы заговорили о карьерном росте, давайте проверим — есть ли он, или это фантастика? Поскольку разбираться в иерархии американских чиновников нет никакого желания, будем считать, что карьерный рост сводится к росту зарплаты. В датасете есть имена и фамилии людей, и они ожидаемо повторяются из года в год.
Давайте посмотрим на доходы одних и тех же людей в 2012ом и 2014ом годах, посчитаем рост в процентах и построим распределение роста в пересчете на один год:
Слева изображен график плотности вероятности роста дохода, справа — график функции распределения роста дохода. Во-первых, видно, что рост доходов 20% сотрудников лежит в диапазоне от 0 до 2%, что примерно покрывает инфляцию. Наиболее распространенный рост доходов — от 2% до 5%, он наблюдается в 50% случаев, это мода скорости карьерного роста. Далее, примерно 15% людей смогли добиться роста в 5-10%, такой темп роста можно считать высоким. И не более 5% людей показали выдающийся рост доходов более чем на 10% год к году. Стоит также отметить, что 10% сотрудников показали отрицательный рост дохода, т.е. их зарплаты уменьшались год к году.
Заметим, что для построения этого графика мне пришлось наложить на выборку угрубляющие фильтры, чтобы срезать “длинный хвост”, образованный людьми, кто перешел из разовых контрактников в штат, тем самым увеличив свои доходы от муниципалитета в 50-100 раз. Эти фильтры могли существенно повлиять на распределение.
Заключение
Оказалось, что на примере даже такого маленького мирка, как муниципалитет города Сан-Франциско, можно изучать социологические и экономические закономерности.
Мы можем отметить следующие тезисы:
- зарплаты в муниципалитете очень скученны
- хороший специалист может зарабатывать не меньше посредственного руководителя
- медианная зарплата несильно отличается от средней
- разрыв доходов между богатыми и бедными увеличивается
- даже в спокойной госслужбе есть возможности для карьерного роста
Однако, это всего лишь один сектор экономики и только в одном весьма нетипичном городе. Я не рекомендую делать на основе этой статьи далеко идущих выводов об экономической статистике в США и, тем более, в мире в целом.
ссылка на оригинал статьи https://habrahabr.ru/post/281422/
Добавить комментарий