Переход на мою текущую позицию занял около четырёх месяцев: с мая по сентябрь я проходил HR, будущего руководителя, его команду, руководителя руководителя и руководителя руководителя руководителя. Почти всё это время я задавал вопросы, чтобы понять подходит мне эта позиция или нет. В итоге, когда ответы меня удовлетворили и мне пообещали не мешать работать — я согласился на предложение, и сейчас я Head of Machine Learning Laboratory в Альфа-Банке.
Но мой кейс не такой распространённый — чаще всего собеседования затягиваются «всего» до 5 часов в виде увлекательного квеста проверки хард и софт скиллов. Но и на собеседование ещё надо попасть — ведь отклик на позицию не гарантирует приглашение на интервью или даже формального ответа на заявку, потому что желающих обычно порядка 100 человек на одно место даже с учётом огромного количества предложений от всевозможных работодателей.
Как вы понимаете, нанимающая сторона на рынке вакансий Data Science проводит очень тщательный отбор в свою команду. К сожалению, дата сайентист не может поступать аналогичным образом и прособеседовать своего работодателя, но может задать интересующие его вопросы после интервью и найти много полезной информации самостоятельно в сети. В этой статье расскажу о 10 ключевых вопросах, на которые крайне желательно получить ответ до вашего трудоустройства. Ведь от них будет зависеть не только как вы проведёте несколько часов на собеседовании, но и как скоро будете искать новую работу, когда поймёте, что надо было вопросы всё-таки задавать.
Простым перечислением не ограничусь — попытаюсь донести, почему считаю их крайне важными. Более того, под капотом вы сможете узнать мои ответы на эти вопросы.
Вопрос №1. Данные: объем, глубина истории, доступность?
По определению, работа дата сайентиста тесно связана с данными, поэтому первый вопрос, который стоит задать, к ним и относится. Качество процессов по их сбору и хранению определяет не только качество моделей для бизнеса, но и то, насколько ваша работа будет интересной и востребованной.
Сложные модели требуют большого объема данных для обучения. Сейчас практически каждый дата сайентист хочет обучать deep learning модели. Однако, разработка нейронных сетей с нуля, а не файнтюнинг предобученных моделей, требует большого объёма накопленных данных. Следовательно, если в компании данных не накопилось в достаточном количестве, то, скорее всего, вам будет целесообразнее обучать что-то из класса линейных или деревянные моделей. В крайних случаях, данных может быть настолько мало, что компании нужно принимать решения на основе мнений экспертов.
Глубина истории данных может стать стоп-фактором для моделирования. Нередко качественную валидацию и тестированиемоделей невозможно провести без выборки, отложенной по времени. В кредитном скоринге и вовсе требуется 3 года исторических данных для разработки стабильных моделей.
В некоторых областях о пользователях, в принципе, невозможно собрать богатый набор признаков. Например, в крупных магазинах электроники клиенты совершают несколько покупок в год, в лучшем случае, потому что редкому потребителю требуется больше одного телефона и телевизора в год.
Данные могут быть недоступны для моделирования. Например, они могут лежат на источнике и не реплицироваться в отдельную базу данных для аналитиков. В итоге, к источнику доступ вам не дадут, исходя из соображений безопасности и предложат подождать лучших времен. В редких случаях, вы можете и не дождаться этого момента в компании ?.
Давным-давно, когда Сбер ещё назывался Сбербанком, туда устроился на работу один дата сайентист. За пару-тройку недель он прошел онбординг, но был необходим ещё один доступ для решения задачи. Как положено, он оформил заявку. Ждал месяц, ждал два, ждал три и, наконец, дождался ответа на свою заявку: «К сожалению, форма вашей заявки устарела, оформите заявку в новом формате для получения необходимого доступа». Как вы могли догадаться, наш герой не смог успешно решить задачу, но зато успешно сменил место работы. А как у нас?
Задачи анализа данных, направленные на оптимизацию ключевых процессов бизнеса, всегда будут в фокусе внимания. Модели будут быстро двигаться в продакшн, А/Б-тесты не будут откладываться. Вы всегда сможете эскалировать проблему — с желанием заработать акционерам денег сложно спорить и бесполезно бороться. На этапе, когда модели начнут приносить деньги, компания будет готова инвестировать даже в ресёрч.
Если вы учились в техническом вузе, то Data Science без business value, это как пары по философии или ОБЖ — бизнес инвестирует в них свои силы по остаточному принципу, и справедливо считает эту активность бесполезной. Если придётся сокращать перегруженное расписание, то одним из первых порежут именно это направление.
А как у нас?
Больше 95% моделей идут в продашкн и используются для оптимизации бизнес-процессов.
Вопрос №4. Какой сейчас уровень развития Data Science в компании?
Зависимость объема бизнес эффекта от инструментов анализа данных.
Определитесь, хотите ли вы быть лидером и тащить Data Science с нуля через тернии в бизнес, или хотите быть седьмым гребцом слева на золотой галере и учиться у матёрых специалистов? Стадия развития Data Science в компании определит в какой именно точке на прямой между этими крайностями вы окажетесь.
Узнайте, что уже успели сделать до вас. Как ни странно, исследование нужно начать с поиска простой аналитической культуры. В компании нет аналитиков? Их работа станет частью ваших обязанностей. В компании нет моделирования? Вам придётся начать с простых линейных моделей и градиентных бустингов.
Исключением могут быть случаи, когда core-бизнес основан на Deep Learning. Любая успешная коммерчески ориентированная компания будет стараться двигаться по непрерывному пути «Аналитика→ ML → DL» ввиду размера финансового эффекта от каждого из этапов эволюции.
? Аналитические правила позволяют достичь максимального ??? эффекта за минимальное время. Вам не потребуется закупать отдельные серверы для разработки и исполнения моделей, мониторить стабильность моделей и даже нанимать дата сайентистов. Качественная аналитика позволит в моменте начать приносить пользу бизнесу и найти потенциальные зоны применения ML. В дальнейшем, разработанные правила могут стать хорошими признаками для ML-моделей.
? Классический ML лучше применять после построения аналитической культуры в продукте/компании. Без такой культуры сложно будет трезво оценивать пользу от ML-моделей. Объективная потребность в моделях появляется при значительном повышении точности на десятке-сотне признаков относительно одного-двух аналитических правил. Хотите оценить реальный вклад машинного обучения в решение задачи? Сравнивайте метрики качества моделей с сильными аналитическими бейзлайнами. Узнайте какое значение метрики даёт среднее/медиана за предыдущий период в задаче регрессии или самый популярный элемент — в задаче рекомендаций. В итоге, чистый эффект ?? отприменения ML = эффект от ML-моделей – эффект от аналитических правил.
? Глубокое обучение лучше применять если у вас уже внедрен ML или вы планируете работать с картинками, звуком или текстом. Развитие DL в компании всегда требует серьезных инвестиций в железо и разметку данных. Стоит помнить, что не всегда удается побить нейронными сетями классический ML. Так, например, команда Тинькофф побила BERT логрегом в задаче классификации на 117 классов. Более того, в некоторых задачах можно ограничиться и вовсе регулярками, например, в соревновании по выделение брендов они показалисебялучшеBERTа. Чистый эффект ? от применения DL = эффект от DL-моделей – эффект от ML-моделей.
Последовательное развитие по пути «Аналитика→ ML →DL» позволяет получить максимум эффекта за минимальное время. Более того, этот путь закладывает сильные бейзлайны для каждого следующего этапа. Обратите внимание на оценку чистого эффекта — она позволяет принимать правильные управленческие решение бизнесу.
А как у нас?
Функция Data Science централизовалась относительно недавно — в начале 2021-го года. Следовательно, у нас ещё очень много низко-висящих фруктов.
Однако, кредитный скоринг ушёл далеко вперед. Уже в 2017-м году мы перешли с логистической регрессии на градиентный бустинг. Первые нейронные сети были внедрены в кредитный скоринг в 2020-м году. Нейронные сети стали основным классом моделей кредитного скоринга в 2022-м году.
В Лаборатории больше 95% задач решаются при помощи нейронных сетей. Другими словами, мы решаем задачи постоптимизаций моделей после более простых моделей или работаем с данными, где они являются SOTA-решениями.
Вопрос №5. Чем именно занимаются дата сайентисты в компании?
Каждая компания вкладывает свой уникальный набор хардовых и софтовых навыков в роль дата сайентиста. Есть десяток различных ролей в Data Science:
Data Analyst;
Analyst;
Business Analyst;
ML/DLCV/NLP Engineer;
ML/DL/CV/NLP Researcher;
Data Engineer;
MLOPs/Devops.
И это неполный список.
Существуют роли, где вам нужно быть мастером на все руки, но не первоклассным. Другие же роли, напротив, предполагают узкую направленность с глубокой экспертизой. Получается, вам предстоит выбрать комбинацию лучше всего коррелирующую с вашими целями.
Поделюсь своим видением основных задач дата сайентиста.
Коммуникация с продуктовой командой. Регулярное общение на нетехническом языке, презентация разработанных моделей и совместный поиск оптимизации продукта средствами ML.
Постановка задач в терминах ML. Определение типа задачи, класса моделей и выбор целевой метрики.
Сбор данных и постановка задач на разметку. Данные DS собирают или самостоятельно или совместно с DE. В случаях, когда целевая переменная не отсутствует, ставят задачи на её разметку асессорам.
Построение моделей и вывод в продакшн. После получения значимого результата, DS оборачивает модели в DAG или в REST API сервис, и встраивают их в среду исполнения моделей.
Мониторинг и обновление модели. Работа не заканчивается после постановки модели в продакшн. Команда мониторинга наблюдает за стабильностью модельных метрик, а дата сайентист улучшает и обновляет модели.
А как у нас?
?Data Scientist ставит задачи смежным подразделениям по внедрению, мониторингу, подготовке и добавлению источников данных.
В департаменте анализа данных существуют отдельные команды, централизующие функции поддержки DS’ов:
MLOP’с, чтобы поддерживать инфраструктуру моделирования.
Data Engineer, чтобы помогать в поиске лучших источников данных и подготовки признаков для моделей.
Команда мониторинга, чтобы оперативно узнать, что с моделями в продакшне или со входным распределением что-то пошло не так.
Наконец, команда внешних и внутренних источников данных, чтобы иметь все необходимые источники в едином хранилище.
Вопрос №6. Какой бэкграунд у вашего потенциального руководителя?
Найдите резюме потенциального руководителя в LinkedInи следы его активности в публичном пространстве. Обратите особое внимание на его личные хард DS-скиллы, результаты работы его команды и опыт монетизации данных.
ИМХО, бэкграунд работы руками необходим любому руководителю в DS.
Формирование сильной команды — главная задача любого руководителя. Как можно отличить на собеседовании тех, кто разбирается в области, от тех, кто просто складно научился формулировать мысли? Поможет ли HR в таком случае? Может быть нужно пригласить синьора? А кто наймет этого самого синьора?
Более того, чем выше эта беда забралась по вертикали, тем больше масштаб проблемы. По возможности постарайтесь найти и резюме руководителя вашего будущего руководителя.
Принятие технических решений самостоятельно. В случаях, когда руководитель не разбирается в деталях, даже для решения элементарных вопросов требуются коллегиальные советы и прочие коллективные меры митигации личных рисков. В итоге, из-за отсутствия экспертизы сам руководитель будет тормозить решение вопросов и генерировать большое количество встреч.
Иногда командой дата сайентистов может руководить даже project manager. Знаете, это жалкое зрелище. И это не субъективное мнение. Из личного опыта, в ходе общения с таким руководителем, невозможно было узнать абсолютно ничего про основные артефакты работы команды.Всегда требовалась отдельная встреча с перегруженной командой. Зато в такой команде есть ежедневный часовой стендап, работа идёт четко по спринтам, идеально заполнена Jira и выполнены все Agile-обряды. Остаётся загадкой ответ на вопрос «Когда команда успевает работать?»
Отсутствие микроменеджмента, как обязательного элемента контроля. Представьте, что как руководитель, вы отвечаете за результат, но не вдупляете что происходит:
Что именно делает ваша команда?
Сколько времени требуется для решения каждой из задач?
В правильном ли направлении вы движетесь?
Вообще, тех ли людей вы наняли?
Что вы будете делать?
Конечно, добавите элементы контроля, чтобы прикрыть себя. В итоге, чем больше вы не в теме, тем меньше доверяете команде и тем больше одушняете её работу.
Источник: https://joyreactor.cc/post/3791945
Находиться на одной волне с командой и развивать команду. Практически невозможно заинтересовать человека без хард бэкграунда красотой решения технических задач. В следствии чего, вы не будете обсуждать детали ваших решений на внутренних встречах команды, а ограничитесь лишь сухими отчетами. В результате, важный компонент обмена опытом будет исключен. Кстати, как думаете, возможно ли ожидать вам своевременное продвижение по карьерной лестнице и одновременно справедливое относительно остальной команды, без осознания ваших достижений, провалов и сложности лично ваших задач? В заключение отмечу, что понимание особенностей вашей работы, правильная интерпретация ваших достижений и неудач добавляет уверенности в защите вашей точки зрения в сложных ситуациях.
Опыт успешной монетизации данных защищает команду от потенциально невыполнимых и ненужных задач. Замечательно, если руководитель имеет опыт успешной монетизации данных в сфере основной коммерческой деятельности компании. Однако, если такого опыта нет, то ваше подразделение скорее всего будет выполнять сервисную функцию. Другими словами, если у вас нет стратегии по нанесению пользы компании, то вам её составят. Будет здорово, если коллега из бизнес-подразделения, составляющий такую стратегию будет обладать редким опытом развития ML-продуктов.
«Ко мне пришел менеджер и попросил поковырять задачу X. Копался в данных два месяца. Показал менеджеру, ему результат показался интересным, но мы еще не придумали как это применять» — собирательный образ результата работы DSа в компаниях не знающих как монетизировать данные.
Обратите внимание, что это необходимое условие, а вовсе не критерий. Другими словами, софт-скиллы тоже важны. Однако, преимущества, которые дает бэкраунд работы руками, уже не получится приобрести будучи руководителем, в отличии от софт-скиллов, которые руководитель ежедневно итак прокачивает в фоновом режиме.
А как у нас?
Профиль в LinkedIn позволит вам подробно познакомиться с опытом руководителя Лаборатории.
Вопрос №7. Как часто вам будут мешать работать?
Обилие бесполезных встреч, бюрократии и микроменеджмента может превратить даже самую интересную работу в имитацию деятельности.
Узнайте на собеседовании сколько часов в неделю у вас будут отнимать всевозможные стендапы, синки, планерки, ретро и прочие обязательные обряды. Спросите сколько времени уйдёт на получение всех необходимых доступов и прохождения курсов по всяким видам безопасности. Последнее даст представление о влиянии бюрократии на рабочие процессы в команде. Знаете, я просмотрел тысячи резюме, но ни в одном не нашел пункта про просиживание штанов на стендапе.
Фокус внимания на вашей основной деятельность — это фундамент успеха. Бесполезные встречи, регулярные ad-hoc задачи, отсутствие необходимых доступов, вечно тормозящий компьютер, неудобный интерфейс — все эти атрибуты тормозят ваш карьерные рост и, как следствие, развитие компании. Набор этих факторов, которые по отдельности кажутся безобидными, следствие общей низкой культуры работы и производительности труда в компании.
Однажды один заказчик моделей настаивал на очень плотном взаимодействии и буквально требовал участие дата сайентиста во всех обязательных обрядах. Культивация проджект менеджмента привела эту команду к 13 часам обязательных встреч в неделю. В итоге, любопытство взяло надо мной верх и я лично посетил все эти встречи в течении целой недели. Однако, за 13 часов, и даже за прошедшие 2 года, я так и не понял зачем так неэффективно тратить время команды. А как у нас?
Часть команды совмещает работу с учебой и даже защищает дипломы на основе выполнения задач.
Вопрос №8. Способствует ли компания карьерному росту?
Узнайте, существует ли формальный набор правил или матрица компетенций, основываясь на которой, происходит переход с одного грейда на другой.
Далее, проанализируйте карьерные пути DS-ов из этой команды на LinkedIn, чтобы сопоставить слова нанимающего менеджера с реальностью.
В качестве приятного бонуса, вы узнаете как обстоят дела с текучкой в этой компании.
Существует неформализируемый набор принципов развития команды, на который стоит обратить более пристальное внимание. В моём представлении, свобода, ответственность и признание — это три кита ? развития команды. Наличие этих принципов взаимодействия с командой говорит о том, что компания заинтересована в вашем карьерном росте. Далее, расскажу почему я в этом искренне убежден.
? Свобода. Ваша команда должна воспринимать работу, как своё хобби, а не повинность.
? Не устанавливайте жесткие рамки — они убьют напрочь вовлеченность и творческий потенциал. Думаю, вы видели толпу у метро в час пик — если вам нужно без причины приезжать в офис к 9 утра, то в 6 вечера вы будете из него убегать.
? Доверяйте своей команде и позволяйте допускать мелкие ошибки — не будьте ссыклом микроменеджером. Ваша команда, как и модели машинного обучения, тоже должна учиться на ошибках. Не забирайте обучающую выборку, давайте исправлять свои ошибки, если не хотите взрастить беспомощность.
? Прощайтесь с теми, кто злоупотребляет этим принципом, вместо введения дополнительных контролей для всей команды.
? Ответственность — важный принцип, который живет в тесной связке со свободой.
? Конечная цель работы дата сайентиста — оптимизация бизнес-процессов компании за счет машинного обучения. Бизнес получит эффект, а ДС карьерный рост только когда его модель в продакшене начнёт приносить пользу компании. Получается, намного эффективнее иногда выполнить непрофильную работу вместо чтения статей с arxiv.
Примеры более важных задач: поставить задачи смежным командам, пропушить коллег, проэскалировать, если не получается решить проблему на своем уровне, выполнить технически не совсем вашу задачу, например, нарисовать интерфейс, разработать сервис или даже обучить аналитиков пользоваться специализированными инструментами, начать подготовительные работы к следующей задаче. Не стесняйтесь занимать роль лидера при решении своей задачи — это забустит и вашу команду и смежные, а вам принесет еще одну классную строчку в резюме.
? Хороший руководитель поможет вам и даст ровно столько ответственности, сколько вы сможете унести.
? Признание личного вклада хорошо прокачивает вовлеченность команды. Похвалы недостаточно, признавайте вклад команды на деле.
? Не экранируйте свою команду. Поверьте моему опыту, практически каждый начинающий дата сайентист способен рассказывать о результатах своей работы на рабочей встрече продуктовой команде, на большой встрече руководителю департамента, и внешней аудитории на конференции. Необходимо лишь выделить время на прогоны выступлений и подстраховывать первое время, присутствуя на встречах. Руководитель экранирующий команду способствует замедлению развития софт скиллов.
? Развивайте линейные связи между командами. Большинство вопросов эффективнее решаются на линейном уровне. Во-первых, это ускоряет процесс принятия решений, так как не приходится ждать пока у большого руководителя найдется время в календаре. Во-вторых, обычно знаний разработчика достаточно, и нередко глубокое погружение излишне для руководителя.
? Раскручивайте бренд команды совместно с ней. Работа в сильной команде — отличная строчка в резюме линейного сотрудника. Создание звездной команды — шикарная строчку в резюме руководителя. А как у нас?
Если хотите узнать больше про команду Лаборатории машинного обучения — также подписывайтесь на телеграмм-канал Нескучный Data Science. Там вы сможете узнать подробнее как устроена работа дата сайентистов в команде, подчерпнуть частичку нашего опыта, узнавать о наших успехах и неудачах, не пропустить анонсы наших публичных мероприятий и новые статьи на хабре.
На этом всё.
? Напишите в комментариях на что лично вы обращаете особое внимание при выборе места работы и какой ваш личный топ вопросов работодателю.
Добавить комментарий