Как подготовить будущих аналитиков данных и ML-специалистов к реальным бизнес-задачам

от автора

Будущие аналитики данных, BI-аналитики, ML-разработчики и Data Scientists используют готовые датасеты для выполнения студенческих заданий, чтобы научиться понимать принципы обработки данных, искать и валидировать гипотезы, строить предсказательные модели. 

Однако задачи, которые решают студенты, часто недостаточно полезны как для них самих, так и для владельцев данных. Студенты не получают опыт решения практических задач, а также понимания, что результат их работы может быть полезен для бизнеса. В статье разбираюсь, почему так происходит и как получить опыт, который пригодится в работе.

С какими данными работают студенты

Во время подготовки к будущей профессии студенты проводят анализ данных, выявляют закономерности, тенденции и важные паттерны на различных видах данных. Таких как:

  1. Синтетические данные. Имитируют реальные данные, созданы искусственно с помощью различных алгоритмов и моделей. ML модели обученные на них хорошо демонстрируют возможности машинного обучения, полезны для понимания принципов и статистической опоры изучаемых подходов, но они показывают точность часто недостижимую в реальной жизни и могут привести больше к погоне за метриками, а не за бизнес-ценностью

  2. Данные, прошедшие предварительную фильтрацию. Это датасеты, частично или полностью очищенные от шума и ошибок, ограничены по предметной области, по объему и по временному интервалу. Такие данные помогают улучшить качество и точность результатов обучения, однако при работе с ними упускаются важные этапы исследования предметной области, сбора и валидации данных. Зачастую для таких датасетов можно найти готовые решения учебных задач, что препятствует развитию навыков, которые пригодятся в работе.

  3. Необработанные датасеты. Это данные, которые были собраны исследователями или организациями и еще не прошли предварительной обработки или очистки. Они наиболее полно отражают реальный мир, но зачастую не имеют конкретных задач и обратной связи с их владельцем, что важно для уточнений и совершенствования гипотез. 

Студенты обучаются машинному обучению на фильтрованных и очищенных от шума данных. Они получают высокие показатели точности на учебных задачах, но сталкиваются с трудностями при работе с реальными данными в компаниях. Использование синтетических или предварительно отфильтрованных данных создает иллюзию знания и не готовит студентов к задачам бизнеса.

«Во время обучения всё давалось мне легко. Мне не надо было погружаться в доменную область, можно было просто работать с моделью машинного обучения как с чёрным ящиком — закинул данные и они посчитались. Когда я пришел на первую работу, попробовал применить свои навыки, то результат был ужасным. Теперь я сам учу студентов и стараюсь донести им важность реальной практики, например, на хакатонах. Рассказываю, что в реальности у них будет гораздо больше проблем, чем недостаточно хороший скор, более важными окажутся проблемы с качеством, ресурсами и во взаимодействии со стейкхолдерами».

Артём Галимьянов, Data Scientist, преподаватель РАНХиГС и Skillbox

Позволю себе выделить характеристики данных, которые считаю важными для решения бизнес-задач:

  • Реалистичность и полнота — для достижения точности и надежности результатов анализа, нужно учитывать насколько данные отражают особенности реального мира с его искажениями.

  • Постановка задачи и формулирование гипотез — эти элементы помогают определить цели и направление исследований, а также обосновать его значимость и актуальность.

  • Обратная связь — возможность для студента уточнить гипотезы с владельцем данных, получать дополнительную информацию для улучшения результата, совершенствовать понимание предметной области.

Какие существуют источники и возможности для работы с открытыми данными  

Студентам нужны датасеты разных форматов, отвечающие специфике задач и целям обучения. Синтетические данные и данные, прошедшие предварительную фильтрацию, помогают освоить базовые навыки. Однако, чтобы стать востребованным специалистом, необходимо уметь работать с необработанными датасетами, которые максимально приближены к реальным условиям.

Необработанные датасеты помогают студентам:

  • Разнообразить выполняемые учебные задачи, предоставляют поле для самостоятельной постановки задач и формулирования гипотез.

  • Проверять навыки на практике. Работа с необработанными данными помогает проверить полученные знания в условиях, приближенных к реальным проектам.

  • Формировать портфолио. Успешные проекты с использованием таких данных станут отличным дополнением к резюме.

Источниками этих данных могут быть:

  1. Проектная деятельность в вузах. Некоторые университеты собирают базы данных и датасеты для использования студентами в учебных целях. Например:

    База доступных датасетов, собранная Национальным исследовательским университетом “Высшая школа экономики

    Национальная олимпиада по анализу данных для школьников 9-11 классов

    В этих источниках можно найти качественные датасеты, но остается вопрос правильной формулировки гипотез и задач и получения обратной связи.

  2. Участие в хакатонах. Хакатон — соревнование, на котором участники соревнуются в создании инновационных проектов или решений в технологической сфере. Компании предоставляют реальные данные и дают возможность за пару дней погрузиться в доменную область. В результате участник получает навык понимания доменной области, делает решение на основе реальных данных, плюс показывает свои способности потенциальным работодателям.

    Все хакатоны России

Плюсы хакатанов

Минусы хакатанов

Данные почти, как в реальном мире

Ограничения по времени

Постановка практических задач

Высокий порог входа

Быстрая обратная связь

Высокие затраты для организации

  1. Поиск данных в открытых источниках. Необработанные данные. Например:

    Центр диагностики и телемедицины предоставляет наборы обезличенных рентгенологических диагностических снимков, по ним умные алгоритмы учатся самостоятельно находить патологии.

    Московские датасеты, где собрана информация о городских спортивных и культурных мероприятиях, данные об объектах городского хозяйства — дворах, контейнерных площадках, дорогах и других.

Проблема данных из открытых источников в том, что для их использования нужно обеспечить правильную постановку задачи и обратную связь от преподавателя. Поэтому, главная проблема при работе с открытыми датасетами — отсутствие готовых задач, максимально приближенных к тем, что выполняют аналитики в бизнесе. 

Как можно помочь в обучении и решении задач бизнеса с помощью реальных данных

Я работаю в сервисе для скрининга контрагентов — DataNewton. Это платформа для работы с информацией о контрагентах. Данные, которые мы предоставляем, берутся из более 50 официальных источников. У нас много информации по юридическим лицам и индивидуальным предпринимателям России и мы готовы ими делиться со студентами и университетами. 

С помощью данных DataNewton можно решать задачи: 

  1. Разработка и обучение модели машинного обучения для прогнозирования вероятности банкротства предприятий на основе временных рядов финансовых показателей. 

  2. Прогнозирование успешности бизнеса, рекомендательные системы для подбора партнеров и контрагентов для предпринимателей. 

  3. Задачи, связанные с геоданными о компаниях. Например, юридическая регистрация в одном из субъектов может опосредованно указывать на сферу деятельности. 

  4. OSINT поиск по открытым источникам — это методология сбора и анализа данных, находящихся в открытом доступе, для получения дополнительной информации.

Вместо заключения

Решение студентами бизнес-задач поможет развитию практических навыков и повышению мотивации в учебе. Готовые проекты, которые решают задачи компаний создадут взаимодействие между вузами и бизнесом, в результате чего:

  • Студенты получат реальные данные и научатся решать то, что хочет бизнес, столкнувшись с реальными условиями работы. Выполненное решение задачи может привлечь внимание работодателя и позволит выделить мотивированных студентов, готовых к дальнейшему сотрудничеству. 

  • Преподаватели не будут тратить время на придумывание проектов и тем для курсовых и дипломных работ. Они смогут предоставить студентам список готовых проблем и задач, из которых те смогут выбрать наиболее интересную.

  • Бизнес обеспечит студентов не только данными, но и обязуется давать обратную связь, получая на выходе решение собственных задач и список потенциальных сотрудников.

Такая практика поможет в развитии и подготовке квалифицированных специалистов, готовых работать в современных условиях рынка.

Напишите, если хотите воспользоваться нашими данными для решения учебных задач или проектов.


ссылка на оригинал статьи https://habr.com/ru/articles/829170/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *