Будущие аналитики данных, BI-аналитики, ML-разработчики и Data Scientists используют готовые датасеты для выполнения студенческих заданий, чтобы научиться понимать принципы обработки данных, искать и валидировать гипотезы, строить предсказательные модели.
Однако задачи, которые решают студенты, часто недостаточно полезны как для них самих, так и для владельцев данных. Студенты не получают опыт решения практических задач, а также понимания, что результат их работы может быть полезен для бизнеса. В статье разбираюсь, почему так происходит и как получить опыт, который пригодится в работе.
С какими данными работают студенты
Во время подготовки к будущей профессии студенты проводят анализ данных, выявляют закономерности, тенденции и важные паттерны на различных видах данных. Таких как:
-
Синтетические данные. Имитируют реальные данные, созданы искусственно с помощью различных алгоритмов и моделей. ML модели обученные на них хорошо демонстрируют возможности машинного обучения, полезны для понимания принципов и статистической опоры изучаемых подходов, но они показывают точность часто недостижимую в реальной жизни и могут привести больше к погоне за метриками, а не за бизнес-ценностью
-
Данные, прошедшие предварительную фильтрацию. Это датасеты, частично или полностью очищенные от шума и ошибок, ограничены по предметной области, по объему и по временному интервалу. Такие данные помогают улучшить качество и точность результатов обучения, однако при работе с ними упускаются важные этапы исследования предметной области, сбора и валидации данных. Зачастую для таких датасетов можно найти готовые решения учебных задач, что препятствует развитию навыков, которые пригодятся в работе.
-
Необработанные датасеты. Это данные, которые были собраны исследователями или организациями и еще не прошли предварительной обработки или очистки. Они наиболее полно отражают реальный мир, но зачастую не имеют конкретных задач и обратной связи с их владельцем, что важно для уточнений и совершенствования гипотез.
Студенты обучаются машинному обучению на фильтрованных и очищенных от шума данных. Они получают высокие показатели точности на учебных задачах, но сталкиваются с трудностями при работе с реальными данными в компаниях. Использование синтетических или предварительно отфильтрованных данных создает иллюзию знания и не готовит студентов к задачам бизнеса.
«Во время обучения всё давалось мне легко. Мне не надо было погружаться в доменную область, можно было просто работать с моделью машинного обучения как с чёрным ящиком — закинул данные и они посчитались. Когда я пришел на первую работу, попробовал применить свои навыки, то результат был ужасным. Теперь я сам учу студентов и стараюсь донести им важность реальной практики, например, на хакатонах. Рассказываю, что в реальности у них будет гораздо больше проблем, чем недостаточно хороший скор, более важными окажутся проблемы с качеством, ресурсами и во взаимодействии со стейкхолдерами».
Артём Галимьянов, Data Scientist, преподаватель РАНХиГС и Skillbox
Позволю себе выделить характеристики данных, которые считаю важными для решения бизнес-задач:
-
Реалистичность и полнота — для достижения точности и надежности результатов анализа, нужно учитывать насколько данные отражают особенности реального мира с его искажениями.
-
Постановка задачи и формулирование гипотез — эти элементы помогают определить цели и направление исследований, а также обосновать его значимость и актуальность.
-
Обратная связь — возможность для студента уточнить гипотезы с владельцем данных, получать дополнительную информацию для улучшения результата, совершенствовать понимание предметной области.
Какие существуют источники и возможности для работы с открытыми данными
Студентам нужны датасеты разных форматов, отвечающие специфике задач и целям обучения. Синтетические данные и данные, прошедшие предварительную фильтрацию, помогают освоить базовые навыки. Однако, чтобы стать востребованным специалистом, необходимо уметь работать с необработанными датасетами, которые максимально приближены к реальным условиям.
Необработанные датасеты помогают студентам:
-
Разнообразить выполняемые учебные задачи, предоставляют поле для самостоятельной постановки задач и формулирования гипотез.
-
Проверять навыки на практике. Работа с необработанными данными помогает проверить полученные знания в условиях, приближенных к реальным проектам.
-
Формировать портфолио. Успешные проекты с использованием таких данных станут отличным дополнением к резюме.
Источниками этих данных могут быть:
-
Проектная деятельность в вузах. Некоторые университеты собирают базы данных и датасеты для использования студентами в учебных целях. Например:
Национальная олимпиада по анализу данных для школьников 9-11 классов
В этих источниках можно найти качественные датасеты, но остается вопрос правильной формулировки гипотез и задач и получения обратной связи.
-
Участие в хакатонах. Хакатон — соревнование, на котором участники соревнуются в создании инновационных проектов или решений в технологической сфере. Компании предоставляют реальные данные и дают возможность за пару дней погрузиться в доменную область. В результате участник получает навык понимания доменной области, делает решение на основе реальных данных, плюс показывает свои способности потенциальным работодателям.
Плюсы хакатанов |
Минусы хакатанов |
Данные почти, как в реальном мире |
Ограничения по времени |
Постановка практических задач |
Высокий порог входа |
Быстрая обратная связь |
Высокие затраты для организации |
-
Поиск данных в открытых источниках. Необработанные данные. Например:
Центр диагностики и телемедицины предоставляет наборы обезличенных рентгенологических диагностических снимков, по ним умные алгоритмы учатся самостоятельно находить патологии.
Московские датасеты, где собрана информация о городских спортивных и культурных мероприятиях, данные об объектах городского хозяйства — дворах, контейнерных площадках, дорогах и других.
Проблема данных из открытых источников в том, что для их использования нужно обеспечить правильную постановку задачи и обратную связь от преподавателя. Поэтому, главная проблема при работе с открытыми датасетами — отсутствие готовых задач, максимально приближенных к тем, что выполняют аналитики в бизнесе.
Как можно помочь в обучении и решении задач бизнеса с помощью реальных данных
Я работаю в сервисе для скрининга контрагентов — DataNewton. Это платформа для работы с информацией о контрагентах. Данные, которые мы предоставляем, берутся из более 50 официальных источников. У нас много информации по юридическим лицам и индивидуальным предпринимателям России и мы готовы ими делиться со студентами и университетами.
С помощью данных DataNewton можно решать задачи:
-
Разработка и обучение модели машинного обучения для прогнозирования вероятности банкротства предприятий на основе временных рядов финансовых показателей.
-
Прогнозирование успешности бизнеса, рекомендательные системы для подбора партнеров и контрагентов для предпринимателей.
-
Задачи, связанные с геоданными о компаниях. Например, юридическая регистрация в одном из субъектов может опосредованно указывать на сферу деятельности.
-
OSINT поиск по открытым источникам — это методология сбора и анализа данных, находящихся в открытом доступе, для получения дополнительной информации.
Вместо заключения
Решение студентами бизнес-задач поможет развитию практических навыков и повышению мотивации в учебе. Готовые проекты, которые решают задачи компаний создадут взаимодействие между вузами и бизнесом, в результате чего:
-
Студенты получат реальные данные и научатся решать то, что хочет бизнес, столкнувшись с реальными условиями работы. Выполненное решение задачи может привлечь внимание работодателя и позволит выделить мотивированных студентов, готовых к дальнейшему сотрудничеству.
-
Преподаватели не будут тратить время на придумывание проектов и тем для курсовых и дипломных работ. Они смогут предоставить студентам список готовых проблем и задач, из которых те смогут выбрать наиболее интересную.
-
Бизнес обеспечит студентов не только данными, но и обязуется давать обратную связь, получая на выходе решение собственных задач и список потенциальных сотрудников.
Такая практика поможет в развитии и подготовке квалифицированных специалистов, готовых работать в современных условиях рынка.
Напишите, если хотите воспользоваться нашими данными для решения учебных задач или проектов.
ссылка на оригинал статьи https://habr.com/ru/articles/829170/
Добавить комментарий