Как ускорить пилотные проекты по анализу больших данных

от автора

Всем привет! Меня зовут Диляра. Я дата-сайентист команды разработки в облаке и совершенно бесплатна, а для работы с ней не нужны специальные знания в дата-сайенс — проверено на маркетинге. Размещение в облаке позволяет сэкономить время на развертывании решения в контуре заказчика, а также повысить доступность сервиса. Но если вы захотите развернуть библиотеку в своем контуре, мы сделаем это за 1 рабочий день.

Безопасность сервиса обеспечивается шифрованием по протоколу https. Мы не храним данные пользователей — после завершения сессии или при переходе на другой алгоритм данные удаляются. При необходимости можно скачать результаты работы моделей. Если была проведена работа с калькулятором,  итог также можно скачать отдельным файлом.

Логика работы с сервисом максимальная простая: загрузка данных – обучение модели – результат.

Шаг 1. Загрузка данных

  • Выбор алгоритма или референсного кейса.

При решении задачи первым делом ее нужно перевести с языка бизнеса на математический —- понять, алгоритм какого класса лучше всего подойдет для ее решения. Чтобы было проще определиться, можно подсмотреть примеры уже решенных задач.

  • Подготовка данных.

Это самая сложная часть работы с F5 Future. Пока что препроцессинг данных доступен только в F5 Platform, поэтому пользователю придется самостоятельно изучить, почистить, отредактировать, сгруппировать или перегруппировать данные. Возможно, какую-то часть признаков даже придется сгенерировать.

На каждом этапе работы F5 Future мы предусмотрели подсказки, которые помогут сделать все правильно. Кроме того, пользователь может связаться с нами, и мы поможем не только с подготовкой данных, но и пройдем вместе с пользователем все этапы решения задачи и посоветуем, что делать дальше.

Шаг 2. Обучение модели

  • Запуск алгоритма.

Все, что требуется сделать после того, как данные загружены — нажать кнопку «Далее» и подождать, пока математический сервис, спрятанный под капот, не сделает всё за пользователя. По нашему опыту, обработка файла максимального объема в 100 Мбайт занимает не больше 10 минут.

  • Оценка качества модели.

После обучения модели пользователю становятся доступны метрики качества, которые покажут, насколько модели можно доверять. Цветовая индикация и цифровое сопровождение подскажут, насколько конкретно этот алгоритм и обученная на его основе модель подходят для решения конкретно этой задачи.

Вводя метрику качества модели, мы хотели «убить двух зайцев»: предоставить опытным специалистам дополнительный инструмент контроля качества модели, а начинающим показать, что метрики важны, за ними надо следить и их можно улучшать, работая с параметрами модели и с самими данными.

В этой же секции можно изучить данные и определить, какие из показателей оказались наиболее значимыми, как в среднем влияет каждый конкретный признак на результат и т.д. Также пользователь может получше узнать свои данные, просмотрев распределение данных для каждого признака в выборке.

Шаг 3. Результат

  • Применение модели на актуальных данных.

Если пользователя устраивает качество обучение модели, следующий и последний шаг позволяют применить модель на актуальных данных. Результат обучения выводится в виде информативных таблиц и графиков. Мы постарались собрать в сервисе достаточный объем инструментов визуализации, чтобы, с одной стороны — предоставить пользователю весь необходимый для анализа результатов инструментарий,  с другой — не перегрузить сервис.

Например, для задач, где применяется алгоритм восстановления регрессии, мы ввели график частичной зависимости (partial dependence plot) – он будет полезен при проработке сценариев «что, если?» — оценки влияния различных факторов на изменение целевой функции, например, потребления топлива или изменения стоимости товара. Также для этих целей мы сделали удобный калькулятор.

Все результаты расчетов можно выгрузить для использования в дальнейшей работе.

Все необходимые действия для преобразования данных спрятаны далеко в «коробку». Например, сортировка по времени, если мы имеем дело с временными рядами, или же преобразование категориальных данных (имеющих строковые значение) в численные. Все эти операции выполняются, преобразования сохраняются, а затем, на третьем шаге, применяются автоматически.

Заключение

Вокруг машинного обучения существует некий флер мистики, таинственности и, часто, недоступности. Очень хотелось сдуть эту «вуаль волшебства» и рассказать простым языком о том, что это такое — не вдаваясь в детали, при этом сделав машинное обучение понятнее и доступнее (как ни крути, чтобы объяснить все, потребуется курс по data science). Я надеюсь, что эта статья поможет приблизить наше мирное high tech Future, а сам сервис, который вы найдете по ссылке, даст понимание о возможностях машинного обучения. Добро пожаловать.


ссылка на оригинал статьи https://habr.com/ru/company/factory5/blog/719396/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *