
Мы использовали классические логистические регрессии, чтобы предсказать дефолтность клиентов. Один из источников наших данных — финансовые транзакции, к которым, при желании, клиенты предоставляют нам доступ. Работа с ними требовала творческого подхода, так как из этой кладези данных можно было извлечь много полезной информации. Как я узнал впоследствии, этот процесс называется «feature engineering». Это захватило меня, и я еще больше заинтересовался data science.
Работая с другими департаментам, я видел, что простор для применения ML у нас огромный. Не последнюю роль в моем интересе к DS сыграло и то, что разработку вели в тяжеловесном SAS-e. Думаю, те кто работал с ним, согласятся что у него не самый удобный интерфейс, и, что главнее, не полная функциональность, Мне хотелось работать в более гибком инструменте.
Я понимал, что самостоятельное обучение data science, например на Coursera, требует неслабой воли и самодисциплины, коими я не обладаю в достаточной мере. Поэтому я начал посматривать не в сторону онлайн-курсов, а «живых» курсов с лекциями, вопросами лекторам и домашними заданиями.
Я сообщил своему руководителю на работе о направлении, в котором я хочу развиваться. Руководство пошло мне навстречу, и предложило оплатить курсы, и впоследствии перейти в отдел data science внутри холдинга.
Итак, я приступил к выбору курсов. Любопытно что на образовательном рынке в области DS превалирует онлайн-образование. Даже в Москве нет большого выбора серьезных курсов, не в стиле «мы научим вас data science за 21 день». Я понимал, что качественный курс должен длиться не менее полугода. ШАД Яндекса я не стал рассматривать, так как он требует совершенно других человекочасов обучения. Работая full-time качественно поглощать и перерабатывать учебный материал было бы трудно. Забегая вперед, скажу, что и на выбранном курсе у меня были проблемы со временем для учебы, не говоря уже о свободном времени. В итоге, я остановился на курсе «Data Scientist» одной из популярных школ общей длительностью 6 месяцев: 5 месяцев интенсивного обучения + месяц на написание диплома.
О курсе
Обучение стоило около 200 000 рублей. Занятий было много – 3 раза в неделю по 3 часа. Примерно, после каждых 2-х из 3-х занятий было домашнее задание. Программа была классической и включала основные методы машинного обучения, рекомендательные системы, распознавание изображений, машинное зрение, Nature language processing (NLP), временные ряды. Плюс было несколько хакатонов и диплом, для тех, кто сдаст минимально необходимое количество домашних заданий.

Занятия проходили на Бауманской, в группу было записано 30 человек, но ходили стабильно 15-20. Я занимался два раза вечерами по будням и в субботу с 10:00 до 13:00. Любопытно, что на курсы пришли люди из разных областей, не обязательно связанных с IT. Да, были front/backend разработчики, но половина курса была связана с продуктовой/бизнес или риск-аналитикой. И почти для всех эти курсы означали смену профессии. Некоторые пришли, потому что сейчас вокруг data science наблюдается определенный хайп, другим наскучила их текущая деятельность, третьи планируют использовать DS на своей работе. Почти все оплачивали обучение самостоятельно, поэтому уровень заинтересованности был достаточно высокий.
Мои впечатления
Начиналось все с базовых знаний и умений программировать на python, визуализации данных. Потом мы перешли на галоп и стали проходить по одному методу машинного обучения за одно занятие: решающие деревья, линейная/логистическая регрессия, случайные леса, бустинги. Лично я считаю, что для изучения этих классических методов нужно больше времени.
Что мне понравилось:
• Изучили почти все современные методы и подходы машинного обучения.
• Был отдельный блок по «feature engineering» – целых 3 занятия. Это полезная информация, но, к сожалению, лектор прочел эту часть не лучшим образом.
• Часть домашних заданий была с соревнований Kaggle. После сабмита результатов можно было увидеть свою позицию. После этого появлялась мотивация улучшить свою модель, настроить ее параметры, а не просто сделать домашку на «отвали».
• Были глубокие курсы по рекомендательным системам, NLP и компьютерному зрению, каждый по 6-8 занятий. И, по моему мнению, там были лучшие лекторы.
• После блоков по компьютерному зрению и временным рядам было 2 хакатона.
Это оказалось очень полезным упражнением. Необходимость получить приемлемый результат за минимальное время очень активизирует и загружает мозг по полной. Плюс к этому, работая в команде видишь подходы других людей.
• В личном кабинете был рейтинг студентов, где я видел прогресс своих однокурсников по сдаче домашних заданий. Это было полезно, помимо банальной мотивации. Так как в перерыве я подходил к «ботанам» и спрашивал, как они сделали ту или иную домашку.
• Преимущество «живых» лекций – вопросы по ходу занятия.
• В аудитории, по заданию лектора, мы делали небольшие упражнения сразу в питоне
• Студенческое комьюнити — общение с однокурсниками, обмен мнениями, интересно было услышать от других об их мотивации и интересных им областях ML.
Что не понравилось:
• Большая плотность в обзоре основных методов – всего лишь по одному занятию на каждый метод.
• В целом, я бы хотел 2 занятия в неделю, а не 3. Лично для меня учеба далась тяжело, съедала практически все свободное время. Часть однокурсников, к моей зависти, могла заниматься учебой на работе.
• По непонятным причинам перенесли блок по NLP и провели его до компьютерного зрения (CV). В итоге на NLP мы должны были использовать нейронные сети, про которые рассказали подробнее только в части CV.
• Были лекторы с крайне низкими педагогическими способностями. К тому же, они не проверяли домашние задания вовремя.

Сфера применения data science в последнее время сильно расширяется
Итого
У меня было 5 месяцев интенсивного обучения, где я достаточно глубоко погрузился в мир ML. Научился сносно писать на питоне обработку данных, визуализировать их, строить различные модели. Также генерировал текст при помощи нейросетей, классифицировал картинки.
Думаю, я получил хороший опыт для старта. Мой ментор по диплому сказал, что наши знания тянут на middle data scientist, а опыт на junior-a. Ну что же, увидим через пару месяцев. Так как я перехожу в департамент data science нашей компании в течение двух недель.
ссылка на оригинал статьи https://habr.com/post/424345/
Добавить комментарий