Обзор Data Science Weekend

от автора

Всем привет! 3-4 марта состоялся Data Science Weekend, который организовывала вот уже третий раз наша компания при поддержке GVA. Для тех, кто не был на мероприятии, мы подготовили краткий обзор того, что происходило.

image

Мероприятие состояло из двух тематических дней. Первый день был посвящен искусственному интеллекту и deep learning, второй — вопросам практики и бизнеса в больших данных.

В первый день было запланировано 5 выступлений, однако случился форс-мажор: заболел первый спикер и не смог выступить у нас. Тем не менее, нам удалось подготовить интересный интерактив со слушателями и немного их разогреть для следующих спикеров.

1. Интерактив был в духе “Правда это или вымысел, что…”. И дальше следовала какая-то формулировка про достижение искусственного интеллекта. Например, “Правда ли, что ИИ научился генерировать фотореалистичные картинки, используя только лишь запрос пользователя?”. Сценарий использования такой: “Дай мне картинку вулкана”. И дальше нейронная сеть выдает несколько классных картинок.
Таких вопросов было в районе 17. И с большинством наши участники справились без проблем. Как оказалось, публика пришла достаточно подготовленная.

2. После этого интерактива выступал CEO компании Intento, Константин Савенков. Доклад был посвящен проблеме интеграции различных сервисов в текущем мире. У каждого сервиса есть свой API, но довольно сложно обратиться от одного к другому. Для решения этой проблемы Intento подготовила свой продукт, позволяющий разным сервисам быть интегрированными друг с другом. По словам Константина, в данный момент они концентрируются на API сервисов в области искусственного интеллекта — машинный перевод, распознавание картинок, перевод текста в голос и т.д.

3. Следующий спикером был Анатолий Востряков — руководитель направления (!) диалоговых систем и умных помощников в компании Segmento. Анатолий значительное внимание уделил проблемам, которые существуют с чат-ботами в области поддержки клиентов. Людям свойственно по ходу диалога менять свою цель, задавать вопросы нелинейно, ссылаться на предыдущую историю решения того или иного вопроса, формулировать один и тот же запрос сотней разных способов и др. С этими проблемами классические подходы построения чат-ботов не всегда способны справляться. В конце выступления был предложен другой подход на основе нейронных сетей, так называемый end-to-end, когда разработчик не прописывает жесткие правила, а позволяет сети самой извлекать знания из имеющихся данных.

4. Далее было выступление Александра Сербула из компании 1С-Битрикс. Александр был верен себе и рассказывал о своем опыте обучения нейронных сетей в своей яркой и эмоциональной манере. В 1С-Битрикс существует функционал “Открытые линии”, который позволяет общаться с клиентами в разных соцсетях и каналах из одного своего окна. В какой-то момент стало понятно, что люди часто обращаются с одними и теми же вопросами, и пришла идея сделать бота, который бы подсказывал варианты ответа на них. Об этом опыте и был рассказ Александра.

5. Последним выступлением в этот день был телемост из Сан-Франциско с Николаем Давыдовым, инвестором 2016 года по версии РБК. Prisma стал приложением года в апсторе, и MSQRD был продан Фейсбуку. Это те проекты, к которым имел отношение Николай. Его выступление было сфокусировано на бизнесе в этой сфере. Он рассказал, что то, что происходит сейчас, действительно революция, и через несколько лет искусственный интеллект будет использоваться во многих отраслях. В то же время Николая посетовал, что на текущий момент большинство проектов идут в развлекательную и потребительскую тематику. В связи с этим был дан совет — идти и пробовать внедрять проекты в индустриях. Николай привел несколько примеров из сферы сельского хозяйства, медицины, генетики и др. Также он отметил, что одинаково сложно научить человека как из предметной области алгоритмам ИИ, так и человека, знающего эти алгоритмы, обучить премудростям предметной области, поэтому выход один — создавать команды из специалистов разных областей и грамотно ими управлять.

image

Во второй день мероприятия было запланировано 8 выступлений.

1. Первыми выступали ребята из проекта OSA Hybrid Platform. Целью этого проекта является повышение показателя присутствия того или иного товара на полке. Для этого они прогнозируют такие вещи, как: 1. Ожидаемое увеличение спроса на товар (в связи с погодой, например); 2. Вероятность отсутствия в настоящий момент товара на полке (например, в реальном времени по чекам); 3. В дальнейшем планируется разработка системы распознавания товаров при помощи камеры.

2. Вторыми выступали коллеги из компании “МегаФон”, официального партнера мероприятия. Андрей Уваров, руководитель по аналитическим сервисам, рассказал, как МегаФон добивается ощутимого бизнес-эффекта применяя технологии аналитики больших данных, машинного обучения и искусственного интеллекта. Продолжая тему первого дня конференции — чатботов, коллеги познакомили участников с Еленой – виртуальным помощником. Эта технология распознавания голосовых команд, которая даже не соединяя клиента с оператором call-центра сама переводит звонящего в нужный пункт меню и дает подсказки, как воспользоваться любой услугой оператора. Александр Башмаков, директор по инфраструктуре, рассказал о применении технологии анализа данных для «умного» планирования развития сети МегаФона. Завершилось выступление обзором системы автоматического мониторинга и управления сетью, которая была впервые продемонстрирована для всех желающих в интерактивной зоне “МегаФона”.

3. Следующим выступал data scientist компании E-Contenta, Юрий Макаров. Он рассказал о том, как проводил классификацию текстов на данных из поисковой выдачи, перепробовав множество алгоритмов, включая нейронные сети. Победил алгоритм random forest, с использованием одной хитрой фичи, оказавшись еще и быстрее, чем сети. Затем компания использует обученный классификатор для создания персональных рекомендаций контента.

4. Последнее выступление перед обедом было от Артема Пичугина, руководителя образовательных программ, связанных с данными, New Professions Lab. Он рассказал о том, почему стоит учиться data science, как правильно это делать, и коротко о программах, набор на которые в настоящий момент идет. Отвечая на вопрос “Почему?”, Артем рассказал о текущих трендах и о том, что hype-кривая — это не единственная кривая, на которую стоит обращать внимание, а есть, например, кривая распространения инноваций на рынке. На вопрос “Как?” он рассказал о том, что взрослые и дети учатся по-разному, поэтому и учить их тоже стоит по-разному, после чего привел несколько примеров использования андрагогики (науки об обучении взрослых) в своих программах.

5. После обеда первым выступающим был Евгений Гапон, директор по аналитике компании Qlean. Он рассказал о том, как выглядит машинное обучение в их компании, пройдясь по всем этапам процесса: от сбора данных до внедрения модели. Особое внимание Евгений уделил кейсу прогнозирования отказа клиента от уборки. Внезапные отказы от уборки наносят ущерб бизнесу, поэтому задача раннего прогнозирования этого события является насущной. Прогноз позволяет предотвращать это событие через гибкую бонусную систему: чем выше вероятность отмены заказа у клиента, тем выше будет показываться бонус за сохранение заказа.

6. Следующим спикером программы был Артем Просветов, data scientist компании CleverDATA. Тема выступления звучала интригующе: “Text mining of Beauty Blogs: О чем говорят женщины?” Артем продемонстрировал процесс выявления наиболее влиятельных бьюти-блогеров для целей продвижение продукта из сферы косметики. После выявления наиболее влиятельных блогеров (кстати, интересным фактом было то, что наиболее популярные блогеры пишут посты, которые окрашены позитивно, то есть блогер хвалит тот или иной продукт), был проведен анализ того, о каких продуктах обычно пишут те или иные блогеры. Итогом анализа является рекомендация типа: крем против морщин лучше продвигать через блогера А, а масло — через блогера Б.

7. Предпоследним спикером программы была Светлана Крылова, руководитель аналитического центра Brand Analytics. Она рассказала про похожую историю — их проект был связан с анализом того, что люди пишут в соцсетях по поводу аллергии. Как результат анализа — стало понятно, что в рекламе образ человека, страдающего от аллергии отличается от реальности. В рекламе — это девушка, заботящаяся о своей внешности, а в реальности — это мамы детей, страдающих от аллергии. Также из этого анализа стало понятно, почему самым популярным средством от аллергии является Супрастин, хотя это антигистаминный препарат ранних поколений, а на текущий момент есть более продвинутые средства с меньшими побочными эффектами.

8. Завершал программу Андрей Кармацкий, CEO компании Urbica. Доклад был посвящен дизайну городов с использованием данных. В презентации было очень много красивых визуализаций, глаз зрителя радовался. Наиболее интересным кейсом, о котором поведал Андрей, был проект по реорганизации маршрутов общественного транспорта в Москве. Команда проекта провела анализ того, как существует на текущий момент транспортная система Москвы, построив симуляционную модель. После этого была предложена оптимизация маршрутов, которая была апробирована на практике и показала рост пассажиропотока, а также уменьшение времени ожидания автобусов и троллейбусов.

Хотим выразить благодарность всем, кто выступал на нашем мероприятии, а также всех тех, кто был в качестве зрителей эти два дня. Вы создали прекрасную и живую атмосферу в зале, было очень здорово!

Следующее мероприятие, полноценный Data Science Week, состоится 7, 8, 11 и 12 сентября.

Будем ждать вас!

» Все презентации выложены здесь.

» Доступ к видео выступлений можно получить здесь.
ссылка на оригинал статьи https://habrahabr.ru/post/324622/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *