Data Phoenix Digest — 08.07.2021

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning и не забывайте подписываться на наш Telegram-канал.

Также хочу пригласить всех 14 июля на долгожданный оффлайн митап одесского Open Data Science сообщества. На нем мы поговорим про управление данными и обнаружение объектов в реальном мире, а также вас ждет много живого общения, которого нам очень не хватало на карантине. Участие бесплатное, будет организована онлайн-трансляция. Детали и обязательная предварительная регистрация здесь.

Статьи

Comparing Random Forest and Gradient Boosting — статья-саммари, в которой сравниваются алгоритмы Random Forest и Gradient Boosting.

Advancing AI to Make Shopping Easier for Everyone — статья о GrokNet, новом решении от Facebook AI, который позволяет быстро и легко распознавать товары в сети.

A Bayesian Analysis of Lego Prices in Python with PyMC3 — статья-исследование об анализе данных о ценах различных наборов Lego.

HuBERT: Self-Supervised Representation Learning for Speech Recognition, Generation, and Compression — обзорная статья о HuBERT, новом решении по распознаванию речи от Facebook AI.

Harnessing the Power of Machine Learning to Fuel the Growth of Halodoc — обзор МЛ архитектуры медицинской платформы Halodoc.

What Is MLOps? — Everything You Must Know to Get Started — вводная статья об MLOps с описанием основных преимуществ и способов, как быстро внедрить лучшие практики в ваш воркфлоу.

To Retrain, or Not to Retrain? Let’s Get Analytical About ML Model Updates — вводная статья о переобучении МЛ моделей.

An Introduction to Object Detection with Deep Learning — введение в базовые методы обнаружения объектов с помощью глубокого обучения.

Continuously Improving Recommender Systems for Competitive Advantage Using NVIDIA Merlin and MLOps — статья про MLOps и использование NVIDIA Merlin.

A Discourse on Reinforcement Learning [Part 1] — первая из трех обзорных статей об обучении с подкреплением.

Habitat 2.0: Training Home Assistant Robots with Faster Simulation and New Benchmarks — статья о Habitat 2.0., современной платформе, которая обучает умные машины ориентироваться в 3D пространстве.

Vectorization Techniques in NLP [Guide] — хороший гайд от команды Neptune про методы векторизации в NLP.

Научные статьи

AutoFormer: Searching Transformers for Visual Recognition — новая архитектура и фреймворк для трансформеров и компьютерного зрения.

DivergentNets: Medical Image Segmentation by Network Ensemble — новые методы обнаружения желудочных полипов с помощью машинного обучения.

PlanSys2: A Planning System Framework for ROS2 — работа о PlanSys2, системе автоматического менеджмента для роботизированных систем.

The MultiBERTs: BERT Reproductions for Robustness Analysis — работа о MultiBERT, новом наборе из 25 чекпоинтов на основе BERT.

ChaCha for Online AutoML — обзор ChaCha, нового алгоритма для подборки гиперпараметров в условиях онлайн обучения.

Pysentimiento: A Python Toolkit for Sentiment Analysis and SocialNLP Tasks — работа о pysentimiento, новом решении для анализа тональности текстов на английском и испанском языках в социальных сетях.

Книги

Introduction to Modern Statistics — новая книга об основах статистики; доступна бесплатно на сайте.

Материалы конференций

Selection of Free Papers from CVPR 2021 — сборник научных работ, представленных на CVPR 2021 (Conference on Computer Vision and Pattern Recognition).

Проекты

Kats by Facebook Research — новый инструмент от Facebook для различных задач по анализу временных рядов данных.

Спасибо, что дочитали этот выпуск. Надеюсь, каждый нашел для себя что-то полезное. Буду благодарен за любые предложения для следующего дайджеста.

Присоединяйтесь к Telegram-каналу дайджеста и его страницам в соцсетях: Twitter, Facebook, а также подписывайтесь на нашу еженедельную рассылку.

← Предыдущий выпуск.

ссылка на оригинал статьи https://habr.com/ru/post/566712/