Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
Как мы готовим будущих специалистов по большим данным Визуализация шаблонов Data Science — наглядная и интересная инфографика. Новые возможности RStudio (v0.99 Preview): Code Completion IPython: выпущена версия 3.0 Pulsar: фреймворк для анализа данных в режиме реального времени от eBay Deep learning без больших затрат — небольшая статья с портала HighScalability.com, которая расскажет о том, что вы можете начать свои эксперименты с Deep Learning уже сейчас без каких-либо больших финансовых вложений. Библиотеки машинного обучения — большой список библиотек машинного обучения, представленный в виде периодической таблицы и разбитый на несколько категорий: Big Data, Lua/JS/Clojure, Computer Vision, NLP, C/C++, R/Julia, Java, Scala, Python.
Теория и алгоритмы машинного обучения, примеры кода
Обучение на больших данных: Spark MLlib Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn ИИ от Google самостоятельно освоил 49 старых игр Atari Ошибки, которых стоит избегать при использовании машинного обучения Изучение пользователей через анализ данных Twitter и машинное обучение Ошибки машинного обучения — автор данной публикации описывает несколько типичных ошибок, с которыми сталкиваются те кто использует алгоритмы машинного обучения при решении своих задач. Стандарты оформления R кода от Google (Google’s R Style Guide) Помогает ли балансировка классов улучшить результаты работы классификатора? Алгоритм предсказания K в алгоритме кластеризации методом k-средних — интересная возможность в библиотеке BigML. Deep Speech: точное распознавание речи с помощью Deep Learning и GPU Визуализация кластеров с помощью R Сравнение алгоритмов обучения с учителем (Supervised learning) Серия уроков по машинному обучению и обработке естественного языка. Урок 4: Наивный байесовский классификатор
Соревнования по машинному обучению
Дневник участников соренования по машинному обучению «Avazu Kaggle Challenge» Соревнование по машинному обучению: Diabetic Retinopathy Detection
Онлайн-курсы, обучающие материалы и литература
Анонс нового курса: Introduction to Data Science — стоит отметить, что курс платный. Обзор книги: Mastering Scientific Computing with R Бесплатная электронная книга: Hadoop for Dummies Бесплатная электронная книга: Software Defined Storage for Dummies
Видеоматериалы, подкасты
Интервью с Andrew Ng на конференции Deep Learning Summit в Сан-Франциско Масштабирование машинного обучения с помощью R и библиотеки H2O Talking Machines: Эпизод 4: Интервью с Geoffrey Hinton, Yoshua Bengio и Yann LeCun: История машинного обучения изнутри — пятый эпизод серии подкастов «Talking Machines», в данном случае это сессия общения с такими зубрами, как Geoffrey Hinton (Google, University of Toronto), Yoshua Bengio (University of Montreal) и Yann LeCun (Facebook, NYU).
Data engineering
Apache Spark: что там под капотом? Анализ логов в режиме реального времени с помощью Apache Kafka, Cloudera Search и Hue Потоковая обработка больших данных: Storm, Spark и Samza Обработка больших данных в Apache Spark Использование MongoDb с Hadoop и Spark: Часть 1 — основы и настройка Начало новой эры: Релиз Apache HBase версии 1.0 Появилась возможность скачать бета версию Hive-on-Spark
Обзоры
Интересное из мира R (23 февраля — 1 марта 2015 г.) Лучшие материалы за неделю от KDnuggets.com (15-21 февраля) Еженедельный дайджест от DataScienceCentral (2 марта) Новости Data Science от MyDataMine.com (27 февраля) Новости Big Data от MyDataMine.com (24 февраля) Лучшие ресурсы за неделю от Data Elixir (№24) Еженедельный сборник лучших материалов от R1Soft (27 февраля) Наиболее интересные материалы по High Scalability (27 февраля)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №36 (16 — 22 февраля 2015) http://habrahabr.ru/post/251829/
Добавить комментарий