Поэтому при подготовке этой коллекции мы с помощью экспертов из Ростелекома постарались решить несколько задач. Во-первых, дать представление — для чего возникли и используются те или иные инструменты управления большими данными. На примерах показать, как они выглядят и работают. И во-вторых, обязательно найти кейсы их применения в компаниях, которых без Big Data, наверное, просто не было бы.
Нельзя сказать, что хранилище данных — конечная точка ETL. Кроме доставки данных до хранилищ ETL-процессы также разрабатывают для трансформаций данных внутри хранилищ — процессы работают между слоями, для расчётов витрин, агрегатов.
Автор также это указывает в статье: «Существует множество альтернативных программных моделей, работающих с большими данными, которые могут даже оказаться лучше или гибче, чем MapReduce, но тот однозначно может считаться самым упрощённым, хотя, может быть, и не самым эффективным».
Скорее имеются в виду пользовательские ожидания от платформ для Big Data (где пользователи — это команда, выбирающая платформу для разработки), а не обязательность использования в Big Data.
Apache Hadoop
Онлайн-конференция Ростелекома DataTalks 2.0
Мы пока не готовы анонсировать программу DataTalks 3.0. Но мы будем раскрывать темы, о которых не успели поговорить на предыдущих мероприятиях. Это будет интересно и начинающим, и профессионалам.
Доклады «Яндекса»