— — — — — [ Заглавная картинка ] — — — — —
Большие данные – это одновременно большие проблемы и большие возможности. Рассмотрим несколько типичных проблем, связанных с «Big data».
- Объём. Как мы только что заметили, данных очень много и их объём постоянно растет. Это требует принципиально новых устройств и алгоритмов для хранения информации.
- Скорость. Сами по себе данные почти бесполезны, если их не обрабатывать, причем обрабатывать быстро. Кстати, скорость – понятие весьма относительное, и то, что для одних данных – очень быстро, для других будет непозволительно медленно.
- Неоднородность. Данные могут быть самыми разными: по важности, скорости обновления, дополнения и т. п. Всё это требует разных форматов хранения.
- Безопасность. Данные не должны теряться; несанкционированный доступ к ним также нежелателен.
Этот список можно продолжать, однако любая проблема – обратная сторона возможностей. Компания Amazon, известная своим онлайн-магазином, только в 2013 году заработала на своих облачных сервисах около 4 млрд долларов. В 2014 году, по разным оценкам, эта сумма может составить от 6 до 10 млрд.
Как хранить большие данные. Базовые подходы
Существует три способа хранения цифровых данных:
- Традиционный: «где-то у себя» – на дисках, лентах, локальных хранилищах и т. д.;
- В публичных «облаках»: от таких гигантов, как Amazon, Microsoft и Google или от компаний поменьше;
- В частных «облаках»: вариант, более характерный для корпоративного сегмента; хранилище входит в инфраструктуру компании и доступно только её сотрудникам.
Разберём некоторые плюсы и минусы этих подходов.
▍Хранение «у себя»
Наиболее привычно для большинства из нас. Информация записывается на локальные хранилища – диски, RAID массивы, ленты и пр.
Плюсы
- Это привычно. Данные всегда рядом, и нам так спокойнее.
- Скорость доступа. Как правило, к локальному носителю можно легко и быстро подключиться.
- Цена. Хотя она может быть и минусом.
Минусы
- Ненадёжность. Диски и серверы выходят из строя в результате физического износа. Каким бы надежным ни был сервер, он не защитит данные от природных катаклизмов или от банального воровства.
- Доступ к данным. Издалека отсутствует, неудобен, или, как минимум, не всегда безопасен.
- Масштабирование. Его возможности, как правило, ограничены. Нужно покупать новые носители и где-то их размещать. Что если сегодня вам надо 10 Тб, завтра – всего лишь 5, а послезавтра – все 50?
▍Публичные облака
Предоставляют возможность хранить данные в облаке за определенную плату, которая зависит от объёма данных и сопутствующих услуг.
Плюсы
- Это удобно. Компании максимально упрощают базовые сценарии работы.
- Относительно безопасно. Большинство вендоров защищает данные не только пользовательским паролем, но и собственными алгоритмами шифрования.
- Довольно дёшево. Цены в больших публичных «облаках» колеблются на уровне 5-10 центов за гигабайт в месяц, и есть явная тенденция к их снижению: достаточно вспомнить недавнее изменение ценовой политики для Google Drive.
- Относительно надёжно. Даже в случае природных катастроф есть возможность географического реплицирования данных.
- Новые горизонты в будущем. Например, быстрый и безопасный обмен данными.
Минусы
- Психологический фактор. Ваши данные далеко от вас; вдруг кто-то ещё имеет к ним доступ?
- Цена. Облачное хранение может показаться дороже локального. Хотя зачастую скупой платит дважды.
- Скорость доступа. Всё-таки скорость доступа в интернет даже в передовых странах в среднем измеряется мегабайтами в секунду (что, как минимум, в десятки раз медленнее доступа в локальные хранилища).
Частные «облака» во многом похожи на публичные и при использовании в корпоративной среде могут давать ощущение большего контроля над безопасностью данных.
На этом пока всё. В следующий раз мы поговорим о различных практических способах применения «облак».
— — — — — — — — — — — — — — — — — — — Пост 2 — — — — — — — — — — — — — — — — — — —
Резервное копирование в облака
Продолжим тему «больших данных» и, как и обещали, поговорим о практическом применении облачных технологий.
— — — — — [ Заглавная картинка ] — — — — —
ТУТ НАДО ИЛИ НАПИСАТЬ БОЛЕЕ ИНТЕРЕСНОЕ ВСТУПЛЕНИЕ, ИЛИ ВСТАВИТЬ ОЧЕНЬ ПРИВЛЕКАТЕЛЬНУЮ КАРТИНКУ
Одним из наиболее популярных сценариев является резервное копирование данных в облака. Однако, какое бы облако провайдер ни использовал, ему придется решать следующие базовые задачи:
- Безопасность доступа (шифрование данных)
- Скорость доступа к информации
- Надежность хранения
- Масштабируемость
- Цена
Оптимального решения, удовлетворяющего всем возможным требованиям, не существует. Если вы, как пользователь, хотите хранить резервную копию ваших данных где-то в облаке (не важно, публичном или приватном), то, скорее всего, можно говорить о следующих вводных условиях:
- Данные относятся к категории «lazy-data» – достаточно редко модифицируются (например, фотографии с вашего выпускного);
- Данные должны быть доступны в любой момент времени: если это резервная копия, то для восстановления нужной версии, если это архив – для аудита;
- Хранилище должно быть масштабируемо, чтобы можно было легко уменьшить или увеличить его объём;
- Требования к надежности хранения достаточно высоки;
- Минимизация стоимости хранения;
- Безопасность данных.
Поговорим немного о надёжности. Чудес не бывает, так что оптимально иметь более одной копии ваших данных. Больше копий – больше места, а значит, растёт цена хранения. Если объёмы данных достаточно велики, их невозможно разместить на одном сервере, и приходится использовать распределенную сеть. Это повышает надежность в случае выхода одного или нескольких серверов из строя, но приводит к ряду интересных проблем, связанных с целостностью данных, производительностью и т. д. Например, если вы попытаетесь организовать хранилище на базе достаточно распространённой системы хранения HDFS, ваши накладные расходы составят 200%; не говоря о проблемах, связанных с целостностью данных.
Резервная копия занимает в 2-3 раза больше места, чем оригинал; это дорого: требуется больше дисков и больше серверов, растут накладные расходы на размещение серверов и их обслуживание. И здесь на помощь приходят современные математические алгоритмы.
В компании Acronis мы создали продукт, в котором проблему избыточного хранения решили следующим образом: входящий пакет данных расщепляется на пять «блоков»; с помощью математических преобразований к ним добавляется ещё два, которые позволяют безболезненно пережить выход из строя двух серверов из девяти; при замене выбывших серверов новыми, система восстанавливает данные автоматически. Как нетрудно подсчитать, накладные расходы при этом составляют всего 40%. Пока это лучшее решение в своем классе.
Нужна менее пафосная концовка )
— — — — — — — — — — — — — — — — — — — Пост 3 — — — — — — — — — — — — — — — — — — —
Резервное копирование как услуга
В предыдущем посте мы рассматривали резервное копирование в облака с точки зрения сервис-провайдера. Сегодня мы взглянем на ситуацию глазами конечного пользователя и рассмотрим популярное сегодня предложение «резервное копирование как услуга».
— — — — — [ Заглавная картинка ] — — — — —
ТУТ НАДО ИЛИ НАПИСАТЬ БОЛЕЕ ИНТЕРЕСНОЕ ВСТУПЛЕНИЕ, ИЛИ ВСТАВИТЬ ОЧЕНЬ ПРИВЛЕКАТЕЛЬНУЮ КАРТИНКУ
Современная экономика меняется довольно быстро. IT-технологии уже стали неотъемлемой частью малого бизнеса, и чтобы компании, занятой, например, бухучётом, быть успешной, просто штата хороших бухгалтеров недостаточно. Нужен сайт, выделенная телефонная линия, необходимо где-то хранить данные о клиентах и заказах, а также обеспечивать резервное копирование данных и их быстрое восстановление в случае сбоя. Для таких компаний услуга резервного копирования в «облака» незаменима.
В целом суть услуги в том, чтобы перенести в «облако» большой объем данных пользователя максимально удобным для него способом. В существующих технологиях наиболее часто используются следующие варианты:
- File-sync – простое поддержание синхронных копий структурированного набора файлов в облаке и на нескольких устройствах. Часто с версионностью, возможностью восстановить удаленные файлы и прочими услугами. Это технологии вида DropBox, Yandex Disk и Acronis Access. Этот подход в первую очередь ориентирован на распределенный доступ к данным и уже потом — на их восстановление.
- File/Image backup – резервная копия целого диска или какой-то его части, находящаяся в облаке. С такого рода задачами справляется Acronis Backup, Asigra и ряд других поставщиков. Этот подход в первую очередь ориентирован на восстановление утерянных данных и идеально подходит не только для резервного копирования статической информации (например, фотографий), но и для постоянно изменяемых файлов или рабочей среды целиком.
Независимо от выбранного подхода, основная задача остается прежней– удобно и быстро восстановить наиболее свежую полную версию данных в случае их потери. Сложное получилось предложение? ☺ Давайте его разбирать на составляющие.
Что такое «быстрое восстановление»? Вообще в индустрии существует стандартный термин — Recovery Time Objective – время восстановления после сбоя. Допустимые значения в каждом случае определяются индивидуально: исходя из специфики бизнеса и других показателей. Например, без случайно удаленной фотографии можно пережить несколько часов, в то время как потеря жизненно важного узла в системе онлайн-заказов обернется убытками, прямо пропорциональными периоду простоя. Кстати вас, наверное, не удивит, что в отсутствии регулярного резервного копирования время восстановления исчисляется неделями (это в лучшем случае – если данные восстанавливаемы).
Что такое «свежие данные» и как оценить их «свежесть». Опять-таки в нашей индустрии существует стандартный Recovery Point Objective – точка во в времени, к которой возвращается система после восстановления из резервной копии. Правила игры в каждом случае свои – кому-то достаточно ежедневного бакапа (тогда RPO <= 1 день). Кому-то необходима минутная или даже секундная «свежесть» данных.
Что такое «удобно»? и что такое «наиболее полную версию данных». Понятно, что чем удобнее процесс восстановления, тем быстрее он протекает и менее квалифицированный человек нужен, чтобы безошибочно выполнить восстановление. И так же очевидно, что хотелось бы восстановить не часть данных, а полностью. Очевидно, но давайте взглянем с немного необычного ракурса. И подумаем об «удобстве» и «полноте восстановления» с точки зрения персонального компьютера как «среды обитания». Заодно попытаемся понять, зачем нам нужно столько различных способов резервного копирования.
И так, что у нас, как правило, есть на стандартном компьютере обычного пользователя: статические данные (фотографии, документы, видео и тп), операционная система (с ее лицензией), программное обеспечение (и лицензии), персональные настройки (списки любимых сайтов, логины-пароли, настройки сетей, настройки десктопа, сохраненные настройки телефона и тп)… Список можно продолжать.
Если сюда спроецировать психологию, то это содержимое создает несколько «зон комфорта» (естественно, сугубо индивидуально для каждого человека) – например, сначала могут идти очень важные данные; потом персональные настройки; потом остальные данные, приложения и тп.
Если для вас зона комфорта ограниченна просто набором файлов, то, скорее всего, решения типа File Sync вам вполне подойдут.
Если ваша зона комфорта шире, то без полноценного Image backup, позволяющего вам быстро и безболезненно восстановить рабочую среду, вам не обойтись.
Как мы видим, подходов, позволяющий не потерять данные, достаточно много и для своих нужд вы можете выбрать то, что наиболее подходит именно вам.
ссылка на оригинал статьи http://habrahabr.ru/post/206824/
Добавить комментарий