PetaBox или где живет Интернет-архив archive.org

от автора

Не так давно, 25 октября 2012 года, Internet Archive (archive.org) объявил о том, что объем архивированных из Интернета сайтов превысил 10 петабайт (10 240 терабайт). Но как и где это все храниться?

Узнать некоторые подробности, а также увидеть само хранилище, Вы сможете благодаря нашему небольшому обзору. Так как Хабрасторедж временно не работает, мы были вынуждены загрузить изображение на сервер ua-hosting.com.ua. Надеюсь, что выдержим, если нет — не пинайте сильно, позже изображения загрузим как надо 🙂

image

Для хранения столь большого объема данных специально для Интернет-архива был разработан PetaBox. PetaBox — сторедж-решение от Capricorn Technologies, которое было разработано сотрудниками Интернет-архива и C. R. Saikley для хранения и обработки 1 петабайта информации.

image

Спецификация:

— Вместимость: 650 терабайт / стойку;
— Потребляемая мощность: 6 кВт / петабайт;
— Нет кондиционирования, вместо этого избыточное тепло используется для обогрева помещений.

image

Используемая инфраструктура по состоянию на декабрь 2010 года:

— 4 дата-центра, 1300 нод, 11 000 жестких дисков;
— «Машина времени»: 2,4 петабайт;
— Книги / видео / музыка в коллекции: 1,7 петайбат;
— Всего хранится: 5,8 петабайт.

image

История создания

PetaBox ™ специально разработан сотрудниками Интернет-архива для безопасного хранения и обработки 1 петабайта информации. Цели при разработке были такими:

— Низкая потребляемая мощность: 6 кВт на стойку, 60 кВт для всего кластера хранения;
— Высокая «плотность» размещения данных: 100+ ТБ / стойку;
— Использование локальных вычислительных машин для обработки данных (800 low-end PC’s);
— возможность использования нескольких ОС;
— Возможность размещения в стандартных 19” шкафах / стойках;
— Возможность размещение в транспортном контейнере 20х8х8 м;
— Простота обслуживания: один системный администратор / петайбайт;
— Программное обеспечение для автоматизации полного резервирования (зеркалирования);
— Легко масштабировать;
— Недорогая конструкция;
— Низкая цена хранилища.

image

История

Первая 100 ТБ стойка европейского архива начала свою работу в июне 2004 года. Вторая стойка на 80 ТБ начала функционировать в Сан-Франциско в том же году. Интернет-архив затем создал компанию Capricorn Technologies, которая специализировалась исключительно по разработке и внедрению PetaBox.

image

В период 2004-2007 гг. Capricorn Technologies делает реплики PetaBox для крупных академических институтов, государственных учреждений и других предприятий. Их крупнейший продукт использует 750-гигабайтные диски. В 2007 году центр обработки данных Интернет-архива хранит около 3 петабайт информации при помощи технологии PetaBox.

Сейчас используется четвертая версия PetaBox, главные спецификации которой: 24 диска на 4U-единицу оборудование, 10 таких единиц оборудования в стойке под управлением Ubuntu, 240 дисков по 2 ТБ в одной стойке.

image

Интернет-архив в контейнере

Ну и в завершение, хотелось бы обратить внимание на транспортный контейнер, который был разработан SAN для Интернте-архива. Вместительность контейнера 20х8х8 метров позволит сохранить всю библиотеку конгресса США 55 раз!

ссылка на оригинал статьи http://habrahabr.ru/company/ua-hosting/blog/156383/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *