Пилотный кластер

Ниже приведен пример планирования пилотного кластера ADH на основе сбалансированного типа нагрузки (balanced workload pattern). Даже небольшой и простой кластер требует не менее трех узлов DataNode и один NameNode. Можно использовать один физический сервер (или виртуальную машину) или различные машины.

Более подробная информация о нагрузке приведена в руководстве Требования к оборудованию в зависимости от типа нагрузки.

Параметры

Для примера пилотного кластера будут использованы следующие условия:

  • Объем данных — 500 ТБ.

  • Коэффициент репликации — 3.

  • Период сохранения данных — один год.

  • Характер нагрузки — сбалансированный.

  • Распределение по форматам данных:

    • Простой текст, AVRO, Parquet, Jason, ORC и другие — 20%;

    • Сжатые данные в формате GZIP и Snappy — 80%.

Оборудование

Спецификация на узлы DataNode зависит от объема хранимых и анализируемых данных.

Объем данных

В соответствии с коэффициентом репликации, равному трём, необходим объем для хранения данных в течение одного года. Предположим, что 20% данных находятся в контейнерном формате, а 80% — архивированные данные в формате Parquet, сжатые с помощью Snappy. Эффективность сжатия составляет 70-80%. Для этого примера будет выбрано значение 80%. Расчет объема хранилища выглядит следующим образом:

 

При заданных условиях требуемый объем равен

Кроме учтенных хранимых данных, необходимо также пространство для обработки данных и выполнения других задач. Поэтому следует предусмотреть дополнительное пространство. Например, в среднем каждый день кластер обрабатывает 10% всех хранимых данных, и процесс обработки создает в три раза больше временных данных. Таким образом, потребуется 30% дополнительного объема.

Требуемый объем хранилища для данных и различных видов обработки будет равен .

Для узлов DataNode рекомендуются обычные дисковые накопители (JBOD). Файловая система требует для служебных целей около 20% от пространства хранения данных. Поэтому необходимо увеличить требования к пространству еще на 20%. Окончательное значение будет равно , округленное до 845 ТБ.

Количество узлов DataNode

К примеру, узел DataNode содержит JBOD из 12 дисков, каждый объемом 4 ТБ. Для вычисления количества DataNode, необходимых для хранения 845 ТБ данных, следует использовать формулу .

ПРИМЕЧАНИЕ
Нет необходимости устанавливать весь кластер сразу. Например, можно начать с 25% требуемого количества узлов и масштабировать кластер до 100% по мере накопления данных.

Процессор и память

Согласно рекомендациям следующие характеристики удовлетворяют требованиям пилотного кластера:

  • 8 ядер процессора;

  • 128 ГБ оперативной памяти.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней