Пилотный кластер
Ниже приведен пример планирования пилотного кластера ADH на основе сбалансированного типа нагрузки (balanced workload pattern). Даже небольшой и простой кластер требует не менее трех узлов DataNode и один NameNode. Можно использовать один физический сервер (или виртуальную машину) или различные машины.
Более подробная информация о нагрузке приведена в руководстве Требования к оборудованию в зависимости от типа нагрузки.
Параметры
Для примера пилотного кластера будут использованы следующие условия:
-
Объем данных — 500 ТБ.
-
Коэффициент репликации — 3.
-
Период сохранения данных — один год.
-
Характер нагрузки — сбалансированный.
-
Распределение по форматам данных:
-
Простой текст, AVRO, Parquet, Jason, ORC и другие — 20%;
-
Сжатые данные в формате GZIP и Snappy — 80%.
-
Оборудование
Спецификация на узлы DataNode зависит от объема хранимых и анализируемых данных.
Объем данных
В соответствии с коэффициентом репликации, равному трём, необходим объем для хранения данных в течение одного года. Предположим, что 20% данных находятся в контейнерном формате, а 80% — архивированные данные в формате Parquet, сжатые с помощью Snappy. Эффективность сжатия составляет 70-80%. Для этого примера будет выбрано значение 80%. Расчет объема хранилища выглядит следующим образом:
При заданных условиях требуемый объем равен
Кроме учтенных хранимых данных, необходимо также пространство для обработки данных и выполнения других задач. Поэтому следует предусмотреть дополнительное пространство. Например, в среднем каждый день кластер обрабатывает 10% всех хранимых данных, и процесс обработки создает в три раза больше временных данных. Таким образом, потребуется 30% дополнительного объема.
Требуемый объем хранилища для данных и различных видов обработки будет равен .
Для узлов DataNode рекомендуются обычные дисковые накопители (JBOD). Файловая система требует для служебных целей около 20% от пространства хранения данных. Поэтому необходимо увеличить требования к пространству еще на 20%. Окончательное значение будет равно , округленное до 845 ТБ.
Количество узлов DataNode
К примеру, узел DataNode содержит JBOD из 12 дисков, каждый объемом 4 ТБ. Для вычисления количества DataNode, необходимых для хранения 845 ТБ данных, следует использовать формулу .
ПРИМЕЧАНИЕ
Нет необходимости устанавливать весь кластер сразу. Например, можно начать с 25% требуемого количества узлов и масштабировать кластер до 100% по мере накопления данных.
|
Процессор и память
Согласно рекомендациям следующие характеристики удовлетворяют требованиям пилотного кластера:
-
8 ядер процессора;
-
128 ГБ оперативной памяти.