Требования к установке

Елена Дворядкина

Содержание

Чек-лист
Поддерживаемые платформы и версии
Память

Чек-лист

Убедитесь в том, что выполнены следующие требования:

Есть доступ к кластеру ADQM.
Есть доступ к кластеру Spark 3.
Есть соединение между всеми шардами ADQM и драйвером Spark 3.
Есть соединение между всеми шардами ADQM и каждым узлом-исполнителем Spark 3.

Поддерживаемые платформы и версии

ADQM начиная с версии 20.8.11.17.
Spark 3.3.x, Spark 3.4.x.
Scala 2.13.
ClickHouse Native JDBC 2.5.4.

Память

Spark3 нормально функционирует, потребляя объем памяти от восьми до нескольких сотен гигабайт на рабочую машину. Для Spark3 рекомендуется выделять не более 75% памяти; часть памяти следует оставить на нужды операционной системы и кеша буфера.

Количество требуемой памяти зависит от приложения. Чтобы определить количество памяти, необходимое приложению для определенного набора данных, загрузите часть вашего набора данных в Spark 3 RDD, затем перейдите на вкладку Storage в UI для мониторинга Spark 3 (http://<driver-node>:4040) и посмотрите количество памяти для этой части данных. На использование памяти влияют уровень хранения (storage level) и формат сериализации. В руководстве по настройке вы можете найти советы о том, как снизить использование памяти.

ПРИМЕЧАНИЕ

Виртуальная машина Java не всегда хорошо работает, если объем RAM превышает 200 ГБ. Если вы приобрели машины с большим объемом RAM, вы можете запустить несколько виртуальных worker-машин Java на каждой ноде. Для standalone-режима Spark 3 вы можете установить число worker-машин на ноде с помощью переменной SPARK_WORKER_INSTANCES в скрипте conf/spark-env.sh. Вы также можете установить число ядер на worker-машине с помощью переменной SPARK_WORKER_CORES.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней