Требования к установке

Чек-лист

Убедитесь в том, что выполнены следующие требования:

  • Есть доступ к кластеру ADQM.

  • Есть доступ к кластеру Spark 3.

  • Есть соединение между всеми шардами ADQM и драйвером Spark 3.

  • Есть соединение между всеми шардами ADQM и каждым узлом-исполнителем Spark 3.

Поддерживаемые платформы и версии

  • ADQM начиная с версии 20.8.11.17.

  • Spark 3.3.x, Spark 3.4.x.

  • Scala 2.13.

  • ClickHouse Native JDBC 2.5.4.

Память

Spark 3 работает нормально при любом количестве памяти между восемью и несколькими сотнями гигабайт на рабочую машину. Для Spark 3 рекомендуется аллоцировать, самое большее, 75% памяти — оставьте остальное для операционной системы и кеша буфера.

Количество требуемой памяти зависит от приложения. Чтобы определить количество памяти, необходимое приложению для определенного набора данных, загрузите часть вашего набора данных в Spark 3 RDD, затем перейдите на вкладку Storage в UI для мониторинга Spark 3 (http://<driver-node>:4040) и посмотрите количество памяти для этой части данных. На использование памяти влияют уровень хранения (storage level) и формат сериализации. В руководстве по настройке вы можете найти советы о том, как снизить использование памяти.

ПРИМЕЧАНИЕ
Виртуальная машина Java не всегда хорошо работает, если объем RAM превышает 200 ГБ. Если вы приобрели машины с большим объемом RAM, вы можете запустить несколько виртуальных worker-машин Java на каждой ноде. Для standalone-режима Spark 3 вы можете установить число worker-машин на ноде с помощью переменной SPARK_WORKER_INSTANCES в скрипте conf/spark-env.sh. Вы также можете установить число ядер на worker-машине с помощью переменной SPARK_WORKER_CORES.
Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней