Требования к установке

Чек-лист

Перед установкой и использованием ADQM Spark Connector убедитесь в том, что выполнены следующие требования:

  • Есть доступ к кластеру ADQM.

  • Есть доступ к кластеру Spark.

  • Есть соединение между всеми шардами ADQM и драйвером Spark.

  • Есть соединение между всеми шардами ADQM и каждым узлом-исполнителем Spark.

Поддерживаемые платформы и версии

  • ADQM начиная с версии 20.8.11.17.

  • Spark 2.3, 2.4.

  • Scala 2.11.x.

  • ClickHouse Native JDBC 2.5.4.

Память

Spark работает нормально при любом количестве памяти между восемью и несколькими сотнями гигабайт на рабочую машину. Для Spark рекомендуется аллоцировать, самое большее, 75% памяти — оставьте остальное для операционной системы и кеша буфера.

Количество требуемой памяти зависит от приложения. Чтобы определить количество памяти, необходимое приложению для определенного набора данных, загрузите часть вашего набора данных в Spark RDD, затем перейдите на вкладку Storage в UI для мониторинга Spark (http://<driver-node>:4040) и посмотрите количество памяти для этой части данных. На использование памяти влияют уровень хранения (storage level) и формат сериализации. В руководстве по настройке вы можете найти советы о том, как снизить использование памяти.

ПРИМЕЧАНИЕ
Виртуальная машина Java не всегда хорошо работает, если объем RAM превышает 200 ГБ. Если вы приобрели машины с большим объемом RAM, вы можете запустить несколько виртуальных worker-машин Java на каждой ноде. Для standalone-режима Spark вы можете установить число worker-машин на ноде с помощью переменной SPARK_WORKER_INSTANCES в скрипте conf/spark-env.sh. Вы также можете установить число ядер на worker-машине с помощью переменной SPARK_WORKER_CORES.
Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней