Параметры Hive on Spark
В данной статье описаны параметры, используемые для настройки взаимодействия Spark и Hive Metastore. Больше информации о назначении параметров и примерах их использования доступно в разделе Spark и Hive.
Параметр | Описание | Значение по умолчанию |
---|---|---|
hive.spark.job.monitor.timeout |
Время ожидания монитора задач для получения состояния задачи Spark (в секундах) |
60 |
hive.spark.dynamic.partition.pruning |
При установке значения в |
false |
hive.spark.dynamic.partition.pruning.map.join.only |
Аналогично свойству |
false |
hive.spark.dynamic.partition.pruning.max.data.size |
Максимальный размер данных (в мегабайтах) для таблицы измерений, которая генерирует информацию о сокращении разделов. Если таблица достигает этого предела, оптимизация отключается |
100 |
hive.spark.exec.inplace.progress |
Позволяет обновлять прогресс выполнения задач Spark в терминале |
true |
hive.spark.use.ts.stats.for.mapjoin |
При установке значения |
false |
hive.spark.explain.user |
Определяет, показывать ли результат команды |
false |
hive.prewarm.spark.timeout |
Время ожидания завершения прогрева исполнителей Spark в случае, если |
5000 |
hive.spark.optimize.shuffle.serde |
При установке значения |
false |
hive.merge.sparkfiles |
Объединяет небольшие файлы в конце преобразования Spark DAG |
false |
hive.spark.use.op.stats |
Указывает, использовать ли статистику оператора для определения параллелизма reducer для Hive on Spark.
Если установлено значение |
true |
hive.spark.use.ts.stats.for.mapjoin |
При установке значения |
false |
hive.spark.use.groupby.shuffle |
При установке значения |
true |
Удаленный драйвер Spark
Удаленный драйвер Spark — это приложение, которое запускается в кластере Spark и отправляет на выполнения задачи Spark. Является долгоживущим приложением, инициализация которого выполняется при первом запросе текущего пользователя и работающее до закрытия пользовательского сеанса.
Следующие свойства управляют удаленным взаимодействием между драйвером Spark и клиентом Hive.
Параметр | Описание | Значение по умолчанию |
---|---|---|
hive.spark.client.future.timeout |
Время ожидания для запросов от клиента Hive к удаленному драйверу Spark (в секундах) |
60 |
hive.spark.client.connect.timeout |
Время ожидания для обратного подключения драйвера Spark к клиенту Hive (в миллисекундах) |
1000 |
hive.spark.client.server.connect.timeout |
Время ожидания установления связи между клиентом Hive и удаленным драйвером Spark (в миллисекундах). Проверяется обоими процессами |
90000 |
hive.spark.client.secret.bits |
Количество случайных бит в сгенерированном секрете для общения клиента Hive с удаленным драйвером Spark. Округляется в меньшую сторону до ближайшего кратного 8 |
256 |
hive.spark.client.rpc.server.address |
Адрес хоста HiveServer2, который используется для связи между клиентом Hive и удаленным драйвером Spark |
hive.spark.client.rpc.server.address; если недоступно — |
hive.spark.client.rpc.threads |
Максимальное количество потоков для цикла событий RPC удаленного драйвера Spark |
8 |
hive.spark.client.rpc.max.size |
Максимальный размер сообщения в байтах для связи между клиентом Hive и удаленным драйвером Spark. По умолчанию равно 50 МБ |
52,428,800 байт (50 * 1024 * 1024, или 50 MБ) |
hive.spark.client.channel.log.level |
Уровень логирования для удаленного драйвера Spark.
Возможные значения: |
— |