Конфигурационные параметры

Данный раздел содержит описание параметров сервисов ADH, которые вы можете настроить с помощью ADCM. Больше информации о процессе настройки сервисов доступно в соответствующих разделах: Online-установка, Offline-установка.

ПРИМЕЧАНИЕ
Некоторые из перечисленных параметров становятся доступны в UI ADCM после установки флага Show advanced.

Airflow

Airflow environment
Параметр Описание Значение по умолчанию

airflow_dir

Домашний каталог Airflow

/srv/airflow/home

db_dir

Расположение базы данных Metastore

/srv/airflow/metastore

airflow.cfg
Параметр Описание Значение по умолчанию

db_user

Имя пользователя для подключения к базе данных Metastore

airflow

db_password

Пароль для подключения к базе данных Metastore

 — 

db_root_password

Root-пароль для подключения к базе данных Metastore

 — 

db_port

Порт для подключения к базе данных Metastore

3307

server_port

Порт для работы веб-сервера

8080

flower_port

Порт для работы Celery Flower

5555

worker_port

При запуске Airflow Worker Airflow запускает подпроцесс веб-сервера для передачи локальных Worker лог-файлов на основной веб-сервер Airflow, который затем генерирует страницы и отправляет их пользователям. Этот параметр определяет порт для передачи лог-файлов. Порт должен быть не занят и доступен с основного веб-сервера для подключения к Workers

8793

redis_port

Порт для запуска Redis

6379

fernet_key

Секретный ключ для сохранения паролей подключения в базе данных

 — 

security

Определяет механизм безопасности для использования. Например, kerberos

 — 

keytab

Путь к keytab-файлу

 — 

reinit_frequency

Устанавливает частоту обновления тикетов

3600

principal

Принципал Kerberos

ssl_active

Определяет, активен ли SSL для Airflow

false

web_server_ssl_cert

Путь к SSL-сертификату

/etc/ssl/certs/host_cert.cert

web_server_ssl_key

Путь к ключу SSL-сертификата

/etc/ssl/host_cert.key

Logging level

Указывает уровень логирования активности Airflow

INFO

Logging level for Flask-appbuilder UI

Указывает уровень логирования для веб-интерфейса Flask-appbuilder

WARNING

cfg_properties_template

Jinja-шаблон для инициализации переменных окружения Airflow

External database
Параметр Описание Значение по умолчанию

Database type

Тип внешней базы данных. Возможные значения: PostgreSQL, MySQL/MariaDB

MySQL/MariaDB

Hostname

Хост внешней базы данных

 — 

db_custom_port

Порт внешней базы данных

 — 

Airflow database name

Имя внешней базы данных

airflow

flink-conf.yaml
Параметр Описание Значение по умолчанию

jobmanager.rpc.port

RPC-порт, по которому доступен JobManager. Этот параметр не используется в режиме высокой доступности (High Availability, HA), поскольку при HA порт для подключения к JobManager генерирует ZooKeeper

6123

taskmanager.network.bind-policy

Политика автоматического биндинга адресов, используемая TaskManager

name

parallelism.default

Уровень параллелизма по умолчанию для всех сред выполнения

1

taskmanager.numberOfTaskSlots

Количество слотов задач, которые предлагает каждый TaskManager. Каждый слот запускает один параллельный пайплайн

1

taskmanager.heap.size

Размер кучи для JVM TaskManager

1024m

jobmanager.heap.size

Размер кучи для JVM JobManager

1024m

security.kerberos.login.use-ticket-cache

Определяет, использовать ли кеш тикетов Kerberos

false

security.kerberos.login.keytab

Абсолютный путь к Kerberos keytab-файлу, который хранит учетные данные пользователя

 — 

security.kerberos.login.principal

Принципал Kerberos для Flink

 — 

security.kerberos.login.contexts

Разделенный запятыми список логин-контекстов, которым предоставляются учетные данные Kerberos

 — 

security.ssl.rest.enabled

Активирует SSL для коммуникации через внешние REST-endpoints

false

security.ssl.rest.keystore

Java keystore-файл, который содержит SSL-ключ и сертификат для использования внешними REST-endpoints Flink

 — 

security.ssl.rest.truststore

Truststore-файл, который содержит сертификаты ЦС для проверки внешних REST endpoints Flink

 — 

security.ssl.rest.keystore-password

Секретный ключ для дешифрования keystore-файла, используемого для внешних REST-endpoints Flink

 — 

security.ssl.rest.truststore-password

Пароль для доступа к truststore-файлу, который используется для внешних REST endpoints Flink

 — 

security.ssl.rest.key-password

Секретный ключ для расшифровки ключа в keystore-файле для использования внешними REST-endpoints Flink

 — 

Logging level

Определяет уровень ведения журнала активности Flink

INFO

high-availability

Определяет режим высокой доступности (High Availability, HA) для кластера

 — 

high-availability.zookeeper.quorum

ZooKeeper-кворум при работы Flink в режиме высокой доступности с ZooKeeper

 — 

high-availability.storageDir

Путь в файловой системе (URI), где Flink хранит метаданные в режиме высокой доступности

 — 

high-availability.zookeeper.path.root

Рутовый путь Flink ZNode в Zookeeper

/flink

high-availability.cluster-id

ID Flink-кластера для разделения нескольких Flink-кластеров друг от друга

 — 

sql-gateway.endpoint.rest.port

Номер порта для соединения с сервисом SQL Gateway

8083

sql-gateway.session.check-interval

Интервал для проверки сессий на бездействие. Значение меньшее или равное 0 отключает проверки

1 min

sql-gateway.session.idle-timeout

Время, по истечении которого сессия автоматически закрывается, если не было установлено ни единого соединения. При значении меньшем или равном 0 сессии не закрываются

10 min

sql-gateway.session.max-num

Максимально возможное количество сессий на сервере SQL Gateway

1000000

sql-gateway.worker.keepalive-time

Время гарантированной жизни worker-потоков при бездействии. Когда количество worker-потоков превышает значение sql-gateway.worker.threads.min, потоки удаляются после данного интервала

5 min

sql-gateway.worker.threads.max

Максимально возможное количество worker-потоков

500

sql-gateway.worker.threads.min

Минимальное количество worker-потоков на сервере SQL Gateway. Если количество потоков меньше данного значения, потоки автоматически не удаляются

5

zookeeper.sasl.disable

Определяет использование SASL-аутентификации в Zookeeper

false

Другие параметры
Параметр Описание Значение по умолчанию

Custom flink-conf.yaml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле flink-conf.yaml

 — 

log4j.properties

Содержимое конфигурационного файла log4j.properties

log4j-cli.properties

Содержимое конфигурационного файла log4j-cli.properties

HBase

hbase-site.xml
Параметр Описание Значение по умолчанию

hbase.balancer.period

Интервал для запуска балансировщика регионов в мастере

300000

hbase.client.pause

Общее значение паузы клиента. Используется для указания паузы перед повторной попыткой после неудачного получения, поиска региона и так далее. Для получения более подробной информации об использовании пауз с повторными попытками смотрите описание параметра hbase.client.retries.number

100

hbase.client.max.perregion.tasks

Максимальное количество одновременных задач мутации, которые клиент может поддерживать в одном регионе. Иными словами, если для определенного региона уже выполняется hbase.client.max.perregion.tasks процессов записи, новые операции put не будут отправляться в этот регион, пока процесс записи не завершится

1

hbase.client.max.perserver.tasks

Максимальное количество одновременных задач мутации, которые один экземпляр HTable будет отправлять на один Region-сервер

2

hbase.client.max.total.tasks

Максимальное количество одновременных задач мутации, которые один экземпляр HTable будет отправлять в кластер

100

hbase.client.retries.number

Максимальное количество повторных попыток. Заданное значение используется для всех операций повтора, таких как: получение значения ячейки, запуск обновления строки и так далее. Интервал повтора вычисляется функцией, основанной на hbase.client.pause. Чтобы узнать, как увеличивается размер резервных копий при повторной обработке, смотрите значение константы RETRY_BACKOFF. Измените этот параметр и hbase.client.pause в соответствии с вашей рабочей нагрузкой

15

hbase.client.scanner.timeout.period

Период аренды клиентского сканера (в миллисекундах)

60000

hbase.cluster.distributed

Режим кластера. Возможные значения: false — для автономного режима и псевдораспределенных систем с управляемым ZooKeeper; true — для полностью распределенного режима с неуправляемым ZooKeeper Quorum. Если указано false, все демоны HBase и ZooKeeper запускаются в одной JVM, если true — каждый демон запускается в отдельной JVM

true

hbase.hregion.majorcompaction

Интервал между выполнением Major compaction (в миллисекундах). Установите значение 0, чтобы отключить автоматические выполнение Major compaction по времени. Major compaction, запрошенные пользователем и основанные на размере, будут по-прежнему выполняться. Значение параметра умножается на hbase.hregion.majorcompaction.jitter, чтобы операция сжатия выполнялась в случайное время в течение определенного временного промежутка

604800000

hbase.hregion.max.filesize

Максимальный размер файла. Если общий размер некоторых HFile в регионе превышает это значение, регион разделяется на две части. Существует два варианта работы этого параметра: первый, когда размер любого хранилища превышает пороговое значение, затем разделяется, а другой — если общий размер региона превышает пороговое значение, затем разделяется. Его можно настроить с помощью hbase.hregion.split.overallfiles

10737418240

hbase.hstore.blockingStoreFiles

Если количество StoreFile в хранилище превышает значение данного параметра (один StoreFile записывается на каждый сброс MemStore), обновления для этого региона блокируются до тех пор, пока не будет завершено сжатие (compaction) или пока не будет превышено значение hbase.hstore.blockingWaitTime

16

hbase.hstore.blockingWaitTime

Время, в течение которого регион будет блокировать обновления после достижения предела StoreFile. Лимит определяется параметром hbase.hstore.blockingStoreFiles. По истечении этого времени регион перестанет блокировать обновления, даже если процесс сжатия не был завершен

90000

hbase.hstore.compaction.max

Максимальное количество StoreFiles, которое будет выбрано для одной процедуры сжатия (Minor compaction), независимо от количества StoreFiles, готовых к сжатию. Значение hbase.hstore.compaction.max контролирует время, необходимое для завершения одного сжатия. Установка большего значения означает, что в одно сжатие включается больше файлов StoreFile. В большинстве случаев подходит значение по умолчанию

10

hbase.hstore.compaction.min

Минимальное количество StoreFiles, которые должны быть пригодны для сжатия, прежде чем выполнять операцию сжатия. Назначение параметра состоит в том, чтобы избежать ситуации, когда выполняется сжатие для большого количества маленьких StoreFiles. Установка значения 2 приводит к выполнению незначительного сжатия каждый раз, когда у вас есть два StoreFile в хранилище, и это, вероятно, неподходящее поведение. Если вы установите слишком большое значение, все остальные значения необходимо будет соответствующим образом отрегулировать. В большинстве случаев подходит значение по умолчанию. В предыдущих версиях HBase параметр hbase.hstore.compaction.min назывался hbase.hstore.compactionThreshold

3

hbase.hstore.compaction.min.size

Все StoreFile, размер которых меньше, чем указано параметром, могут быть подвержены процедуре Minor compaction. StoreFiles, размер которых равен или больше значения данного параметра, оцениваются с помощью hbase.hstore.compaction.ratio, чтобы определить, подходят ли они для сжатия. Поскольку это ограничение автоматически включает все StoreFile, размер которых меньше значения параметра, значение параметра может потребоваться уменьшить в средах с высокой интенсивностью записи, когда выполняется запись большого количества файлов размером 1-2 МБ. В противном случае, каждый StoreFile будет номинирован на сжатие, а размер результирующего файла будет все так же мал, что повлечет очередное сжатие. Если значение параметра небольшое, проверка соотношения срабатывает быстрее. Это устранило некоторые проблемы, замеченные в более ранних версиях HBase, но в большинстве ситуаций изменение этого параметра больше не требуется

134217728

hbase.hstore.compaction.ratio

Для операции Minor compaction данный параметр используется для определения того, подходит ли для сжатия StoreFile, размер которого превышает hbase.hstore.compaction.min.size. Назначение параметра заключается в ограничении сжатия больших StoreFile. Значение hbase.hstore.compaction.ratio выражается в виде десятичного числа с плавающей запятой

1.2F

hbase.hstore.compaction.ratio.offpeak

Коэффициент сжатия, используемый при сжатиях вне пиковой нагрузки, если также настроены часы непиковой нагрузки. Значение параметра — десятичное число с плавающей запятой. Позволяет выполнять более агрессивное (или менее агрессивное, если вы установите его ниже, чем hbase.hstore.compaction.ratio) сжатие в течение заданного периода времени. Значение игнорируется, если непиковое время отключено (по умолчанию). Параметр работает аналогично параметру hbase.hstore.compaction.ratio

5.0F

hbase.hstore.compactionThreshold

Если количество StoreFiles в хранилище превышает значение параметра (один StoreFile записывается при каждом сбросе MemStore), выполняется процедура сжатия для перезаписи всех StoreFiles в один StoreFile. Чем больше значение, тем реже выполняется сжатие, однако в таком случае для завершения сжатия требуется больше времени

3

hbase.hstore.flusher.count

Количество потоков, выполняющих сбросы (flush). При меньшем количестве потоков сбросы в MemStore будут поставлены в очередь. При большем количестве потоков сбросы будут выполняться параллельно, увеличивая нагрузку на HDFS и потенциально вызывая больше операций сжатия

2

hbase.hstore.time.to.purge.deletes

Время задержки до выполнения очистки маркеров удаления, включая маркеры с отметками времени в будущем. Если значение не указано или используется 0, все маркеры удаления, в том числе с отметками времени в будущем, удаляются во время следующего Major compaction. В противном случае маркер удаления сохраняется до этапа основного сжатия (Major compaction), которое выполняется после отметки времени маркера плюс значение этого параметра (в миллисекундах)

0

hbase.master.ipc.address

HMaster RPC

0.0.0.0

hbase.normalizer.period

Период, в течение которого нормализатор региона работает на Мастере (в миллисекундах)

300000

hbase.regionserver.compaction.enabled

Включает/отключает сжатие, используя значения true/false. Вы также можете динамически переключать операции сжатия с помощью команды оболочки compaction_switch

true

hbase.regionserver.ipc.address

IP-адрес Region Server

0.0.0.0

hbase.regionserver.regionSplitLimit

Максимальное количество регионов, при достижении которого деление на регионы (split) больше не выполняется. Данный параметр не является жестким ограничением количества регионов, но служит ориентиром для Region Server, чтобы прекратить разделение после определенного предела

1000

hbase.rootdir

Каталог, совместно используемый Region Servers и в который HBase записывает данные. URL-адрес должен быть полностью определенным и должен включать схему файловой системы. Например, чтобы указать каталог HDFS /hbase, где экземпляр NameNode HDFS имеет адрес namenode.example.org и порт 9000, установите это значение следующим образом: hdfs://namenode.example.org:9000/hbase

 — 

hbase.zookeeper.quorum

Список серверов в ZooKeeper ensemble, разделенных запятыми. Например, host1.mydomain.com,host2.mydomain.com,host3.mydomain.com. По умолчанию используется значение localhost для локальных и псевдораспределенных режимов работы. Для полностью распределенных систем значение параметра должно содержать полный список серверов ZooKeeper ensemble. Если HBASE_MANAGES_ZK установлено в hbase-env.sh, HBase будет использовать список серверов для запуска ZooKeeper при запуске/остановке кластера. На стороне клиента к списку ensemble добавляется значение hbase.zookeeper.property.clientPort и передается конструктору ZooKeeper в качестве параметра строки подключения

 — 

zookeeper.session.timeout

Время ожидания сеанса ZooKeeper в миллисекундах. Используется двумя способами. Первый способ — когда значение обрабатывается клиентом ZooKeeper, который HBase использует для подключения к ensemble. Параметр также используется HBase, когда последний запускает сервер ZooKeeper (в этом случае тайм-аут передается как maxSessionTimeout). Более деальная информация доступна на странице документации ZooKeeper. Например, если Region Server HBase подключается к ZooKeeper ensemble, который также управляется HBase, время ожидания сеанса будет задано этим параметром. Но Region Server, который подключается к ensemble, управляемому другой конфигурацией, будет использовать maxSessionTimeout этого ensemble. Таким образом, даже если HBase-кофигурация использует 90 секунд, максимальный тайм-аут ensemble может быть меньшее, и он будет иметь приоритет. Текущее значение по умолчанию maxSessionTimeout в ZooKeeper составляет 40 секунд, что меньше, чем в HBase

90000

zookeeper.znode.parent

Корневой znode для HBase в ZooKeeper. Все файлы HBase ZooKeeper, которые используют относительные пути, будут попадать в этот узел. По умолчанию все пути к файлам HBase ZooKeeper используют относительные пути, поэтому все файлы будут попадать в данный каталог, если не будут изменены

/hbase

hbase.rest.port

Порт, используемый HBase Rest Server

60080

hbase.zookeeper.property.authProvider.1

Указывает класс провайдера аутентификации для ZooKeeper

 — 

hbase.security.authentication

Установите значение true, чтобы использовать строгую аутентификацию (strong authentication) для HBase RPC

false

hbase.security.authentication.ui

Включает Kerberos-аутентификацию для веб-интерфейса HBase, используя SPNEGO

 — 

hbase.security.authentication.spnego.kerberos.principal

Принципал Kerberos для SPNEGO-аутентификации

 — 

hbase.security.authentication.spnego.kerberos.keytab

Путь к Kerberos keytab-файлу с принципалами для SPNEGO-аутентификации

 — 

hbase.security.authorization

Установите значение true, чтобы использовать строгую авторизацию (strong authorization) для HBase RPC

false

hbase.master.kerberos.principal

Принципал Kerberos, используемый для запуска процесса HMaster

 — 

hbase.master.keytab.file

Абсолютный путь к Kerberos keytab-файлу, который используется для входа в систему принципала HMaster server

 — 

hbase.regionserver.kerberos.principal

Принципал Kerberos, который используется для запуска процесса HRegionServer

 — 

hbase.regionserver.keytab.file

Абсолютный путь к Kerberos keytab-файлу, который используется для входа в систему принципала HRegionServer

 — 

hbase.rest.authentication.type

Тип аутентификации Kerberos для REST Gateway

 — 

hbase.rest.authentication.kerberos.principal

Принципал Kerberos для REST Gateway

 — 

hbase.rest.authentication.kerberos.keytab

Kerberos keytab-файл для REST gateway

 — 

hbase.thrift.keytab.file

Kerberos keytab-файл для Thrift

 — 

hbase.rest.keytab.file

Kerberos keytab-файл для HBase REST gateway

 — 

hbase.rest.kerberos.principal

HBase REST gateway Kerberos principal

 — 

hbase.thrift.kerberos.principal

Thrift Kerberos principal

 — 

hbase.thrift.security.qop

Устанавливает проверку аутентификации, целостности и приватности. Поддерживаемые значения:

  • auth-conf — проверка аутентификации, целостности и приватности;

  • auth-int — проверка аутентификации и целостности;

  • auth — только проверка аутентификации.

 — 

phoenix.queryserver.keytab.file

Путь к Kerberos keytab-файлу

 — 

phoenix.queryserver.kerberos.principal

Принципал Kerberos для использования при аутентификации. Если phoenix.queryserver.kerberos.http.principal не задан, указанный принципал также будет использоваться как для аутентификации соединений SPNEGO, так и для подключения к HBase

 — 

phoenix.queryserver.kerberos.keytab

Полный путь к Kerberos keytab-файлу, который будет использоваться для входа в систему принципала HMaster server

 — 

phoenix.queryserver.http.keytab.file

Keytab-файл, используемый для аутентификации соединений SPNEGO. Этот параметр должен быть указан, если задан phoenix.queryserver.kerberos.http.principal. phoenix.queryserver.keytab.file будет использоваться, если данный параметр не указан

 — 

phoenix.queryserver.http.kerberos.principal

Принципал Kerberos для использования при аутентификации подключений SPNEGO. phoenix.queryserver.kerberos.principal будет использоваться, если этот параметр не задан

phoenix.queryserver.kerberos.http.principal

Параметр устарел. Используйте phoenix.queryserver.http.kerberos.principal

 — 

hbase.ssl.enabled

Определяет, включен ли SSL для веб-интерфейсов

false

hadoop.ssl.enabled

Определяет, включен ли SSL для Hadoop RPC

false

ssl.server.keystore.location

Путь к используемому keystore-файлу

 — 

ssl.server.keystore.password

Пароль для доступа к keystore-файлу

 — 

ssl.server.truststore.location

Путь к используемому truststore-файлу

 — 

ssl.server.truststore.password

Пароль для доступа к truststore-файлу

 — 

ssl.server.keystore.keypassword

Пароль для доступа к ключу в keystore-файле

 — 

hbase.rest.ssl.enabled

Определяет, включен ли SSL для HBase REST server

false

hbase.rest.ssl.keystore.store

Путь к используемому keystore-файлу

 — 

hbase.rest.ssl.keystore.password

Пароль для доступа к keystore-файлу

 — 

hbase.rest.ssl.keystore.keypassword

Пароль для доступа к ключу в keystore-файле

 — 

HBASE heap memory settings
Параметр Описание Значение по умолчанию

HBASE Regionserver Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для HBase Region server

-Xms700m -Xmx9G

HBASE Master Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для HBase Master

-Xms700m -Xmx9G

Phoenix Queryserver Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для Phoenix Query server

-Xms700m -Xmx8G

HBASE Thrift2 server Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для HBase Thrift2 server

-Xms700m -Xmx8G

HBASE Rest server Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для HBase Rest server

-Xms200m -Xmx8G

ranger-hbase-audit.xml
Параметр Описание Значение по умолчанию

xasecure.audit.destination.solr.batch.filespool.dir

Путь к Spool-каталогу

/srv/ranger/hdfs_plugin/audit_solr_spool

xasecure.audit.destination.solr.urls

Оставьте значение пустым или установите значение NONE при использовании ZooKeeper для подключения к Solr

 — 

xasecure.audit.destination.solr.zookeepers

Указывает строку подключения ZooKeeper для подключения к Solr

 — 

xasecure.audit.destination.solr.force.use.inmemory.jaas.config

Использует in-memory JAAS-файл для соединения с Solr

 — 

xasecure.audit.is.enabled

Активирует аудит Ranger

true

xasecure.audit.jaas.Client.loginModuleControlFlag

Определяет требование к успешному завершению работы модуля. Значения могут быть required, requisite, sufficient или optional

 — 

xasecure.audit.jaas.Client.loginModuleName

Имя класса-аутентификатора

 — 

xasecure.audit.jaas.Client.option.keyTab

Имя keytab-файла, из которого необходимо получить секретный ключ принципала

 — 

xasecure.audit.jaas.Client.option.principal

Имя используемого принципала

 — 

xasecure.audit.jaas.Client.option.serviceName

Имя пользователя или сервиса, для которого выполнятся логин

 — 

xasecure.audit.jaas.Client.option.storeKey

Установите значение true, чтобы keytab-файл или ключ принципала сохранялись в учетных данных субъекта

false

xasecure.audit.jaas.Client.option.useKeyTab

Установите значение true, чтобы модуль получал ключ принципала из keytab-файла

false

ranger-hbase-security.xml
Параметр Описание Значение по умолчанию

ranger.plugin.hbase.policy.rest.url

URL для Ranger Admin

 — 

ranger.plugin.hbase.service.name

Имя Ranger-сервиса, который содержит политики для этого экземпляра

 — 

ranger.plugin.hbase.policy.cache.dir

Каталог, в котором кешируются политики Ranger после успешного извлечения из источника

/srv/ranger/hbase/policycache

ranger.plugin.hbase.policy.pollIntervalMs

Определяет, как часто проверять политики на предмет изменения

30000

ranger.plugin.hbase.policy.rest.client.connection.timeoutMs

Время ожидания подключения HBase-плагина RangerRestClient (в миллисекундах)

120000

ranger.plugin.hbase.policy.rest.client.read.timeoutMs

Тайм-аут на чтение для HBase-плагина RangerRestClient (в миллисекундах)

30000

ranger.plugin.hbase.policy.rest.ssl.config.file

Путь к конфигурационному файлу RangerRestClient SSL плагина HBase

/etc/hbase/conf/ranger-hbase-policymgr-ssl.xml

ranger-hbase-policymgr-ssl.xml
Параметр Описание Значение по умолчанию

xasecure.policymgr.clientssl.keystore

Путь к keystore-файлу, который использует Ranger

 — 

xasecure.policymgr.clientssl.keystore.credential.file

Путь к файлу с паролями для keystore-файла

/etc/hbase/conf/ranger-hbase.jceks

xasecure.policymgr.clientssl.truststore.credential.file

Путь к truststore-файлу с учетными данными

/etc/hbase/conf/ranger-hbase.jceks

xasecure.policymgr.clientssl.truststore

Путь к truststore-файлу, который использует Ranger

 — 

xasecure.policymgr.clientssl.keystore.password

Пароль для доступа к keystore-файлу

 — 

xasecure.policymgr.clientssl.truststore.password

Пароль для доступа к truststore-файлу

 — 

Другие параметры
Параметр Описание Значение по умолчанию

Custom hbase-site.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле hbase-site.xml

 — 

Custom hbase-env.sh

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле hbase-env.sh

 — 

Ranger plugin enabled

Определяет, активен ли Ranger-плагин

false

Custom ranger-hbase-audit.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-hbase-audit.xml

 — 

Custom ranger-hbase-security.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-hbase-security.xml

 — 

Custom ranger-hbase-security.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-hbase-security.xml

 — 

Custom ranger-hbase-policymgr-ssl.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-hbase-policymgr-ssl.xml

 — 

Custom log4j.properties

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле log4j.properties

Custom hadoop-metrics2-hbase.properties

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле hadoop-metrics2-hbase.properties

HDFS

core-site.xml
Параметр Описание Значение по умолчанию

fs.defaultFS

Имя файловой системы по умолчанию. URI, чья схема и иерархическая часть определяют имплементацию FileSystem. Схема URI определяет свойство конфигурации (fs.SCHEME.impl), именующее класс реализации файловой системы. Иерархическая часть URI используются для определения хоста и порта для файловой системы

 — 

fs.trash.checkpoint.interval

Количество минут между контрольными точками сборки мусора. Значение должно быть меньше или равно fs.trash.interval. Каждый раз, когда выполняется контрольная точка, она создает новую контрольную точку из текущей и удаляет контрольные точки, созданные более fs.trash.interval минут назад

60

fs.trash.interval

Количество минут, по истечении которых контрольная точка удаляется. Если установлено значение 0, функция корзины отключена

1440

hadoop.tmp.dir

Корневой каталог для других временных каталогов

/tmp/hadoop-${user.name}

hadoop.zk.address

Разделенный запятыми список пар <Host>:<Port>. Каждая пара соответствует ZooKeeper, который будет использоваться диспетчером ресурсов (Resource Manager) для хранения состояния диспетчера ресурсов

 — 

io.file.buffer.size

Размер буфера для sequence-файлов. Размер этого буфера должен быть кратен размеру страницы (4096 на Intel x86); параметр определяет, сколько данных буферизуется во время операций чтения и записи

131072

net.topology.script.file.name

Скрипт, который вызывается для преобразования DNS-имен в имена NetworkTopology. Пример: скрипт принимает host.foo.bar в качестве аргумента и возвращает /rack1 в качестве вывода

 — 

ha.zookeeper.quorum

Список адресов серверов ZooKeeper, разделенных запятыми, которые должны использоваться ZKFailoverController при автоматическом переходе на другой ресурс

 — 

ipc.client.fallback-to-simple-auth-allowed

Когда клиент пытается установить безопасное соединение, но пытается подключиться к незащищенному серверу, этот сервер может запросить клиента переключиться на SASL SIMPLE (небезопасную) аутентификацию. Этот параметр определяет, примет ли клиент эту инструкцию от сервера. Если установлено значение false (по умолчанию), клиент не разрешает откат к SIMPLE аутентификации и прерывает соединение

false

hadoop.security.authentication

Определяет тип аутентификации. Допустимые значения: simple — без аутентификации, kerberos — активирует Kerberos-аутентификацию

simple

hadoop.security.authorization

Включает авторизацию RPC на уровне сервиса

false

hadoop.rpc.protection

Указывает RPC-защиту. Возможные значения:

  • authentication — выполняется только аутентификация;

  • integrity — помимо аутентификации выполняется проверка целостности;

  • privacy — помимо проверки целостности, выполняется шифрование данных.

authentication

hadoop.security.auth_to_local

Значение должно содержать символы переноса строки. За дополнительной информацией можно обратиться к документации Kerberos

 — 

hadoop.http.authentication.type

Определяет тип аутентификации для веб-консолей HTTP. Возможные значения: simple, kerberos, [AUTHENTICATION_HANDLER-CLASSNAME]

simple

hadoop.http.authentication.kerberos.principal

Указывает на Kerberos-принципала, который будет использоваться для HTTP-endpoint при использовании аутентификации kerberos. Короткое имя принципала должно соответствовать спецификации Kerberos HTTP SPNEGO

HTTP/localhost@$LOCALHOST

hadoop.http.authentication.kerberos.keytab

Расположение keytab-файла с учетными данными для принципала Kerberos, используемого для HTTP-endpoint

/etc/security/keytabs/HTTP.service.keytab

ha.zookeeper.acl

ACL для всех znodes

 — 

hadoop.http.filter.initializers

Значение параметра должно содержать initializer-класс org.apache.hadoop.security.AuthenticationFilterInitializer

 — 

hadoop.http.authentication.signature.secret.file

Секретный файл подписи для подписи токенов аутентификации. Если параметр не задан, во время запуска генерируется случайный секретный ключ. Один и тот же секретный ключ следует использовать для всех узлов кластера, JobTracker, NameNode, DataNode и TastTracker. Этот файл должен быть доступен для чтения только пользователю Unix, запускающему демоны

/etc/security/http_secret

hadoop.http.authentication.cookie.domain

Домен, используемый для HTTP cookie, в котором хранится токен аутентификации. Для корректной аутентификации на всех узлах кластера домен должен быть установлен правильно. Значение по умолчанию отсутствует, и если параметр не задан, HTTP cookie не будет иметь домена и будет работать только с именем хоста, который выпустил cookie

 — 

hadoop.ssl.require.client.cert

Определяет, требуются ли клиентские сертификаты

false

hadoop.ssl.hostname.verifier

Верификатор имени хоста для HttpsURLConnections. Допустимые значения: DEFAULT, STRICT, STRICT_IE6, DEFAULT_AND_LOCALHOST и ALLOW_ALL

DEFAULT

hadoop.ssl.keystores.factory.class

Указывает имплементацию KeyStoresFactory для использования

org.apache.hadoop.security.ssl.FileBasedKeyStoresFactory

hadoop.ssl.server.conf

Файл, из которого будет извлечена информация о серверном хранилище SSL-ключей. Посик файла выполняется в CLASSPATH, обычно он должен находиться в каталоге Hadoop conf/

ssl-server.xml

hadoop.ssl.client.conf

Файл, из которого будет извлечена информация о клиентском хранилище SSL-ключей. Посик файла выполняется в CLASSPATH, обычно он должен находиться в каталоге Hadoop conf/

ssl-client.xml

User managed hadoop.security.auth_to_local

Отключает автоматическую генерацию hadoop.security.auth_to_local

false

hdfs-site.xml
Параметр Описание Значение по умолчанию

dfs.client.block.write.replace-datanode-on-failure.enable

Если в процессе записи возникает сбой DataNode или ошибка сети, DFSClient попытается удалить отказавший DataNode из пайплайна, а затем продолжит запись с оставшимися DataNodes. Это приводит к уменьшению DataNodes в пайплайне. Решением является добавление новых DataNode в пайплайн. Данный параметр включает/отключает функцию добавления DataNode на глобальном уровне. Если кластер очень маленький, например, 3 узла или меньше, администраторы такого кластера могут установить политику NEVER в файле конфигурации по умолчанию или отключить эту функцию. В противном случае пользователи могут столкнуться с необычно высоким уровнем отказов пайплайна, из-за невозможности добавления новых узлов данных для замены отказавших. Чтобы получить больше информации, смотрите параметр dfs.client.block.write.replace-datanode-on-failure.policy

true

dfs.client.block.write.replace-datanode-on-failure.policy

Этот параметр используется, только если значение dfs.client.block.write.replace-datanode-on-failure.enable равно true.

Допустимые значения:

  • ALWAYS. Всегда добавляет новый DataNode после того как существующий DataNode удален.

  • NEVER. Никогда не добавляет новый DataNode.

  • DEFAULT. Пусть r — фактор репликации, а n — количество существующих DataNodes. Добавляет новый DataNode только если r больше или равно 3 и выполняются следующие условия:

    1. floor(r/2) больше или равно n;

    2. r больше n и блок имеет статус hflushed/appended.

DEFAULT

dfs.client.block.write.replace-datanode-on-failure.best-effort

Используется, только если значение dfs.client.block.write.replace-datanode-on-failure.enable равно true. Клиент попытается заменить отказавший DataNode в пайплайне записи (при условии, что политика позволяет это сделать), однако продолжит операцию записи в случае, если замена DataNode также не удалась. Рассмотрим случай, когда замена DataNode не была выполнена. В таком случае значение false приводит к исключению и запись прерывается; значение true означает, что запись должна быть возобновлена с оставшимися DataNodes. Обратите внимание, что установка для этого свойства значения true позволяет выполнять запись в пайплайн с меньшим количеством DataNodes. В результате увеличивается вероятность потери данных

false

dfs.client.block.write.replace-datanode-on-failure.min-replication

Минимальное количество репликаций, необходимых для предотвращения сбоя пайплайна записи в случае, если новые DataNodes не могут быть найдены для замены отказавших DataNodes (например, из-за сбоя сети). Если количество оставшихся DataNodes больше или равно значению этого параметра, запись продолжается в оставшиеся узлы. В противном случае будет брошено исключение. Если используется значение 0, будет брошено исключение в момент, когда замена не может быть найдена. Чтобы получить больше информации, смотрите параметр dfs.client.block.write.replace-datanode-on-failure.policy

0

dfs.balancer.dispatcherThreads

Размер пула потоков для механизма перемещения блоков балансировщика (balancer block mover) HDFS — dispatchExecutor

200

dfs.balancer.movedWinWidth

Временной интервал для отслеживания балансировщиком блоков и их местоположений (в миллисекундах)

5400000

dfs.balancer.moverThreads

Размер пула потоков для выполнения перемещений блоков — moverThreadAllocator

1000

dfs.balancer.max-size-to-move

Максимальное количество байт, которое балансировщик может переместить в одном потоке

10737418240

dfs.balancer.getBlocks.min-block-size

Минимальный размер блока (в байтах), который следует игнорировать при получении списка блоков

10485760

dfs.balancer.getBlocks.size

Общий размер блоков DataNode (в байтах), которые необходимо получить при получении исходного списка блоков

2147483648

dfs.balancer.block-move.timeout

Максимальное время перемещения блока (в миллисекундах). Если установлено значение больше 0, балансировщик прекращает ожидание завершения перемещения блока по истечении этого времени. В типичных кластерах оптимальным считается тайм-аут в 3-5 минут. Если предполагается большой объем перемещений блоков, тайм-аут необходимо увеличить. Возможны сценарии, при которых слишком много работы распределяется, и в результате многие узлы постоянно превышают ограничение по пропускной способности. В этом случае может потребоваться настройка других параметров балансировщика. По умолчанию тайм-аут отключен (0)

0

dfs.balancer.max-no-move-interval

Если время, указанное данным параметром, истекло, а блоки не были перемещены из исходного DataNode, выполнится еще одна попытка перемещения блоков из этого DataNode в текущей итерации балансировщика

60000

dfs.balancer.max-iteration-time

Максимальное количество времени для выполнения итерации балансировщика. По истечении этого времени балансировщик останавливает итерацию и анализирует действия, которые необходимо выполнить для балансировки кластера. Значение по умолчанию — 20 минут

1200000

dfs.blocksize

Размер блока по умолчанию для новых файлов (в байтах). Вы можете использовать следующие постфиксы для указания единиц размера (регистро-независимые): k (кило), m (мега), g (гига), t (тера), p (пета), e (eкзa). Например, 128k, 512m, 1g и так далее. Также вы можете указать размер в байтах, например, 134217728 для 128 МБ

134217728

dfs.client.read.shortcircuit

Активирует функцию локального чтения

true

dfs.datanode.balance.max.concurrent.moves

Максимальное количество потоков для балансировщика DataNode, ожидающих перемещения. Это значение можно изменить с помощью команды dfsadmin -reconfig

50

dfs.datanode.data.dir

Определяет, где в локальной файловой системе DFS DataNode должен хранить свои блоки. Если указаны несколько каталогов, то данные будут храниться во всех именованных каталогах, как правило, на разных устройствах. Каталоги должны быть помечены соответствующими типами хранения (SSD/DISK/ARCHIVE/RAM_DISK) для политик хранения HDFS. Типом хранилища по умолчанию служит DISK, если каталог не имеет явного тега типа хранилища. Несуществующие каталоги будут созданы, если имеются соответствующие права локальной файловой системы

/srv/hadoop-hdfs/data:DISK

dfs.disk.balancer.max.disk.throughputInMBperSec

Максимальная пропускная способность диска, с которой может работать балансировщик дисков при чтении с исходного диска. Единица измерения — МБ/с

10

dfs.disk.balancer.block.tolerance.percent

Параметр указывает, когда достигается достаточное значение для любого шага копирования (в процентах). Например, если установлено значение 10, то приближение к 10% от целевого значения считается достаточным размером. Другими словами, если размер операции перемещения составляет 20 ГБ и удается переместить 18 ГБ (20 * (1-10%)), операция перемещения считается успешной

10

dfs.disk.balancer.max.disk.errors

Во время перемещения блока с исходного на целевой диск могут возникать различные ошибки. Этот параметр определяет количество допустимых ошибок прежде чем считать перемещение между двумя дисками неудачным

5

dfs.disk.balancer.plan.valid.interval

Максимальное время, в течение которого план балансировщика дисков (набор настроек, описывающий объем данных для перемещения между двумя дисками) остается валиден. Этот параметр поддерживает различные единицы времени, как описано в dfs.heartbeat.interval. Если единица времени не указана, используются миллисекунды

1d

dfs.disk.balancer.plan.threshold.percent

Определяет порог хранения данных в процентах, при достижении которого диски принимают участие в перераспределении данных и балансировке

10

dfs.domain.socket.path

Путь к сокету домена UNIX, который будет использоваться для коммуникации между DataNode и локальными клиентами HDFS. Если в этом пути присутствует строка _PORT, она будет заменена TCP-портом DataNode. Параметр опциональный

/var/lib/hadoop-hdfs/dn_socket

dfs.hosts

Имя файла, который содержит список хостов, которым разрешено подключаться к NameNode. Путь к файлу должен быть абсолютным. Если значение пустое, разрешены все хосты

/etc/hadoop/conf/dfs.hosts

dfs.mover.movedWinWidth

Минимальный интервал времени для повторного перемещения блока в другую локацию (в миллисекундах)

5400000

dfs.mover.moverThreads

Устанавливает размер пула потоков балансировщика

1000

dfs.mover.retry.max.attempts

Максимальное количество повторных попыток, прежде чем mover посчитает перемещение неудачным

10

dfs.mover.max-no-move-interval

Указывает временной отрезок. Если время истекло, и ни один блок не был перемещен из исходного DataNode, будет предпринята еще одна попытка переместить блоки из этого DataNode в текущей итерации перемещения

60000

dfs.namenode.name.dir

Определяет, где в локальной файловой системе DFS NameNode должен хранить таблицу имен (fsimage). Если указаны несколько каталогов, то таблица имен реплицируется во все каталоги для избыточности

/srv/hadoop-hdfs/name

dfs.namenode.checkpoint.dir

Определяет, где в локальной файловой системе Secondary DFS NameNode должен хранить временные образы для слияния. Если указаны несколько каталогов, то образ реплицируется во все каталоги для избыточности

/srv/hadoop-hdfs/checkpoint

dfs.namenode.hosts.provider.classname

Имя класса, предоставляющего доступ к хост-файлам. По умолчанию используется org.apache.hadoop.hdfs.server.blockmanagement.HostFileManager, который загружает файлы, указанные в dfs.hosts и dfs.hosts.exclude. Если используется org.apache.hadoop.hdfs.server.blockmanagement.CombinedHostFileManager, этот класс загружает файл JSON, определенный в dfs.hosts. Чтобы изменить имя класса, требуется перезапуск NameNode. Команда dfsadmin -refreshNodes обновляет только файлы конфигурации, используемые классом

org.apache.hadoop.hdfs.server.blockmanagement.CombinedHostFileManager

dfs.namenode.rpc-bind-host

Фактический адрес, к которому будет привязан сервер RPC. Если этот необязательный адрес установлен, он переопределяет только часть имени хоста dfs.namenode.rpc-address. Его также можно указать для NameNode или службы имен для режимов высокой доступности или федерации. При установке значения 0.0.0.0 NameNode слушает все интерфейсы

0.0.0.0

dfs.permissions.superusergroup

Имя группы суперпользователей. В значении должно быть указано имя одной группы

hadoop

dfs.replication

Репликация блока по умолчанию. Фактическое количество репликаций можно указать при создании файла. Используется значение по умолчанию, если репликация не указана во время создания файла

3

dfs.journalnode.http-address

HTTP-адрес веб-интерфейса JournalNode

0.0.0.0:8480

dfs.journalnode.https-address

HTTPS-адрес веб-интерфейса JournalNode

0.0.0.0:8481

dfs.journalnode.rpc-address

RPC-адрес веб-интерфейса JournalNode

0.0.0.0:8485

dfs.datanode.http.address

Адрес HTTP-сервера DataNode

0.0.0.0:9864

dfs.datanode.https.address

Адрес HTTPS-сервера DataNode

0.0.0.0:9865

dfs.datanode.address

Адрес DataNode для передачи данных

0.0.0.0:9866

dfs.datanode.ipc.address

IPC-адоес DataNode

0.0.0.0:9867

dfs.namenode.http-address

Адрес веб-интерфейса dfs NameNode

0.0.0.0:9870

dfs.namenode.https-address

HTTPS-адрес NameNode

0.0.0.0:9871

dfs.ha.automatic-failover.enabled

Определяет, включен ли механизм автоматической обработки отказа

true

dfs.ha.fencing.methods

Список скриптов или Java-классов, которые будут использоваться для восстановления Active NameNode во время обработки отказа

shell(/bin/true)

dfs.journalnode.edits.dir

Каталог, в котором хранятся edit-файлы журнала

/srv/hadoop-hdfs/journalnode

dfs.namenode.shared.edits.dir

Каталог в хранилище, которое расшарено между несколькими NameNode в кластере, работающем в режиме высокой доступности. В этот каталог данные будут записываться активными узлами и считываться резервными, чтобы поддерживать синхронизацию пространств имен. Этот каталог не нужно указывать в dfs.namenode.edits.dir. В кластере без высокой доступности данный параметр следует оставить пустым

---

dfs.internal.nameservices

Уникальный идентификатор служб имен для кластера или федераций. Для одиночного кластера — укажите имя, которое будет использоваться как алиас. Для федерации HDFS — укажите через запятую все пространства имен (namespace), связанные с этим кластером. Этот параметр позволяет использовать алиас вместо IP-адреса или FQDN для некоторых команд, например: hdfs dfs -ls hdfs://<dfs.internal.nameservices>. Может содержать только латинские буквы и цифры

 — 

dfs.block.access.token.enable

Если установлено значение true, токены доступа используются для доступа к узлам данных. Если установлено значение false, токены доступа не проверяются при доступе к узлам данных

false

dfs.namenode.kerberos.principal

Имя принципала NameNode-сервиса. Обычно используется значение nn/_HOST@REALM.TLD. Каждый NameNode заменяет _HOST своим собственным полным именем хоста во время запуска. Токен _HOST позволяет использовать один и тот же параметр конфигурации на обоих NameNodes в режиме высокой доступности

nn/_HOST@REALM

dfs.namenode.keytab.file

Файл keytab, используемый каждым демоном NameNode для входа в качестве принципала. Имя принципала настраивается с помощью dfs.namenode.kerberos.principal

/etc/security/keytabs/nn.service.keytab

dfs.namenode.kerberos.internal.spnego.principal

Имя принципала HTTP Kerberos для NameNode

HTTP/_HOST@REALM

dfs.web.authentication.kerberos.principal

Имя принципала Kerberos для WebHDFS

HTTP/_HOST@REALM

dfs.web.authentication.kerberos.keytab

Kerberos keytab-файл для WebHDFS

/etc/security/keytabs/HTTP.service.keytab

dfs.journalnode.kerberos.principal

Имя принципала JournalNode. Обычно используется значение jn/_HOST@REALM.TLD. Каждый JournalNode заменяет _HOST своим собственным полным именем хоста при запуске. Токен _HOST позволяет использовать один и тот же параметр конфигурации на всех JournalNodes

jn/_HOST@REALM

dfs.journalnode.keytab.file

Файл keytab, используемый каждым демоном JournalNode для входа в качестве сервисного принципала. Имя принципала задается с помощью dfs.journalnode.kerberos.principal

/etc/security/keytabs/jn.service.keytab

dfs.journalnode.kerberos.internal.spnego.principal

Принципал сервера, используемый HTTP-сервером JournalNode для проверки подлинности SPNEGO, когда включена защита Kerberos. Обычно используется значение HTTP/_HOST@REALM.TLD. Принципал сервера SPNEGO по соглашению начинается с префикса HTTP/. Если используется значение *, веб-сервер попытается войти в систему с каждым принципалом, указанным в keytab-файле dfs.web.authentication.kerberos.keytab. Для большинства систем можно установить значение ${dfs.web.authentication.kerberos.principal}, то есть использовать значение dfs.web.authentication.kerberos.principal

HTTP/_HOST@REALM

dfs.datanode.data.dir.perm

Разрешения для каталогов в локальной файловой системе, где DFS DataNode хранит свои блоки. Разрешения могут быть восьмеричными или символьными

700

dfs.datanode.kerberos.principal

Принципал DataNode. Обычно используется значение dn/_HOST@REALM.TLD. Каждый DataNode заменяет _HOST своим собственным полным именем хоста при запуске. Токен _HOST позволяет использовать один и тот же параметр конфигурации на всех DataNodes

dn/_HOST@REALM.TLD

dfs.datanode.keytab.file

Файл keytab, используемый каждым демоном DataNode для входа в качестве принципала. Имя принципала задается с помощью dfs.datanode.kerberos.principal

/etc/security/keytabs/dn.service.keytab

dfs.http.policy

Определяет, поддерживается ли HTTPS (SSL) в HDFS. Параметр определяет HTTP-endpoint для демонов HDFS. Поддерживаются следующие значения: HTTP_ONLY — доступен только протокол http; HTTPS_ONLY — доступен только https; HTTP_AND_HTTPS — доступны http и https

HTTP_ONLY

dfs.data.transfer.protection

Разделенный запятыми список значений защиты SASL, используемых для защищенных соединений с DataNode при чтении или записи блоков данных.

Возможные значения:

  • authentication — обеспечивает только аутентификацию; целостность или конфиденциальность не поддерживаются;

  • integrity — аутентификация и целостность включены;

  • privacy — включены аутентификация, целостность и конфиденциальность.

Если dfs.encrypt.data.transfer=true, то он заменяет параметр dfs.data.transfer.protection и требует, чтобы все соединения использовали специальный зашифрованный SASL-handshake. Это свойство игнорируется для соединений с DataNode, которые слушают привилегированный порт. В этом случае предполагается, что использование привилегированного порта обеспечивает достаточное доверие

 — 

dfs.encrypt.data.transfer

Определяет, должны ли фактические данные блока, которые считываются/записываются из/в HDFS, шифроваться в сети. Этот параметр нужно устанавливать только для NameNodes и DataNodes, клиенты сделают это автоматически. Можно переопределить этот параметр для каждого соединения, указав пользовательскую логику через dfs.trustedchannel.resolver.class

false

dfs.encrypt.data.transfer.algorithm

Это значение может быть установлено как 3des, так и rc4. Если значение не установлено, используется настроенный по умолчанию JCE в системе (обычно 3DES). Широко распространено мнение, что 3DES более безопасен, но RC4 значительно быстрее. Обратите внимание, что если AES поддерживается и клиентом, и сервером, то этот алгоритм шифрования будет использоваться только для первоначального обмена ключами AES

3des

dfs.encrypt.data.transfer.cipher.suites

Значение параметра может быть либо пустым, либо AES/CTR/NoPadding. Если значение задано, то dfs.encrypt.data.transfer использует указанный набор шифров для шифрования данных. Если не задано, используется только алгоритм, указанный в dfs.encrypt.data.transfer.algorithm

 — 

dfs.encrypt.data.transfer.cipher.key.bitlength

Длина ключа в битах, согласованная dfsclient и datanode для шифрования. Это значение может быть установлено на 128, 192 или 256

128

ignore.secure.ports.for.testing

Позволяет игнорировать HTTPS-требования в SASL-режиме

false

dfs.client.https.need-auth

Определяет, требуется ли аутентификация сертификата клиента SSL

false

httpfs-site.xml
Параметр Описание Значение по умолчанию

httpfs.http.administrators

Cписок управления доступом для администраторов. Используется для управления доступом к сервлетам по умолчанию для сервера HttpFS. Значение должно содержать список пользователей и групп, разделенных запятыми. Список пользователей идет первым и отделяется пробелом, за которым следует список групп, например: user1,user2 group1,group2. Указание пользователей и групп являются опциональным, поэтому вы можете определить как пользователей, так и группы, или и то, и другое. Обратите внимание, что во всех этих случаях вы всегда должны использовать начальный пробел в списке групп. Использование символа * предоставляет доступ всем пользователям и группам

*

hadoop.http.temp.dir

Каталог HttpFS для временных файлов

${hadoop.tmp.dir}/httpfs

httpfs.ssl.enabled

Определяет, включен ли SSL. По умолчанию установлено значение false, то есть SSL отключен

false

httpfs.hadoop.config.dir

Расположение каталога конфигурации Hadoop

/etc/hadoop/conf

httpfs.hadoop.authentication.type

Определяет механизм аутентификации, используемый httpfs для HTTP-клиентов. Допустимые значения: simple и kerberos. Если используется simple, клиенты должны указать имя пользователя с параметром строки запроса user.name. Если используется kerberos, клиенты должны использовать HTTP SPNEGO или токены делегирования

simple

httpfs.hadoop.authentication.kerberos.keytab

Kerberos keytab-файл с учетными данными для принципала HTTP Kerberos, используемого httpfs в HTTP-endpoint. Параметр httpfs.authentication.kerberos.keytab устарел. Вместо этого используйте hadoop.http.authentication.kerberos.keytab

/etc/security/keytabs/httpfs.service.keytab

httpfs.hadoop.authentication.kerberos.principal

Принципал HTTP Kerberos, используемый HttpFS в HTTP-endpoint. Имя принципала HTTP Kerberos должно начинаться с HTTP/ в соответствии со спецификацией Kerberos HTTP SPNEGO. Параметр httpfs.authentication.kerberos.principal устарел. Вместо этого используйте hadoop.http.authentication.kerberos.principal

HTTP/${httpfs.hostname}@${kerberos.realm}

ranger-hdfs-audit.xml
Параметр Описание Значение по умолчанию

xasecure.audit.destination.solr.batch.filespool.dir

Путь к Spool-каталогу

/srv/ranger/hdfs_plugin/audit_solr_spool

xasecure.audit.destination.solr.urls

Оставьте значение пустым или установите значение NONE при использовании ZooKeeper для подключения к Solr

 — 

xasecure.audit.destination.solr.zookeepers

Указывает строку подключения ZooKeeper для подключения к Solr

 — 

xasecure.audit.destination.solr.force.use.inmemory.jaas.config

Использует in-memory JAAS-файл для соединения с Solr

 — 

xasecure.audit.is.enabled

Активирует аудит Ranger

true

xasecure.audit.jaas.Client.loginModuleControlFlag

Определяет требование к успешному завершению работы модуля. Значения могут быть required, requisite, sufficient или optional

 — 

xasecure.audit.jaas.Client.loginModuleName

Имя класса-аутентификатора

 — 

xasecure.audit.jaas.Client.option.keyTab

Имя keytab-файла, из которого необходимо получить секретный ключ принципала

 — 

xasecure.audit.jaas.Client.option.principal

Имя используемого принципала

 — 

xasecure.audit.jaas.Client.option.serviceName

Имя пользователя или сервиса, для которого выполнятся логин

 — 

xasecure.audit.jaas.Client.option.storeKey

Установите значение true, чтобы keytab-файл или ключ принципала сохранялись в учетных данных субъекта

false

xasecure.audit.jaas.Client.option.useKeyTab

Установите значение true, чтобы модуль получал ключ принципала из keytab-файла

false

ranger-hdfs-security.xml
Параметр Описание Значение по умолчанию

ranger.plugin.hdfs.policy.rest.url

URL для Ranger Admin

 — 

ranger.plugin.hdfs.service.name

Имя Ranger-сервиса, который содержит политики для этого экземпляра

 — 

ranger.plugin.hdfs.policy.cache.dir

Каталог, в котором кешируются политики Ranger после успешного извлечения из источника

/srv/ranger/hdfs/policycache

ranger.plugin.hdfs.policy.pollIntervalMs

Определяет, как часто проверять политики на предмет изменения

30000

ranger.plugin.hdfs.policy.rest.client.connection.timeoutMs

Время ожидания подключения HDFS-плагина RangerRestClient (в миллисекундах)

120000

ranger.plugin.hdfs.policy.rest.client.read.timeoutMs

Тайм-аут на чтение для HDFS-плагина RangerRestClient (в миллисекундах)

30000

ranger.plugin.hdfs.policy.rest.ssl.config.file

Путь к конфигурационному файлу RangerRestClient для HDFS-плагина

/etc/hadoop/conf/ranger-hdfs-policymgr-ssl.xml

httpfs-env.sh
Параметр Описание Значение по умолчанию

HADOOP_CONF_DIR

Каталог конфигурации Hadoop

/etc/hadoop/conf

HADOOP_LOG_DIR

Расположение каталога с логами

${HTTPFS_LOG}

HADOOP_PID_DIR

Каталог с PID-файлами Hadoop

${HTTPFS_TEMP}

HTTPFS_SSL_ENABLED

Определяет, включен ли SSL для httpfs

false

HTTPFS_SSL_KEYSTORE_FILE

Путь к keystore-файлу

admin

HTTPFS_SSL_KEYSTORE_PASS

Пароль для доступа к keystore-файлу

admin

Hadoop options
Параметр Описание Значение по умолчанию

HDFS_NAMENODE_OPTS

NameNode Heap Memory. Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи и параметры среды для NameNode

-Xms1G -Xmx8G

HDFS_DATANODE_OPTS

DataNode Heap Memory. Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи и параметры среды для DataNode

-Xms700m -Xmx8G

HDFS_HTTPFS_OPTS

HttpFS Heap Memory. Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи и параметры среды для httpfs

-Xms700m -Xmx8G

HDFS_JOURNALNODE_OPTS

JournalNode Heap Memory. Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи и параметры среды для JournalNode

-Xms700m -Xmx8G

HDFS_ZKFC_OPTS

ZKFC Heap Memory. Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи и параметры среды для ZKFC

-Xms500m -Xmx8G

ssl-server.xml
Параметр Описание Значение по умолчанию

ssl.server.truststore.location

Truststore-файл, используемый NameNodes и DataNodes

 — 

ssl.server.truststore.password

Пароль к truststore-файлу

 — 

ssl.server.truststore.type

Формат truststore-файла

jks

ssl.server.truststore.reload.interval

Интервал между проверками на обновление truststore-файла (в миллисекундах)

10000

ssl.server.keystore.location

Путь к keystore-файлу, используемому NameNodes и DataNodes

 — 

ssl.server.keystore.password

Пароль к keystore-файлу

 — 

ssl.server.keystore.keypassword

Пароль к ключу в keystore-файле

 — 

ssl.server.keystore.type

Формат keystore-файла

 — 

ssl-client.xml
Параметр Описание Значение по умолчанию

ssl.client.truststore.location

Truststore-файл, используемый NameNodes и DataNodes

 — 

ssl.client.truststore.password

Пароль к truststore-файлу

 — 

ssl.client.truststore.type

Формат truststore-файла

jks

ssl.client.truststore.reload.interval

Интервал между проверками на обновление truststore-файла (в миллисекундах)

10000

ssl.client.keystore.location

Путь к keystore-файлу, используемому NameNodes и DataNodes

 — 

ssl.client.keystore.password

Пароль к keystore-файлу

 — 

ssl.client.keystore.keypassword

Пароль к ключу в keystore-файле

 — 

ssl.client.keystore.type

Формат keystore-файла

 — 

Lists of decommissioned and in maintenance hosts
Параметр Описание Значение по умолчанию

DECOMMISSIONED

Когда администратор выводит DataNode из эксплуатации, DataNode сначала переходит в состояние DECOMMISSION_INPROGRESS. После того, как все блоки, принадлежащие этому DataNode, полностью реплицированы на другие хосты с учетом коэффициента репликации каждого блока, DataNode переходит в состояние DECOMMISSIONED. После этого администратор может отключить узел для выполнения долгосрочного ремонта и обслуживания, которое может занять несколько дней или недель. После обслуживания машина может быть снова введена в эксплуатацию в кластере

 — 

IN_MAINTENANCE

Иногда администраторам нужно отключить DataNodes всего на несколько минут/часов для выполнения краткосрочного ремонта или обслуживания. В таких сценариях накладные расходы на репликацию блоков HDFS, связанные с выводом из эксплуатации, могут не понадобиться, и желателен облегченный процесс. Для этого используется состояние обслуживания (IN_MAINTENANCE). Когда администратор переводит DataNode в состояние обслуживания, DataNode сначала переходит в состояние ENTERING_MAINTENANCE. После того, как все блоки, принадлежащие этому DataNode, минимально реплицируются на других хостах, DataNode будет немедленно переведен в состояние IN_MAINTENANCE. После завершения обслуживания администратор может вывести DataNode из состояния обслуживания. Кроме того, состояние обслуживания поддерживает тайм-аут, который позволяет администраторам настраивать максимальную продолжительность, в течение которой DataNode может оставаться в состоянии обслуживания. По истечении тайм-аута DataNode будет автоматически переведен из состояния обслуживания HDFS без вмешательства человека

 — 

Другие параметры
Параметр Описание Значение по умолчанию

Custom core-site.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле core-site.xml

 — 

Custom hdfs-site.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле hdfs-site.xml

 — 

Custom httpfs-site.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле httpfs-site.xml

 — 

Ranger plugin enabled

Определяет, активен ли Ranger-плагин

 — 

Custom ranger-hdfs-audit.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-hdfs-audit.xml

 — 

Custom ranger-hdfs-security.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-hdfs-security.xml

 — 

Custom ranger-hdfs-policymgr-ssl.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-hdfs-policymgr-ssl.xml

 — 

Custom httpfs-env.sh

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле httpfs-env.sh

 — 

Custom ssl-server.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ssl-server.xml

 — 

Custom ssl-client.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ssl-client.xml

 — 

Topology script

Скрипт топологии, используемый в HDFS

 — 

Topology data

Опциональный параметр. Текстовый файл, используемый для сопоставления имен хостов и количества стоек (rack) для скрипта топологии. Сохраняется в /etc/hadoop/conf/topology.data

 — 

Custom log4j.properties

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле log4j.properties

Custom httpfs-log4j.properties

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле httpfs-log4j.properties

Hive

hive-env.sh
Параметр Описание Значение по умолчанию

HADOOP_CLASSPATH

Список каталогов, файлов или wildcard-локаций, разделенных двоеточием, которые содержат все необходимые классы

/etc/tez/conf/:/usr/lib/tez/*:/usr/lib/tez/lib/*

HIVE_HOME

Домашний каталог Hive

/usr/lib/hive

METASTORE_PORT

Порт Hive Metastore

9083

HIVE heap memory settings
Параметр Описание Значение по умолчанию

HiveServer2 Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для HiveServer2

-Xms256m -Xmx256m

Hive Metastore Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для Hive Metastore

-Xms256m -Xmx256m

hive-site.xml
Параметр Описание Значение по умолчанию

hive.cbo.enable

Если установлено значение true, включает оптимизатор (cost-based optimizer), использующий фреймворк Calcite

true

hive.compute.query.using.stats

Если установлено значение true, Hive будет отвечать на несколько запросов, таких как min, max и count (1), используя статистику, хранящуюся в Metastore. Для сбора базовой статистики установите hive.stats.autogather=true Для более расширенного сбора статистики выполните запросы ANALYZE TABLE

false

hive.execution.engine

Задает тип используемого движка. Допустимые значения: mr (MapReduce, значение по умолчанию), tez (движок Tez, только для Hadoop 2) или spark (движок Spark, для Hive 1.1.0 и более поздних версий)

Tez

hive.log.explain.output

Когда этот параметр задан, выходные данные команды EXPLAIN EXTENDED добавляются в log4j-лог с уровнем INFO, а также отображаются в веб-интерфейсе HiveServer2 (Drilldown → Query Plan). Начиная с Hive 3.1.0, этот параметр логируется только как log4j INFO. Чтобы сделать вывод команды EXPLAIN EXTENDED доступным в веб-интерфейсе в Hive 3.1.0 и более поздних версиях, используйте hive.server2.webui.explain.output

true

hive.metastore.event.db.notification.api.auth

Определяет, должен ли Metastore выполнять авторизацию с использованием database notification API, таких как get_next_notification. Если установлено значение true, то только суперпользователи в настройках прокси имеют разрешение

false

hive.metastore.uris

URI, используемый для доступа к метаданным в удаленном Metastore. Для удаленного хранилища метаданных необходимо указать URI сервера хранилища метаданных Thrift: thrift://<hostname>:<port>, где <hostname> — имя или IP-адрес сервера хранилища метаданных Thrift, <port> — порт, который слушает сервер Thrift

 — 

hive.metastore.warehouse.dir

Абсолютный путь к файлу HDFS базы данных по умолчанию для хранилища, который является локальным для кластера

/apps/hive/warehouse

hive.server2.enable.doAs

Активирует соединение от имени другого пользователя (Impersonation)

false

hive.stats.fetch.column.stats

Для аннотации дерева операторов со статистической информацией нужна статистика по столбцам. Статистика столбцов извлекается из хранилища метаданных. Извлечение статистики для каждого столбца может быть дорогостоящей операцией при большом количестве столбцов. Этот параметр можно использовать для отключения получения статистики столбцов из хранилища метаданных

 — 

hive.tez.container.size

По умолчанию Tez будет создавать контейнеры такого размера, как и Mapper. Этот параметр можно использовать для перезаписи значения по умолчанию

 — 

hive.support.concurrency

Определяет, должен ли Hive поддерживать параллелизм. Экземпляр ZooKeeper должен быть запущен, чтобы Hive Lock Manager по умолчанию поддерживал блокировки чтения/записи

false

hive.txn.manager

Установите значение для этого параметра org.apache.hadoop.hive.ql.lockmgr.DbTxnManager, что является одним из шагов включения транзакций Hive. DummyTxnManage по умолчанию имеет поведение версий Hive до 0.13 и не предоставляет транзакций

 — 

javax.jdo.option.ConnectionUserName

Имя пользователя базы данных metastore

APP

javax.jdo.option.ConnectionPassword

Пароль пользователя metastore

 — 

javax.jdo.option.ConnectionURL

JDBC URI для соединения, используемый для доступа к данным, которые хранятся в локальном metastore. Используйте следующий URI подключения: jdbc:<datastore type>://<node name>:<port>/<database name>, где:

  • <node name> — имя хоста или IP-адрес data store;

  • <data store type> — тип data store;

  • <port> — номер порта, который слушает data store для удаленного вызова процедур;

  • <database name> — имя базы данных.

Например, следующий URI указывает на локальный Metastore, который использует MySQL в качестве хранилища данных: jdbc:mysql://hostname23:3306/metastore

jdbc:mysql://{{ groups['mysql.master'][0] | d(omit) }}:3306/hive

javax.jdo.option.ConnectionDriverName

Имя класса JDBC-драйвера для доступа к Hive Metastore

com.mysql.jdbc.Driver

hive.server2.transport.mode

Устанавливает режим передачи данных

tcp

hive.server2.thrift.http.port

Номер порта, который слушает Thrift Server2

10001

hive.server2.thrift.http.path

HTTP-endpoint сервиса Thrift Server2

cliservice

hive.server2.authentication.kerberos.principal

Принципал Kerberos для Hive-сервера

hive/_HOST@EXAMPLE.COM

hive.server2.authentication.kerberos.keytab

Путь к keytab-файлу Kerberos, который содержит принципал для Hive server

/etc/security/keytabs/hive.service.keytab

hive.server2.authentication.spnego.principal

Kerberos-принципал SPNEGO

HTTP/_HOST@EXAMPLE.COM

hive.server2.webui.spnego.principal

Kerberos-принципал SPNEGO для доступа к веб-интерфейсу

 — 

hive.server2.webui.spnego.keytab

Keytab-файл SPNEGO для доступа к веб-интерфейсу

 — 

hive.server2.webui.use.spnego

Определяет, использовать ли Kerberos SPNEGO для доступа к веб-интерфейсу

false

hive.server2.authentication.spnego.keytab

Путь к принципалу SPNEGO

/etc/security/keytabs/HTTP.service.keytab

hive.server2.authentication

Устанавливает режим аутентификации

NONE

hive.metastore.sasl.enabled

Если значение true, интерфейс Metastore Thrift защищен с помощью SASL. Клиенты должны аутентифицироваться с помощью Kerberos

false

hive.metastore.kerberos.principal

Сервисный Kerberos-принципал для хранилища метаданных Thrift-сервера. Строка _HOST автоматически заменяется актуальным именем хоста

hive/_HOST@EXAMPLE.COM

hive.metastore.kerberos.keytab.file

Путь к Kerberos keytab-файлу, который содержит сервисный принципал для хранилища метаданных сервера Thrift

/etc/security/keytabs/hive.service.keytab

hive.server2.use.SSL

Определяет, использовать ли SSL для HiveServer2

false

hive.server2.keystore.path

Keystore-файл, используемый Hive

 — 

hive.server2.keystore.password

Пароль к keystore-файлу, который использует Hive

 — 

hive.server2.truststore.path

Truststore-файл, используемый Hive

 — 

hive.server2.webui.use.ssl

Определяет, использовать ли SSL для веб-интерфейса Hive

false

hive.server2.webui.keystore.path

Путь к keystore-файлу, который используется для доступа к веб-интерфейсу Hive

 — 

hive.server2.webui.keystore.password

Пароль к keystore-файлу, который используется для доступа к веб-интерфейсу Hive

 — 

hive.server2.support.dynamic.service.discovery

Активирует поддержку динамического обнаружения сервисов через ZooKeeper

false

hive.zookeeper.quorum

Список ZooKeeper-серверов (<host>:<port>), разделенных запятой, запущенных в кластере

zookeeper:2181

hive.server2.zookeeper.namespace

Корневое пространство имен для ZooKeeper

hiveserver2

ranger-hive-audit.xml
Параметр Описание Значение по умолчанию

xasecure.audit.destination.solr.batch.filespool.dir

Путь к Spool-каталогу

/srv/ranger/hdfs_plugin/audit_solr_spool

xasecure.audit.destination.solr.urls

Оставьте значение пустым или установите значение NONE при использовании ZooKeeper для подключения к Solr

 — 

xasecure.audit.destination.solr.zookeepers

Указывает строку подключения ZooKeeper для подключения к Solr

 — 

xasecure.audit.destination.solr.force.use.inmemory.jaas.config

Использует in-memory JAAS-файл для соединения с Solr

 — 

xasecure.audit.is.enabled

Активирует аудит Ranger

true

xasecure.audit.jaas.Client.loginModuleControlFlag

Определяет требование к успешному завершению работы модуля. Значения могут быть required, requisite, sufficient или optional

 — 

xasecure.audit.jaas.Client.loginModuleName

Имя класса-аутентификатора

 — 

xasecure.audit.jaas.Client.option.keyTab

Имя keytab-файла, из которого необходимо получить секретный ключ принципала

 — 

xasecure.audit.jaas.Client.option.principal

Имя используемого принципала

 — 

xasecure.audit.jaas.Client.option.serviceName

Имя пользователя или сервиса, для которого выполнятся логин

 — 

xasecure.audit.jaas.Client.option.storeKey

Установите значение true, чтобы keytab-файл или ключ принципала сохранялись в учетных данных субъекта

false

xasecure.audit.jaas.Client.option.useKeyTab

Установите значение true, чтобы модуль получал ключ принципала из keytab-файла

false

ranger-hive-security.xml
Параметр Описание Значение по умолчанию

ranger.plugin.hive.policy.rest.url

URL для Ranger Admin

 — 

ranger.plugin.hive.service.name

Имя Ranger-сервиса, который содержит политики для этого экземпляра

 — 

ranger.plugin.hive.policy.cache.dir

Каталог, в котором кешируются политики Ranger после успешного извлечения из источника

/srv/ranger/hive/policycache

ranger.plugin.hive.policy.pollIntervalMs

Определяет, как часто проверять политики на предмет изменения

30000

ranger.plugin.hive.policy.rest.client.connection.timeoutMs

Время ожидания подключения Hive-плагина RangerRestClient (в миллисекундах)

120000

ranger.plugin.hive.policy.rest.client.read.timeoutMs

Тайм-аут на чтение для Hive-плагина RangerRestClient (в миллисекундах)

30000

xasecure.hive.update.xapolicies.on.grant.revoke

Определяет, разрешать ли обновление политик для SQL-команд Grant/Revoke

true

ranger.plugin.hive.policy.rest.ssl.config.file

Путь к конфигурационному файлу RangerRestClient SSL плагина Hive

/etc/hive/conf/ranger-hive-policymgr-ssl.xml

ranger-hive-policymgr-ssl.xml
Параметр Описание Значение по умолчанию

xasecure.policymgr.clientssl.keystore

Путь к keystore-файлу, который использует Ranger

 — 

xasecure.policymgr.clientssl.keystore.credential.file

Путь к файлу с паролями для keystore-файла

/etc/hive/conf/ranger-hive.jceks

xasecure.policymgr.clientssl.truststore.credential.file

Путь к truststore-файлу с учетными данными

/etc/hive/conf/ranger-hive.jceks

xasecure.policymgr.clientssl.truststore

Путь к truststore-файлу, который использует Ranger

 — 

xasecure.policymgr.clientssl.keystore.password

Пароль для доступа к keystore-файлу

 — 

xasecure.policymgr.clientssl.truststore.password

Пароль для доступа к truststore-файлу

 — 

tez-site.xml
Параметр Описание Значение по умолчанию

tez.am.resource.memory.mb

Объем памяти, который YARN выделит Tez Application Master (в мегабайтах). Размер увеличивается с размером DAG

 — 

tez.history.logging.service.class

Позволяет Tez использовать Timeline Server для ведения журнала истории

org.apache.tez.dag.history.logging.ats.ATSHistoryLoggingService

tez.lib.uris

Пути HDFS, где хранятся JAR-файлы Tez

${fs.defaultFS}/apps/tez/tez-0.9.2.tar.gz

tez.task.resource.memory.mb

Объем памяти, используемый запущенными задачами в контейнерах TEZ. Обычно это значение задается в DAG

 — 

tez.tez-ui.history-url.base

URL для доступа к Tez UI

 — 

tez.use.cluster.hadoop-libs

Указывает, будет ли Tez использовать кластерные библиотеки Hadoop

true

nginx.conf
Параметр Описание Значение по умолчанию

ssl_certificate

Путь к SSL-сертификату для NGINX

/etc/ssl/certs/host_cert.cert

ssl_certificate_key

Путь к ключу SSL-сертификата для NGINX

/etc/ssl/host_cert.key

Другие параметры
Параметр Описание Значение по умолчанию

ACID Transactions

Определяет, использовать ли ACID-транзакции

false

Database type

Тип внешней базы данных, используемой для Hive Metastore

mysql

Custom hive-site.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле hive-site.xml

 — 

Custom hive-env.sh

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле hive-env.sh

 — 

Ranger plugin enabled

Определяет, активен ли Ranger-плагин

false

Custom ranger-hive-audit.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-hive-audit.xml

 — 

Custom ranger-hive-security.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-hive-security.xml

 — 

Custom ranger-hive-policymgr-ssl.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-hive-policymgr-ssl.xml

 — 

Custom tez-site.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле tez-site.xml

 — 

Impala

Параметр Описание Значение по умолчанию

impala-env.sh

Содержимое файла impala-env.sh, определяющего настройки окружения для Impala

Компонент Impala Daemon
impalastore.conf
Параметр Описание Значение по умолчанию

hostname

Имя хоста, которое используется для Impala Daemon. Если Kerberos включен, оно также является частью принципала Kerberos. Если этот параметр не установлен, используется системное значение по умолчанию

 — 

beeswax_port

Порт, на котором демоны Impala обслуживают клиентские запросы Beeswax

21000

fe_port

Порт внешнего интерфейса (frontend) демона Impala

21000

be_port

Только для внутреннего использования. Демоны Impala используют этот порт для связи друг с другом на основе Thrift

22000

krpc_port

Только для внутреннего использования. Демоны Impala используют этот порт для связи друг с другом на основе KRPC

27000

hs2_port

Порт, на котором демоны Impala обслуживают клиентские запросы HiveServer2

21050

hs2_http_port

Порт, который используют клиентские приложения для передачи команд и получения результатов по HTTP по протоколу HiveServer2

28000

enable_webserver

Включает или отключает веб-сервер демона Impala. Его веб-интерфейс содержит информацию о параметрах конфигурации, запущенных и завершенных запросах и связанном с ними использовании ресурсов. В основном используется для диагностики проблем с запросами, которые можно отследить до определенной ноды

True

webserver_require_spnego

Включает аутентификацию Kerberos для веб-консолей Hadoop HTTP для всех ролей этого сервиса с использованием протокола SPNEGO. Используйте этот параметр, только если для сервиса HDFS включен Kerberos

False

webserver_port

Порт, на котором работает веб-сервер демона Impala

25000

catalog_service_host

Хост, на котором запущен компонент Impala Catalog Service

 — 

catalog_service_port

Порт, на котором запущен компонент Impala Catalog Service

26000

state_store_host

Хост, на котором запущен компонент Impala Statestore

 — 

state_store_port

Порт, на котором запущен компонент Impala Statestore

24000

state_store_subscriber_port

Порт, на котором запущен StateStoreSubscriberService. StateStoreSubscriberService прослушивает этот порт на наличие обновлений от демона Statestore

23030

scratch_dirs

Каталог, в который демоны Impala записывают данные для освобождения памяти во время больших операций сортировки, объединения, агрегирования и т.д. Файлы удаляются после завершения операции. Потенциально это могут быть большие объемы данных

/srv/impala/

log_dir

Каталог, в котором демоны Impala хранят свои файлы журналов

/var/log/impala/impalad/

log_filename

Префикс имени файла журнала. Полный путь к файлу — <log_dir>/<log_filename>

impalad

max_log_files

Количество файлов журнала, которые должны храниться для каждого уровня важности (INFO, WARNING, ERROR и FATAL) прежде чем старые файлы журнала будут удалены. Число должно быть больше 1, чтобы по крайней мере текущий файл журнала оставался открытым. Если установлено значение 0, все файлы журналов сохраняются, и ротация журналов не производится

10

audit_event_log_dir

Каталог, в который записываются файлы журнала событий аудита демона Impala, если включено свойство Impala Audit Event Generation

/var/log/impala/impalad/audit

minidump_path

Каталог для хранения Breakpad-дампов демона Impala

/var/log/impala-minidumps

lineage_event_log_dir

Каталог, в который записываются лог-файлы lineage, если включено свойство Impala Lineage Generation

/var/log/impala/impalad/lineage

local_library_dir

Локальный каталог, в который Демон Impala копирует библиотеки пользовательских функций (user-defined function, UDF) из HDFS

/usr/lib/impala/udfs

max_lineage_log_file_size

Максимальный размер (в записях) лог-файла lineage демона Impala. При превышении размера создается новый файл

5000

max_audit_event_log_file_size

Максимальный размер (в запросах) файла журнала событий аудита демона Impala. При превышении размера создается новый файл

5000

fe_service_threads

Максимально допустимое количество одновременных клиентских подключений. Параметр определяет, сколько запросов может выполняться одновременно. Когда большее число клиентов пытается подключиться к Impala, более поздние клиенты должны ждать, пока предыдущие клиенты отключатся. Установка слишком высокого значения fe_service_threads может негативно повлиять на задержку выполнения запросов

64

mem_limit

Ограничение памяти (в байтах) для демона Impala, обеспечиваемое самим демоном. Это ограничение не включает память, потребляемую встроенной JVM демона. Impala использует этот объем памяти для обработки запросов, кешированных данных, сетевых буферов, фоновых операций и т.д. Если предел превышен, запросы будут уничтожаться до тех пор, пока используемая память не станет меньше предела

1473249280

idle_query_timeout

Время в секундах, по истечении которого отменяется бездействующий запрос (обработка не выполняется, и от клиента не поступают обновления). Если установлено значение 0, бездействующие запросы никогда не отменяются

0

idle_session_timeout

Время в секундах, по истечении которого Impala закрывает бездействующую сессию и отменяет все запущенные запросы. Если установлено значение 0, бездействующие сессии никогда не закрываются

0

max_result_cache_size

Максимальное количество результатов запроса, которое клиент может запросить для кеширования каждого запроса для поддержки перезапуска выборки. Этот параметр защищает от неоправданно больших кешей результатов. Запросы, превышающие указанный максимум, отклоняются

100000

max_cached_file_handles

Максимальное количество дескрипторов кешированных файлов HDFS. Кеширование файловых дескрипторов HDFS уменьшает количество открываемых новых файловых дескрипторов и, таким образом, снижает нагрузку на HDFS NameNode. Каждый кешированный дескриптор файла потребляет небольшой объем памяти. Если установлено значение 0, кеширование дескрипторов файлов отключено

20000

unused_file_handle_timeout_sec

Максимальное время в секундах, в течение которого неиспользуемый дескриптор файла HDFS остается в кеше дескрипторов файлов HDFS. Когда базовый файл для кешированного дескриптора файла удаляется, дисковое пространство не может быть освобождено до тех пор, пока кешированный дескриптор файла не будет удален из кеша. Этот тайм-аут позволяет освободить место на диске, занятое удаленными файлами, за предсказуемый период времени. Если установлено значение 0, неиспользуемые дескрипторы кешированных файлов HDFS не удаляются

21600

statestore_subscriber_timeout_seconds

Тайм-аут в секундах для подключения Impala Daemon и Catalog Server к Statestore

30

default_query_options

Список пар ключ/значение, представляющих собой дополнительные параметры запроса для передачи в командную строку демона Impala, разделенные запятыми

default_file_format=parquet,default_transactional_type=none

load_auth_to_local_rules

Если активен (True) и Kerberos включен для Impala, Impala использует настройку auth_to_local, заданную в конфигурации HDFS hadoop.security.auth_to_local

True

catalog_topic_mode

Уровень детализация метаданных, передающихся по запросу между координатором демона Impala и Impala Catalog Service. См. Metadata management

minimal

use_local_catalog

Позволяет координаторам кешировать метаданные, полученные от Impala Catalog Service. Если для этого параметра установлено значение True, координаторы получают метаданные по мере необходимости от catalogd и кешируют их локально. Кешированные метаданные автоматически удаляются при нехватке памяти или по истечении срока актуальности. См. Metadata management

True

abort_on_failed_audit_event

Определяет, следует ли выключать Impala, если возникает проблема с записью события аудита

False

max_minidumps

Максимальное количество файлов Breakpad-дампов, хранимых демоном Impala. Отрицательное значение или 0 интерпретируется как неограниченное число

9

authorized_proxy_user_config

Указывает набор авторизованных прокси-пользователей (пользователей, которые могут олицетворять других пользователей во время авторизации) и пользователей, которых им разрешено олицетворять. Пример синтаксиса опции: authenticated_user1=delegated_user1,delegated_user2;authenticated_user2=*. См. Configuring Impala delegation for clients. Список может содержать короткие имена пользователей или символ * для обозначения всех пользователей

knox=*;zeppelin=*

queue_wait_timeout_ms

Максимальное время (в миллисекундах), в течение которого запрос ожидает принятия до истечения времени ожидания. Значение должно быть положительным целым числом

60000

disk_spill_encryption

Указывает, следует ли шифровать и проверять целостность всех данных, перенесенных на диск как часть запроса

False

abort_on_config_error

Определяет, следует ли прервать запуск Impala, если параметры конфигурации заданы некорректно, или Impala запущена на неподдерживаемом оборудовании

True

kerberos_reinit_interval

Количество минут между переустановкой тикета на сервере Kerberos

60

principal

Принципал Kerberos сервиса Impala

 — 

keytab_file

Kerberos keytab-файл сервиса Impala

 — 

ssl_server_certificate

Путь к файлу TLS/SSL с ключом сертификата сервера, используемым для TLS/SSL. Он используется, когда Impala работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

ssl_private_key

Путь к файлу TLS/SSL с закрытым ключом, используемым для TLS/SSL. Он используется, когда Impala работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

ssl_client_ca_certificate

Путь к сертификату в формате PEM, используемому для подтверждения подлинности серверов SSL/TLS, к которым могут подключаться демоны Impala. Поскольку демоны Impala также подключаются друг к другу, он должен включать сертификат CA, используемый для подписи всех сертификатов SSL/TLS. SSL/TLS между демонами Impala не может быть включен без этого параметра

 — 

webserver_certificate_file

Путь к файлу TLS/SSL с ключом сертификата сервера, используемым для TLS/SSL. Он необходим, когда веб-сервер демона Impala работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

webserver_private_key_file

Путь к файлу TLS/SSL с закрытым ключом, используемым для TLS/SSL. Он необходим, когда веб-сервер демона Impala работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

ssl_minimum_version

Минимальная версия TLS

TLSv1.2

Прочее
Параметр Описание Значение по умолчанию

log4j.properties

Настройки утилиты Apache Log4j

log.threshold=INFO
main.logger=FA
impala.root.logger=DEBUG,FA
log4j.rootLogger=DEBUG,FA
log.dir=/var/log/impala/impalad
max.log.file.size=200MB
log4j.appender.FA=org.apache.log4j.FileAppender
log4j.appender.FA.File=/var/log/impalad/impalad.INFO
log4j.appender.FA.layout=org.apache.log4j.PatternLayout
log4j.appender.FA.layout.ConversionPattern=%p%d{MMdd HH:mm:ss.SSS'000'} %t %c] %m%n
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{2}: %m%n

Enable custom ulimits

Включение этой опции позволяет указать ограничения на использование ресурсов для процесса (ulimits). Если значения не указаны, будут использованы системные настройки по умолчанию. Настройки ulimit описаны в таблице ниже

[Manager]
DefaultLimitCPU=
DefaultLimitFSIZE=
DefaultLimitDATA=
DefaultLimitSTACK=
DefaultLimitCORE=
DefaultLimitRSS=
DefaultLimitNOFILE=
DefaultLimitAS=
DefaultLimitNPROC=
DefaultLimitMEMLOCK=
DefaultLimitLOCKS=
DefaultLimitSIGPENDING=
DefaultLimitMSGQUEUE=
DefaultLimitNICE=
DefaultLimitRTPRIO=
DefaultLimitRTTIME=
Ulimit settings
Параметр Описание Соответствующая опция команды ulimit в CentOS

DefaultLimitCPU

Ограничение в секундах на количество процессорного времени, которое может потреблять процесс

cpu time ( -t)

DefaultLimitFSIZE

Максимальный размер файлов, которые может создать процесс, в блоках по 512 байт

file size ( -f)

DefaultLimitDATA

Максимальный размер сегмента данных процесса, в килобайтах

data seg size ( -d)

DefaultLimitSTACK

Максимальный размер стека, выделенный процессу, в килобайтах

stack size ( -s)

DefaultLimitCORE

Максимальный размер файла дампа (core dump) в байтах, который процесс может сохранить, в блоках по 512 байт

core file size ( -c)

DefaultLimitRSS

Максимальное количество памяти RAM (resident set size), которое может быть выделено процессу, в килобайтах

max memory size ( -m)

DefaultLimitNOFILE

Максимальное количество дескрипторов открытых файлов, разрешенное для процесса

open files ( -n)

DefaultLimitAS

Максимальный размер виртуальной памяти (адресного пространства) процесса, в килобайтах

virtual memory ( -v)

DefaultLimitNPROC

Максимальное количество процессов

max user processes ( -u)

DefaultLimitMEMLOCK

Максимальный размер памяти, который может быть заблокирован для процесса, в килобайтах. Блокировка памяти гарантирует, что память всегда находится в оперативной памяти (RAM) и файл подкачки не используется

max locked memory ( -l)

DefaultLimitLOCKS

Максимальное количество файлов, заблокированных процессом

file locks ( -x)

DefaultLimitSIGPENDING

Максимальное количество сигналов, ожидающих доставки в вызывающий поток

pending signals ( -i)

DefaultLimitMSGQUEUE

Максимальное количество байтов в очередях сообщений POSIX. Очереди сообщений POSIX позволяют процессам обмениваться данными в форме сообщений

POSIX message queues ( -q)

DefaultLimitNICE

Максимальный уровень приоритета NICE, который может быть назначен процессу

scheduling priority ( -e)

DefaultLimitRTPRIO

Максимальный приоритет планирования в реальном времени

real-time priority ( -r)

DefaultLimitRTTIME

Максимальный размер буфера конвейера (pipe), в блоках по 512 байт

pipe size ( -p)

Компонент Impala Statestore
statestore.conf
Параметр Описание Значение по умолчанию

hostname

Имя хоста, на котором установлен Statestore. Если Kerberos включен, оно также является частью принципала Kerberos. Если этот параметр не установлен, используется системное значение по умолчанию

 — 

state_store_host

Хост, на котором запущен компонент Impala Statestore

 — 

state_store_port

Порт, на котором запущен компонент Impala Statestore

24000

catalog_service_host

Хост, на котором запущен компонент Impala Catalog Service

 — 

catalog_service_port

Порт, на котором запущен компонент Impala Catalog Service

26000

enable_webserver

Включает или отключает веб-сервер демона Statestore. Его веб-интерфейс содержит информацию об использовании памяти, параметрах конфигурации и текущих проверках работоспособности, выполняемых Statestore

True

webserver_require_spnego

Включает аутентификацию Kerberos для веб-консолей Hadoop HTTP для всех ролей этого сервиса с использованием протокола SPNEGO. Используйте этот параметр, только если для сервиса HDFS включен Kerberos

False

webserver_port

Порт, на котором работает веб-сервер Statestore

25010

log_dir

Каталог, в котором демон Statestore хранит свои файлы журналов

/var/log/impala/statestored/

log_filename

Префикс имени файла журнала. Полный путь к файлу — <log_dir>/<log_filename>

statestored

max_log_files

Количество файлов журнала, которые должны храниться для каждого уровня важности (INFO, WARNING, ERROR и FATAL) прежде чем старые файлы журнала будут удалены. Число должно быть больше 1, чтобы по крайней мере текущий файл журнала оставался открытым. Если установлено значение 0, все файлы журналов сохраняются, и ротация журналов не производится

10

minidump_path

Каталог для хранения Breakpad-дампов демона Statestore

/var/log/impala-minidumps

max_minidumps

Максимальное количество файлов Breakpad-дампов, хранимых демоном Statestore. Отрицательное значение или 0 интерпретируется как неограниченное число

9

state_store_num_server_worker_threads

Количество рабочих потоков для диспетчера потоков сервера Statestore Thrift

4

state_store_pending_task_count_max

Максимальное количество задач, которые могут быть отложены диспетчером потоков сервера Statestore Thrift. Значение 0 разрешает бесконечное количество отложенных задач

0

kerberos_reinit_interval

Количество минут между переустановкой тикета на сервере Kerberos

60

principal

Принципал Kerberos сервиса Impala

 — 

keytab_file

Kerberos keytab-файл сервиса Impala

 — 

ssl_server_certificate

Путь к файлу TLS/SSL с ключом сертификата сервера, используемым для TLS/SSL. Он используется, когда Impala работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

ssl_private_key

Путь к файлу TLS/SSL с закрытым ключом, используемым для TLS/SSL. Он используется, когда Impala работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

ssl_client_ca_certificate

Путь к сертификату в формате PEM, используемому для подтверждения подлинности серверов SSL/TLS, к которым могут подключаться демоны Impala. Поскольку демоны Impala также подключаются друг к другу, он должен включать сертификат CA, используемый для подписи всех сертификатов SSL/TLS. SSL/TLS между демонами Impala не может быть включен без этого параметра

 — 

webserver_certificate_file

Путь к файлу TLS/SSL с ключом сертификата сервера, используемым для TLS/SSL. Он необходим, когда веб-сервер демона Statestore работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

webserver_private_key_file

Путь к файлу TLS/SSL с закрытым ключом, используемым для TLS/SSL. Он необходим, когда веб-сервер демона Statestore работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

ssl_minimum_version

Минимальная версия TLS

TLSv1.2

Прочее
Параметр Описание Значение по умолчанию

Custom statestore.conf

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле statestore.conf

 — 

Enable custom ulimits

Включение этой опции позволяет указать ограничения на использование ресурсов для процесса (ulimits). Если значения не указаны, будут использованы системные настройки по умолчанию. Настройки ulimit описаны в таблице ниже

[Manager]
DefaultLimitCPU=
DefaultLimitFSIZE=
DefaultLimitDATA=
DefaultLimitSTACK=
DefaultLimitCORE=
DefaultLimitRSS=
DefaultLimitNOFILE=
DefaultLimitAS=
DefaultLimitNPROC=
DefaultLimitMEMLOCK=
DefaultLimitLOCKS=
DefaultLimitSIGPENDING=
DefaultLimitMSGQUEUE=
DefaultLimitNICE=
DefaultLimitRTPRIO=
DefaultLimitRTTIME=
Ulimit settings
Параметр Описание Соответствующая опция команды ulimit в CentOS

DefaultLimitCPU

Ограничение в секундах на количество процессорного времени, которое может потреблять процесс

cpu time ( -t)

DefaultLimitFSIZE

Максимальный размер файлов, которые может создать процесс, в блоках по 512 байт

file size ( -f)

DefaultLimitDATA

Максимальный размер сегмента данных процесса, в килобайтах

data seg size ( -d)

DefaultLimitSTACK

Максимальный размер стека, выделенный процессу, в килобайтах

stack size ( -s)

DefaultLimitCORE

Максимальный размер файла дампа (core dump) в байтах, который процесс может сохранить, в блоках по 512 байт

core file size ( -c)

DefaultLimitRSS

Максимальное количество памяти RAM (resident set size), которое может быть выделено процессу, в килобайтах

max memory size ( -m)

DefaultLimitNOFILE

Максимальное количество дескрипторов открытых файлов, разрешенное для процесса

open files ( -n)

DefaultLimitAS

Максимальный размер виртуальной памяти (адресного пространства) процесса, в килобайтах

virtual memory ( -v)

DefaultLimitNPROC

Максимальное количество процессов

max user processes ( -u)

DefaultLimitMEMLOCK

Максимальный размер памяти, который может быть заблокирован для процесса, в килобайтах. Блокировка памяти гарантирует, что память всегда находится в оперативной памяти (RAM) и файл подкачки не используется

max locked memory ( -l)

DefaultLimitLOCKS

Максимальное количество файлов, заблокированных процессом

file locks ( -x)

DefaultLimitSIGPENDING

Максимальное количество сигналов, ожидающих доставки в вызывающий поток

pending signals ( -i)

DefaultLimitMSGQUEUE

Максимальное количество байтов в очередях сообщений POSIX. Очереди сообщений POSIX позволяют процессам обмениваться данными в форме сообщений

POSIX message queues ( -q)

DefaultLimitNICE

Максимальный уровень приоритета NICE, который может быть назначен процессу

scheduling priority ( -e)

DefaultLimitRTPRIO

Максимальный приоритет планирования в реальном времени

real-time priority ( -r)

DefaultLimitRTTIME

Максимальный размер буфера конвейера (pipe), в блоках по 512 байт

pipe size ( -p)

Компонент Impala Catalog Service
catalogstore.conf
Параметр Описание Значение по умолчанию

hostname

Имя хоста, на котором установлен Catalog Service. Если Kerberos включен, оно также является частью принципала Kerberos. Если этот параметр не установлен, используется системное значение по умолчанию

 — 

state_store_host

Хост, на котором запущен компонент Impala Statestore

 — 

state_store_port

Порт, на котором запущен компонент Impala Statestore

24000

catalog_service_host

Хост, на котором запущен компонент Impala Catalog Service

 — 

catalog_service_port

Порт, на котором запущен компонент Impala Catalog Service

26000

enable_webserver

Включает или отключает веб-сервер демона Catalog Service. Его веб-интерфейс включает информацию о базах данных, таблицах и других объектах, управляемых Impala, в дополнение к информации об использовании ресурсов и параметрам конфигурации Catalog Service

True

webserver_require_spnego

Включает аутентификацию Kerberos для веб-консолей Hadoop HTTP для всех ролей этого сервиса с использованием протокола SPNEGO. Используйте этот параметр, только если для сервиса HDFS включен Kerberos

False

webserver_port

Порт, на котором работает веб-сервер Catalog Service

25020

log_dir

Каталог, в котором демон Catalog Service хранит свои файлы журналов

/var/log/impala/catalogd/

log_filename

Префикс имени файла журнала. Полный путь к файлу — <log_dir>/<log_filename>

catalogd

max_log_files

Количество файлов журнала, которые должны храниться для каждого уровня важности (INFO, WARNING, ERROR и FATAL) прежде чем старые файлы журнала будут удалены. Число должно быть больше 1, чтобы по крайней мере текущий файл журнала оставался открытым. Если установлено значение 0, все файлы журналов сохраняются, и ротация журналов не производится

10

minidump_path

Каталог для хранения Breakpad-дампов демона Catalog Service

/var/log/impala-minidumps

max_minidumps

Максимальное количество файлов Breakpad-дампов, хранимых демоном Catalog Service. Отрицательное значение или 0 интерпретируется как неограниченное число

9

hms_event_polling_interval_s

Если для этого параметра задано положительное число, Catalog Service получает новые уведомления из Hive Metastore с указанным интервалом в секундах. Если для hms_event_polling_interval_s установлено значение 0, автоматическое признание метаданных недействительными и обновление отключены. См. Metadata management

2

load_auth_to_local_rules

Если активен (True) и Kerberos включен для Impala, Impala использует настройку auth_to_local, заданную в конфигурации HDFS hadoop.security.auth_to_local

True

load_catalog_in_background

Если установлено значение True, метаданные загружаются в фоновом режиме, даже если эти метаданные не требуются ни для одного запроса. Если False, метаданные загружаются при первом обращении к ним

False

catalog_topic_mode

Уровень детализация метаданных, передающихся по запросу между координатором демона Impala и Impala Catalog Service. См. Metadata management

minimal

statestore_subscriber_timeout_seconds

Тайм-аут в секундах для подключения Impala Daemon и Catalog Server к Statestore

30

state_store_subscriber_port

Порт, на котором запущен StateStoreSubscriberService. StateStoreSubscriberService прослушивает этот порт на наличие обновлений от демона Statestore

23020

kerberos_reinit_interval

Количество минут между переустановкой тикета на сервере Kerberos

60

principal

Принципал Kerberos сервиса Impala

 — 

keytab_file

Kerberos keytab-файл сервиса Impala

 — 

ssl_server_certificate

Путь к файлу TLS/SSL с ключом сертификата сервера, используемым для TLS/SSL. Он используется, когда Impala работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

ssl_private_key

Путь к файлу TLS/SSL с закрытым ключом, используемым для TLS/SSL. Он используется, когда Impala работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

ssl_client_ca_certificate

Путь к сертификату в формате PEM, используемому для подтверждения подлинности серверов SSL/TLS, к которым могут подключаться демоны Impala. Поскольку демоны Impala также подключаются друг к другу, он должен включать сертификат CA, используемый для подписи всех сертификатов SSL/TLS. SSL/TLS между демонами Impala не может быть включен без этого параметра

 — 

webserver_certificate_file

Путь к файлу TLS/SSL с ключом сертификата сервера, используемым для TLS/SSL. Он необходим, когда веб-сервер демона Catalog Service работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

webserver_private_key_file

Путь к файлу TLS/SSL с закрытым ключом, используемым для TLS/SSL. Он необходим, когда веб-сервер демона Catalog Service работает как сервер TLS/SSL. Файл сертификата должен быть в формате PEM

 — 

ssl_minimum_version

Минимальная версия TLS

TLSv1.2

Прочее
Параметр Описание Значение по умолчанию

Custom catalogstore.conf

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле catalogstore.conf

 — 

Enable custom ulimits

Включение этой опции позволяет указать ограничения на использование ресурсов для процесса (ulimits). Если значения не указаны, будут использованы системные настройки по умолчанию. Настройки ulimit описаны в таблице ниже

[Manager]
DefaultLimitCPU=
DefaultLimitFSIZE=
DefaultLimitDATA=
DefaultLimitSTACK=
DefaultLimitCORE=
DefaultLimitRSS=
DefaultLimitNOFILE=
DefaultLimitAS=
DefaultLimitNPROC=
DefaultLimitMEMLOCK=
DefaultLimitLOCKS=
DefaultLimitSIGPENDING=
DefaultLimitMSGQUEUE=
DefaultLimitNICE=
DefaultLimitRTPRIO=
DefaultLimitRTTIME=
Ulimit settings
Параметр Описание Соответствующая опция команды ulimit в CentOS

DefaultLimitCPU

Ограничение в секундах на количество процессорного времени, которое может потреблять процесс

cpu time ( -t)

DefaultLimitFSIZE

Максимальный размер файлов, которые может создать процесс, в блоках по 512 байт

file size ( -f)

DefaultLimitDATA

Максимальный размер сегмента данных процесса, в килобайтах

data seg size ( -d)

DefaultLimitSTACK

Максимальный размер стека, выделенный процессу, в килобайтах

stack size ( -s)

DefaultLimitCORE

Максимальный размер файла дампа (core dump) в байтах, который процесс может сохранить, в блоках по 512 байт

core file size ( -c)

DefaultLimitRSS

Максимальное количество памяти RAM (resident set size), которое может быть выделено процессу, в килобайтах

max memory size ( -m)

DefaultLimitNOFILE

Максимальное количество дескрипторов открытых файлов, разрешенное для процесса

open files ( -n)

DefaultLimitAS

Максимальный размер виртуальной памяти (адресного пространства) процесса, в килобайтах

virtual memory ( -v)

DefaultLimitNPROC

Максимальное количество процессов

max user processes ( -u)

DefaultLimitMEMLOCK

Максимальный размер памяти, который может быть заблокирован для процесса, в килобайтах. Блокировка памяти гарантирует, что память всегда находится в оперативной памяти (RAM) и файл подкачки не используется

max locked memory ( -l)

DefaultLimitLOCKS

Максимальное количество файлов, заблокированных процессом

file locks ( -x)

DefaultLimitSIGPENDING

Максимальное количество сигналов, ожидающих доставки в вызывающий поток

pending signals ( -i)

DefaultLimitMSGQUEUE

Максимальное количество байтов в очередях сообщений POSIX. Очереди сообщений POSIX позволяют процессам обмениваться данными в форме сообщений

POSIX message queues ( -q)

DefaultLimitNICE

Максимальный уровень приоритета NICE, который может быть назначен процессу

scheduling priority ( -e)

DefaultLimitRTPRIO

Максимальный приоритет планирования в реальном времени

real-time priority ( -r)

DefaultLimitRTTIME

Максимальный размер буфера конвейера (pipe), в блоках по 512 байт

pipe size ( -p)

Kyuubi

Компонент Kyuubi Server
kyuubi-defaults.conf
Параметр Описание Значение по умолчанию

kyuubi.frontend.rest.bind.port

Порт, на котором работает сервис REST

10099

kyuubi.frontend.thrift.binary.bind.port

Порт, на котором работает сервис Thrift через бинарный протокол

10099

kyuubi.frontend.thrift.http.bind.port

Порт, на котором работает сервис Thrift через HTTP

10010

kyuubi.frontend.thrift.http.path

Компонент path URL-эндпоинта HTTP-версии Thrift

cliservice

kyuubi.engine.share.level

Уровень разделения движка. Возможные значения: CONNECTION (один движок на подключение), USER (один движок на пользователя), GROUP (один движок на группу), SERVER (один движок на сервер)

USER

kyuubi.engine.type

Тип движка, поддерживаемый Kyuubi. Возможные значения: SPARK_SQL, FLINK_SQL, TRINO, HIVE_SQL, JDBC

SPARK_SQL

kyuubi.operation.language

Язык программирования для интерпретации входных команд. Возможные значения: SQL, SCALA, PYTHON

SQL

kyuubi.frontend.protocols

Список поддерживаемых фронтенд-протоколов, разделенных запятой. Возможные элементы списка: THRIFT_BINARY, THRIFT_HTTP, REST

THRIFT_BINARY

kyuubi.frontend.thrift.binary.ssl.disallowed.protocols

Версии SSL, которые запрещено использовать Thrift при использовании бинарного протокола

SSLv2,SSLv3,TLSv1.1

kyuubi.frontend.thrift.http.ssl.protocol.blacklist

Версии SSL, которые запрещено использовать Thrift при использовании протокола HTTP

SSLv2,SSLv3,TLSv1.1

kyuubi.ha.addresses

Внешние адреса экземпляров Kyuubi

<hostname_1>:2181, …​, <hostname_N>:2181

kyuubi.ha.namespace

Корневая директория сервиса для разворачивания URI-экземпляра

kyuubi

kyuubi.metadata.store.jdbc.database.type

Тип базы данных для хранения серверных метаданных. Возможные значения: SQLITE, MYSQL, POSTGRESQL

POSTGRESQL

kyuubi.metadata.store.jdbc.url

JDBC-строка для подключения к хранилищу серверных метаданных

jdbc:postgresql://{{ groups['adpg.adpg'][0] | d(omit) }}:5432/kyuubi

kyuubi.metadata.store.jdbc.driver

Имя класса JDBC-драйвера для хранилища серверных метаданных

org.postgresql.Driver

kyuubi.metadata.store.jdbc.user

Имя пользователя для хранилища серверных метаданных

kyuubi

kyuubi.metadata.store.jdbc.password

Пароль пользователя для хранилища серверных метаданных

 — 

kyuubi.frontend.thrift.binary.ssl.enabled

Указывает, использовать ли SSL-шифрование при использовании Thrift с бинарным протоколом

false

kyuubi.frontend.thrift.http.use.SSL

Указывает, использовать ли SSL-шифрование при использовании Thrift с протоколом HTTP

false

kyuubi.frontend.ssl.keystore.type

Тип хранилища ключей SSL-сертификатов

 — 

kyuubi.frontend.ssl.keystore.path

Путь к хранилищу ключей SSL-сертификатов

 — 

kyuubi.frontend.ssl.keystore.password

Пароль от хранилища ключей SSL-сертификатов

 — 

kyuubi.frontend.thrift.http.ssl.keystore.path

Путь к хранилищу ключей SSL-сертификатов

 — 

kyuubi.frontend.thrift.http.ssl.keystore.password

Пароль от хранилища ключей SSL-сертификатов

 — 

kyuubi.authentication

Тип аутентификации. Возможные значения: NONE, KERBEROS

NONE

kyuubi.ha.zookeeper.acl.enabled

Указывает, керберизован ли ансамбль ZooKeeper

false

kyuubi.ha.zookeeper.auth.type

Тип аутентификации в ZooKeeper. Возможные значения: NONE, KERBEROS

NONE

kyuubi.ha.zookeeper.auth.principal

Имя принципала Kerberos, используемое для аутентификации в ZooKeeper

 — 

kyuubi.ha.zookeeper.auth.keytab

Путь к keytab-файлу Kyuubi Server, используемому для аутентификации в ZooKeeper

 — 

kyuubi.kinit.principal

Имя принципала в Kerberos

 — 

kyuubi.kinit.keytab

Путь к keytab-файлу Kyuubi Server

 — 

kyuubi.spnego.principal

Имя принципала в SPNego. Следует заполнять только в случае использования SPNego для аутентификации

 — 

kyuubi.spnego.keytab

Путь к keytab-файлу SPNego. Следует заполнять только в случае использования SPNego для аутентификации

 — 

kyuubi.engine.hive.java.options

Дополнительные Java-опции для движка Hive

 — 

kyuubi-env.conf
Параметр Описание Значение по умолчанию

KYUUBI_HOME

Домашняя директория Kyuubi

/usr/lib/kyuubi

KYUUBI_CONF_DIR

Директория, в которой хранятся конфигурации Kyuubi

/etc/kyuubi/conf

KYUUBI_LOG_DIR

Директория, в которой хранятся логи Kyuubi

/var/log/kyuubi

KYUUBI_PID_DIR

Директория, в которой хранится .pid-файл экземпляра Kyuubi

/var/run/kyuubi

KYUUBI_ADDITIONAL_CLASSPATH

Путь к директории, в которой хранятся дополнительные библиотеки SSM

/usr/lib/ssm/lib/smart*

HADOOP_HOME

Домашняя директория Hadoop

/usr/lib/hadoop

HADOOP_LIB_DIR

Директория, в которой хранятся библиотеки Hadoop

${HADOOP_HOME}/lib

KYUUBI_JAVA_OPTS

Параметры Java-машины для Kyuubi

-Djava.library.path=${HADOOP_LIB_DIR}/native/ -Djava.io.tmpdir={{ cluster.config.java_tmpdir | d('/tmp') }}

HADOOP_CLASSPATH

Значение общей переменной HADOOP_CLASSPATH с последующим значением KYUUBI_ADDITIONAL_CLASSPATH

$HADOOP_CLASSPATH:/usr/lib/ssm/lib/smart*

HADOOP_CONF_DIR

Директория, в которой хранятся конфигурации Hadoop

/etc/hadoop/conf

SPARK_HOME

Домашняя директория Spark

/usr/lib/spark3

SPARK_CONF_DIR

Директория, в которой хранятся конфигурации Spark

/etc/spark3/conf

FLINK_HOME

Домашняя директория Flink

/usr/lib/flink

FLINK_CONF_DIR

Директория, в которой хранятся конфигурации Flink

/etc/flink/conf

FLINK_HADOOP_CLASSPATH

Дополнительные .jar-файлы Hadoop, необходимые Kyuubi при использовании движка Flink

$(hadoop classpath):/usr/lib/ssm/lib/smart*

HIVE_HOME

Домашняя директория Hive

/usr/lib/hive

HIVE_CONF_DIR

Директория, в которой хранятся конфигурации Hive

/etc/hive/conf

HIVE_HADOOP_CLASSPATH

Дополнительные .jar-файлы Hadoop, необходимые Kyuubi при использовании движка Hive

$(hadoop classpath):/etc/tez/conf/:/usr/lib/tez/*:/usr/lib/tez/lib/*:/usr/lib/ssm/lib/smart*

MySQL

root user
Параметр Описание Значение по умолчанию

Password

Пароль root-пользователя

 — 

Solr

solr-env.sh
Параметр Описание Значение по умолчанию

SOLR_HOME

Расположение индексных данных и конфигураций

/srv/solr/server

SOLR_AUTH_TYPE

Указывает тип аутентификации для Solr

 — 

SOLR_AUTHENTICATION_OPTS

Параметры аутентификации Solr

 — 

GC_TUNE

JVM-параметры для Solr

-XX:-UseLargePages

SOLR_SSL_KEY_STORE:

Путь к keystore-файлу Solr (.jks)

 — 

SOLR_SSL_KEY_STORE_PASSWORD

Пароль к keystore-файлу Solr

 — 

SOLR_SSL_TRUST_STORE

Путь к truststore-файлу Solr (.jks)

 — 

SOLR_SSL_TRUST_STORE_PASSWORD

Пароль к truststore-файлу Solr

 — 

SOLR_SSL_NEED_CLIENT_AUTH

Определяет, включена ли клиентская аутентификация

false

SOLR_SSL_WANT_CLIENT_AUTH

Позволяет клиентам выполнять клиентскую аутентификацию (но не требует этого)

false

SOLR_SSL_CLIENT_HOSTNAME_VERIFICATION

Определяет, включена ли проверка имен хостов

false

SOLR_HOST

Указывает имя хоста Solr-сервера

 — 

External zookeeper
Параметр Описание Значение по умолчанию

ZK_HOST

Список всех серверов в Ensemble, включая порты, по которым они взаимодействуют. Вы можете добавить путь ZooKeeper chroot в конец строки подключения ZK_HOST. Например, host1.mydomain.com:2181,host2.mydomain.com:2181,host3.mydomain.com:2181/solr

 — 

Solr server heap memory settings
Параметр Описание Значение по умолчанию

Solr Server Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для Solr Server

-Xms512m -Xmx512m

ranger-solr-audit.xml
Параметр Описание Значение по умолчанию

xasecure.audit.solr.solr_url

Путь к Solr-коллекции для сохранения аудит-логов

 — 

xasecure.audit.solr.async.max.queue.size

Максимальный размер внутренней очереди для хранения аудит-логов

1

xasecure.audit.solr.async.max.flush.interval.ms

Максимальный временной интервал между сбросом лог-данных на диск (в миллисекундах)

100

ranger-solr-security.xml
Параметр Описание Значение по умолчанию

ranger.plugin.solr.policy.rest.url

URL для Ranger Admin

 — 

ranger.plugin.solr.service.name

Имя Ranger-сервиса, который содержит политики для этого экземпляра

 — 

ranger.plugin.solr.policy.cache.dir

Каталог, в котором кешируются политики Ranger после успешного извлечения из источника

/srv/ranger/yarn/policycache

ranger.plugin.solr.policy.pollIntervalMs

Определяет, как часто проверять политики на предмет изменения

30000

ranger.plugin.solr.policy.rest.client.connection.timeoutMs

Время ожидания подключения Solr-плагина RangerRestClient (в миллисекундах)

120000

ranger.plugin.solr.policy.rest.client.read.timeoutMs

Тайм-аут на чтение для Solr-плагина RangerRestClient (в миллисекундах)

30000

ranger-solr-policymgr-ssl.xml
Параметр Описание Значение по умолчанию

xasecure.policymgr.clientssl.keystore

Путь к keystore-файлу, который использует Ranger

 — 

xasecure.policymgr.clientssl.keystore.credential.file

Путь к файлу с паролями для keystore-файла

/etc/solr/conf/ranger-solr.jceks

xasecure.policymgr.clientssl.truststore.credential.file

Путь к truststore-файлу с учетными данными

/etc/solr/conf/ranger-solr.jceks

xasecure.policymgr.clientssl.truststore

Путь к truststore-файлу, который использует Ranger

 — 

xasecure.policymgr.clientssl.keystore.password

Пароль для доступа к keystore-файлу

 — 

xasecure.policymgr.clientssl.truststore.password

Пароль для доступа к truststore-файлу

 — 

Другие параметры
Параметр Описание Значение по умолчанию

solr.xml

Содержимое файла solr.xml

Custom solr-env.sh

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле solr-env.sh

 — 

Ranger plugin enabled

Включает Ranger-плагин

false

Spark

Common
Параметр Описание Значение по умолчанию

Dynamic allocation (spark.dynamicAllocation.enabled)

Определяет, использовать ли динамическое выделение ресурсов для масштабирования количества исполнителей, зарегистрированных в этом приложении, в зависимости от рабочей нагрузки

false

spark-defaults.conf
Параметр Описание Значение по умолчанию

spark.yarn.archive

Архив, содержащий необходимые JAR-файлы Spark для помещения в кеш YARN. Если параметр задан, он заменяет spark.yarn.jars и указанный архив используется во всех контейнерах приложения. Архив должен содержать JAR-файлы в своем корневом каталоге. Архив также может быть размещен на HDFS для ускорения распространения файлов

hdfs:///apps/spark/spark-yarn-archive.tgz

spark.yarn.historyServer.address

Адрес Spark History server

 — 

spark.master

Менеджер кластера для соединения

yarn

spark.dynamicAllocation.enabled

Определяет, использовать ли динамическое выделение ресурсов для масштабирования количества исполнителей, зарегистрированных в этом приложении, в зависимости от рабочей нагрузки

false

spark.shuffle.service.enabled

Задействует внешний shuffle-сервис. Сервис сохраняет shuffle-файлы, созданные исполнителями. Таким образом, исполнители могут быть безопасно удалены, а процесс shuffle может продолжаться в случае сбоя исполнителя. Внешний shuffle-сервис должен быть настроен, чтобы использовать его

false

spark.eventLog.enabled

Определяет, следует ли логировать события Spark, что полезно для восстановления веб-интерфейса после завершения работы приложения

true

spark.eventLog.dir

Базовый каталог, в котором регистрируются события Spark, если spark.eventLog.enabled=true. В этом каталоге Spark создает подкаталог для каждого приложения и логирует события, относящиеся к приложению в этом каталоге. Вы можете задать единое местоположение, например каталог HDFS, чтобы History Server имел доступ к файлам истории

hdfs:///var/log/spark/apps

spark.serializer

Класс, используемый для сериализации объектов, которые будут отправлены по сети или должны быть кешированы в сериализованной форме. Сериализация Java по умолчанию работает с любым Serializable Java-объектом, но довольно медленно, поэтому рекомендуется использовать org.apache.spark.serializer.KryoSerializer и настроить сериализацию Kryo, когда необходима скорость. Класс должен наследовать org.apache.spark.Serializer

org.apache.spark.serializer.KryoSerializer

spark.dynamicAllocation.executorIdleTimeout

Если динамическое размещение включено и исполнитель бездействует дольше указанного времени, такой исполнитель будет удален. Дополнительные сведения доступны в документации Spark

120s

spark.dynamicAllocation.cachedExecutorIdleTimeout

Если динамическое размещение включено и исполнитель, у которого имеются блоки данных в кеше, бездействует дольше указанного времени, такой исполнитель будет удален. Дополнительные сведения доступны в документации Spark

600s

spark.history.provider

Имя класса, реализующего backend-часть истории приложения. В настоящее время Spark предоставляет только одну реализацию, которая ищет логи приложений, хранящиеся в файловой системе

org.apache.spark.deploy.history.FsHistoryProvider

spark.history.fs.cleaner.enabled

Указывает, должен ли History Server периодически удалять логи событий из хранилища

true

spark.history.store.path

Локальный каталог, в котором кешируются данные истории приложений. Если параметр задан, History Server будет хранить данные приложения на диске, а не в памяти. Данные, записанные на диск, будут повторно использованы в случае перезапуска History Server

/var/log/spark/history

spark.driver.extraClassPath

Дополнительные зависимости, которые будут добавлены в classpath драйвера

/usr/lib/hive/lib/hive-shims-scheduler.jar:/usr/lib/hadoop-yarn/hadoop-yarn-server-resourcemanager.jar

spark.history.ui.port

Номер порта web-интерфейса History Server

18082

spark.history.fs.logDirectory

Директория с логами History Server

hdfs:///var/log/spark/apps

spark.sql.hive.metastore.jars

Путь к JAR-файлам, которые нужны для инициализации HiveMetastoreClient

/usr/lib/hive/lib/*

spark.sql.hive.metastore.version

Версия Hive Metastore

3.0.0

spark.driver.extraLibraryPath:

Путь к дополнительным нативным библиотекам для драйвера

/usr/lib/hadoop/lib/native/

spark.yarn.am.extraLibraryPath:

Путь к дополнительным нативным библиотекам для Application Master

/usr/lib/hadoop/lib/native/

spark.executor.extraLibraryPath

Путь к дополнительным нативным библиотекам для Executor

/usr/lib/hadoop/lib/native/

spark.yarn.appMasterEnv.HIVE_CONF_DIR

Путь к директории на Application Master, где хранятся настройки Hive, необходимые для запуска в кластерном режиме

/etc/spark/conf

spark.yarn.historyServer.allowTracking

Позволяет использовать Spark History Server для интерфейса трекинга, если web UI отключен для задачи

True

spark.ssl.enabled

Определяет, использовать ли SSL для Spark

false

spark.ssl.protocol

Используемый TLS-протокол. Протокол должен поддерживаться JVM

TLSv1.2

spark.ssl.ui.port

Порт, через который устанавливается SSL-соединение

4040

spark.ssl.historyServer.port

Порт для доступа к веб-интерфейсу History Server

18082

spark.ssl.keyPassword

Пароль приватного ключа в keystore-файле

 — 

spark.ssl.keyStore

Путь к keystore-файлу

 — 

spark.ssl.keyStoreType

Тип keystore-файла

JKS

spark.ssl.trustStorePassword

Пароль к truststore-файлу, который использует Spark

 — 

spark.ssl.trustStore

Путь к truststore-файлу

 — 

spark.ssl.trustStoreType

Тип truststore-файла

JKS

spark.history.kerberos.enabled

Указывает, должен ли History Server использовать Kerberos для входа в систему. Это параметр необходим, если History Server обращается к файлам HDFS в защищенном кластере Hadoop

false

spark.acls.enable

Активирует список управления доступом Spark

false

spark.modify.acls

Список пользователей, разделенных запятыми, у которых есть права на изменение приложений Spark

spark,hdfs

spark.modify.acls.groups

Список групп пользователей, разделенных запятыми, у которых есть права на изменение приложений Spark

spark,hdfs

spark.history.ui.acls.enable

Указывает, следует ли проверять списки управления доступом, чтобы разрешить пользователям просматривать приложения в History Server. Если указано true, проверка контроля доступа выполняются независимо от того, какие значения spark.ui.acls.enable установлены для отдельных приложений. Если указано false, проверки контроля доступа не выполняются для всех пользовательских интерфейсов приложений, доступных через History Server

false

spark.history.ui.admin.acls

Разделенный запятыми список пользователей, у которых есть доступ к просмотру всех приложений Spark в History Server

spark,hdfs,dr.who

spark.history.ui.admin.acls.groups

Разделенный запятыми список групп пользователей, у которых есть доступ к просмотру всех приложений Spark в History Server

spark,hdfs,dr.who

spark.ui.view.acls

Разделенный запятыми список пользователей, у которых есть доступ к просмотру приложения Spark. По умолчанию только пользователь, запустивший Spark-задачу, имеет доступ к просмотру. Использование * в качестве значения означает, что любой пользователь может иметь доступ к просмотру задачи Spark

spark,hdfs,dr.who

spark.ui.view.acls.groups

Разделенный запятыми список групп пользователей, у которых есть доступ к просмотру приложения Spark. По умолчанию только пользователь, запустивший Spark-задачу, имеет доступ к просмотру. Использование * в качестве значения означает, что любой пользователь может иметь доступ к просмотру задачи Spark. Группы пользователей предоставляет экземпляр провайдера сопоставления групп (group mapping provider), указанный в spark.user.groups.mapping

spark,hdfs,dr.who

Spark heap memory settings
Параметр Описание Значение по умолчанию

Spark History Server Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для Spark History Server

1G

Spark Thrift Server Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для Spark Thrift Server

1G

Livy Server Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для Livy Server

-Xms300m -Xmx4G

livy.conf
Параметр Описание Значение по умолчанию

livy.server.host

Хост, на котором запускается Livy-сервер. По умолчанию Livy слушает все сетевые интерфейсы

0.0.0.0

livy.server.port

Порт, на котором запускается Livy-сервер

8999

livy.spark.master

Spark master для Livy-сессий

yarn

livy.impersonation.enabled

Определяет, следует ли Livy имперсонировать пользователей при создании новой сессии

true

livy.server.csrf-protection.enabled

Определяет, задействовать ли CSRF-защиту. Если защита включена, клиентские приложения должны добавлять HTTP-заголовок X-Requested-By для HTTP-методов POST/DELETE/PUT/PATCH

true

livy.repl.enable-hive-context

Определяет, задействовать ли HiveContext для интерпретатора Livy. Если указано значение true, hive-site.xml и classpath Livy-сервера будут определены автоматически по запросу пользователя

true

livy.server.recovery.mode

Устанавливает режим восстановления для Livy

recovery

livy.server.recovery.state-store

Определяет, где Livy хранит состояние (state) для восстановления

filesystem

livy.server.recovery.state-store.url

Если выбран тип хранилища состояния filesystem, определяет путь к каталогу хранилища. Не рекомендуется использовать файловые системы, которые не поддерживают атомарное переименование (например, S3). Например: file:///tmp/livy or hdfs:///. Для ZooKeeper необходимо указать адрес ZooKeeper-серверов. Например: host1:port1,host2:port2

/livy-recovery

livy.server.auth.type

Указывает тип аутентификации для Livy

 — 

livy.server.access_control.enabled

Определяет, включать ли контроль доступа для сервера Livy. Если установлено значение true, все входящие запросы будут проверяться на наличие у запрошенного пользователя разрешения

false

livy.server.access_control.users

Пользователи, которым разрешен доступ к Livy. По умолчанию любому пользователю разрешен доступ к Livy. Если пользователь хочет ограничить доступ, он должен перечислить всех разрешенных пользователей через запятую

livy,hdfs,spark

livy.superusers

Список разделенных запятыми пользователей, у которых есть разрешения на изменение сеанса другого пользователя, например на выполнение запросов, удаление сеанса и так далее

livy,hdfs,spark

livy.keystore

Путь к keystore-файлу. Путь может быть как абсолютным, так и относительным каталогу, в котором был запущен процесс

 — 

livy.keystore.password

Пароль для доступа к keystore-файлу

 — 

livy.key-password

Пароль для доступа к ключу в keystore-файле

 — 

livy.server.thrift.ssl.protocol.blacklist

Список запрещенных к использованию TLS-протоколов

SSLv2,SSLv3,TLSv1,TLSv1.1

Другие параметры
Параметр Описание Значение по умолчанию

Custom spark-defaults.conf

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле spark-defaults.conf

 — 

spark-env.sh

Содержимое файла spark-env.sh, который используется для инициализации окружения на worker-узлах

spark-env.sh

Custom livy.conf

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле livy.conf

 — 

livy-env.sh

Содержимое файла livy-env.sh, который используется для инициализации окружения перед запуском Livy

livy-env.sh

thriftserver-env.sh

Содержимое файла thriftserver-env.sh, который используется для инициализации окружения перед запуском Thrift server

thriftserver-env.sh

spark-history-env.sh

Содержимое файла spark-history-env.sh, который используется для инициализации окружения перед запуском History Server

spark-history-env.sh

Spark3

Common
Параметр Описание Значение по умолчанию

Dynamic allocation (spark.dynamicAllocation.enabled)

Определяет, использовать ли динамическое выделение ресурсов, для масштабирования количества исполнителей, зарегистрированных в этом приложении, в зависимости от рабочей нагрузки

false

spark-defaults.conf
Параметр Описание Значение по умолчанию

spark.yarn.archive

Архив, содержащий необходимые JAR-файлы Spark для помещения в кеш YARN. Если параметр задан, он заменяет spark.yarn.jars, и указанный архив используется во всех контейнерах приложения. Архив должен содержать JAR-файлы в своем корневом каталоге. Архив также может быть размещен на HDFS для ускорения распространения файлов

hdfs:///apps/spark/spark3-yarn-archive.tgz

spark.yarn.historyServer.address

Адрес Spark History server

 — 

spark.master

Менеджер кластера для соединения

yarn

spark.dynamicAllocation.enabled

Определяет, использовать ли динамическое выделение ресурсов для масштабирования количества исполнителей, зарегистрированных в этом приложении, в зависимости от рабочей нагрузки

false

spark.shuffle.service.enabled

Задействует внешний shuffle-сервис. Сервис сохраняет shuffle-файлы, созданные исполнителями. Таким образом, исполнители могут быть безопасно удалены, а процесс shuffle может продолжаться в случае сбоя исполнителя. Внешний shuffle-сервис должен быть настроен, чтобы использовать его

false

spark.eventLog.enabled

Определяет, следует ли логировать события Spark, что полезно для восстановления веб-интерфейса после завершения работы приложения

true

spark.eventLog.dir

Базовый каталог, в котором регистрируются события Spark, если spark.eventLog.enabled=true. В этом каталоге Spark создает подкаталог для каждого приложения и логирует события, относящиеся к приложению в этом каталоге. Вы можете задать единое местоположение, например каталог HDFS, чтобы History Server имел доступ к файлам истории

hdfs:///var/log/spark/apps

spark.dynamicAllocation.executorIdleTimeout

Если динамическое размещение включено и исполнитель бездействует дольше указанного времени, такой исполнитель будет удален. Дополнительные сведения доступны в документации Spark

120s

spark.dynamicAllocation.cachedExecutorIdleTimeout

Если динамическое размещение включено и исполнитель, у которого имеются блоки данных в кеше, бездействует дольше указанного времени, такой исполнитель будет удален. Дополнительные сведения доступны в документации Spark

600s

spark.history.provider

Имя класса, реализующего backend-часть истории приложения. В настоящее время Spark предоставляет только одну реализацию, которая ищет логи приложений, хранящиеся в файловой системе

org.apache.spark.deploy.history.FsHistoryProvider

spark.history.fs.cleaner.enabled

Указывает, должен ли History Server периодически удалять логи событий из хранилища

true

spark.history.store.path

Локальный каталог, в котором кешируются данные истории приложений. Если параметр задан, History Server будет хранить данные приложения на диске, а не в памяти. Данные, записанные на диск, будут повторно использованы в случае перезапуска History Server

/var/log/spark3/history

spark.serializer

Имя класса, который выполняет сериализацию объектов для отправки их по сети или для кеширования в сериализованном виде. По умолчанию работает с любым объектом, который реализует интерфейс Serializable, однако такой подход является медленным. Поэтому рекомендуется использовать org.apache.spark.serializer.KryoSerializer и настроить сериализацию Kryo для большей производительности. В значении может быть любой класс-наследник org.apache.spark.Serializer

org.apache.spark.serializer.KryoSerializer

spark.driver.extraClassPath

Дополнительные зависимости, которые будут добавлены в classpath драйвера

/usr/lib/hive/lib/hive-shims-scheduler.jar:/usr/lib/hadoop-yarn/hadoop-yarn-server-resourcemanager.jar

spark.history.ui.port

Номер порта web-интерфейса History Server

18092

spark.ui.port

Номер порта web-интерфейса Thrift Server

4140

spark.history.fs.logDirectory

Директория с логами History Server

hdfs:///var/log/spark/apps

spark.sql.hive.metastore.jars

Путь к JAR-файлам, которые нужны для инициализации HiveMetastoreClient

path

spark.sql.hive.metastore.jars.path

Список путей, разделенных запятыми и указывающих на JAR-файлы, которые необходимы для инициализации HiveMetastoreClient

file:///usr/lib/hive/lib/*.jar

spark.sql.hive.metastore.version

Версия Hive Metastore

3.1.2

spark.driver.extraLibraryPath:

Путь к дополнительным нативным библиотекам для драйвера

/usr/lib/hadoop/lib/native/

spark.yarn.am.extraLibraryPath:

Путь к дополнительным нативным библиотекам для Application Master

/usr/lib/hadoop/lib/native/

spark.executor.extraLibraryPath

Путь к дополнительным нативным библиотекам для Executor

/usr/lib/hadoop/lib/native/

spark.yarn.appMasterEnv.HIVE_CONF_DIR

Путь к директории на Application Master, где хранятся настройки Hive, необходимые для запуска в кластерном режиме

/etc/spark3/conf

spark.yarn.historyServer.allowTracking

Позволяет использовать Spark History Server для интерфейса трекинга, если web UI отключен для задачи

True

spark.connect.grpc.binding.port

Номер порта для gRPC-соединения с сервером Spark Connect

15002

spark.history.kerberos.enabled

Указывает, должен ли History Server использовать Kerberos для входа в систему. Это параметр необходим, если History Server обращается к файлам HDFS в защищенном кластере Hadoop

false

spark.acls.enable

Определяет, активен ли Spark ACL (access control list). Если опция включена, выполняется проверка, имеет ли определенный пользователь права доступа на просмотр или изменение задачи Spark. Обратите внимание, что пользователь должен быть известен. Если имя пользователя null, никаких проверок не выполняется. В веб-интерфейсе можно использовать фильтры для аутентификации и установки пользователя

false

spark.modify.acls

Список пользователей, разделенных запятыми, у которых есть права на изменение приложений Spark

spark,hdfs

spark.modify.acls.groups

Список групп пользователей, разделенных запятыми, у которых есть права на изменение приложений Spark

spark,hdfs

spark.history.ui.acls.enable

Указывает, следует ли проверять списки управления доступом, чтобы разрешить пользователям просматривать приложения на History Server. Если указано true, проверка контроля доступа выполняются независимо от того, какие значения spark.ui.acls.enable установлены для отдельных приложений. Если указано false, проверки контроля доступа не выполняются для всех пользовательских интерфейсов приложений, доступных через History Server

false

spark.history.ui.admin.acls

Разделенный запятыми список пользователей, у которых есть доступ к просмотру всех приложений Spark на History Server

spark,hdfs,dr.who

spark.history.ui.admin.acls.groups

Разделенный запятыми список групп пользователей, у которых есть доступ к просмотру всех приложений Spark на History Server

spark,hdfs,dr.who

spark.ui.view.acls

Разделенный запятыми список пользователей, у которых есть доступ к просмотру приложения Spark. По умолчанию только пользователь, запустивший Spark-задачу, имеет доступ к просмотру. Использование * в качестве значения означает, что любой пользователь может иметь доступ к просмотру задачи Spark

spark,hdfs,dr.who

spark.ui.view.acls.groups

Разделенный запятыми список групп пользователей, у которых есть доступ к просмотру приложения Spark. По умолчанию только пользователь, запустивший Spark-задачу, имеет доступ к просмотру. Использование * в качестве значения означает, что любой пользователь может иметь доступ к просмотру задачи Spark. Группы пользователей предоставляет экземпляр провайдера сопоставления групп (group mapping provider), указанный в spark.user.groups.mapping

spark,hdfs,dr.who

spark.ssl.keyPassword

Пароль к приватному ключу в keystore

 — 

spark.ssl.keyStore

Путь к keystore-файлу. Путь может быть как абсолютным, так и относительным директории, в которой был запущен процесс

 — 

spark.ssl.keyStoreType

Тип используемого keystore

JKS

spark.ssl.trustStorePassword

Пароль к приватному ключу в truststore

 — 

spark.ssl.trustStoreType

Тип используемого truststore

JKS

spark.ssl.enabled

Определяет, нужно ли задействовать SSL для Spark

 — 

spark.ssl.protocol

Определяет TLS-протокол. Указанный протокол должен поддерживаться JVM

TLSv1.2

spark.ssl.ui.port

Номер порта, на котором доступен веб-интерфейс Spark с включенным SSL

4041

spark.ssl.historyServer.port

Номер порта, на котором доступен веб-интерфейс Spark History Server с включенным SSL

18092

livy.conf
Параметр Описание Значение по умолчанию

livy.server.host

Хост, на котором запускается Livy-сервер. По умолчанию Livy слушает все сетевые интерфейсы

0.0.0.0

livy.server.port

Порт, на котором запускается Livy-сервер

8999

livy.spark.master

Spark master для Livy-сессий

yarn

livy.impersonation.enabled

Определяет, следует ли Livy имперсонировать пользователей при создании новой сессии

true

livy.server.csrf-protection.enabled

Определяет, задействовать ли CSRF-защиту. Если защита включена, клиентские приложения должны добавлять HTTP-заголовок X-Requested-By для HTTP-методов POST/DELETE/PUT/PATCH

true

livy.repl.enable-hive-context

Определяет, задействовать ли HiveContext для интерпретатора Livy. Если указано значение true, hive-site.xml и classpath Livy-сервера будут определены автоматически по запросу пользователя

true

livy.server.recovery.mode

Устанавливает режим восстановления для Livy

recovery

livy.server.recovery.state-store

Определяет, где Livy хранит состояние (state) для восстановления

filesystem

livy.server.recovery.state-store.url

Если выбран тип хранилища состояния filesystem, определяет путь к каталогу хранилища. Не рекомендуется использовать файловые системы, которые не поддерживают атомарное переименование (например, S3). Например: file:///tmp/livy or hdfs:///. Для ZooKeeper необходимо указать адрес ZooKeeper-серверов. Например: host1:port1,host2:port2

/livy-recovery

livy.server.auth.type

Указывает тип аутентификации для Livy

 — 

livy.server.access_control.enabled

Определяет, включать ли контроль доступа для сервера Livy. Если установлено значение true, все входящие запросы будут проверяться на наличие у запрошенного пользователя разрешения

false

livy.server.access_control.users

Пользователи, которым разрешен доступ к Livy. По умолчанию любому пользователю разрешен доступ к Livy. Если пользователь хочет ограничить доступ, он должен перечислить всех разрешенных пользователей через запятую

livy,hdfs,spark

livy.superusers

Список разделенных запятыми пользователей, у которых есть разрешения на изменение сеанса другого пользователя, например на выполнение запросов, удаление сеанса и так далее

livy,hdfs,spark

livy.keystore

Путь к keystore-файлу. Путь может быть как абсолютным, так и относительным каталогу, в котором был запущен процесс

 — 

livy.keystore.password

Пароль для доступа к keystore-файлу

 — 

livy.key-password

Пароль для доступа к ключу в keystore-файле

 — 

livy.server.thrift.ssl.protocol.blacklist

Список запрещенных к использованию TLS-протоколов

SSLv2,SSLv3,TLSv1,TLSv1.1

thrift-server.conf
Параметр Описание Значение по умолчанию

thrift.server.port

Номер порта, используемый для взаимодействия с Spark3 Thrift Server

10116

Spark heap memory settings
Параметр Описание Значение по умолчанию

Spark History Server Heap Memory

Sets the maximum Java heap size for Spark History Server

1G

Другие параметры
Параметр Описание Значение по умолчанию

Custom spark-defaults.conf

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле spark-defaults.conf

 — 

Custom log4j2.properties

Cодержимое файла log4j2.properties, который используется для настройки логирования Spark3

log4j2.properties

spark-env.sh

Содержимое файла spark-env.sh, который используется для инициализации переменных окружения на worker-узлах

spark-env.sh

Custom livy.conf

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле livy.conf

 — 

livy-env.sh

Содержимое файла livy-env.sh, который используется для инициализации переменных окружения, необходимых для работы Spark3 Livy Server

livy-env.sh

spark-history-env.sh

Cодержимое файла spark-history-env.sh, который используется для инициализации переменных окружения, необходимых для работы Spark3 History Server

spark-history-env.sh

thriftserver-env.sh

Содержимое файла thriftserver-env.sh, который используется для инициализации переменных окружения, необходимых для работы Spark3 Thrift Server

thriftserver-env.sh

SSM

Credentials Encryption
Параметр Описание Значение по умолчанию

Credential provider path

Путь к хранилищу ключей, используемому для шифрования учетных данных

jceks://file/etc/ssm/conf/ssm.jceks

Custom jceks

Установите значение true для использования пользовательского JCEKS-хранилища по заданному пути. Установите значение false, чтобы использовать автоматически сгенерированное хранилище ключей JCEKS

false

Password file name

Имя файла, в котором хранится пароль для доступа к хранилищу ключей

ssm_credstore_pass

smart-site.xml
Параметр Описание Значение по умолчанию

smart.hadoop.conf.path

Путь к директории конфигурации Hadoop

/etc/hadoop/conf

smart.conf.dir

Путь к директории конфигурации SSM

/etc/ssm/conf

smart.server.rpc.address

RPC-адрес сервера SSM

0.0.0.0:7042

smart.server.http.address

HTTP-адрес сервера SSM (веб-интерфейс)

0.0.0.0:7045

smart.agent.master.address

Адрес активного SSM-сервера

<hostname>

smart.agent.address

Определяет адрес компонента SSM Agent на каждом хосте

0.0.0.0

smart.agent.port

Номер порта, используемый агентами SSM для общения с SSM-сервером

7048

smart.agent.master.port

Номер порта, используемый SSM-сервером для общения с агентами SSM

7051

smart.ignore.dirs

Список HDFS-директорий, разделенных запятыми, которые необходимо игнорировать. SSM игнорирует все файлы в указанных директориях

 — 

smart.cover.dirs

Список HDFS-директорий, разделенных запятыми, в которых SSM будет сканировать файлы. По умолчанию охватываются все файлы HDFS

 — 

smart.work.dir

Директория HDFS, используемая SSM в качестве рабочей директории для хранения временных файлов. В этой директории SSM будет игнорировать события inotify для файлов. Можно указать только одну директорию

/system/ssm

smart.client.concurrent.report.enabled

Включает/отключает параллельные отчеты для Smart Client. Если опция включена, в целях оптимизации Smart Client пытается параллельно подключиться к нескольким настроенным Smart Server для определения активного сервера. Только активный Smart Server ответит на запрос для установления соединения. Если отчет был успешно доставлен на активный Smart Server, попытки подключения к другим серверам отменяются

 — 

smart.server.rpc.handler.count

Количество RPC-обработчиков на сервере

80

smart.namespace.fetcher.batch

Размер пакета для namespace-сборщика. SSM получает информацию о namespace от NameNode во время запуска. Большие размеры namespace могут привести к увеличению времени запуска. Увеличение размера пакета может ускорить работу сборщика и уменьшить время запуска

500

smart.namespace.fetcher.producers.num

Количество производителей (producers) в namespace-сборщике

3

smart.namespace.fetcher.consumers.num

Количество потребителей (consumers) в namespace-сборщике

6

smart.rule.executors

Максимальное количество правил, которые могут выполняться параллельно

5

smart.cmdlet.executors

Максимальное количество команд, которые могут выполняться параллельно

10

smart.dispatch.cmdlets.extra.num

Количество дополнительных команд, отправляемых Smart Server

10

smart.cmdlet.dispatchers

Максимальное количество диспетчеров команд, работающих параллельно

3

smart.cmdlet.mover.max.concurrent.blocks.per.srv.inst

Максимальное количество команд file mover для одного сервиса SSM, которые могут выполняться параллельно. Значение 0 снимает ограничение

0

smart.action.move.throttle.mb

Предельная пропускная способность (в МБ) для действия move overall

0

smart.action.copy.throttle.mb

Предельная пропускная способность (в МБ) для действия copy overall

0

smart.action.ec.throttle.mb

Предельная пропускная способность (в МБ) для действия EC overall

0

smart.action.local.execution.disabled

Определяет, может ли активный Smart Server также выполнять функции агента. Если установлено значение true, активный сервер SSM не сможет выполнять действия агента. Этот параметр не влияет на поведение резервного Smart Server

false

smart.cmdlet.max.num.pending

Максимальное количество ожидающих команд в SSM Server

20000

smart.cmdlet.hist.max.num.records

Максимальное количество исторических записей команд, хранящихся на сервере SSM. При превышении этого значения SSM удаляет самые старые команды

100000

smart.cmdlet.hist.max.record.lifetime

Максимальное время жизни исторических записей команд, хранящихся на сервере SSM. SSM-сервер удаляет записи команд по истечении указанного интервала. Допустимые единицы времени: day, hour, min, sec. Минимальная гранулярность обновления составляет 5sec

30day

smart.cmdlet.cache.batch

Максимальный размер для пакетной вставки команд

600

smart.copy.scheduler.base.sync.batch

Максимальный размер пакета базовой синхронизации для Copy Scheduler

500

smart.file.diff.max.num.records

Максимальное количество записей файловых изменений с состоянием useless

10000

smart.status.report.period

Период между статус-отчетами действий в миллисекундах

10

smart.status.report.period.multiplier

Период отчета, умноженный на данное значение, определяет наибольший интервал отчета

50

smart.status.report.ratio

Если соотношение завершенных действий равно или превышает это значение, будет сгенерирован статус-отчет

0.2

smart.top.hot.files.num

Топ "горячих" файлов, отображаемых в веб-интерфейсе

200

smart.cmdlet.dispatcher.log.disp.result

Определяет, нужно ли регистрировать результат диспетчеризации для каждой команды

false

smart.cmdlet.dispatcher.log.disp.metrics.interval

Интервал времени в миллисекундах для регистрации статистических показателей диспетчера команд. Если в течение этого интервала не было отправлено ни одной команды, вывод для этого интервала отсутствует. Значение 0 отключает логирование

5000

smart.compression.codec

Устанавливает кодек сжатия по умолчанию (Zlib, Lz4, Bzip2, snappy). Также кодеки можно указать в качестве аргументов действия. Указание кодека в аргументе действия имеет более высокий приоритет, чем данный параметр

Zlib

smart.compression.max.split

Максимальное количество фрагментов, разделяемых для сжатия

1000

smart.compact.batch.size

Максимальное количество маленьких файлов (small files), которые будут скомпонованы при выполнении действия compact

200

smart.compact.container.file.threshold.mb

Максимальный размер файла контейнера в МБ при выполнении действия compact

1024

smart.access.count.day.tables.num

Максимальное количество таблиц, которые могут быть созданы в базе данных Metastore для хранения количества обращений к файлам в день

30

smart.access.count.hour.tables.num

Максимальное количество таблиц, которые могут быть созданы в базе данных Metastore для хранения количества обращений к файлам в час

48

smart.access.count.minute.tables.num

Максимальное количество таблиц, которые могут быть созданы в базе данных Metastore для хранения количества обращений к файлам в минуту

120

smart.access.count.second.tables.num

Максимальное количество таблиц, которые могут быть созданы в базе данных Metastore для хранения количества обращений к файлам в секунду

30

smart.access.event.fetch.interval.ms

Интервал в миллисекундах между получением данных о доступах к файлам

1000

smart.cached.file.fetch.interval.ms

Интервал в миллисекундах между получением кешированных файлов из HDFS

5000

smart.namespace.fetch.interval.ms

Интервал в миллисекундах между получением данных о пространствах имен из HDFS

1

smart.mover.scheduler.storage.report.fetch.interval.ms

Интервал в миллисекундах между получением отчетов о хранении из HDFS DataNodes в планировщике перемещений (mover scheduler)

120000

smart.metastore.small-file.insert.batch.size

Максимальный размер пакета вставки Metastore с информацией о маленьких файлах

200

smart.agent.master.ask.timeout.ms

Максимальное время в миллисекундах для ожидания ответа компонентом Smart Agent от Smart Server при отправке действия

5000

smart.ignore.path.templates

Список regex-шаблонов путей HDFS, которые SSM должен игнорировать

 — 

smart.internal.path.templates

Список regex-шаблонов внутренних файлов, которые SSM должен игнорировать

.*/\..*,.*/__.*,.*_COPYING_.*

smart.security.enable

Включает Kerberos-аутентификацию для SSM

false

smart.server.keytab.file

Путь к keytab-файлу сервера SSM

 — 

smart.server.kerberos.principal

Kerberos-принципал сервера SSM

 — 

smart.agent.keytab.file

Путь к keytab-файлу агента SSM

 — 

smart.agent.kerberos.principal

Kerberos-принципал агента SSM

 — 

Druid configuration
Параметр Описание Значение по умолчанию

db_url

URL к базе данных Metastore

jdbc:postgresql://{{ groups['adpg.adpg'][0] | d(omit) }}:5432/ssm

db_user

Имя пользователя для подключения к базе данных

ssm

db_password

Пароль пользователя для подключения к базе данных

 — 

initialSize

Начальное количество соединений, создаваемых при старте пула

10

minIdle

Минимальное количество установленных соединений, которое должно постоянно храниться в пуле. Пул соединений может уменьшиться ниже этого значения, если запросы валидации не проходят проверку

4

maxActive

Максимальное количество активных соединений, которые могут быть выделены из этого пула одновременно

50

maxWait

Максимальное время в миллисекундах, которое пул будет ожидать (при отсутствии доступных соединений), пока соединение не будет возвращено, прежде чем бросить исключение

60000

timeBetweenEvictionRunsMillis

Время в миллисекундах для ожидания между запусками потоков idle connection validation/cleaner. Это значение не должно быть меньше 1 секунды. Оно определяет, как часто следует проверять бездействующие и заброшенные (abandoned) соединения

90000

minEvictableIdleTimeMillis

Минимальное время, в течение которого объект соединения может бездействовать в пуле, прежде чем его можно будет удалить

300000

validationQuery

SQL-запрос, используемый для проверки соединений из пула перед возвратом их вызывающей стороне

SELECT 1

testWhileIdle

Определяет, проверять ли объекты с помощью idle object evictor (если таковой имеется)

true

testOnBorrow

Определяет, проверяются ли объекты перед заимствованием из пула

false

testOnReturn

Определяет, проверяются ли объекты перед возвращением в пул

false

poolPreparedStatements

Активирует пуллинг для подготовленных выражений (prepared statements)

true

maxPoolPreparedStatementPerConnectionSize

Максимальное количество подготовленных выражений, которые можно объединить в пул для одного соединения

30

removeAbandoned

Удаляет брошенные соединения, если они превысили removeAbandonedTimeout

true

removeAbandonedTimeout

Тайм-аут в секундах, после которого заброшенное (используемое) соединение может быть удалено

180

logAbandoned

Флаг для логирования стектрейса кода приложения, которое забросило соединение. Логирование брошенных соединений накладывает дополнительные расходы для каждого заимствованного соединения

true

filters

Устанавливает фильтры, применяемые к источнику данных

stat

smart-env.sh
Параметр Описание Значение по умолчанию

LD_LIBRARY_PATH

Путь к дополнительным нативным библиотекам для SSM

/usr/lib/hadoop/lib/native

HADOOP_HOME

Путь к домашней директории Hadoop

/usr/lib/hadoop

Другие параметры
Параметр Описание Значение по умолчанию

Enable SmartFileSystem for Hadoop

Если эта опция включена, при расчете AccessCount для файлов учитываются запросы от разных клиентов (Spark, HDFS, Hive и так далее). В противном случае значение AccessCount увеличивается только при обращении к файлу из SSM

false

log4j.properties

Содержимое конфигурационного файла log4j.properties

 — 

zeppelin-site.xml

Содержимое конфигурационного файла zeppelin-site.xml. SSM использует конфигурацию Zeppelin для веб-интерфейса

 — 

Sqoop

sqoop-site.xml
Параметр Описание Значение по умолчанию

sqoop.metastore.client.autoconnect.url

Строка подключения, используемая при подключении к хранилищу метаданных управления задачами. Если параметр на задан, используется ~/.sqoop/

 — 

sqoop.metastore.server.location

Путь к общим файлам базы данных хранилища метаданных. Если параметр не задан, используется ~/.sqoop/

/srv/sqoop/metastore.db

sqoop.metastore.server.port

Порт, используемый сервером хранилища метаданных

16100

sqoop-metastore-env.sh
Параметр Описание Значение по умолчанию

HADOOP_OPTS

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для Sqoop

-Xms800M -Xmx10G

Другие параметры
Параметр Описание Значение по умолчанию

Custom sqoop-site.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле

 — 

Custom sqoop-metastore-env.sh

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле sqoop-metastore-env.sh

 — 

YARN

mapred-site.xml
Параметр Описание Значение по умолчанию

mapreduce.application.classpath

CLASSPATH для приложений MapReduce. Список записей CLASSPATH, разделенных запятой. Если задан параметр mapreduce.application.framework, то данный параметр должен содержать CLASSPATH, также подходящий для этого архива, а имя архива должно содержаться в CLASSPATH. Если mapreduce.app-submission.cross-platform=false, для составления CLASSPATH-записей будет использован платформозависимый синтаксис расширения переменной среды. Если mapreduce.app-submission.cross-platform=true, будет использоваться CLASSPATH по умолчанию, не зависящий от платформы, для приложений MapReduce:

{{HADOOP_MAPRED_HOME}}/share/hadoop/mapreduce/*, {{HADOOP_MAPRED_HOME}}/share/hadoop/mapreduce/lib/*

NodeManager заменит маркер расширения параметра при запуске контейнера в зависимости от операционной системы

/etc/hadoop/conf/*:/usr/lib/hadoop/*:/usr/lib/hadoop/lib/*:/usr/lib/hadoop-hdfs/*:/usr/lib/hadoop-hdfs/lib/*:/usr/lib/hadoop-yarn/*:/usr/lib/hadoop-yarn/lib/*:/usr/lib/hadoop-mapreduce/*:/usr/lib/hadoop-mapreduce/lib/*

mapreduce.cluster.local.dir

Локальный каталог, в котором MapReduce хранит промежуточные файлы данных. В значении параметра может быть указан разделенный запятыми список каталогов на разных устройствах для распределения нагрузки на диски. Несуществующие каталоги игнорируются

/srv/hadoop-yarn/mr-local

mapreduce.framework.name

Фреймворк для выполнения MapReduce-задач. Допустимые значения: local, classic или yarn

yarn

mapreduce.jobhistory.address

Адрес MapReduce JobHistory Server (в формате <host>:<port>)

 — 

mapreduce.jobhistory.bind-host

Установка значения 0.0.0.0 приводит к тому, что MapReduce-демоны слушают все адреса и интерфейсы хостов в кластере

0.0.0.0

mapreduce.jobhistory.webapp.address

Адрес для доступа к веб-интерфейсу MapReduce JobHistory Server (в формате <host>:<port>)

 — 

mapreduce.map.env

Переменные среды для процессов map-задач, добавленные пользователем в виде списка, разделенного запятыми. Пример: VAR1=value1,VAR2=value2

HADOOP_MAPRED_HOME=/usr/lib/hadoop-mapreduce

mapreduce.reduce.env

Переменные среды для процессов reduce-задач, добавленные пользователем в виде списка, разделенного запятыми. Пример: VAR1=value1,VAR2=value2

HADOOP_MAPRED_HOME=/usr/lib/hadoop-mapreduce

yarn.app.mapreduce.am.env

Переменные среды для процессов MapReduce App Master, добавленные пользователем. Примеры:

  • A=foo. Устанавливает переменную A со значением foo.

  • B=$B:c. Наследует значение переменной B.

HADOOP_MAPRED_HOME=/usr/lib/hadoop-mapreduce

yarn.app.mapreduce.am.staging-dir

Промежуточный каталог, используемый при отправке задач

/user

mapreduce.jobhistory.keytab

Kerberos keytab-файл для MapReduce JobHistory Server

/etc/security/keytabs/mapreduce-historyserver.service.keytab

mapreduce.jobhistory.principal

Принципал Kerberos для MapReduce JobHistory Server

mapreduce-historyserver/_HOST@REALM

mapreduce.jobhistory.http.policy

Настраивает HTTP-endpoint для веб-интерфейса JobHistoryServer. Доступны следующие значения:

  • HTTP_ONLY — обеспечивает работу через HTTP;

  • HTTPS_ONLY — обеспечивает работу через HTTPS.

HTTP_ONLY

mapreduce.jobhistory.webapp.https.address

HTTPS-адрес веб-приложения MapReduce JobHistory Server

0.0.0.0:19890

mapreduce.shuffle.ssl.enabled

Определяет, использовать ли SSL для HTTP-endpoint shuffle

false

ranger-yarn-audit.xml
Параметр Описание Значение по умолчанию

xasecure.audit.destination.solr.batch.filespool.dir

Путь к Spool-каталогу

/srv/ranger/hdfs_plugin/audit_solr_spool

xasecure.audit.destination.solr.urls

Оставьте значение пустым или установите значение NONE при использовании ZooKeeper для подключения к Solr

 — 

xasecure.audit.destination.solr.zookeepers

Указывает строку подключения ZooKeeper для подключения к Solr

 — 

xasecure.audit.destination.solr.force.use.inmemory.jaas.config

Использует in-memory JAAS-файл для соединения с Solr

 — 

xasecure.audit.is.enabled

Активирует аудит Ranger

true

xasecure.audit.jaas.Client.loginModuleControlFlag

Определяет требование к успешному завершению работы модуля. Значения могут быть required, requisite, sufficient или optional

 — 

xasecure.audit.jaas.Client.loginModuleName

Имя класса-аутентификатора

 — 

xasecure.audit.jaas.Client.option.keyTab

Имя keytab-файла, из которого необходимо получить секретный ключ принципала

 — 

xasecure.audit.jaas.Client.option.principal

Имя используемого принципала

 — 

xasecure.audit.jaas.Client.option.serviceName

Имя пользователя или сервиса, для которого выполнятся логин

 — 

xasecure.audit.jaas.Client.option.storeKey

Установите значение true, чтобы keytab-файл или ключ принципала сохранялись в учетных данных субъекта

false

xasecure.audit.jaas.Client.option.useKeyTab

Установите значение true, чтобы модуль получал ключ принципала из keytab-файла

false

ranger-yarn-security.xml
Параметр Описание Значение по умолчанию

ranger.plugin.yarn.policy.rest.url

URL для Ranger Admin

 — 

ranger.plugin.yarn.service.name

Имя Ranger-сервиса, который содержит политики для этого экземпляра

 — 

ranger.plugin.yarn.policy.cache.dir

Каталог, в котором кешируются политики Ranger после успешного извлечения из источника

/srv/ranger/yarn/policycache

ranger.plugin.yarn.policy.pollIntervalMs

Определяет, как часто проверять политики на предмет изменения

30000

ranger.plugin.yarn.policy.rest.client.connection.timeoutMs

Время ожидания подключения YARN-плагина RangerRestClient (в миллисекундах)

120000

ranger.plugin.yarn.policy.rest.client.read.timeoutMs

Тайм-аут на чтение для YARN-плагина RangerRestClient (в миллисекундах)

30000

ranger.add-yarn-authorization

Установите значение true для использования списков управления доступом Ranger

false

ranger.plugin.yarn.policy.rest.ssl.config.file

Путь к конфигурационному файлу RangerRestClient SSL плагина YARN

/etc/yarn/conf/ranger-yarn-policymgr-ssl.xml

yarn-site.xml
Параметр Описание Значение по умолчанию

yarn.application.classpath

CLASSPATH для приложений YARN. Список записей CLASSPATH, разделенных запятой. Если значение пустое, используется следующий CLASSPATH по умолчанию для YARN-приложений.

  • Для Linux:

    $HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*
  • Для Windows:

    %HADOOP_CONF_DIR%, %HADOOP_COMMON_HOME%/share/hadoop/common/*, %HADOOP_COMMON_HOME%/share/hadoop/common/lib/*, %HADOOP_HDFS_HOME%/share/hadoop/hdfs/*, %HADOOP_HDFS_HOME%/share/hadoop/hdfs/lib/*, %HADOOP_YARN_HOME%/share/hadoop/yarn/*, %HADOOP_YARN_HOME%/share/hadoop/yarn/lib/*
/etc/hadoop/conf/*:/usr/lib/hadoop/*:/usr/lib/hadoop/lib/*:/usr/lib/hadoop-hdfs/*:/usr/lib/hadoop-hdfs/lib/*:/usr/lib/hadoop-yarn/*:/usr/lib/hadoop-yarn/lib/*:/usr/lib/hadoop-mapreduce/*:/usr/lib/hadoop-mapreduce/lib/*

yarn.cluster.max-application-priority

Определяет максимальный приоритет приложения в кластере. Приоритет на уровне Leaf Queue: каждая Leaf-очередь предоставляет приоритет по умолчанию администратором. Приоритет очереди по умолчанию будет использоваться для любого приложения, отправленного без явно указанного приоритета. $HADOOP_HOME/etc/hadoop/capacity-scheduler.xml является файлом конфигурации приоритетов на уровне очереди

0

yarn.log.server.url

URL сервера агрегации логов

 — 

yarn.log-aggregation-enable

Активирует агрегацию логов. Логи агрегируются из каждого контейнера и перемещаются в файловую систему, например HDFS, после завершения работы приложения. Пользователи могут настроить свойства yarn.nodemanager.remote-app-log-dir и yarn.nodemanager.remote-app-log-dir-suffix, чтобы определить, куда перемещаются логи. Доступ к логам можно получить через Application Timeline Server

true

yarn.log-aggregation.retain-seconds

Определяет, как долго хранить логи перед их удалением. Значение -1 отключает сохранение логов. Будьте осторожны: установка слишком маленького значения приведет к спаму NameNode

172800

yarn.nodemanager.local-dirs

Список локальных каталогов для хранения. Каталог локальных файлов приложения находится в: ${yarn.nodemanager.local-dirs}/usercache/${user}/appcache/application_${appid}. Отдельные рабочие каталоги контейнеров, называемые container_${contid}, будут подкаталогами

/srv/hadoop-yarn/nm-local

yarn.node-labels.enabled

Активирует функцию меток узлов

true

yarn.node-labels.fs-store.root-dir

URI для NodeLabelManager. Значение по умолчанию — /tmp/hadoop-yarn-${user}/node-labels/ в локальной файловой системе

hdfs:///system/yarn/node-labels

yarn.timeline-service.bind-host

Фактический адрес, к которому будет привязан сервер. Если этот необязательный адрес установлен, серверы RPC и Webapp будут привязаны к этому адресу и порту, указанным в yarn.timeline-service.address и yarn.timeline-service.webapp.address, соответственно. Данный параметр может быть полезен, чтобы заставить сервис слушать все интерфейсы, установив значение 0.0.0.0

0.0.0.0

yarn.timeline-service.leveldb-timeline-store.path

Сохраняет имя файла для leveldb Timeline-хранилища

/srv/hadoop-yarn/leveldb-timeline-store

yarn.nodemanager.address

Адрес менеджера контейнеров в NodeManager

0.0.0.0:8041

yarn.nodemanager.aux-services

Список сервисов, разделенных запятыми, где имя сервиса должно содержать только символы a-zA-Z0-9_ и не может начинаться с цифр

mapreduce_shuffle,spark2_shuffle,spark_shuffle

yarn.nodemanager.aux-services.mapreduce_shuffle.class

Вспомогательный класс сервиса

org.apache.hadoop.mapred.ShuffleHandler

yarn.nodemanager.aux-services.spark2_shuffle.class

Имя класса YarnShuffleService — внешнего shuffle-сервиса для Spark 2 в YARN

org.apache.spark.network.yarn.YarnShuffleService

yarn.nodemanager.aux-services.spark2_shuffle.classpath

Путь к YarnShuffleService — внешнему shuffle-сервису для Spark 2 в YARN

/usr/lib/spark/yarn/lib/*

yarn.nodemanager.aux-services.spark_shuffle.class

Имя класса YarnShuffleService — внешнего shuffle-сервиса для Spark 3 в YARN

org.apache.spark.network.yarn.YarnShuffleService

yarn.nodemanager.aux-services.spark_shuffle.classpath

Путь к YarnShuffleService — внешнему shuffle-сервису для Spark 3 в YARN

/usr/lib/spark3/yarn/lib/*

yarn.nodemanager.recovery.enabled

Позволяет NodeManager восстанавливаться после запуска

true

yarn.nodemanager.recovery.dir

Локальный каталог файловой системы, в котором NodeManager сохраняет состояние, если функция восстановления включена

/srv/hadoop-yarn/nm-recovery

yarn.nodemanager.remote-app-log-dir

Определяет каталог для агрегации логов

/logs

yarn.nodemanager.resource-plugins

Включает дополнительное обнаружение/изоляцию ресурсов в NodeManager. По умолчанию этот параметр пуст. Допустимые значения: yarn.io/gpu, yarn.io/fpga

 — 

yarn.nodemanager.resource-plugins.gpu.path-to-discovery-executables

Если yarn.nodemanager.resource.gpu.allowed-gpu-devices=auto, YARN NodeManager должен запустить бинарный файл обнаружения графического процессора (в данный момент поддерживается только nvidia-smi), чтобы получить информацию о GPU. если значение не установлено (по умолчанию), YARN NodeManager попытается самостоятельно найти файл обнаружения. Пример значения конфигурации: /usr/local/bin/nvidia-smi

/usr/bin/nvidia-smi

yarn.nodemanager.resource.detect-hardware-capabilities

Включает автоматическое определение параметров узла, таких как память и CPU

true

yarn.nodemanager.vmem-check-enabled

Определяет, будут ли применяться ограничения виртуальной памяти для контейнеров

false

yarn.resource-types

Типы ресурсов, которые будут использоваться для планирования. Используйте resource-types.xml для указания сведений об отдельных типах ресурсов

 — 

yarn.resourcemanager.bind-host

Фактический адрес, к которому будет привязан сервер. Если этот необязательный адрес установлен, серверы RPC и Webapp будут привязаны к этому адресу и порту, указанным в yarn.resourcemanager.address и yarn.resourcemanager.webapp.address, соответственно. При установке значения 0.0.0.0 Resource Manager слушает все интерфейсы

0.0.0.0

yarn.resourcemanager.cluster-id

Имя кластера. В режиме высокой доступности (High Availability, HA) этот параметр используется для того, чтобы Resource Manager участвовал в выборе лидера для этого кластера и чтобы он не влиял на другие кластеры

 — 

yarn.resource-types.memory-mb.increment-allocation

FairScheduler предоставляет память, равную приращениям значения параметра. Если вы отправляете задачу с запросом ресурсов, который не кратен memory-mb.increment-allocation, запрос будет округлен до ближайшего увеличения

1024

yarn.resource-types.vcores.increment-allocation

FairScheduler предоставляет vcore с приращением значения, указанного в параметре. Если вы отправляете задачу с запросом ресурсов, который не кратен vcores.increment-allocation, запрос будет округлен до ближайшего увеличения

1

yarn.resourcemanager.ha.enabled

Включает режим высокой доступности для Resource Manager. При активации режима:

  • Resource Manager по умолчанию запускается в режиме Standby и переходит в активный режим по запросу.

  • Узлы в ансамбле Resource Manager перечислены в yarn.resourcemanager.ha.rm-ids.

  • Идентификатор каждого Resource Manager либо берется из yarn.resourcemanager.ha.id (если yarn.resourcemanager.ha.id указан явно), либо может быть получен путем сопоставления yarn.resourcemanager.address.{id} с локальным адресом.

  • Фактические физические адреса берутся из конфигураций шаблона {rpc-config}.{id}.

false

yarn.resourcemanager.ha.rm-ids

Список узлов Resource Manager в кластере, в режиме высокой доступности. Для дополнительной информации смотрите описание параметра yarn.resourcemanager.ha.enabled

 — 

yarn.resourcemanager.hostname

Имя хоста Resource Manager

 — 

yarn.resourcemanager.leveldb-state-store.path

Локальный путь, по которому будет храниться состояние Resource Manager при использовании org.apache.hadoop.yarn.server.resourcemanager.recovery.LeveldbRMStateStore в качестве значения для yarn.resourcemanager.store.class

/srv/hadoop-yarn/leveldb-state-store

yarn.resourcemanager.monitor.capacity.queue-management.monitoring-interval

Время между вызовами политики QueueManagementDynamicEditPolicy (в миллисекундах)

1500

yarn.resourcemanager.reservation-system.enable

Активирует ReservationSystem в ResourceManager

false

yarn.resourcemanager.reservation-system.planfollower.time-step

Частота таймера PlanFollower (в миллисекундах)

1000

Resource scheduler

Тип подключаемого планировщика для Hadoop. Доступные значения: CapacityScheduler и FairScheduler. CapacityScheduler позволяет нескольким участникам безопасно использовать общий кластер, чтобы их приложениям своевременно выделялись ресурсы с учетом ограничений выделенных мощностей. FairScheduler позволяет поровну распределять ресурсы между YARN-приложениями в больших кластерах

CapacityScheduler

yarn.resourcemanager.scheduler.monitor.enable

Включает набор периодических мониторов (monitors, указанных в yarn.resourcemanager.scheduler.monitor.policies), которые влияют на планировщик

false

yarn.resourcemanager.scheduler.monitor.policies

Список классов SchedulingEditPolicy, взаимодействующих с планировщиком. Конкретный модуль может быть несовместим с планировщиком, другими политиками или их конфигурацией

org.apache.hadoop.yarn.server.resourcemanager.monitor.capacity.ProportionalCapacityPreemptionPolicy

yarn.resourcemanager.monitor.capacity.preemption.observe_only

Если установлено значение true, запускает политику, но в кластере не будут выполняться события вытеснения (preemption) и уничтожения

false

yarn.resourcemanager.monitor.capacity.preemption.monitoring_interval

Время между вызовами политики ProportionalCapacityPreemptionPolicy (в миллисекундах)

3000

yarn.resourcemanager.monitor.capacity.preemption.max_wait_before_kill

Время между запросом на вытеснение из приложения и уничтожением контейнера (в миллисекундах)

15000

yarn.resourcemanager.monitor.capacity.preemption.total_preemption_per_round

Максимальный процент ресурсов, вытесняемых за один раунд. Управляя этим значением, можно регулировать скорость, с которой контейнеры удаляются из кластера. После вычисления общего объема данных на вытеснение политика уменьшает это значение в пределах установленного лимита

0.1

yarn.resourcemanager.monitor.capacity.preemption.max_ignored_over_capacity

Максимальное количество ресурсов, которое может превышать целевой объем и игнорируется при вытеснении. Этот параметр определяет мертвую зону вокруг целевого объема, что помогает предотвратить погрешности вычисляемого целевого баланса. Высокие значения замедлят время достижения заданного объема и (при отсутствии natural.completions) могут помешать достижению гарантированного объема

0.1

yarn.resourcemanager.monitor.capacity.preemption.natural_termination_factor

Для определенного объекта вытеснения учитывает контейнеры с естественным сроком действия и вытесняет только процент от дельты. Это определяет скорость геометрического вхождения в мертвую зону (MAX_IGNORED_OVER_CAPACITY). Например, коэффициент завершения 0,5 вернет почти 95% ресурсов в течение 5 * #WAIT_TIME_BEFORE_KILL, даже при отсутствии естественного завершения

0.2

yarn.resourcemanager.nodes.exclude-path

Путь к файлу с узлами для исключения

/etc/hadoop/conf/exclude-path.xml

yarn.resourcemanager.nodes.include-path

Путь к файлу с узлами для включения

/etc/hadoop/conf/include-path

yarn.resourcemanager.recovery.enabled

Позволяет Resource Manager восстанавливать состояние после запуска. Если установлено значение true, необходимо указать yarn.resourcemanager.store.class

true

yarn.resourcemanager.store.class

Класс для использования в качестве постоянного хранилища. Если используется org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore, хранилище неявно ограждается (fenced); это означает, что один Resource Manager может использовать хранилище в любой момент времени

 — 

yarn.resourcemanager.system-metrics-publisher.enabled

Параметр определяет, должен ли Resource Manager публиковать системные метрики YARN в Timeline Server

true

yarn.scheduler.fair.user-as-default-queue

Определяет, использовать ли имя пользователя, связанное с выделением ресурсов, в качестве имени очереди по умолчанию в случае, если имя очереди не указано. Если установлено значение false или параметр не задан, все задачи используют общую очередь по умолчанию с именем default. Значение по умолчанию — true. Если в файле распределения задана политика размещения очереди, это свойство игнорируется

true

yarn.scheduler.fair.preemption

Определяет, использовать ли вытеснение (preemption)

false

yarn.scheduler.fair.preemption.cluster-utilization-threshold

Порог использования, после которого срабатывает вытеснение (preemption). Использование определяется как максимальное отношение использования к объему среди всех ресурсов

0.8f

yarn.scheduler.fair.sizebasedweight

Определяет, следует ли предоставлять общие ресурсы отдельным приложениям в зависимости от их размера, вместо того, чтобы предоставлять равное количество ресурсов всем приложениям независимо от размера. Если установлено значение true, приложения оцениваются по формуле: натуральный логарифм единицы + (память приложения, деленная на натуральный логарифм двойки)

false

yarn.scheduler.fair.assignmultiple

Определяет, разрешать ли несколько назначений контейнеров за один heartbeat

false

yarn.scheduler.fair.dynamic.max.assign

Если assignmultiple=true, параметр указывает, следует ли динамически определять количество ресурсов, выделяемых за один hearbeat. При значении true примерно половина нераспределенных ресурсов на узле выделяется контейнерам за один hearbeat

true

yarn.scheduler.fair.max.assign

Если assignmultiple=true, параметр указывает максимальное количество контейнеров, которое может быть назначено за один такт. Значение по умолчанию: -1, что не устанавливает ограничений

-1

yarn.scheduler.fair.locality.threshold.node

Для приложений, которые запрашивают контейнеры на определенных узлах, параметр определяет количество возможностей планирования с момента последнего назначения контейнера до размещения на другом узле. Валидное значение — число с плавающей запятой от 0 до 1, пропорциональное размеру кластера и выражающее количество возможностей планирования, которые нужно пропустить. Значение по умолчанию -1.0 означает не упускать возможности планирования

-1.0

yarn.scheduler.fair.locality.threshold.rack

Для приложений, которые запрашивают контейнеры на RAID-массивах, количество возможностей планирования с момента последнего назначения контейнера для ожидания перед принятием размещения на другой стойке. Выражается в виде числа с плавающей запятой от 0 до 1 пропорционального размеру кластера и представляющее количество возможностей планирования, которые необходимо упустить. Значение по умолчанию -1.0 означает не упускать возможности планирования

-1.0

yarn.scheduler.fair.allow-undeclared-pools

При значении true могут создаваться новые очереди во время отправки приложения. Очередь приложения может быть указана как отправителем, так и параметром user-as-default-queue. При значении false каждый раз, когда приложение помещается в очередь, не указанную в файле распределения, вместо этого оно помещается в очередь default. По умолчанию true. Если в файле распределения задана политика размещения очереди, это свойство игнорируется

true

yarn.scheduler.fair.update-interval-ms

Интервал времени, в течение которого необходимо заблокировать планировщик, пересчитать fair-доли, спрос и проверить, нет ли кандидатов на вытеснение

500

yarn.scheduler.minimum-allocation-mb

Устанавливает для Resource Manager минимальное выделение ресурсов для каждого запроса контейнера (в МБ). Запросы памяти ниже этого значения вызовут исключение InvalidResourceRequestException

1024

yarn.scheduler.maximum-allocation-mb

Устанавливает для Resource Manager максимальное выделение ресурсов для каждого запроса контейнера (в МБ). Запросы памяти выше этого значения вызовут исключение InvalidResourceRequestException

4096

yarn.scheduler.minimum-allocation-vcores

Минимальное количество ресурсов (с точки зрения виртуальных ядер CPU), выделяемых Resource Manager для каждого запроса контейнера. Запросы ниже этого значения будут вызывать исключение InvalidResourceRequestException

1

yarn.scheduler.maximum-allocation-vcores

Максимальное количество ресурсов (с точки зрения виртуальных ядер CPU), выделяемых Resource Manager для каждого запроса контейнера. Запросы выше этого значения будут вызывать исключение InvalidResourceRequestException

2

yarn.timeline-service.enabled

На стороне сервера этот параметр указывает, включен ли сервис Timeline. На стороне клиента этот параметр может использоваться, чтобы указать, хочет ли клиент использовать сервис Timeline. Если этот параметр установлен на стороне клиента и безопасность включена, YARN-клиент пытается получить токены делегирования для Timeline-сервера

true

yarn.timeline-service.hostname

Имя хоста веб-приложения службы временной шкалы

 — 

yarn.timeline-service.http-cross-origin.enabled

Активирует совместное использование ресурсов между разными источниками (Cross Origin Support, CORS) для Timeline-сервера

true

yarn.webapp.ui2.enable

На стороне сервера этот параметр указывает, активен ли новый YARN UI v2

true

yarn.resourcemanager.proxy-user-privileges.enabled

Если установлено значение true, Resource Manager будет иметь привилегии прокси-пользователя. Если установлено значение true, Resource Manager может запрашивать новые токены делегирования hdfs от имени пользователя. Это необходимо для долговременных сервисов, поскольку срок действия токенов hdfs в конечном итоге истечет, а YARN требует новых действительных токенов для локализации и агрегации логов. Обратите внимание, что для этой опции соответствующий HDFS NameNode должен иметь Resource Manager, настроенный как прокси-пользователь, чтобы Resource Manager мог сам запрашивать новые токены от имени пользователя, когда токены истекли

false

yarn.resourcemanager.webapp.spnego-principal

Принципал Kerberos, который будет использоваться для фильтра SPNEGO для веб-интерфейса Resource Manager

HTTP/_HOST@REALM

yarn.resourcemanager.webapp.spnego-keytab-file

Kerberos keytab-файл, который будет использоваться для фильтра SPNEGO для веб-интерфейса Resource Manager

/etc/security/keytabs/HTTP.service.keytab

yarn.nodemanager.linux-container-executor.group

Группа UNIX, от имени которой должен работать linux-container-executor

yarn

yarn.resourcemanager.webapp.delegation-token-auth-filter.enabled

Флаг, позволяющий переопределить фильтр проверки подлинности Kerberos по умолчанию фильтром проверки подлинности Resource Manager, чтобы разрешить проверку подлинности с использованием токенов делегирования (возврат к Kerberos в случае отсутствия токенов). Применимо только в том случае, если тип HTTP-аутентификации задан kerberos

false

yarn.resourcemanager.principal

Принципал Kerberos для Resource Manager

yarn-resourcemanager/_HOST@REALM

yarn.resourcemanager.keytab

Kerberos keytab-файл для Resource Manager

/etc/security/keytabs/yarn-resourcemanager.service.keytab

yarn.resourcemanager.webapp.https.address

HTTPS-адрес веб-приложения Resource Manager. Если в качестве значения указан только хост, веб-приложение будет использовать случайный порт

${yarn.resourcemanager.hostname}:8090

yarn.nodemanager.principal

Принципал Kerberos для NodeManager

yarn-nodemanager/_HOST@REALM

yarn.nodemanager.keytab

Kerberos keytab-файл для NodeManager

/etc/security/keytabs/yarn-nodemanager.service.keytab

yarn.nodemanager.webapp.spnego-principal

Принципал Kerberos для использования SPNEGO-фильтра для веб-интерфейса NodeManager

HTTP/_HOST@REALM

yarn.nodemanager.webapp.spnego-keytab-file

Kerberos keytab-файл для использования SPNEGO-фильтра для веб-интерфейса NodeManager

/etc/security/keytabs/HTTP.service.keytab

yarn.nodemanager.webapp.cross-origin.enabled

Флаг для активации совместного использования ресурсов (Cross-origin Resource Sharing, CORS) в Resource Manager. Этот флаг требует, чтобы инициализатор фильтра CORS был добавлен в список инициализаторов фильтров в core-site.xml

false

yarn.nodemanager.webapp.https.address

HTTPS-адрес веб-приложения NodeManager

0.0.0.0:8044

yarn.timeline-service.http-authentication.type

Определяет тип аутентификации, которая используется для HTTP-endpoint Timeline Server. Допустимые значения: simple, kerberos, #AUTHENTICATION_HANDLER_CLASSNAME#

simple

yarn.timeline-service.http-authentication.simple.anonymous.allowed

Указывает, разрешены ли анонимные запросы от Timeline Server с использованием simple аутентификации

true

yarn.timeline-service.http-authentication.kerberos.keytab

Kerberos keytab-файл, который используется для Timeline Server (Collector/Reader) HTTP endpoint

/etc/security/keytabs/HTTP.service.keytab

yarn.timeline-service.http-authentication.kerberos.principal

Принципал Kerberos, который испольузется для Timeline Server (Collector/Reader) HTTP endpoint

HTTP/_HOST@REALM

yarn.timeline-service.principal

Принципал Kerberos для сервиса timeline reader. Принципал NodeManager будет использован для timeline collector, так как является вспомогательным сервисом внутри NodeManager

yarn/_HOST@REALM

yarn.timeline-service.keytab

Kerberos keytab-файл для timeline reader. Keytab-файл NodeManager будет использован для timeline collector, так как является вспомогательным сервисом внутри NodeManager

/etc/security/keytabs/yarn.service.keytab

yarn.timeline-service.delegation.key.update-interval

Интервал обновления ключей делегирования

86400000

yarn.timeline-service.delegation.token.renew-interval

Интервал обновления токенов делегирования

86400000

yarn.timeline-service.delegation.token.max-lifetime

Максимальное время жизни токена

86400000

yarn.timeline-service.client.best-effort

Определяет, считать ли ошибку при получении токена делегирования ошибкой приложения (false), или клиент должен попытаться опубликовать информацию без токена (true)

false

yarn.timeline-service.webapp.https.address

HTTPS-адрес веб-приложения сервиса Timeline

${yarn.timeline-service.hostname}:8190

yarn.http.policy

Параметр настраивает HTTP-endpoint для демонов Yarn. Доступны следующие значения:

  • HTTP_ONLY — обеспечивает работу через HTTP;

  • HTTPS_ONLY — обеспечивает работу через HTTPS.

HTTP_ONLY

yarn.nodemanager.container-executor.class

Имя container-executor Java-класса

org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor

container-executor.cfg
ВНИМАНИЕ

В AstraLinux UID пользователей могут начинаться со 100. Для корректной работы YARN на AstraLinux установите значение параметра min.user.id равным 100.

Параметр Описание Значение по умолчанию

banned.users

СС пользователей, разделенных запятой, которые не могут запускать приложения

bin

min.user.id

Исключает других super-пользователей

500

YARN heap memory settings
Параметр Описание Значение по умолчанию

ResourceManager Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для Resource Manager

-Xms1G -Xmx8G

NodeManager Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для NodeManager

 — 

Timelineserver Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для Timeline server

-Xms700m -Xmx8G

History server Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для History server

-Xms700m -Xmx8G

Lists of decommissioned hosts
Параметр Описание Значение по умолчанию

DECOMMISSIONED

Список хостов в состоянии DECOMMISSIONED

 — 

ranger-yarn-policymgr-ssl.xml
Параметр Описание Значение по умолчанию

xasecure.policymgr.clientssl.keystore

Путь к keystore-файлу, который использует Ranger

 — 

xasecure.policymgr.clientssl.keystore.credential.file

Путь к файлу с паролями для keystore-файла

/etc/yarn/conf/ranger-yarn.jceks

xasecure.policymgr.clientssl.truststore.credential.file

Путь к truststore-файлу с учетными данными

/etc/yarn/conf/ranger-yarn.jceks

xasecure.policymgr.clientssl.truststore

Путь к truststore-файлу, который использует Ranger

 — 

xasecure.policymgr.clientssl.keystore.password

Пароль для доступа к keystore-файлу

 — 

xasecure.policymgr.clientssl.truststore.password

Пароль для доступа к truststore-файлу

 — 

Другие параметры
Параметр Описание Значение по умолчанию

GPU on YARN

Определяет, использовать ли GPU на YARN

false

capacity-scheduler.xml

Содержимое файла capacity-scheduler.xml, который используется CapacityScheduler

fair-scheduler.xml

Содержимое файла fair-scheduler.xml, который используется FairScheduler

Custom mapred-site.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле mapred-site.xml

 — 

Ranger plugin enabled

Определяет, активен ли Ranger-плагин

false

Custom yarn-site.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле yarn-site.xml

 — 

Custom ranger-yarn-audit.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-yarn-audit.xml

 — 

Custom ranger-yarn-security.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-yarn-security.xml

 — 

Custom ranger-yarn-policymgr-ssl.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле ranger-yarn-policymgr-ssl.xml

 — 

Zeppelin

User-managed interpreters
Параметр Описание Значение по умолчанию

Allow user-managed interpreters

Позволяет использовать интерпретаторы Zeppelin, у которых объявлено свойство user-managed=true. Если опция включена, при рестарте Zeppelin с помощью ADCM кастомные свойства интерпретатора будут сохранены

True

Custom interpreter.json

Позволяет указать кастомную JSON-конфигурацию интерпретаторов, которые должны быть доступны в веб-интерфейсе Zeppelin. Такой способ перезаписывает настройки всех интерпретаторов (пользовательских и системных)

interpreters.json

Custom interpreter.sh

Позволяет указать кастомное содержимое скрипта interpreter.sh. Данный скрипт вызывается при запуске Zeppelin и выполняет инициализацию окружения, необходимую для работы Zeppelin

interpreters.sh

zeppelin-site.xml
Параметр Описание Значение по умолчанию

zeppelin.dep.localrepo

Локальный репозиторий для загрузчика зависимостей

/srv/zeppelin/local-repo

zeppelin.server.port

Порт сервера

8180

zeppelin.server.kerberos.principal

Имя принципала, загружаемого из keytab-файла

 — 

zeppelin.server.kerberos.keytab

Путь к keytab-файлу

 — 

zeppelin.shell.auth.type

Устанавливает тип аутентификации. Допустимые значения: SIMPLE и KERBEROS

 — 

zeppelin.shell.principal

Имя принципала, загружаемого из keytab-файла

 — 

zeppelin.shell.keytab.location

Путь к keytab-файлу

 — 

zeppelin.jdbc.auth.type

Устанавливает тип аутентификации. Допустимые значения: SIMPLE и KERBEROS

 — 

zeppelin.jdbc.keytab.location

Путь к keytab-файлу

 — 

zeppelin.jdbc.principal

Имя принципала, загружаемого из keytab-файла

 — 

zeppelin.jdbc.auth.kerberos.proxy.enable

Если используется тип аутентификации KERBEROS, этот параметр включает/отключает проксирование с использованием логина пользователя для установки соединения

true

spark.yarn.keytab

Абсолютный путь к keytab-файлу для принципала. Этот keytab-файл будет скопирован на узел, на котором запущен YARN Application Master через безопасный распределенный кеш (Secure Distributed Cache), для периодического обновления логин-тикетов и токенов делегирования

 — 

spark.yarn.principal

Имя принципала, используемое для логина в KDC, запущенном на защищенном HDFS-кластере

 — 

zeppelin.livy.keytab

Путь к keytab файлу

 — 

zeppelin.livy.principal

Имя принципала, загружаемого из keytab-файла

 — 

zeppelin.server.ssl.port

Номер порта, используемого для SSL-соединения

8180

zeppelin.ssl

Определяет, использовать ли SSL-соединение

false

zeppelin.ssl.keystore.path

Путь к keystore-файлу, который использует Zeppelin

 — 

zeppelin.ssl.keystore.password

Пароль для доступа к keystore-файлу

 — 

zeppelin.ssl.truststore.path

Путь к truststore-файлу, который использует Zeppelin

 — 

zeppelin.ssl.truststore.password

Пароль для доступа к truststore-файлу

 — 

Zeppelin server heap memory settings
Parameter Description Default value

Zeppelin Server Heap Memory

Задает начальный (-Xms) и максимальный (-Xmx) размер Java-кучи для Zeppelin Server

-Xms700m -Xmx1024m

Shiro Simple username/password auth
Параметр Описание Значение по умолчанию

Users/password map

Сопоставление типа <username: password,role>. Например, <myUser1: password1,role1>

 — 

Shiro LDAP auth
Параметр Описание Значение по умолчанию

ldapRealm

Расширяет провайдер Apache Shiro, чтобы разрешить поиск LDAP и предоставить членство в группе провайдеру авторизации

org.apache.zeppelin.realm.LdapRealm

ldapRealm.contextFactory.authenticationMechanism

Указывает тип аутентификации, используемый LDAP-сервисом

simple

ldapRealm.contextFactory.url

URL LDAP-сервера. Например, ldap://ldap.example.com:389

 — 

ldapRealm.userDnTemplate

Опциональный параметр. Knox использует это значение для составления UserDN для привязки аутентификации. UserDN, где токен {0} указывает на атрибут, который соответствует логину пользователя. Например, UserDnTemplate для Apache DS с Knox: uid={0},ou=people,dc=hadoop,dc=apache,dc=org

 — 

ldapRealm.pagingSize

Позволяет установить размер страницы LDAP

100

ldapRealm.authorizationEnabled

Включает авторизацию для Shiro ldapRealm

true

ldapRealm.contextFactory.systemAuthenticationMechanism

Определяет механизм аутентификации, используемый Shiro ldapRealm context factory. Допустимые значения: simple и digest-md5

simple

ldapRealm.userLowerCase

Возвращает имена пользователей из LDAP в нижнем регистре

true

ldapRealm.memberAttributeValueTemplate

Атрибут для идентификации пользователя в группе. Например: cn={0},ou=people,dc=hadoop,dc=apache,dc=org

 — 

ldapRealm.searchBase

Начальный DN в LDAP DIT, с которого следует начать поиск. Поиск осуществляется только в дочерних деревьях указанного поддерева. Например: dc=hadoop,dc=apache,dc=org

 — 

ldapRealm.userSearchBase

База поиска для DN привязки пользователя. По умолчанию используется значение ldapRealm.searchBase, если значение не задано. Если задан параметр ldapRealm.userSearchAttributeName, также необходимо указать значение для ldapRealm.searchBase или ldapRealm.userSearchBase

 — 

ldapRealm.groupSearchBase

База поиска, используемая для поиска групп. По умолчанию используется значение ldapRealm.searchBase. Устанавливается только в том случае, если ldapRealm.authorizationEnabled=true

 — 

ldapRealm.groupObjectClass

Значение класса объекта, который идентифицирует записи группы в LDAP

groupofnames

ldapRealm.userSearchAttributeName

Атрибут, соответствующий логин-токену пользователя. Этот атрибут используется с результатами поиска для вычисления UserDN для привязки аутентификации

sAMAccountName

ldapRealm.memberAttribute

Значение атрибута, определяющего членство в группе. При значении rememberer найденные группы рассматриваются как динамические группы

member

ldapRealm.userSearchScope

Позволяет определить searchScopes. Возможные значения: subtree, one, base

subtree

ldapRealm.groupSearchScope

Позволяет определить groupSearchScope. Возможные значения: subtree, one, base

subtree

ldapRealm.contextFactory.systemUsername

Учетная запись службы LDAP, которую Zeppelin использует для поиска LDAP. При необходимости укажите полное имя пользователя учетной записи. Например: uid=guest,ou=people,dc=hadoop,dc=apache,dc=org. Для этой учетной записи требуется разрешение на чтение базового DN-поиска

 — 

ldapRealm.contextFactory.systemPassword

Устанавливает пароль для systemUsername. Этот пароль будет добавлен в хранилище ключей с учетными данными hadoop

 — 

ldapRealm.groupSearchEnableMatchingRuleInChain

Включает поддержку вложенных групп с помощью оператора LDAP_MATCHING_RULE_IN_CHAIN

true

ldapRealm.rolesByGroup

Опциональный параметр. Сопоставление физических групп с логическими ролями приложений. Например: "LDN_USERS":"user_role", "NYK_USERS":"user_role", "HKG_USERS":"user_role", "GLOBAL_ADMIN":"admin_role"

 — 

ldapRealm.allowedRolesForAuthentication

Необязательный список ролей, которым разрешено проходить аутентификацию. Если параметр не задан, всем группам разрешено проходить аутентификацию. Не влияет на разрешения для конкретных URL-адресов, которые будут продолжать работать, как указано в [urls]. Например: admin_role,user_role

 — 

ldapRealm.permissionsByRole

Опциональный параметр. Устанавливает права по ролям. Например: 'user_role = :ToDoItemsJdo::*, :ToDoItem::*; admin_role = *'

 — 

securityManager.realms

Указывает список Apache Shiro Realms

$ldapRealm

Additional configuration Shiro.ini
Параметр Описание Значение по умолчанию

Additional main section in shiro.ini

Позволяет добавить пары ключ/значение в секцию main файла shiro.ini

 — 

Additional roles section in shiro.ini

Позволяет добавить пары ключ/значение в секцию roles файла shiro.ini

 — 

Additional urls section in shiro.ini

Позволяет добавить пары ключ/значение в секцию urls файла shiro.ini

 — 

Другие параметры
Параметр Описание Значение по умолчанию

Custom zeppelin-site.xml

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле zeppelin-site.xml

 — 

Custom zeppelin-env.sh

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле zeppelin-env.sh

Custom log4j.properties

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле log4j.properties

ZooKeeper

Main
Параметр Описание Значение по умолчанию

connect

Строка подключения ZooKeeper, используемая другими службами или кластерами. Генерируется автоматически

 — 

dataDir

Место, где ZooKeeper хранит снепшоты базы данных в памяти и, если не указано иное, журнал транзакций обновлений базы данных

/var/lib/zookeeper

zoo.cfg
Параметр Описание Значение по умолчанию

clientPort

Порт для прослушивания клиентских подключений, то есть порт, к которому пытаются подключиться клиенты

2181

tickTime

Базовая единица времени, используемая в ZooKeeper для heartbeats (в миллисекундах). Минимальный тайм-аут сессии равен tickTime * 2

2000

initLimit

Тайм-аут, который ZooKeeper использует для ограничения длительности времени, в течение которого серверы ZooKeeper в quorum подключаются к лидеру

5

syncLimit

Определяет максимальное допустимое отклонение по дате между сервером и лидером

2

maxClientCnxns

Этот параметр ограничивает количество активных подключений с хоста с определенным IP-адресом к одному серверу ZooKeeper

0

autopurge.snapRetainCount

Когда функция автоматической очистки ZooKeeper включена, она сохраняет последние autopurge.snapRetainCount cнэпшотов и соответствующие журналы транзакций в dataDir и dataLogDir каталогах соответственно, а остальные удаляет. Минимальное значение 3

3

autopurge.purgeInterval

Интервал времени, в течение которого должна быть запущена задача очистки (в часах). Значением должно быть положительное целое число (1 и больше), чтобы включить автоматическую очистку

24

Add key,value

В этой секции вы можете указать значения для кастомных параметров, которые не отображаются в интерфейсе ADCM, но могут присутствовать в конфигурационном файле zoo.cfg

 — 

zookeeper-env.sh
Параметр Описание Значение по умолчанию

ZOO_LOG_DIR

Каталог для хранения логов

/var/log/zookeeper

ZOOPIDFILE

Каталог, где хранится ID процесса ZooKeeper

/var/run/zookeeper/zookeeper_server.pid

SERVER_JVMFLAGS

Используется для установки различных JVM-параметров, например, для сборщика мусора

-Xmx1024m

JAVA

Путь к Java

$JAVA_HOME/bin/java

ZOO_LOG4J_PROP

Используется для установки уровня логирования log4j и определяет, какие лог-appender следует использовать. Использование лог-appender CONSOLE направляет логи в стандартный вывод. Использование ROLLINGFILE создает файл zookeeper.log, затем этот файл ротируется, а затем срок его действия истекает

INFO, CONSOLE, ROLLINGFILE

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней