Конфигурационные параметры
Данный раздел содержит описание параметров сервисов ADO, которые вы можете настроить с помощью ADCM. Больше информации о процессе настройки сервисов доступно в соответствующих разделах: Online-установка, Offline-установка.
|
ПРИМЕЧАНИЕ
|
ADPG
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
Data directory |
Директории, используемые для хранения данных на хостах кластера ADPG |
/pg_data1 |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
listen_addresses |
Указывает адрес(а) TCP/IP, на которых сервер должен прослушивать соединения от клиентских приложений (после изменения нужен перезапуск сервиса) |
* |
port |
TCP-порт, который прослушивается сервером |
5432 |
max_connections |
Определяет максимальное количество одновременных соединений с сервером базы данных. Для replica-хоста значение этого параметра должно быть больше или равно значению на leader-хосте. Если данное требование не будет выполнено, replica-хост отклонит все запросы |
100 |
shared_buffers |
Устанавливает объем памяти, используемой сервером баз данных для буферов общей памяти. Чем выше значение данного параметра, тем меньше будет нагрузка на жесткие диски хоста |
128 МБ |
max_worker_processes |
Устанавливает максимальное количество фоновых процессов, которые может поддерживать система |
8 |
max_parallel_workers |
Устанавливает максимальное количество операций, которые система может поддерживать параллельно |
8 |
max_parallel_workers_per_gather |
Устанавливает максимальное количество операций, которые могут быть запущены одним узлом Gather или Gather Merge |
2 |
max_parallel_maintenance_workers |
Устанавливает максимальное количество параллельных операций, которые могут быть запущены одной командой утилиты |
2 |
effective_cache_size |
Определяет представление планировщика об эффективном размере дискового кeша, доступном для одного запроса. Это значение учитывается при оценке стоимости использования индекса. Более высокое значение увеличивает вероятность использования сканирования индекса, более низкое значение повышает вероятность применения последовательного сканирования. При настройке этого параметра следует учитывать как разделяемые буферы PostgreSQL (shared buffers), так и часть дискового кеша ядра, которая будет использоваться для файлов данных PostgreSQL, хотя некоторые данные могут существовать и там, и там. Также необходимо учитывать ожидаемое количество одновременных запросов к разным таблицам, поскольку им придется делить доступное пространство. Этот параметр не влияет на размер общей памяти, выделяемой PostgreSQL, и не резервирует дисковый кеш ядра. Он используется только в целях оценки. Система также не предполагает, что данные остаются в дисковом кеше между запросами. Если значение |
4096 МБ |
maintenance_work_mem |
Указывает максимальный объем памяти, который будет использоваться операциями обслуживания базы данных, такими как |
64 МБ |
work_mem |
Устанавливает базовый максимальный объем памяти, который будет использоваться операцией запроса (например, сортировкой или хешированием таблицы) перед записью во временные файлы на диске. Обратите внимание, что для сложного запроса несколько операций сортировки или хеширования могут выполняться параллельно. Каждой операции будет разрешено использовать столько памяти, сколько указано в этом значении, прежде чем начнется запись во временные файлы. Несколько запущенных сессий также могут выполнять такие операции одновременно. Следовательно, общий объем используемой памяти может во много раз превышать значение |
4 МБ |
min_wal_size |
Если WAL занимает на диске меньше места, чем указано в |
80 МБ |
max_wal_size |
Параметр |
1024 МБ |
wal_keep_size |
Устанавливает минимальный размер для сегментов, хранящихся в директории pg_wal, чтобы резервный сервер мог выбрать их при потоковой репликации. Если резервный сервер, подключённый к передающему, отстаёт больше чем на |
128 МБ |
huge_pages |
Включает использование HugePage. Допустимы следующие значения:
|
try |
superuser_reserved_connections |
Определяет количество "слотов" подключений, которые сервер будет резервировать для суперпользователей |
3 |
logging_collector |
Включает сборщик сообщений логирования (logging collector). Сборщик сообщений логирования — это фоновый процесс, который перехватывает сообщения логирования, отправленные в stderr, и перенаправляет их в файлы логов |
true |
log_directory |
Определяет каталог, в который записываются лог-файлы. Может содержать абсолютный путь или путь относительно каталога с данными кластера ADPG |
log |
log_filename |
Задает шаблон имени лог-файла, может содержать спецификаторы |
postgresql-%a.log |
log_rotation_age |
Определяет максимальный период использования лог-файла, после которого создается новый лог-файл. Если значение задано без единиц измерения, используются минуты. Чтобы отключить создание лог-файлов по времени, установите значение |
1d |
log_rotation_size |
Определяет максимальный размер лог-файла. После того как лог-файл достигает указанного размера, создается новый лог-файл. Если значение задано без единиц измерения, используются килобайты. Чтобы отключить создание лог-файлов при превышении определённого размера, установите значение |
0 |
log_min_messages |
Определяет минимальный уровень важности сообщений, которые записываются в лог-файл. Допустимые значения: |
warning |
log_min_error_statement |
Определяет какие SQL-операции, завершившиеся ошибкой, записываются в лог-файл. Допустимые значения: |
error |
Вы можете использовать Custom postgresql.conf, чтобы установить параметры конфигурации для определенных ADPG-нод на основании конфиг-групп ADCM. Настройки, указанные в этом поле, имеют более высокий приоритет, чем параметры, установленные в postgresql.conf. Чтобы перейти в режим редактирования, кликните Custom postgresql.conf в дереве Configuration.
Поле для добавления записей в файл pg_hba.conf, в котором настраивается аутентификация пользователей.
Airflow2
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
Manage sensitive configuration data |
При активации ADO берет на себя как создание секретов (перемещение их из настроек в Vault), так и их обновление. Необходимы права для создания секретов. Влияет на сервисное действие Rotate fernet key (см. Ротация fernet-ключа) |
true |
Secrets backend |
Используемый бэкенд |
airflow.providers.hashicorp.secrets.vault.VaultBackend |
url |
Базовый URL для адресуемого экземпляра Vault. Должен включать протокол и номер порта (например, |
— |
auth_type |
Метод аутентификации в Vault. Возможные значения: |
token |
mount_point |
Точка монтирования движка Vault. Параметр |
secret |
config_path |
Путь к секретам конфигурации Airflow. Если значение |
config |
connections_path |
Путь к секретам соединений. Если значение |
connections |
variables_path |
Путь к секретам переменных. Если значение |
variables |
auth_mount_point |
Определяет точку монтирования для выбранного метода аутентификации. Значение по умолчанию зависит от выбранного метода аутентификации |
— |
kv_engine_version |
Версия запускаемого движка |
2 |
token |
Токен аутентификации, используемый для отправки запросов в Vault (для методов аутентификации |
— |
token_path |
Путь к файлу, содержащему токен аутентификации, используемый для отправки запросов в Vault (для методов аутентификации |
— |
username |
Имя пользователя для методов аутентификации |
— |
password |
Пароль для методов аутентификации |
— |
secret_id |
Secret ID для метода аутентификации |
— |
role_id |
Role ID для метода аутентификации |
— |
kubernetes_role |
Роль для метода аутентификации |
— |
kubernetes_jwt_path |
Путь к JWT-токену Kubernetes для метода аутентификации |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
admin_password |
Пароль администратора веб-сервера |
— |
db_user |
Имя пользователя БД метаданных |
airflow |
db_password |
Пароль пользователя БД метаданных |
— |
Database type |
Тип внешней базы данных. Возможные значения: |
PostgreSQL |
Hostname |
Внешний хост базы данных |
{{groups['adpg.adpg'][0]|d(omit)}} |
Port |
Внешний порт базы данных |
5432 |
Airflow database name |
Имя внешней базы данных |
airflow |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
dags_folder |
Абсолютный путь к каталогу пайплайнов Airflow |
/opt/airflow/dags |
hostname_callable |
Путь к вызываемому объекту, который разрешит имя хоста. Формат — |
airflow.utils.net.getfqdn |
might_contain_dag_callable |
Вызываемый объект для проверки того, определены ли в файле Python DAG Airflow или нет, с аргументом: |
airflow.utils.file.might_contain_dag_via_default_heuristic |
default_timezone |
Часовой пояс. Может быть |
utc |
executor |
Класс executor, который должен использовать Airflow. Возможные значения: |
CeleryExecutor |
parallelism |
Определяет максимальное количество экземпляров задач, которые могут одновременно выполняться на планировщике в Airflow, независимо от количества воркеров. Обычно это значение, умноженное на количество планировщиков в кластере, и является максимальным количеством экземпляров задач с запущенным состоянием в базе метаданных |
32 |
max_active_tasks_per_dag |
Максимальное количество экземпляров задач, разрешенных для одновременного запуска в каждой группе DAG. Чтобы рассчитать количество задач, которые одновременно выполняются для группы DAG, сложите количество запущенных задач для всех запусков группы DAG. Это настраивается на уровне группы DAG с помощью |
16 |
dags_are_paused_at_creation |
Флаг, указывающий, приостановлены ли DAG по умолчанию при создании |
true |
max_active_runs_per_dag |
Максимальное количество активных запусков одного DAG. Планировщик не будет запускать DAG, если достигнет этого предела. Настраивается на уровне DAG с помощью |
16 |
mp_start_method |
Имя метода, используемого для запуска процессов Python через модуль multiprocessing. Напрямую соответствует параметрам, доступным в документации Python. Должно быть одним из значений, возвращаемых multiprocessing |
— |
load_examples |
Загружать ли примеры DAG, которые поставляются с Airflow |
true |
plugins_folder |
Путь к папке, содержащей плагины Airflow |
/opt/airflow/plugins |
execute_tasks_new_python_interpreter |
Параметр указывает на то, должны ли задачи выполняться путем ответвления родительского процесса ( |
false |
fernet_key |
Секретный ключ для сохранения паролей подключений в базе данных |
— |
donot_pickle |
Отключать ли консервирование DAG |
true |
dagbag_import_timeout |
Как часто импортируются файлы Python |
30 |
dagbag_import_error_tracebacks |
Флаг, указывающий на то, должна ли отображаться трассировка в пользовательском интерфейсе для ошибок импорта dagbag вместо простого сообщения об исключении |
true |
dagbag_import_error_traceback_depth |
При включенном отображении трассировок описывает сколько записей из трассировки должно быть показано |
2 |
dag_file_processor_timeout |
Сколько времени пройдет до истечения времени ожидания |
50 |
task_runner |
Класс, используемый для запуска экземпляров задач в подпроцессе. Возможные значения: |
StandardTaskRunner |
default_impersonation |
Имя пользователя, от которого будут выполняться задачи (кроме задач без аргумента |
— |
security |
Определяет, какой модуль безопасности использовать. Например, |
— |
unit_test_mode |
Включает режим модульного тестирования (при этом перезаписываются многие параметры конфигурации тестовыми значениями во время выполнения) |
false |
enable_xcom_pickling |
Использовать ли xcom pickling (обратите внимание, что это небезопасно и допускает эксплойты RCE) |
false |
allowed_deserialization_classes |
Какие классы можно импортировать во время десериализации. Это многострочное значение. Отдельные элементы будут проанализированы как регулярное выражение. Встроенные классы Python (например, dict) всегда разрешены. Чистый |
airflow\..* |
killed_task_cleanup_time |
Когда задача завершается принудительно, это количество времени в секундах, которое у нее есть на очистку после отправки SIGTERM, прежде чем она получит SIGKILLED |
60 |
dag_run_conf_overrides_params |
Переопределять ли параметры с помощью dag_run.conf. Если вы передаете некоторые пары ключ/значение через |
true |
dag_discovery_safe_mode |
Если включено, Airflow будет сканировать только файлы, содержащие как |
true |
dag_ignore_file_syntax |
Синтаксис шаблона, используемый в файлах .airflowignore в каталогах DAG. Допустимые значения: |
regexp |
default_task_retries |
Количество повторных попыток запуска задач по умолчанию. Может быть переопределено на уровне DAG или задачи |
0 |
default_task_retry_delay |
Количество секунд, которое каждая задача будет простаивать между повторными попытками. Может быть переопределено на уровне DAG или задачи |
300 |
max_task_retry_delay |
Максимальная задержка (в секундах), которую каждая задача будет простаивать между повторными попытками. Это глобальная настройка, и ее нельзя переопределить на уровне задачи или DAG |
86400 |
default_task_weight_rule |
Метод взвешивания, используемый для эффективного общего веса приоритета задачи |
downstream |
default_task_execution_timeout |
Значение |
— |
min_serialized_dag_update_interval |
Обновление сериализованного DAG не может быть быстрее минимального интервала, чтобы снизить скорость записи в базу данных |
30 |
compress_serialized_dags |
Если |
false |
min_serialized_dag_fetch_interval |
Извлечение сериализованного DAG не может быть быстрее минимального интервала для снижения скорости чтения базы данных. Эта конфигурация контролирует, когда ваши DAG обновляются на веб-сервере |
10 |
max_num_rendered_ti_fields_per_task |
Максимальное количество полей экземпляра отрендеренной задачи (полей шаблона) на задачу для хранения в базе данных. Все |
30 |
check_slas |
Проверять ли на соответствие определенным SLA перед каждым запуском DAG |
true |
xcom_backend |
Путь к пользовательскому классу XCom, который будет использоваться для хранения и разрешения результатов операторов |
airflow.models.xcom.BaseXCom |
lazy_load_plugins |
По умолчанию плагины Airflow загружаются только при необходимости. Установите значение |
true |
lazy_discover_providers |
По умолчанию поставщики Airflow обнаруживаются "лениво" (обнаружение и импорт происходят только при необходимости). Установите значение |
true |
hide_sensitive_var_conn_fields |
Скрыть ли конфиденциальные переменные или дополнительные ключи подключения JSON из пользовательского интерфейса и журналов задач. Если установлено значение |
true |
sensitive_var_conn_names |
Список дополнительных конфиденциальных ключевых слов, разделенных запятыми, для поиска в именах переменных или дополнительном JSON-файле соединения |
— |
default_pool_task_slot_count |
Слоты задач подсчитываются для |
128 |
max_map_length |
Максимальная длина списка/словаря, которую XCom может отправить для запуска сопоставления задач. Если отправленный список/словарь имеет длину, превышающую это значение, задача, отправляющая XCom, будет автоматически отклонена, чтобы не допустить засорения планировщика сопоставленными задачами |
1024 |
daemon_umask |
Umask по умолчанию для процесса, запущенного в режиме демона (планировщик, воркер и т.д.). Управляет маской режима создания файлов, которая определяет начальное значение битов разрешения файла для вновь созданных файлов. Это значение рассматривается как восьмеричное целое число |
0o077 |
dataset_manager_class |
Класс для использования в качестве менеджера набора данных |
— |
dataset_manager_kwargs |
Kwargs должен предоставить менеджеру датасета |
— |
database_access_isolation |
Экспериментальная функция. Флаг, указывающий, должны ли компоненты использовать Airflow Internal API для подключения к БД |
false |
internal_api_url |
Экспериментальная функция. Внутренний API-адрес Airflow. Используется только если основная настройка |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
sql_alchemy_conn |
Строка подключения SQLAlchemy к базе метаданных. Значение параметра автоматически заполняется на основе входных значений в разделе Database settings. Оно не отображается в пользовательском интерфейсе по соображениям безопасности. SQLAlchemy поддерживает множество различных database engines |
— |
sql_alchemy_engine_args |
Дополнительные аргументы ключевых слов, специфичные для движка, передаются в |
— |
sql_engine_encoding |
Кодировка для баз данных |
utf-8 |
sql_engine_collation_for_ids |
Сортировка для столбцов |
— |
sql_alchemy_pool_enabled |
Флаг, указывающий на то, должен ли SQLAlchemy объединять соединения с базой данных |
true |
sql_alchemy_pool_size |
Размер пула SQLAlchemy — это максимальное количество подключений к базе данных в пуле. |
5 |
sql_alchemy_max_overflow |
Максимальный размер переполнения пула. Когда количество извлеченных соединений достигает размера, установленного в |
10 |
sql_alchemy_pool_recycle |
Pool SQLAlchemy recycle — это количество секунд, в течение которых соединение может простаивать в пуле, прежде чем оно будет признано недействительным. Эта конфигурация не применяется к Sqlite. Если число подключений к БД когда-либо будет превышено, более низкое значение конфигурации позволит системе быстрее восстанавливаться |
1800 |
sql_alchemy_pool_pre_ping |
Необходима ли проверка соединения в начале каждой проверки пула соединений |
true |
sql_alchemy_schema |
Схема, используемая для базы метаданных. SQLAlchemy поддерживает базы данных с концепцией множественных схем |
— |
sql_alchemy_connect_args |
Путь импорта аргументов подключения в SQLAlchemy. По умолчанию указан пустой словарь. Эта настройка полезна, когда вы хотите настроить аргументы движка БД, которые SQLAlchemy не будет анализировать в строке подключения |
— |
load_default_connections |
Загружать ли соединения по умолчанию, которые поставляются с Airflow |
true |
max_db_retries |
Количество повторных попыток запуска кода в случае ошибок работы БД. Не все транзакции будут запущены повторно, так как это может привести к нежелательному состоянию. В настоящее время настройка используется только в |
3 |
check_migrations |
Запускать ли alembic migrations во время запуска Airflow. Иногда эта операция может быть затратной, и пользователи могут указывать правильную версию другими способами (например, через диаграмму Helm). Принимает |
true |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
base_log_folder |
Абсолютный путь к директории логов Airflow. Некоторые настройки предполагают, что здесь используется значение по умолчанию. После указания нового пути может потребоваться обновить настройки |
/var/log/airflow |
remote_logging |
Airflow может хранить логи удаленно в AWS S3, Google Cloud Storage или Elastic Search. Установите значение |
false |
remote_log_conn_id |
Пользователи должны предоставить идентификатор подключения Airflow, который обеспечивает доступ к месту хранения логов. В зависимости от настроек службы логирования, подключение может использоваться только для чтения логов, а не для их записи |
— |
delete_local_logs |
Нужно ли удалять локальные логи для удаленного ведения журналов GCS, S3, WASB и OSS после их загрузки в удаленное местоположение |
false |
google_key_path |
Путь к файлу учетных данных Google JSON. Если не указан, будет использоваться авторизация на основе Application Default Credentials |
— |
remote_base_log_folder |
URL-адрес контейнера хранилища для удаленного ведения журнала. Чтобы помочь Airflow выбрать правильный обработчик: бакеты S3 должны начинаться с |
— |
remote_task_handler_kwargs |
Параметр |
— |
encrypt_s3_logs |
Использовать ли шифрование на стороне сервера для журналов, хранящихся в S3 |
false |
logging_level |
Уровень ведения журнала. Поддерживаемые значения: |
INFO |
celery_logging_level |
Уровень ведения журнала для Celery |
WARNING |
fab_logging_level |
Уровень логирования для Flask-appbuilder UI. Поддерживаемые значения: |
WARNING |
logging_config_class |
Имя класса, который определяет конфигурацию ведения журнала. Этот класс должен быть в Python classpath |
— |
colored_console_log |
Флаг для включения/выключения цветных журналов |
true |
colored_log_format |
Формат журнала для цветных журналов, если они включены. Значение должно быть заключено в теги |
{% raw %}[%%(blue)s%%(asctime)s%%(reset)s] {%%(blue)s%%(filename)s:%%(reset)s%%(lineno)d} %%(log_color)s%%(levelname)s%%(reset)s - %%(log_color)s%%(message)s%%(reset)s{% endraw %} |
colored_formatter_class |
Указывает класс, используемый Airflow для реализации цветного логирования |
airflow.utils.log.colored_log.CustomTTYColoredFormatter |
log_format |
Формат строки логов. Значение должно быть заключено в теги |
{% raw %}[%%(asctime)s] {%%(filename)s:%%(lineno)d} %%(levelname)s - %%(message)s{% endraw %} |
simple_log_format |
Определяет формат сообщений логов для простой конфигурации логов |
%%(asctime)s %%(levelname)s - %%(message)s |
dag_processor_log_target |
Где хранить логи парсера DAG. Если установлено значение |
file |
dag_processor_log_format |
Формат строки журнала процессора DAG. Значение должно быть заключено в теги |
{% raw %}[%%(asctime)s] [SOURCE:DAG_PROCESSOR]{{%%(filename)s:%%(lineno)d}} %%(levelname)s - %%(message)s{% endraw %} |
log_formatter_class |
Определяет класс форматирования, используемый Airflow для структурирования сообщений журнала. Класс форматирования по умолчанию учитывает часовой пояс, что означает, что временные метки, прикрепленные к записям журнала, будут скорректированы для отражения локального часового пояса экземпляра Airflow |
airflow.utils.log.timezone_aware.TimezoneAware |
secret_mask_adapter |
Путь импорта к функции для добавления адаптаций каждого секрета, добавленного с помощью |
— |
task_log_prefix_template |
Шаблон префикса, указываемый с помощью обработчика потока |
— |
log_filename_template |
Формат сгенерированного файла Airflow и имена путей для каждого запуска задачи. Значение должно быть заключено в теги |
{% raw %}dag_id={{ ti.dag_id }}/run_id={{ ti.run_id }}/task_id={{ ti.task_id }}/{%% if ti.map_index >= 0 %%}map_index={{ ti.map_index }}/{%% endif %%}attempt={{ try_number }}.log{% endraw %} |
log_processor_filename_template |
Формат сгенерированного файла Airflow и пути имен для журналов. Значение должно быть заключено в теги |
{% raw %}{{ filename }}.log{% endraw %} |
dag_processor_manager_log_location |
Полный путь к файлу журнала dag_processor_manager |
/var/log/airflow/dag_processor_manager/dag_processor_manager.log |
task_log_reader |
Имя обработчика для чтения журналов экземпляров задач. По умолчанию используется обработчик |
task |
extra_logger_names |
Список имен сторонних регистраторов, разделенных запятыми, которые будут настроены для вывода сообщений на консоли |
— |
worker_log_server_port |
Когда запущен воркер Airflow, служба запускает небольшой подпроцесс веб-сервера для обслуживания локальных логов воркеров на главном веб-сервере Airflow, который затем создает страницы и отправляет их пользователям. Этот параметр определяет порт, на котором обслуживаются логи. Он должен быть неиспользуемым, открытым и видимым с главного веб-сервера для подключения к воркерам |
8793 |
trigger_log_server_port |
Порт для обслуживания журналов для триггера. Смотрите описание |
8794 |
interleave_timestamp_parser |
Импортировать ли путь к вызываемому объекту, который принимает строку журнала и возвращает временную метку ( |
— |
file_task_handler_new_folder_permissions |
Разрешения в виде восьмеричной строки, как их понимает chmod. Разрешения важны, когда принимается роль другого пользователя для записи в логи. Безопасный способ настройки — добавить нужных пользователей в одну и ту же группу и сделать ее группой по умолчанию для этих пользователей. Журналы, доступные для записи группой, являются журналами по умолчанию в Airflow. Для случаев, когда журналы доступны для записи другим пользователям, установите значение |
0o775 |
file_task_handler_new_file_permissions |
Разрешения в виде восьмеричной строки, как понимает chmod. Разрешения важны, когда принимается роль другого пользователя для записи в логи. Безопасный способ настройки — добавить обоих пользователей в одну и ту же группу и сделать ее группой по умолчанию для этих пользователей. В случаях, когда журналы доступны для записи другим пользователям, установите значение |
0o664 |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
metrics_allow_list |
Для ограничения отправки всех доступных метрик настройте список префиксов (разделенных запятыми), чтобы отправлять только те метрики, которые начинаются с элементов списка (например: |
— |
metrics_block_list |
Для ограничения отправки всех доступных метрик настройте список префиксов (разделенных запятыми), чтобы отфильтровать метрики, которые начинаются с элементов списка (например: |
— |
statsd_on |
Включает отправку показателей в StatsD |
true |
statsd_host |
Указывает адрес хоста, на котором запущен демон (или сервер) StatsD |
localhost |
statsd_port |
Указывает порт, который слушает демон (или сервер) StatsD |
8125 |
statsd_prefix |
Определяет пространство имен для всех метрик, отправляемых из Airflow в StatsD |
airflow |
stat_name_handler |
Функция, которая проверяет имя statsD stat, применяет изменения к имени stat, если необходимо, и возвращает преобразованное имя stat. Функция должна иметь следующую сигнатуру: |
— |
statsd_datadog_enabled |
Включает интеграцию datadog для отправки показателей Airflow |
false |
statsd_datadog_tags |
Список тегов datadog, прикрепленных ко всем метрикам (например: |
— |
statsd_datadog_metrics_tags |
Установите значение |
true |
statsd_custom_client_path |
Если вы хотите использовать свой собственный клиент StatsD, установите соответствующий путь к модулю в этом значении. Путь к модулю должен существовать в |
— |
statsd_disabled_tags |
Если вы хотите избежать отправки всех доступных тегов метрик в StatsD, настройте список префиксов (разделенных запятыми), чтобы отфильтровать теги метрик, которые начинаются с элементов списка (например: |
job_id,run_id |
statsd_influxdb_enabled |
Включает отправку метрик Airflow с использованием соглашения о тегах StatsD-Influxdb |
false |
otel_on |
Позволяет отправлять метрики в OpenTelemetry |
false |
otel_host |
Указывает имя хоста или IP-адрес OpenTelemetry Collector, на который Airflow отправляет трассировки |
localhost |
otel_port |
Указывает порт, который прослушивает OpenTelemetry Collector |
8889 |
otel_prefix |
Префикс для показателей Airflow |
airflow |
otel_interval_milliseconds |
Определяет интервал в миллисекундах, с которым Airflow отправляет пакеты метрик и трассировок в настроенный OpenTelemetry Collector |
60000 |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
api_client |
Определяет формат доступа к API. |
airflow.api.client.local_client |
endpoint_url |
Если вы задали |
http://localhost:8080 |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
fail_fast |
Если установлено значение |
false |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
enable_experimental_api |
Включает устаревший с версии 2.0 экспериментальный REST API. Эти API не имеют контроля доступа. Аутентифицированный пользователь имеет полный доступ. Вместо этого рекомендуется использовать стабильный REST API. Для получения дополнительной информации см. RELEASE_NOTES.rst |
false |
auth_backends |
Список бэкендов аутентификации, разделенных запятыми, для аутентификация пользователей API. Значение |
airflow.api.auth.backend.session,airflow.api.auth.backend.basic_auth |
maximum_page_limit |
Используется для установки максимального лимита страниц для запросов API. Если переданный лимит больше максимального лимита страниц, он будет проигнорирован, а максимальное значение лимита страниц будет установлено в качестве лимита |
100 |
fallback_page_limit |
Используется для установки лимита страниц по умолчанию, когда параметр лимита равен нулю или не указан в запросах API. В противном случае, если положительное целое число передается в запросах API как лимит, наименьшее число, заданное пользователем, или максимальный лимит страниц принимается как лимит |
100 |
google_oauth2_audience |
Предполагаемая аудитория для учетных данных токена JWT, используемых для авторизации. Это значение должно совпадать на стороне клиента и сервера. Если пусто, аудитория не будет тестироваться |
— |
google_key_path |
Путь к файлу ключа учетной записи Google Cloud Service (JSON). Если не указан, будет использоваться авторизация на основе Application Default Credentials |
— |
access_control_allow_headers |
Используется в ответ на предварительный запрос, чтобы указать, какие заголовки HTTP могут применяться при выполнении фактического запроса. Этот заголовок является ответом сервера на заголовок браузера |
— |
access_control_allow_methods |
Указывает метод или методы, разрешенные при доступе к ресурсу |
— |
access_control_allow_origins |
Указывает, может ли ответ быть общим с запрашивающим кодом из указанных источников. Разделяйте URL-адреса пробелом |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
backend |
Какой бэкенд Lineage использовать |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
sasl_enabled |
Включает аутентификацию SASL для подключения к Atlas |
false |
host |
Хост Atlas |
— |
port |
Порт подключения Atlas |
21000 |
username |
Имя пользователя для подключения к Atlas |
— |
password |
Пароль для подключения к Atlas |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
default_owner |
Владелец по умолчанию, назначаемый каждому новому оператору, если он не указан явно или не передан через |
airflow |
default_cpus |
Указывает количество единиц ЦП по умолчанию, выделяемых каждому оператору, когда в конфигурации оператора не указан конкретный запрос ЦП |
1 |
default_ram |
Указывает количество оперативной памяти по умолчанию, выделяемое каждому оператору, если в конфигурации оператора не указан конкретный запрос оперативной памяти |
512 |
default_disk |
Указывает номер дискового хранилища по умолчанию, выделяемый каждому оператору, если в конфигурации оператора не указан конкретный запрос на диск |
512 |
default_gpus |
Указывает количество графических процессоров по умолчанию, выделяемых каждому оператору, когда в конфигурации оператора не указан конкретный запрос на графические процессоры |
0 |
default_queue |
Очередь по умолчанию, в которую назначаются задачи и которую прослушивает воркер |
default |
allow_illegal_arguments |
Разрешается ли передавать дополнительные/неиспользуемые аргументы (args, kwargs) оператору BaseOperator. Если установлено значение |
false |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
default_hive_mapred_queue |
Очередь MapReduce по умолчанию для задач HiveOperator |
— |
mapred_job_name_template |
Шаблон для |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
base_url |
Базовый URL веб-сайта. Следует заполнять, поскольку Airflow неизвестно, какой домен или cname используется. URL используется в автоматических письмах, которые Airflow отправляет для указания ссылок на нужный веб-сервер |
http://localhost:8080 |
default_ui_timezone |
Часовой пояс по умолчанию для отображения всех дат в пользовательском интерфейсе, может быть UTC, системным или любой строкой часового пояса IANA (например, |
UTC |
web_server_host |
IP-адрес, указанный при запуске веб-сервера |
0.0.0.0 |
web_server_port |
Порт, на котором будет запущен веб-сервер |
8080 |
web_server_ssl_cert |
Пути к сертификату SSL и ключу для веб-сервера. Если оба указаны, SSL будет включен. Это не меняет порт веб-сервера |
— |
web_server_ssl_key |
Пути к сертификату SSL и ключу для веб-сервера. Если оба указаны, SSL будет включен. Это не меняет порт веб-сервера |
— |
session_backend |
Количество секунд, в течение которых веб-сервер ждет, прежде чем отключить мастера Gunicorn, который не отвечает |
database |
web_server_master_timeout |
Количество секунд, в течение которых веб-сервер ждет, прежде чем отключить мастера Gunicorn, который не отвечает |
120 |
web_server_worker_timeout |
Количество секунд, в течение которых веб-сервер Gunicorn ожидает до истечения времени ожидания на рабочем процессе |
120 |
worker_refresh_batch_size |
Количество одновременно обновляемых рабочих процессов. Если установлено значение |
1 |
worker_refresh_interval |
Количество секунд ожидания перед обновлением партии рабочих процессов |
6000 |
reload_on_plugin_change |
Если установлено значение |
false |
secret_key |
Секретный ключ, используемый для запуска приложения Flask. Он должен быть максимально случайным. Однако при запуске более одного экземпляра веб-сервера убедитесь, что все они используют один и тот же |
— |
workers |
Количество воркеров для запуска веб-сервера Gunicorn |
4 |
worker_class |
Класс воркера, который должен использовать Gunicorn. Возможные значения: |
sync |
access_logfile |
Лог-файлы для веб-сервера Gunicorn. Значение |
— |
error_logfile |
Лог-файлы для веб-сервера Gunicorn. Значение |
— |
access_logformat |
Формат журнала доступа для веб-сервера Gunicorn. Формат по умолчанию |
— |
expose_config |
Определяет параметры открытия файла конфигурации на веб-сервере. Установите |
false |
expose_hostname |
Отображение имени хоста на веб-сервере |
false |
expose_stacktrace |
Отображение трассировки стека на веб-сервере |
false |
dag_default_view |
Представление DAG по умолчанию. Допустимые значения: |
grid |
dag_orientation |
Ориентация DAG по умолчанию. Допустимые значения: |
LR |
log_fetch_timeout_sec |
Время (в секундах), в течение которого веб-сервер будет ожидать начального подтверждения связи при извлечении логов с другой рабочей машины |
5 |
log_fetch_delay_sec |
Интервал времени (в секундах) ожидания перед следующей выборкой журнала |
2 |
log_auto_tailing_offset |
Расстояние от низа страницы для включения автоматического отслеживания |
30 |
log_animation_speed |
Скорость анимации для отображения журнала автозапуска |
1000 |
hide_paused_dags_by_default |
По умолчанию веб-сервер показывает приостановленные DAG. Включите опцию, чтобы скрыть приостановленные DAG по умолчанию |
false |
page_size |
Единообразный размер страницы для всех представлений листинга в пользовательском интерфейсе |
100 |
navbar_color |
Цвет панели навигации |
#fff |
default_dag_run_display_number |
Количество |
25 |
enable_proxy_fix |
Включить ли сервис werkzeug |
false |
proxy_fix_x_for |
Количество значений, которым следует доверять для |
1 |
proxy_fix_x_proto |
Количество значений, которым можно доверять для |
1 |
proxy_fix_x_host |
Количество значений, которым следует доверять для |
1 |
proxy_fix_x_port |
Количество значений, которым можно доверять для |
1 |
proxy_fix_x_prefix |
Количество значений, которым можно доверять для |
1 |
cookie_secure |
Установить ли флаг безопасности для сеансового cookie-файла |
false |
cookie_samesite |
Политика одного и того же сайта для сеансовых cookie-файлов |
Lax |
default_wrap |
Настройка по умолчанию для переключения переноса в коде DAG и представлениях журнала TI |
false |
x_frame_enabled |
Разрешить ли отображение пользовательского интерфейса в кадре |
true |
analytics_tool |
Отправка анонимной активности пользователя в аналитический сервис. Возможные значения: |
— |
analytics_id |
Уникальный идентификатор аккаунта в сервисе аналитики |
— |
show_recent_stats_for_completed_runs |
При включенной опции статистика Recent Tasks будет отображаться для старых DagRuns |
true |
update_fab_perms |
Обновлять ли разрешения FAB и синхронизировать ли роли менеджера безопасности при запуске веб-сервера |
true |
session_lifetime_minutes |
Время жизни куки пользовательского интерфейса в минутах. Пользователь будет выведен из пользовательского интерфейса после истечения |
43200 |
instance_name |
Задает пользовательский заголовок страницы для страницы обзора DAG и заголовок сайта для всех страниц |
— |
instance_name_has_markup |
Содержит ли пользовательский заголовок страницы обзора DAG какой-либо язык разметки |
false |
auto_refresh_interval |
Как часто (в секундах) данные DAG будут автоматически обновляться в графическом или сеточном представлении, если включено автоматическое обновление |
3 |
warn_deployment_exposure |
Следует ли отображать предупреждения о публично просматриваемом окружении |
true |
audit_view_excluded_events |
Строка событий просмотра, разделенная запятыми, для исключения из представления аудита DAG. Все остальные события будут добавлены за вычетом переданных здесь. Журналы аудита в БД не будут затронуты этим параметром |
gantt,landing_times,tries,duration,calendar,graph,grid,tree,tree_data |
audit_view_included_events |
Строка событий просмотра, разделенная запятыми, для включения в представление аудита DAG. Если передано, только эти события будут заполнять представление аудита DAG. Журналы аудита в базе данных не будут затронуты этим параметром |
— |
enable_swagger_ui |
Запускать ли SwaggerUI на веб-сервере |
true |
run_internal_api |
Запускать ли внутренний API на веб-сервере |
false |
auth_rate_limited |
Включать ли ограничения скорости на эндпойнтах аутентификации |
true |
auth_rate_limit |
Ограничение скорости для эндпоинтов аутентификации |
5 per 40 second |
caching_hash_method |
Алгоритм кеширования, используемый веб-сервером. Значение параметра должно быть допустимым именем функции |
md5 |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
email_backend |
Бэкенд электронной почты |
airflow.utils.email.send_email_smtp |
email_conn_id |
Соединение Airflow, содержащее данные для подключения по SMTP |
smtp_default |
default_email_on_retry |
Отправлять ли оповещения по электронной почте при повторной попытке выполнения задачи |
true |
default_email_on_failure |
Отправлять ли оповещения по электронной почте в случае сбоя задачи |
true |
subject_template |
Файл, который будет использоваться как шаблон для темы письма (который будет визуализирован с помощью Jinja2). Если не задано, Airflow использует базовый шаблон |
— |
html_content_template |
Файл, который будет использоваться как шаблон для содержимого электронной почты (который будет визуализироваться с помощью Jinja2). Если не задано, Airflow использует базовый шаблон |
— |
from_email |
Адрес электронной почты, который будет использоваться как адрес отправителя. Это может быть либо необработанный адрес электронной почты, либо полный адрес в формате |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
smtp_host |
Указывает адрес хост-сервера, используемый Airflow при отправке уведомлений по электронной почте через SMTP |
localhost |
smtp_starttls |
Определяет, использовать ли команду |
true |
smtp_ssl |
Определяет, использовать ли SSL-соединение при обращении к SMTP-серверу |
false |
smtp_user |
Имя пользователя для аутентификации при подключении к SMTP-серверу |
— |
smtp_password |
Пароль для аутентификации при подключении к SMTP-серверу |
— |
smtp_port |
Определяет номер порта, по которому Airflow подключается к SMTP-серверу для отправки уведомлений по электронной почте |
25 |
smtp_mail_from |
Указывает адрес электронной почты по умолчанию, используемый при отправке уведомлений по электронной почте Airflow |
airflow@example.com |
smtp_timeout |
Определяет максимальное время (в секундах), в течение которого система Apache Airflow будет ожидать установления соединения с SMTP-сервером |
30 |
smtp_retry_limit |
Определяет максимальное количество попыток Airflow подключиться к SMTP-серверу |
5 |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
sentry_on |
Включить ли отправку отчетов об ошибках в Sentry |
false |
sentry_dsn |
URL-адрес Sentry DSN |
— |
before_send |
Путь к функции |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
kubernetes_queue |
Определяет тип выполнения задач: |
kubernetes |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
kubernetes_queue |
Определяет тип выполнения задач: |
kubernetes |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
celery_app_name |
Имя приложения, которое будет использоваться Celery |
airflow.executors.celery_executor |
worker_concurrency |
Параллелизм, который будет использоваться при запуске воркеров с помощью команды |
16 |
worker_autoscale |
Максимальный и минимальный параллелизм, который будет использоваться при запуске воркеров с помощью команды |
— |
worker_prefetch_multiplier |
Используется для увеличения количества задач, которые предварительно выбирает рабочий процесс, что может повысить производительность. Количество процессов, умноженное на |
1 |
worker_enable_remote_control |
Укажите, включено ли удаленное управление рабочими процессами. В некоторых случаях, когда брокер не поддерживает удаленное управление, Celery создает множество очередей |
true |
broker_url |
URL брокера Celery. Celery поддерживает RabbitMQ, Redis и экспериментально базу данных SQLAlchemy. Для получения дополнительной информации обратитесь к документации Celery |
redis://{{groups['redis.server'][0]|d(omit)}}:6379/0 |
result_backend |
Бэкенд Celery для хранения метаданных задания. Когда задание завершается, ему необходимо обновить метаданные задания. Поэтому он отправит сообщение на шину сообщений или вставит его в базу данных (в зависимости от бэкенда). Этот статус используется планировщиком для обновления состояния задачи. Настоятельно рекомендуется использовать базу данных. Если не указано иное, будет использоваться |
— |
result_backend_sqlalchemy_engine_options |
Необязательный словарь конфигурации для передачи в серверную часть результатов Celery SQLAlchemy |
— |
flower_host |
Celery Flower — это пользовательский интерфейс для Celery. У Airflow есть ярлык для его запуска |
0.0.0.0 |
flower_url_prefix |
Корневой URL для Flower |
— |
flower_port |
Порт, на котором работает Celery Flower |
5555 |
flower_basic_auth |
Включает базовую аутентификацию для Flower. Этот параметр принимает строку в формате |
— |
sync_parallelism |
Сколько процессов использует CeleryExecutor для синхронизации состояния задачи. |
0 |
celery_config_options |
Путь импорта для параметров конфигурации Celery |
airflow.config_templates.default_celery.DEFAULT_CELERY_CONFIG |
ssl_active |
Определяет, активен ли SSL для Airflow |
false |
ssl_key |
Путь к SSL-ключу |
— |
ssl_cert |
Путь к SSL-сертификату |
— |
ssl_cacert |
Путь к сертификату CA |
— |
pool |
Celery-реализация пула. Возможные значения: |
prefork |
operation_timeout |
Количество секунд ожидания перед тайм-аутом операций |
1 |
task_track_started |
При включенной опции задача Celery сообщит о своем статусе как |
true |
task_publish_max_retries |
Максимальное количество повторных попыток публикации сообщений о задачах брокеру при сбое из-за ошибки |
3 |
worker_precheck |
Проводить ли проверку инициализации рабочего процесса для контроля соединения с базой метаданных |
false |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
visibility_timeout |
Время ожидания видимости определяет количество секунд ожидания подтверждения задачи исполнителем перед повторной доставкой сообщения другому исполнителю. Обязательно увеличьте время ожидания видимости, чтобы оно соответствовало времени самого длительного ETA, которое вы планируете использовать. |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
cluster_address |
IP-адрес и порт планировщика кластера Dask |
127.0.0.1:8786 |
tls_ca |
Настройки TLS/SSL для доступа к защищенному планировщику Dask |
— |
tls_cert |
Сертификат TLS |
— |
tls_key |
Ключ сертификата TLS |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
job_heartbeat_sec |
Частота (в секундах), с которой экземпляры задач прослушивают внешний сигнал завершения (при очистке задач из CLI или пользовательского интерфейса) |
5 |
scheduler_heartbeat_sec |
Частота (в секундах), с которой должен запускаться планировщик для попыток запуска новых задач |
5 |
num_runs |
Количество попыток запланировать каждый файл DAG. |
-1 |
scheduler_idle_sleep_time |
Время, которое планировщик будет бездействовать между циклами. Если в цикле не было ничего запланировано, следующий цикл начинается немедленно |
1 |
min_file_process_interval |
Количество секунд, через которые анализируется файл DAG. Файл DAG анализируется каждые |
30 |
parsing_cleanup_interval |
Как часто (в секундах) проверять наличие устаревших DAG (DAG, больше не присутствующих в ожидаемых файлах), которые следует деактивировать, а также датасеты, на которые больше нет ссылок и которые следует пометить как потерянные |
60 |
stale_dag_threshold |
Сколько времени (в секундах) ждать после повторного анализа файла DAG перед деактивацией устаревших DAG (DAG, больше не присутствующих в ожидаемых файлах). Абсолютный максимум, который это может занять, составляет |
50 |
dag_dir_list_interval |
Как часто (в секундах) сканировать каталог DAG на наличие новых файлов. По умолчанию 5 минут |
300 |
print_stats_interval |
Как часто следует печатать статистику в журналах. Установка |
30 |
pool_metrics_interval |
Как часто (в секундах) следует отправлять статистику использования пула в StatsD (если включен |
5 |
scheduler_health_check_threshold |
Если последний такт планировщика произошел более чем |
30 |
enable_health_check |
Когда запускается планировщик, Airflow запускает небольшой подпроцесс веб-сервера для проверки работоспособности, если этот параметр установлен в |
false |
scheduler_health_check_server_port |
При запуске планировщика Airflow запускает небольшой подпроцесс веб-сервера для проверки работоспособности этого порта |
8974 |
orphaned_tasks_check_interval |
Как часто (в секундах) планировщик должен проверять наличие потерянных задач и SchedulerJobs |
300 |
child_process_log_directory |
Определяет каталог, в котором будут храниться логи дочерних процессов планировщика |
/var/log/airflow/scheduler |
scheduler_zombie_task_threshold |
Локальные задания периодически отправляют heartbeat в базу данных. Если задание не отправляет heartbeat в течение времени, указанного в этом параметре, планировщик отметит связанный экземпляр задачи как неудачный и перепланирует задачу |
300 |
zombie_detection_interval |
Как часто (в секундах) планировщик должен проверять наличие зомби-задач |
10 |
catchup_by_default |
Включает или отключает catchup планировщика. Планировщик не будет выполнять catchup, если установлено значение |
true |
ignore_first_depends_on_past_by_default |
Установка этого значения в |
true |
max_tis_per_query |
Определяет размер пакета запросов в основном цикле планирования. Если он слишком велик, производительность SQL-запросов может пострадать из-за сложности предиката запроса и/или чрезмерной блокировки. Кроме того, вы можете достичь максимально допустимой длины запроса базы данных. Установите значение |
512 |
use_row_level_locking |
Должен ли планировщик выдавать |
true |
max_dagruns_to_create_per_loop |
Максимальное количество DAG для создания DagRuns для каждого цикла планировщика |
10 |
max_dagruns_per_loop_to_schedule |
Сколько DagRuns должен проверять (и блокировать) планировщик при планировании и постановке задач в очередь |
20 |
schedule_after_task_execution |
Должен ли процесс Task supervisor выполнить |
true |
parsing_pre_import_modules |
Планировщик считывает файлы DAG для извлечения модулей Airflow, которые будут использоваться, и импортирует их заранее, чтобы избежать необходимости делать это повторно. Флаг можно установить в значение |
true |
parsing_processes |
Планировщик может запускать несколько процессов параллельно для парсинга DAG. Параметр определяет, сколько процессов будет запущено |
2 |
file_parsing_sort_mode |
Определяет формат парсинга и сортировки DAG планировщиком. Может быть указано одно из трех значений:
|
modified_time |
standalone_dag_processor |
Определяет, работает ли процессор DAG как автономный процесс или является подпроцессом задания планировщика |
true |
max_callbacks_per_loop |
Максимальное количество обратных вызовов, которые извлекаются в течение одного цикла. Применимо только если |
20 |
dag_stale_not_seen_duration |
Время в секундах, по истечении которого деактивируются DAG, которые не были обновлены Dag Processor. Применимо только если |
600 |
use_job_schedule |
Отключите использование планировщиком интервалов cron, установив значение |
true |
allow_trigger_in_future |
Определяет, разрешить ли внешне инициируемые DagRuns для дат выполнения в будущем. Действует только в том случае, если параметру |
false |
trigger_timeout_check_interval |
Как часто проверять наличие просроченных триггерных запросов, которые еще не были запущены |
15 |
task_queued_timeout |
Время, в течение которого задача может находиться в очереди, прежде чем будет выполнена повторно или будет установлена ошибка |
600 |
task_queued_timeout_check_interval |
Как часто проверять задачи, которые находятся в очереди дольше, чем |
120 |
allowed_run_id_pattern |
Шаблон |
^[A-Za-z0-9_.~:+-]+$ |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
default_capacity |
Сколько триггеров будет запущено одним Triggerer одновременно по умолчанию |
1000 |
job_heartbeat_sec |
Как часто проверять работу Triggerer, чтобы убедиться, что она не была завершена |
5 |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
ccache |
Расположение файла ccache после выполнения |
/opt/airflow/krb5_ccache |
principal |
Принципал Kerberos |
— |
reinit_frequency |
Частота повторной инициализации Kerberos |
3600 |
kinit_path |
Путь к исполняемому файлу |
kinit |
keytab |
Указывает путь к файлу ключей Kerberos для пользователя Airflow |
— |
forwardable |
Разрешить ли отключение возможности пересылки тикетов |
true |
include_ip |
Позволяет удалять исходный IP-адрес из токена, полезно при использовании токена за NAT-хостом Docker |
true |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
host |
Хост Elasticsearch |
— |
log_id_template |
Формат |
{% raw %}{dag_id}-{task_id}-{run_id}-{map_index}-{try_number}{% endraw %} |
end_of_log_mark |
Используется для обозначения конца потока журнала для задачи |
end_of_log |
frontend |
Квалифицированный URL для интерфейса Elasticsearch (например, Kibana) с аргументом шаблона для |
— |
write_stdout |
Записывать ли журналы задач в stdout воркера, а не в файлы по умолчанию |
false |
json_format |
Записывать ли строки журнала в формате JSON вместо форматирования журнала по умолчанию |
false |
json_fields |
Добавлять ли поля журнала к выходным данным JSON |
asctime, filename, lineno, levelname, message |
host_field |
Поле, в котором хранится имя хоста (обычно |
host |
offset_field |
Поле, в котором хранится смещение (обычно |
offset |
index_patterns |
Список шаблонов индекса, разделенных запятыми, для использования при поиске журналов (по умолчанию: |
_all |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
use_ssl |
Использовать ли SSL для соединений |
false |
verify_certs |
Проверять ли SSL-сертификаты. Установите значение |
true |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
api_client_retry_configuration |
Kwargs для переопределения стандартного urllib3 Retry, используемого в клиенте API Kubernetes |
— |
pod_template_file |
Путь к файлу pod YAML, который формирует основу для рабочих процессов KubernetesExecutor |
— |
worker_container_repository |
Репозиторий образа Kubernetes для запуска воркера |
— |
worker_container_tag |
Тег образа Kubernetes для запуска воркера |
— |
namespace |
Пространство имен Kubernetes, где должны быть созданы рабочие процессы Airflow. По умолчанию |
default |
delete_worker_pods |
Если |
true |
delete_worker_pods_on_failure |
Если |
false |
worker_pods_creation_batch_size |
Количество вызовов создания рабочих подов Kubernetes на цикл планировщика. Текущее значение по умолчанию |
1 |
multi_namespace_mode |
Позволяет пользователям запускать pod в нескольких пространствах имен. Потребуется создание кластерной роли для планировщика или использование конфигурации |
false |
multi_namespace_mode_namespace_list |
Если |
— |
in_cluster |
Использовать ли учетную запись службы, которую Kubernetes предоставляет pods для подключения к кластеру Kubernetes. Она предназначена для клиентов, которые ожидают запуска внутри pod, работающего на Kubernetes. Она вызовет исключение, если будет вызвана из процесса, не работающего в среде Kubernetes |
true |
cluster_context |
При запуске с |
— |
config_file |
Путь к файлу конфигурации Kubernetes, который будет использоваться, если для параметра |
— |
kube_client_request_args |
Ключевые параметры для передачи при вызове методов |
— |
delete_option_kwargs |
Необязательные ключевые аргументы для передачи в метод |
— |
enable_tcp_keepalive |
Включает механизм TCP keepalive. Это предотвращает бесконечное зависание запросов Kubernetes API, когда неактивное соединение истекает по тайм-ауту на таких сервисах, как облачные балансировщики нагрузки или брандмауэры |
true |
tcp_keep_idle |
Когда опция |
120 |
tcp_keep_intvl |
При включенной опции |
30 |
tcp_keep_cnt |
При включенной опции |
6 |
verify_ssl |
Установите значение |
true |
worker_pods_queued_check_interval |
Как часто (в секундах) проверять экземпляры задач, оставшиеся в статусе |
60 |
ssl_ca_cert |
Путь к сертификату CA, который будет использоваться клиентом Kubernetes для проверки SSL-сертификата сервера |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
default_timeout |
Срок ожидания сенсора. По умолчанию — 7 дней (7 * 24 * 60 * 60) |
604800 |
Это поле позволяет добавлять пользовательские параметры в файлы конфигурации airflow_cfg.
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
AIRFLOW_HOME |
Домашний каталог для сервиса Airflow |
/opt/airflow |
AIRFLOW_CONFIG |
Расположение файла конфигурации Airflow |
/opt/airflow/airflow.cfg |
AIRFLOW_PYTHON_PATH |
Расположение Python, используемое Airflow |
/opt/airflow/bin/python3.10 |
DAG_PROCESSOR_SUBDIR |
Расположение хранящихся в Airflow DAG |
/opt/airflow/dags |
Это поле позволяет добавлять пользовательские параметры в файлы конфигурации airflow_cfg.
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
AUTH_LDAP_SERVER |
URI сервера LDAP |
— |
AUTH_LDAP_BIND_USER |
Путь пользователя прокси LDAP для привязки к верхнему уровню. Пример: |
— |
AUTH_LDAP_BIND_PASSWORD |
Пароль bind-пользователя |
— |
AUTH_LDAP_SEARCH |
Путь LDAP, по которому пользователи будут иметь доступ к Airflow. Пример: |
— |
AUTH_LDAP_UID_FIELD |
Поле UID (уникальный идентификатор) в LDAP |
— |
AUTH_ROLES_MAPPING |
Параметр для сопоставления внутренних ролей группам LDAP Active Directory |
— |
AUTH_LDAP_GROUP_FIELD |
Атрибут пользователя LDAP, имеющий свои ролевые DN |
— |
AUTH_ROLES_SYNC_AT_LOGIN |
Флаг, указывающий, следует ли заменять все роли пользователя при каждом входе в систему или только при регистрации |
true |
PERMANENT_SESSION_LIFETIME |
Устанавливает тайм-аут бездействия, по истечении которого пользователи должны повторно пройти аутентификацию (для синхронизации ролей) |
1800 |
AUTH_LDAP_USE_TLS |
Используется ли TLS |
false |
AUTH_LDAP_ALLOW_SELF_SIGNED |
Разрешено ли использование самоподписанных сертификатов |
true |
AUTH_LDAP_TLS_CACERTFILE |
Расположение сертификата |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
Extra requirements |
Список Python-библиотек, которые необходимо установить на хосты Airflow. Используйте стандартный формат requirements.txt: |
— |
index-url |
Базовый URL Python Package Index (по умолчанию: https://pypi.org/simple). URL должен указывать на репозиторий, совместимый с PEP 503 (simple API), либо на локальный репозиторий с такой же структурой |
— |
index-url-user |
Имя пользователя для аутентификации в репозитории, указанном в index-url |
— |
index-url-password |
Пароль для аутентификации в репозитории, указанном в index-url |
— |
proxy |
Адрес прокси-сервера, через который будут выполняться запросы на установку пакетов |
— |
proxy-user |
Имя пользователя для аутентификации на прокси-сервере |
— |
proxy-password |
Пароль для аутентификации на прокси-сервере |
— |
trusted-host |
IP-адрес хоста или пара вида |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
Enable custom ulimits |
Включение этой опции позволяет указать ограничения на использование ресурсов для процесса (ulimits). Если значения не указаны, будут использованы системные настройки по умолчанию. Настройки ulimit описаны в таблице Настройки Ulimit |
|
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
auto_refresh |
Включает автоматическое обновление для представления Workers. По умолчанию представление Workers автоматически обновляется через регулярные интервалы, чтобы предоставить актуальную информацию о воркерах. Используйте значение |
true |
ca_cert |
Устанавливает путь к файлу ca_certs, содержащему набор объединенных сертификатов центра сертификации |
— |
cert_file |
Устанавливает путь к файлу SSL-сертификата |
— |
keyfile |
Устанавливает путь к файлу ключа SSL |
— |
db |
Устанавливает файл базы данных, который будет использоваться, если включен персистентный режим (persistent mode) |
flower |
tasks_columns |
Указывает список столбцов, разделенных запятыми, который будет отображаться на странице Tasks |
name,uuid,state,args,kwargs,result,received,started,runtime,worker |
persistent |
Когда включен персистентный режим, Flower сохраняет свое текущее состояние и перезагружает его при перезапуске. Это гарантирует, что Flower сохранит свое состояние и конфигурацию при перезапусках. Flower сохраняет свое состояние в файле базы данных, указанном в параметре db |
false |
debug |
Включает режим отладки |
false |
enable_events |
Flower периодически отправляет команды Celery |
false |
inspect_timeout |
Устанавливает тайм-аут для команд проверки рабочего процесса в миллисекундах |
1000 |
max_workers |
Устанавливает максимальное количество воркеров, которые нужно хранить в памяти |
5000 |
max_tasks |
Устанавливает максимальное количество задач, которые нужно хранить в памяти |
100000 |
natural_time |
Позволяет отображать время обновления страницы в более удобном для восприятия формате |
false |
state_save_interval |
Устанавливает интервал сохранения состояния Flower. Состояние Flower включает информацию о воркерах и задачах. Состояние сохраняется периодически, чтобы обеспечить сохранение данных и восстановление после перезапуска |
100000 |
xheaders |
Включает поддержку заголовков X-Real-Ip и X-Scheme |
false |
purge_offline_workers |
Время (в секундах), после которого офлайн-воркеры автоматически удаляются из представления Workers. По умолчанию офлайн-воркеры остаются на панели управления на неопределенный срок |
— |
task_runtime_metric_buckets |
Устанавливает сегменты задержки выполнения задачи. Вы можете указать значение сегментов в виде списка значений, разделенных запятыми |
— |
auth_provider |
Устанавливает провайдера аутентификации для Flower. Значение параметра по умолчанию — |
— |
auth |
Включает аутентификацию. |
— |
oauth2_key |
Устанавливает ключ OAuth 2.0 (идентификатор клиента), выданный провайдером OAuth 2.0 |
— |
oauth2_secret |
Устанавливает секрет OAuth 2.0, выданный провайдером OAuth 2.0 |
— |
oauth2_redirect_uri |
Устанавливает URI, на который сервер OAuth 2.0 перенаправляет пользователя после успешной аутентификации и авторизации |
— |
cookie_secret |
Устанавливает секретный ключ для подписи файлов cookie |
— |
Enable custom ulimits |
Включение этой опции позволяет указать ограничения на использование ресурсов для процесса (ulimits). Если значения не указаны, будут использованы системные настройки по умолчанию. Настройки ulimit описаны в таблице Настройки Ulimit |
|
| Параметр | Описание | Соответствующая опция команды ulimit в CentOS |
|---|---|---|
DefaultLimitCPU |
Ограничение в секундах на количество процессорного времени, которое может потреблять процесс |
cpu time ( -t) |
DefaultLimitFSIZE |
Максимальный размер файлов, которые может создать процесс, в блоках по 512 байт |
file size ( -f) |
DefaultLimitDATA |
Максимальный размер сегмента данных процесса, в килобайтах |
data seg size ( -d) |
DefaultLimitSTACK |
Максимальный размер стека, выделенный процессу, в килобайтах |
stack size ( -s) |
DefaultLimitCORE |
Максимальный размер файла дампа (core dump) в байтах, который процесс может сохранить, в блоках по 512 байт |
core file size ( -c) |
DefaultLimitRSS |
Максимальное количество памяти RAM (resident set size), которое может быть выделено процессу, в килобайтах |
max memory size ( -m) |
DefaultLimitNOFILE |
Максимальное количество дескрипторов открытых файлов, разрешенное для процесса |
open files ( -n) |
DefaultLimitAS |
Максимальный размер виртуальной памяти (адресного пространства) процесса, в килобайтах |
virtual memory ( -v) |
DefaultLimitNPROC |
Максимальное количество процессов |
max user processes ( -u) |
DefaultLimitMEMLOCK |
Максимальный размер памяти, который может быть заблокирован для процесса, в килобайтах. Блокировка памяти гарантирует, что память всегда находится в оперативной памяти (RAM) и файл подкачки не используется |
max locked memory ( -l) |
DefaultLimitLOCKS |
Максимальное количество файлов, заблокированных процессом |
file locks ( -x) |
DefaultLimitSIGPENDING |
Максимальное количество сигналов, ожидающих доставки в вызывающий поток |
pending signals ( -i) |
DefaultLimitMSGQUEUE |
Максимальное количество байтов в очередях сообщений POSIX. Очереди сообщений POSIX позволяют процессам обмениваться данными в форме сообщений |
POSIX message queues ( -q) |
DefaultLimitNICE |
Максимальный уровень приоритета NICE, который может быть назначен процессу |
scheduling priority ( -e) |
DefaultLimitRTPRIO |
Максимальный приоритет планирования в реальном времени |
real-time priority ( -r) |
DefaultLimitRTTIME |
Максимальный размер буфера конвейера (pipe), в блоках по 512 байт |
pipe size ( -p) |
Monitoring
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
scrape_interval |
Частота сбора метрик |
1m |
scrape_timeout |
Время ожидания данных |
10s |
Password for grafana connection |
Пароль пользователя Grafana для подключения к Prometheus |
— |
Prometheus users to login/logout to Prometheus |
Учетные данные пользователей для входа в веб-интерфейс Prometheus |
— |
Service parameters |
Параметры Prometheus |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
config.file |
Путь к основному конфигурационному файлу Prometheus, в котором определяются параметры задач сбора метрик, правила оповещений и другие настройки |
/etc/admprom/prometheus/prometheus.yml |
storage.tsdb.path |
Директория, в которой хранятся файлы базы данных временных рядов (Time Series DataBase, TSDB) Prometheus |
/var/lib/admprom/prometheus |
web.console.libraries |
Путь к библиотекам консоли, которые использует веб-интерфейс Prometheus |
/usr/share/admprom/prometheus/console_libraries |
web.console.templates |
Директория с шаблонами консолей веб-интерфейса Prometheus |
/usr/share/admprom/prometheus/consoles |
web.config.file |
Путь к файлу веб-конфигурации, который используется для аутентификации, настройки TLS и других параметров веб-сервера |
/etc/admprom/prometheus/prometheus-auth.yml |
storage.tsdb.retention.time |
Время хранения данных во временных рядах до их удаления |
15d |
web.listen-address |
IP-адрес и порт, на которых веб-интерфейс и API Prometheus принимают входящие подключения |
0.0.0.0:11200 |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
Grafana administrator’s password |
Пароль администратора Grafana |
— |
Grafana listen port |
Порт доступа к web-интерфейсу Grafana |
11210 |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
Listen port |
Порт доступа к системным метрикам хоста в формате Prometheus |
11203 |
Metrics endpoint |
Конечная точка (endpoint), в которую Node Exporter экспортирует системные метрики в формате Prometheus |
/metrics |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
[Prometheus] → Enable SSL |
Определяет, используется ли SSL для Prometheus |
false |
[Prometheus] → Certificate file |
Путь к файлу SSL-сертификата сервера Prometheus в формате PEM |
/etc/admprom/prometheus/server.crt |
[Prometheus] → Private key file |
Путь к файлу приватного ключа SSL-сертификата сервера Prometheus |
/etc/admprom/prometheus/server.key |
[Prometheus] → Certificate authority file |
Путь к файлу центра сертификации |
/etc/admprom/prometheus/ca.crt |
[Grafana] → Enable SSL |
Определяет, используется ли SSL для Grafana |
false |
[Grafana] → Certificate file |
Путь к файлу SSL-сертификата сервера Grafana в формате PEM |
/etc/admprom/grafana/server.crt |
[Grafana] → Private key file |
Путь к файлу приватного ключа SSL-сертификата сервера Grafana |
/etc/admprom/grafana/server.key |
[Grafana] → Certificate authority file |
Путь к файлу центра сертификации |
/etc/admprom/grafana/ca.crt |
[Node-exporter] → Enable SSL |
Определяет, используется ли SSL для Node Exporter |
false |
[Node-exporter] → Certificate file |
Путь к файлу SSL-сертификата сервера Node Exporter в формате PEM |
/etc/ssl/server.crt |
[Node-exporter] → Private key file |
Путь к файлу закрытого ключа SSL-сертификата сервера Node Exporter |
/etc/ssl/server.key |
Set SSL rights for certs/key |
Позволяет менять владельца и разрешения для SSL-сертификата и файлов ключей |
false |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
job_name |
Имя задачи, в рамках которой будут собираться метрики |
statsd_exporter |
scrape_interval |
Частота сбора метрик |
5s |
scrape_timeout |
Определяет, как долго ждать ответ после отправки запроса на сбор метрик. Не может быть больше значения параметра |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
job_name |
Имя задачи, в рамках которой будут собираться метрики |
flower_exporter |
scrape_interval |
Частота сбора метрик |
5s |
scrape_timeout |
Определяет, как долго ждать ответ после отправки запроса на сбор метрик. Не может быть больше значения параметра |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
Mapping config |
Мэппинг метрик Airflow StatsD |
— |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
web.listen-address |
Порт, на котором отображается веб-интерфейс и метрики Prometheus |
9102 |
statsd.mapping-config |
Имя файла конфигурации для мэппинга метрик |
/etc/statsd-exporter/conf/statsd-mapping.yml |
statsd.listen-udp |
UDP-порт, на который будут приходить строки метрик statsd. Заполняется из параметра statsd_port в airflow.cfg [metrics] |
8125 |
web.enable-lifecycle |
Позволяет осуществлять выключение и перезагрузку через HTTP-запрос |
true |
statsd.cache-size |
Максимальный размер кеша мэппинга метрик. Если достигнут предел, сервис будет полагаться на политику least recently used |
— |
statsd.listen-tcp |
Порт TCP, на который будут поступать строки метрик statsd. Оставьте значение пустым, чтобы отключить эту функцию |
— |
web.telemetry-path |
Путь, по которому будут отображаться метрики |
— |
statsd.listen-unixgram |
Путь сокета Unixgram для получения строк метрики statsd в датаграмме. Оставьте значение пустым, чтобы отключить эту функцию |
— |
statsd.unixsocket-mode |
Разрешения сокета Unix |
— |
statsd.read-buffer |
Размер в байтах буфера чтения передачи операционной системы, связанного с соединением UDP или Unixgram. Убедитесь, что параметр ядра |
— |
statsd.cache-type |
Тип кеша мэппинга метрик. Допустимые параметры: |
— |
statsd.event-queue-size |
Размер внутренней очереди обработки событий |
— |
statsd.event-flush-threshold |
Количество событий, которые необходимо хранить в очереди перед очисткой |
— |
statsd.event-flush-interval |
Максимальное время между очистками очереди событий |
— |
debug.dump-fsm |
Путь, по которому будет сохраняться внутренний FSM, сгенерированный для шаблона поиска (в виде файла Dot) |
— |
statsd.parse-dogstatsd-tags |
Анализировать ли теги DogStatsd |
true |
statsd.parse-influxdb-tags |
Анализировать ли теги InfluxDB |
true |
statsd.parse-librato-tags |
Анализировать ли теги Librato |
true |
statsd.parse-signalfx-tags |
Анализировать ли теги SignalFX |
true |
statsd.relay.address |
Целевой адрес ретранслятора UDP в формате |
— |
statsd.relay.packet-length |
Максимальная длина пакета выходного сигнала реле для предотвращения фрагментации |
— |
statsd.udp-packet-queue-size |
Размер внутренней очереди для обработки UDP-пакетов |
— |
log.level |
Уровень логирования. Возможные значения: |
— |
log.format |
Формат вывода логов. Возможные значения: |
— |
Custom statsd-options.env |
Это поле позволяет добавлять пользовательские параметры в файл конфигурации statsd-options.env |
— |
Redis
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
redis.conf |
Файл конфигурации Redis |
— |
redis_port |
Порт брокера Redis |
6379 |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
sentinel.conf |
Файл конфигурации Sentinel |
— |
sentinel_port |
Порт Sentinel |
26379 |
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
Enable custom ulimits |
Отображает редактируемый конфиг ulimits для сервера Redis |
— |