Опции ADB Spark Connector

Михаил Серов

Параметры чтения/записи, а также параметры, которые необходимы для подключения к базе данных ADB, задаются с помощью пар ключ/значение.

Для коннектора доступны следующие опции.

Опции ADB Spark Connector
Ключ	Описание	Тип	Необходимость	Значение по умолчанию
spark.adb.url	Строка подключения к базе данных	Чтение/запись	Да	—
spark.adb.dbschema	Название схемы базы данных, которой принадлежит таблица	Чтение/запись	Да	public
spark.adb.dbtable	Название таблицы из базы данных	Чтение/запись	Да	—
spark.adb.driver	Полный путь к драйверу JDBC при использовании кастомного драйвера	Чтение/запись	Нет	org.postgresql.Driver
spark.adb.user	Пользователь/роль ADB	Чтение/запись	Да	—
spark.adb.password	Пароль пользователя в ADB	Чтение/запись	Нет	—
spark.adb.server.usehostname	Позволяет использовать название executor-ноды Spark в качестве адреса сервера `gpfdist`	Чтение/запись	Нет	false
spark.adb.server.env.name	Название переменной окружения, значение которой определяет название executor-ноды Spark или IP-адрес, на котором запущен процесс `gpfdist`	Чтение/запись	Нет	—
spark.adb.server.port	Номер или диапазон порта, на котором запущен процесс сервера `gpfdist` executor-ноды Spark	Чтение/запись	Нет	—
spark.adb.server.nic	Имя сетевого интерфейса, который необходимо использовать для разрешения FQDN `gpfdist`-сервера. Если параметр не указан, коннектор использует результат команды `hostname -f` для разрешения FQDN	Чтение/запись	Нет	—
spark.adb.pool.maxsize	Максимальное количество соединений в пуле соединений	Чтение/запись	Нет	4
spark.adb.pool.timeoutms	Время в миллисекундах, после которого неактивное (inactive) соединение считается бездействующим (idle)	Чтение/запись	Нет	10000
spark.adb.pool.minidle	Минимальное количество бездействующих соединений, поддерживающееся в пуле соединений	Чтение/запись	Нет	0
spark.adb.debugmode	Включает режим логирования событий в таблице ADB `adb_spark_debug_query_log`	Чтение/запись	Нет	false
spark.adb.partition.column	Название столбца таблицы, использующееся для партиционирования в Spark. Этот столбец должен быть типа данных `integer` или `date/time`	Чтение	Нет	—
spark.adb.partition.count	Количество партиций в Spark. Может быть задано либо независимо, либо совместно с `spark.add.partition.column` или `spark.adb.partition.hash`	Чтение	Нет	—
spark.adb.partition.hash	Выражение, использующееся в качестве ключа партиционирования при чтении данных в Spark. Задаётся совместно с `spark.adb.partition.count`. Это выражение должно возвращать значение типа данных `integer`	Чтение	Нет	—
spark.adb.table.truncate	Используется при записи в режиме `Overwrite`. Выполняет с таблицей операцию truncate в случае значения `true`, иначе — выполняет операцию drop	Запись	Нет	false
spark.adb.create.table.with	Используется при записи в режимах `Overwrite` и `errorIfExists`. Хранит параметры при создании таблицы с выражением `WITH`	Запись	Нет	—
spark.adb.create.table.distributedby	Используется при записи в режимах `Overwrite` и `errorIfExists`. Работает в качестве ключа дистрибуции при создании целевой таблицы с использованием выражения `DISTRIBUTED BY`	Запись	Нет	RANDOMLY
spark.adb.read.mode	Устанавливает режим чтения данных из ADB. Допустимые значения: `GPFDIST` — Spark получает данные из ADB с помощью утилиты `gpfdist`. `PARALLEL_CURSOR` — Spark считывает данные непосредственно из сегментов ADB, используя специальную реализацию ADB-курсора `gp_parallel_retrieve_cursor`. Использование этого курсора эффективно при параллельном чтении больших наборов данных, поскольку он предполагает меньшее количество преобразований.	Чтение	Нет	GPFDIST

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней