Документация Arenadata
Наша цель — создание эффективных и гибких решений, масштабируемых до десятков петабайт
Продукты
Ознакомьтесь с нашими современными решениями в области Big Data
Обзор
Arenadata DB (ADB) – это массивно-параллельная реляционная СУБД с открытым исходным кодом для хранилищ данных с гибкой горизонтальной масштабируемостью и колоночным хранением на основе PostgreSQL. Благодаря своим архитектурным особенностям и мощному оптимизатору запросов, ADB отличается особой надежностью и высокой скоростью обработки SQL-запросов над большими объемами данных – поэтому Arenadata DB широко применяется для аналитики Big Data в промышленных масштабах.
Для более удобной работы и построения практических задач любой сложности Arenadata DB поставляется вместе с рядом дополнительных инструментов, обеспечивающих интеграцию с внешними хранилищами данных, управление бинарными бэкапами и мониторинг запросов в режиме реального времени. Описанный функционал позволяет строить решения с полным покрытием всех процессов, связанных с сопровождением бизнес-систем.
Сценарии использования
Расширенный анализ данных

Расширенная аналитика данных, предоставляемая ADB, используется для решения широкого спектра задач в различных областях, включая финансы, промышленность, автомобилестроение, правительственный сектор, энергетику, образование, розничную торговлю и многое другое.

Одной из особенностей ADB является возможность анализировать множество типов данных, использовать существующие знания SQL и обучать больше моделей за меньшее время за счет архитектуры MPP.

Кроме того, ADB предоставляет аналитику вида in-database, которая позволяет выполнять анализ данных непосредственно в БД вместо экспорта и обработки данных во внешней аналитической системе.

Машинное обучение

Arenadata DB является отличным решением для машинного обучения – изучения компьютерных алгоритмов, которые автоматически совершенствуются через опыт. Apache MADlib – это основанная на SQL и предназначенная для машинного обучения библиотека с открытым исходным кодом, которая работает в режиме in-database в ADB, как и в PostgreSQL.

Сочетание ADB и Apache MADlib помогает улучшить параллелизм, масштабируемость и прогностическую точность развертывания моделей машинного обучения. Преобразование данных и возможности техники feature engineering также доступны в MADlib для машинного обучения, включая дескриптивную и индуктивную статистику, pivoting, реконструкцию сессий по времени и кодирование/преобразование категориальных переменных.

Искусственный интеллект

Благодаря способности ADB обрабатывать большие объемы данных на высоких скоростях, эта СУБД становится мощным инструментом для интеллектуальных приложений, взаимодействующих на основе неограниченного количества уникальных сценариев.

Например, телекоммуникационные компании могут использовать возможности Arenadata DB AI в интеллектуальных датчиках систем IoT (Internet of Things), предназначенных для сбора и анализа данных с целью повышения операционной эффективности, безопасности и качества обслуживания.

Enterprise
Community
Функциональность ядра Greenplum
gpbackup/gprestore
PXF
Автоматизация развертывания и обновления
Мониторинг и оповещения
Offline-установка
Управление бэкапами на основе WAL
ppc64le
x86
Техническая поддержка 24/7
Корпоративные обучающие курсы
Индивидуальные решения
Доступные интеграции
ADQM
Arenadata QuickMarts
Коннектор ADB ClickHouse обеспечивает возможность высокоскоростного параллельного обмена данными между Arenadata DB и Arenadata QuickMarts (ADQM).
ADS
ADS
Запись данных из Arenadata DB в Arenadata Streaming (ADS) обеспечивается плагином PXF. Для чтения данных существует специальное расширение Arenadata DB, реализующее транзакционную загрузку данных из ADS.
Kafka
Kafka
Запись данных из Arenadata DB в Kafka обеспечивается плагином PXF. Для чтения данных существует специальное расширение Arenadata DB, реализующее транзакционную загрузку данных из Kafka.
Oracle
Oracle
Через коннектор PXF JDBC возможен двухсторонний обмен данными с БД Oracle – с поддержкой специфических для Oracle функций (например, параллельного выполнения запросов).
S3
S3
На базе сервиса PXF реализован коннектор к объектному хранилищу S3.
HBase
HBase
Коннектор PXF HBase предназначен для чтения данных, хранимых в таблицах HBase. Плагин поддерживает функционал filter push-down.
HDFS
HDFS
PXF совместим с дистрибутивами Apache Hadoop, включая Arenadata Hadoop. PXF устанавливается с коннекторами к HDFS, Hive и HBase. Коннекторы могут быть использованы для доступа к данным различного формата из перечисленных сервисов Hadoop.
JDBC
JDBC
Коннектор PXF JDBC обеспечивает чтение и запись данных в различные базы данных SQL.
Hive
Hive
PXF совместим с дистрибутивами Apache Hadoop, включая Arenadata Hadoop. PXF устанавливается с коннекторами к HDFS, Hive и HBase. Коннекторы могут быть использованы для доступа к данным различного формата из перечисленных сервисов Hadoop.
Операционные системы
AltLinux 8 SP
Поддерживается
CentOS 7
Поддерживается
RedHat 7
Поддерживается
Функциональность ядра Greenplum
gpbackup/gprestore
PXF
Автоматизация развертывания и обновления
Мониторинг и оповещения
Offline-установка
Управление бэкапами на основе WAL
ppc64le
x86
Техническая поддержка 24/7
Корпоративные обучающие курсы
Индивидуальные решения
Доступные интеграции
ADQM
Arenadata QuickMarts
Доступно только для Enterprise
ADS
ADS
Доступно только для Enterprise
Kafka
Kafka
Доступно только для Enterprise
Oracle
Oracle
Через коннектор PXF JDBC возможен двухсторонний обмен данными с БД Oracle – с поддержкой специфических для Oracle функций (например, параллельного выполнения запросов).
S3
S3
На базе сервиса PXF реализован коннектор к объектному хранилищу S3.
HBase
HBase
Коннектор PXF HBase предназначен для чтения данных, хранимых в таблицах HBase. Плагин поддерживает функционал filter push-down.
HDFS
HDFS
PXF совместим с дистрибутивами Apache Hadoop, включая Arenadata Hadoop. PXF устанавливается с коннекторами к HDFS, Hive и HBase. Коннекторы могут быть использованы для доступа к данным различного формата из перечисленных сервисов Hadoop.
JDBC
JDBC
Коннектор PXF JDBC обеспечивает чтение и запись данных в различные базы данных SQL.
Hive
Hive
PXF совместим с дистрибутивами Apache Hadoop, включая Arenadata Hadoop. PXF устанавливается с коннекторами к HDFS, Hive и HBase. Коннекторы могут быть использованы для доступа к данным различного формата из перечисленных сервисов Hadoop.
Операционные системы
AltLinux 8 SP
Доступно только для Enterprise
CentOS 7
Поддерживается
RedHat 7
Поддерживается
Ключевые особенности
Производительность
Возможно горизонтальное масштабирование ADB до десятков петабайт без снижения производительности запросов
Безопасность
Встроенный аудит действий пользователя в кластере: аутентификация, конфигурирование LDAP, настройка ресурсных групп
Надежность
Зеркалирование (mirroring), безопасное управление бэкапами, плагин ddboost для утилит gpbackup/gprestore
Удобство
Гибкое развертывание и конфигурирование, обновления с проверенными бинарными файлами и необходимыми миграциями для всех компонентов
Контрибуция
Наша команда – один из основных контрибьюторов Greenplum в мире. Кроме этого, мы создаем и поддерживаем в актуальном состоянии собственную документацию
ADB Control
Система мониторинга запросов Arenadata DB
Предназначена для глубокого исследования процессов выполнения команд или утилит, работающих с кластером.
Мониторинг производится в режиме реального времени со сбором информации о потребляемых на уровне запросов ресурсах и прогрессе выполнения планов запросов. Дополнительно можно производить отслеживание выполнения запросов в разрезе транзакций.
Система мониторинга имеет удобный пользовательский интерфейс с возможностью подключения к нему нескольких кластеров Arenadata DB, сбора статистики, ее графического представления и выгрузки метрик.
Arenadata DB Backup Manager
Сервис по управлению бэкапами для ADB
Основной особенностью является асинхронное снятие бинарных бэкапов с работающего кластера.
Имеется пользовательский интерфейс, встроенный в ADB Control, из которого можно работать с несколькими кластерами ADB и для каждого из них:
  • настраивать расписание бэкапирования;
  • управлять конфигурацией;
  • выполнять создание бэкапа (полного, инкрементного, дифференциального) on-demand;
  • восстанавливать кластер из имеющихся бэкапов;
  • проводить аудит действий, связанных с бэкапированием.
ADB Spark Connector
Mногофункциональный коннектор с поддержкой параллельных операций чтения/записи между Apache Spark и Arenadata DB. На его основе можно легко строить ETL-решения и осуществлять анализ данных in-memory.
Обладает большой гибкостью в настройке и множеством возможностей:
  • высокая скорость передачи данных;
  • автоматическое формирование схемы данных;
  • гибкое партиционирование;
  • поддержка push-down операторов;
  • поддержка batch-операций.
ADB Kafka Connector
Cпециализированный коннектор для интеграции Apache Kafka с Arenadata DB.
Характеристики:
  • возможность чтения и записи данных в формате AVRO из топиков Kafka;
  • работа с CSV и текстовым форматом данных для операции чтения;
  • поддержка транзакций в Arenadata DB.
ADB PXF Connector
Фреймворк для параллельного и высокопроизводительного доступа к гетерогенным источникам данных из Arenadata DB при помощи встроенных коннекторов.
Обращение к данным происходит за счет механизма внешних таблиц, что позволяет строить сложные федеративные запросы.
Для подключения внешних хранилищ предоставляются коннекторы JDBC, S3, Hive, HDFS и HBase. При этом аутентификация может включать в себя использование Kerberos и/или SSL.
ADB ClickHouse Connector
Fdw-коннектор для передачи данных в Arenadata QuickMarts или ClickHouse.
Позволяет:
  • транзакционно загружать данные за счет автоматического создания staging-таблиц;
  • использовать несколько семейств engine таблиц в ClickHouse;
  • гибко распределять и распараллеливать нагрузку записи.
Roadmap
2023
ADB 6.23.3
  • Выпуск Tkhemali connector 2.0
  • Обработка предиката IN для целей фильтрации push-down в PXF JDBC
  • Возможность использования SSL между Client и Master
  • Добавлены дашборды PXF Monitoring Grafana Dashboards
ADB Control 4.2.1
  • Arenadata DB Command Center (ADBCC) переименован в Arenadata DB Control (ADB Control)
  • Оптимизация хранения данных с возможностью экспорта метрик во внешнюю БД для долговременного хранения
  • Улучшенная безопасность с поддержкой CSRF (Cross-Site Request Forgery)
  • Улучшенный механизм аутентификации с принудительной сменой пароля при первом входе пользователя и блокировкой после нескольких неудачных попыток входа
  • Добавлена возможность просмотра суммарных системных метрик мониторинга, а также их расчет в режиме реального времени для активных команд
ADBM 1.2.1
  • Возможность использования ADBM на PowerPC
  • Возможность восстановления данных из бэкапов без сегментов-зеркал (mirror)
  • Улучшен механизм фильтрации для действий Restore
ADB 6.22.1
  • Синхронизация с Greenplum Database 6.22.1
  • Обновление pgbouncer 1.18
  • Обновление gpbackup 1.27
  • Обновление plcontainer 2.2
  • Добавлен буферный параметр в утилиту gpcheckperf
ADBM 1.1.0
  • Восстановление из бэкапа для остановленного кластера
  • Возможность удаления последнего бэкапа из stanza
  • Восстановление определенных баз данных из бэкапа
ADB Control 4.1.0
  • Возможность совместного использования ADB Control и gpperfmon в рамках одного кластера ADB
  • Возможность LDAP-поиска по нескольким Organizational Units (OU) в ходе аутентификации
  • Гибкая сортировка на страницах мониторинга команд и транзакций
ADB 6.22.0
  • Синхронизация с Greenplum Database 6.22.0
  • Добавлена поддержка AltLinux 8.4 SP
  • Добавлен Data Domain Boost плагин версии 1.0.0
  • PXF: разрешена установка параллельных инструкций Oracle
  • Произведен рефакторинг Planchecker для использования внешней БД ADB Control под интенсивной нагрузкой (при большом числе соединений)
  • gpbackup: сортировка метаданных исправлена таким образом, что теперь утилита gprestore может восстанавливать функции после таблиц, используемых в этих функциях в качестве выходных значений
  • gptkh: получение актуальных столбцов system.tables в ClickHouse (в соответствии с версией ClickHouse)
ADB Control 3.7.0
  • Добавлены новые метрики производительности для команд и транзакций: Cpu usage total, Read bytes total, Write bytes total
  • Добавлена возможность повторно изменять ресурсную группу для транзакции
  • Исправлен расчет числа кортежей, затронутых запросом
  • Объекты базы данных Planchecker включены в миграцию
ADB 6.21.1
  • Синхронизация с Greenplum Database 6.21.1
  • Разрешены файлы core dump для процессов ADB
  • Исправлена проблема с потерей слотов ресурсной группы при перемещении запроса
  • Добавлен образ Planchecker в сервис ADCC (docker-compose) в бандле ADB
ADB Control 3.6.0
  • Добавлена возможность отменять транзакцию
  • Добавлена возможность переназначать запросы другой ресурсной группе
  • Добавлена фильтрация команд по планировщику запроса
ADB 6.21.0
  • Синхронизация с Greenplum Database 6.21.0
  • Оптимизированы DML-запросы к партиционированным таблицам во избежание дальнейшего планирования в случае, если партиция обрезана
  • Фоновый процесс gpmon исключен из списка разделяемой памяти (shared memory) пользователя
  • Реализован запасной вариант (fallback) с PostgreSQL для пустого целевого списка в производителе CTE
  • Бандл ADB: добавлена возможность определять кластерную сеть
ADB Control 3.5.1
  • Для коммуникации с агентом теперь используется неблокирующий сокет
  • Добавлен мониторинг транзакций
  • Добавлен мониторинг следующих групп SQL-выражений: DDL, DML, DCL и TCL
  • Добавлен расчет Spill и Spill Skew
ADB 6.20.1
  • Синхронизация с Greenplum Database 6.20.1
  • PXF: PXF 6.3.0 добавлен в бандл ADB (с возможностью обновления с PXF 5.x)
  • PXF: активирована команда PXF cluster sync
  • PXF: добавлена возможность переопределять соответствие типов данных во внешних таблицах для PXF
  • Добавлен ADB ClickHouse connector 1.0.1
ADB Control 3.4.0
  • Для завершенных запросов теперь обрабатывается актуальная статистика от EXPLAIN ANALYZE
  • Интегрированы средние по кластеру метрики запросов
  • Реализовано сжатие данных для объемных запросов
ADB 6.19.3
  • Синхронизация с Greenplum Database 6.19.3
  • Добавлены инструменты ADB Loader для RHEL 8
  • Добавлена возможность развертывать скрипты обслуживания (maintenance scripts) для нескольких БД
  • Сделан доступным параметр GUC (Global User Configuration) backlog_lock_waits
ADB Control 3.3.1
  • Поддержка аудита обращения к объектам базы данных
  • Добавлена страница истории Background jobs
  • Поддержка виртуальной памяти процесса в системных метриках команды
  • Сбор статистики по нагрузке на сервисы мониторинга
ADB 6.18.2
  • Синхронизация с Greenplum Database 6.18.2
  • Реализация режима archive_mode на постоянной основе
  • Выпуск Kafka ADB connector версии 1.0.4
ADB Control 3.2.5
  • Поддержка HTTPS
  • Реализован механизм backpressure относительно занятого объема памяти в heap на агенте
ADB 6.18.0
  • Синхронизация с Greenplum Database 6.18.0
  • gpbackup: добавлено явное указание порядка таблиц с использованием pg_class.relpages
  • PXF: добавлена поддержка партиционированных запросов в Sybase
ADB Control 3.2.4
  • Поддержка работы с несколькими кластерами ADB
  • Сбор системных метрик в разрезе запроса: CPU, RAM, IO
  • Актуализация информации для долгое время выполняющихся запросов
  • Динамическое добавление столбцов на страницы History и Monitoring
ADB 6.17.5
  • Синхронизация с Greenplum Database 6.17.5
  • Бандл ADB: добавлен статус Ready to upgrade для действия обновления бандла
  • Решена проблема низкой производительности CPU на Power с новыми опциями сборки CGLAGS
  • Добавлена сборка для платформы Power8 LE (ppc64le arch)
ADB Control 3.1.3
  • Добавлена сборка агента для платформы Power8 LE (ppc64le arch)
ADB 6.17.1
  • Синхронизация с Greenplum Database 6.17.1
  • Бандл ADB: соединение с внешней БД для ADB Control
  • Исправлено: оптимизатор PostgreSQL строил некорректный план для таблиц с типом распределения replicated и индексами
  • adcc-extension: получение и отправка текста об ошибках
ADB Control 3.1.0
  • Новый пользовательский интерфейс
  • Возможность отменять и прерывать запросы
  • Основанная на времени политика Retention Policy
  • Развернутая информация по ошибкам запросов
  • Аутентификация LDAP
ADB 6.16.2
  • Синхронизация с Greenplum Database 6.16.2
  • Уменьшение сегментных файлов отношений до нуля при выполнении TRUNCATE и DELETE
  • PXF: удалена проверка количества кортежей для JDBC-запросов INSERT
  • Kafka ADB Connector: добавлена возможность установки кастомных опций librdkafka
  • Реализовано обновление расширения diskquota
  • Добавлен параметр gp_enable_gpperfmon=on на серверы Master и Segment
ADB Control 2.1.1
  • Добавлены JVM-аргументы для логирования
ADB 6.15.0
  • Синхронизация с Greenplum Database 6.15.0
  • Реализовано переключение Master на Standby в ADCM
  • Добавлены переменные окружения $PXF_CONF и $PXF_HOME для хостов PXF
  • Kafka ADB connector: реализованы обработчики сигналов для прерывания потребления сообщений (consuming)
  • Реализована поддержка Alt Linux 8.2
ADB Control 2.0.3
  • Поддержка горизонтального масштабирования бэкенда ADB Control
  • Добавлена обработка UDS unlink, обновлена сборка библиотеки под CentOS 7
  • Добавлен параметр innerQueueCapacity размера внутренней очереди сообщений для агента
ADB 6.14.1
  • Синхронизация с Greenplum Database 6.14.1
  • Удалена online-загрузка статических ресурсов из web-интерфейса ADB Control
ADB 6.14.0
  • Синхронизация с Greenplum Database 6.14.0
ADB 6.13.0
  • Синхронизация с Greenplum Database 6.13.0
  • Добавлена поддержка вспомогательных отношений для таблиц append-optimized с целью точной оценки расширением pgstattuple величины "раздувания" (bloat) этих отношений
  • ADB ClickHouse connector: исключено промежуточное преобразование в byte array
  • Удалены неактуальные опции пакетной обработки (batching) из Arenadata QuickMarts connector (т.к. теперь используется TEXT)
ADB 6.12.1
  • Синхронизация с Greenplum Database 6.12.1
  • Добавлена offset-функция в Kafka ADB connector
  • Добавлена функция rest committed в Kafka ADB connector
  • Поддержка текстового формата в Kafka ADB connector
  • Поддержка опции JVM_OPTS для PXF
  • Реализованы логические типы AVRO в Kafka ADB connector
  • Переход на использование rd_kafka_query_watermark_offsets для валидации пар partition-offset в Kafka ADB connector