Arenadata Orchestrator
Arenadata Orchestrator (ADO) — это платформа для создания и эксплуатации конвейеров данных в производственной среде. Центральным компонентом платформы является Apache Airflow, инструмент с открытым исходным кодом, используемый для создания, планирования и мониторинга последовательностей процессов и задач (DAG).
ТОП-10 популярных статей
Описание основных концепций (DAG, task, operator) и архитектурных компонетов Airflow (Web server, Metadata database, Scheduler, Executor, Worker).
Требования к программному обеспечению Arenadata Orchestrator для правильной установки кластера.
Обзор сервиса DBT — инструмента для построения ELT-пайплайнов с использованием подхода SQL-first.
Обзор сервиса GitSync, который позволяет синхронизировать DAG Airflow c DAG из удаленных Git-репозиториев.
Описание подходов к установке необходимых клиентов и библиотек на воркеры Airflow с примерами: совместное использование хостов в ADCM и ручная установка клиентов Spark.
Руководство по настройке интеграции с HashiCorp Vault для хранения секретов.
Таблицы с портами сервисов ADO, необходимыми для установки Arenadata Orchestrator.
В данной статье представлен обзор REST API сервиса Airflow.
Обзор веб-интерфейсов Airflow.
Обзор возможных подходов к оптимизации производительности Airflow в ADO с примерами.