Arenadata Orchestrator
Arenadata Orchestrator (ADO) — это платформа для создания и эксплуатации конвейеров данных в производственной среде. Центральным компонентом платформы является Apache Airflow, инструмент с открытым исходным кодом, используемый для создания, планирования и мониторинга последовательностей процессов и задач (DAG).
ТОП-10 популярных статей
Описание основных концепций (DAG, task, operator) и архитектурных компонетов Airflow (Web server, Metadata database, Scheduler, Executor, Worker).
Требования к программному обеспечению Arenadata Orchestrator для правильной установки кластера.
Таблицы с портами сервисов ADO, необходимыми для установки Arenadata Orchestrator.
Обзор веб-интерфейсов Airflow.
Обзор сервиса DBT — инструмента для построения ELT-пайплайнов с использованием подхода SQL-first.
Руководство по настройке интеграции с HashiCorp Vault для хранения секретов.
В статье описан процесс создания и запуска вашего первого DAG с использованием файлов CSV.
Обзор возможных подходов к оптимизации производительности Airflow в ADO с примерами.
Airflow CLI: DAG, задачи, соединения и другие команды.
Описание подходов к установке необходимых клиентов и библиотек на воркеры Airflow с примерами: совместное использование хостов в ADCM и ручная установка клиентов Spark.