Arenadata Orchestrator

Arenadata Orchestrator (ADO) — это платформа для создания и эксплуатации конвейеров данных в производственной среде. Центральным компонентом платформы является Apache Airflow, инструмент с открытым исходным кодом, используемый для создания, планирования и мониторинга последовательностей процессов и задач (DAG).

ТОП-10 популярных статей

Описание основных концепций (DAG, task, operator) и архитектурных компонетов Airflow (Web server, Metadata database, Scheduler, Executor, Worker).

Требования к программному обеспечению Arenadata Orchestrator для правильной установки кластера.

Таблицы с портами сервисов ADO, необходимыми для установки Arenadata Orchestrator.

Обзор веб-интерфейсов Airflow.

Обзор сервиса DBT — инструмента для построения ELT-пайплайнов с использованием подхода SQL-first.

Руководство по настройке интеграции с HashiCorp Vault для хранения секретов.

В статье описан процесс создания и запуска вашего первого DAG с использованием файлов CSV.

Обзор возможных подходов к оптимизации производительности Airflow в ADO с примерами.

Airflow CLI: DAG, задачи, соединения и другие команды.

Описание подходов к установке необходимых клиентов и библиотек на воркеры Airflow с примерами: совместное использование хостов в ADCM и ручная установка клиентов Spark.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней