Документация Arenadata
Наша цель — создание эффективных и гибких решений, масштабируемых до десятков петабайт
Продукты
Ознакомьтесь с нашими современными решениями в области Big Data

Arenadata Orchestrator

Arenadata Orchestrator (ADO) — это платформа для настройки и эксплуатации конвейеров данных в промышленной среде.
Центральным компонентом платформы является Apache Airflow — инструмент с открытым исходным кодом, используемый для программного создания, планирования и мониторинга рабочих процессов (DAG). ADO расширяет Apache Airflow возможностями, необходимыми для промышленного использования, включая доставку DAG через Git, интеграцию с dbt для ELT-пайплайнов и встроенные провайдеры для работы с внешними системами данных.
Сценарии использования
Оркестрация рабочих процессов

Гибкие возможности планировщика в совокупности с его надежностью, отказоустойчивостью и возможностями масштабирования, делают платформу незаменимой при планировании и оркестрации процессов любой сложности.

Машинное обучение, искусственный интеллект

Применение машинного обучения требует тщательной организации данных для управления всем жизненным циклом моделей – от их создания до внедрения и последующего контроля.


ADO – это мощная платформа для управления данными, построенная на основе Apache Airflow. Она предоставляет надежные инструменты для оптимизации процессов MLOps, упрощая разработку, развертывание и сопровождение моделей.

Управление инфраструктурой

Конвейеры данных, написанные на Python, позволяют легко превращать пользовательские функции в задачи и взаимодействовать с любым API, что делает его отличным инструментом для управления вашей инфраструктурой. Например, кластерами Kubernetes.

Интеграция данных

ADO имеет встроенную интеграцию с множеством платформ и инструментов для работы с данными и аналитикой, а также поддерживает все популярные Python-библиотеки, которыми пользуются специалисты по данным, инженеры данных и другие профессионалы. Это предоставляет командам готовую структуру оркестрации, которую можно легко подключить к их предпочтительным инструментам. Таким образом, ADO упрощает совместную работу при проектировании, отладке и поддержке конвейеров данных, ускоряя процесс разработки и облегчая их развертывание и обслуживание.

Создание ETL/ELT-конвейеров

Конвейеры данных Extract-Transform-Load (ETL) и Extract-Load-Transform (ELT) являются наиболее распространенным вариантом использования Apache Airflow благодаря следующим особенностям:

  • Независимость от инструмента. Airflow можно использовать для организации конвейеров ETL/ELT для любого источника или места назначения данных.
  • Расширения. Airflow поддерживает множество модулей, а также позволяет создавать собственные операторы и хуки для конкретных случаев использования.
  • Динамика. Платформа позволяет динамически создавать новые конвейеры данных на основе входных параметров/метаданных.
  • Масштабируемость. Airflow можно масштабировать для обработки бесконечного количества задач и рабочих процессов при наличии достаточной вычислительной мощности.
Enterprise
Community
Встроенная функциональность Airflow
Автоматизированные инструменты управления и мониторинга
Техническая поддержка 24/7
Функции высокой доступности и аварийного восстановления
Автоматизация развертывания и обновления
Корпоративные обучающие курсы
Offline-установка
Индивидуальные решения
Расширенные функции Airflow, включающие безопасность и интеграцию с внешними системами
Доступные интеграции
ADQM
ADB
ADH
ADP
ADS
HashiCorp Vault
HashiCorp Vault
Доступна нативная интеграция для управления секретами.
Oracle
MS SQL
AWS S3
Azure Storage
Azure Datalake
GCS
MySQL
SFTP/FTP
Git Sync
Git Sync
Интеграция с системой контроля версий для удобного развертывания рабочих процессов.
Операционные системы
Alt Linux
  • Поддерживается Alt Linux 8.4 SP
  • Поддерживается Alt Linux 10 SP
Astra Linux
  • Поддерживается Astra Linux SE 1.7 Орел
  • Поддерживается Astra Linux SE 1.7 Воронеж
  • Поддерживается Astra Linux SE 1.8 Орел
  • Поддерживается Astra Linux SE 1.8 Воронеж
Ubuntu
Поддерживается Ubuntu 22.04.2 LTS
RedOS
Поддерживается RedOS 7.3
Встроенная функциональность Airflow
Автоматизированные инструменты управления и мониторинга
Техническая поддержка 24/7
Функции высокой доступности и аварийного восстановления
Автоматизация развертывания и обновления
Корпоративные обучающие курсы
Offline-установка
Индивидуальные решения
Расширенные функции Airflow, включающие безопасность и интеграцию с внешними системами
Доступные интеграции
ADQM
ADB
ADH
ADP
ADS
HashiCorp Vault
HashiCorp Vault
Доступно только для Enterprise
Oracle
MS SQL
AWS S3
Azure Storage
Azure Datalake
GCS
MySQL
SFTP/FTP
Git Sync
Git Sync
Доступно только для Enterprise
Операционные системы
Alt Linux
Доступно только для Enterprise
Astra Linux
Доступно только для Enterprise
Ubuntu
Поддерживается Ubuntu 22.04.2 LTS
RedOS
Доступно только для Enterprise
Сервисы
Apache Airflow

Apache Airflow является основным движком оркестрации в ADO и используется для программного описания, планирования и мониторинга рабочих процессов обработки данных. Он позволяет создавать сложные пайплайны в виде кода (DAG) и обеспечивает управление зависимостями, повторными попытками, расписанием и наблюдаемостью. Airflow выступает центральной точкой управления выполнением всех пайплайнов в системе.

dbt

dbt (data build tool) – это инструмент для реализации ELT-процессов непосредственно в хранилище данных. Он позволяет описывать трансформации на SQL и управлять ими как кодом с использованием систем контроля версий. В ADO dbt интегрирован с Airflow, что позволяет оркестрировать трансформации вместе с другими этапами обработки данных.

DuckDB

DuckDB – это встроенная аналитическая СУБД, оптимизированная для быстрого выполнения аналитических запросов. Она предназначена для локальной обработки данных и легких нагрузок, что делает ее удобной для промежуточных трансформаций, анализа данных и встроенных сценариев обработки в рамках пайплайнов ADO.

Ключевые особенности
Экономия времени
Не требует длительной установки и настройки по сравнению с ручной установкой
Готовность к промышленной эксплуатации
Встроенные возможности, такие как режим обслуживания (maintenance mode), высокая доступность и централизованное управление зависимостями, делают ADO готовым к использованию в промышленной среде
Мониторинг
В комплекте поставляется все необходимое для организации системы мониторинга, что позволяет быть уверенным в работоспособности системы
Стандартизация
Стандартизированная установка на нескольких машинах, снижающая риск ошибок и несоответствий
Масштабирование
Возможность быстрого горизонтального масштабирования ADO
Экспертиза
Наша команда обладает сильной экспертизой для разработки дополнительного функционала и оценивает все исправленные баги, полученные от сообщества, чтобы определить, какие из них следует включить в продукт
Интеграция
Из коробки доступно множество провайдеров, которые протестированы со всеми продуктами Arenadata. Реализована поддержка совместного использования хостов между кластерами под управлением ADCM, что позволяет устанавливать клиенты внешних сервисов (например, Spark-клиент для ADH) непосредственно на рабочие узлы ADO и инструменты трансформации, такие как dbt
Управление секретами
Интеграция с HashiCorp Vault и безопасная работа с чувствительными данными
Доставка DAG через Git
Встроенный сервис Git Sync обеспечивает автоматическую синхронизацию DAG из Git-репозиториев, реализуя GitOps-подход и исключая ручное развертывание
Интеграция с dbt
Нативная интеграция с dbt Core позволяет оркестрировать трансформации и реализовывать ELT-пайплайны в рамках Airflow DAG
Релизы
2023
ADO 2.11.1.1
  • Доставка DAG через Git с помощью встроенного сервиса Git Sync
  • Нативная интеграция с dbt для ELT-пайплайнов
  • Поддержка адаптера dbt Greengage
  • Новые провайдеры Ozone и HBase
  • Функциональность отката (rollback)
  • Поддержка обновления с Community Edition (CE) до Enterprise Edition (EE)
  • Поддержка Astra Linux 1.8
ADO 2.10.5.1
  • Расширенные возможности управления Python-зависимостями
  • Поддержка HA Metastore и прокси для репозиториев
  • Интеграция с внешними сервисами через shared hosts
  • Обновление Airflow и компонентов мониторинга
  • Поддержка AltLinux 10 и Ansible 2.16
  • Улучшение стабильности и пользовательского опыта
ADO 2.6.3.2
  • Управление Python-зависимостями через ADCM
  • Поддержка ОС Astra Linux "Воронеж"
  • Улучшения мониторинга и управления SSL
  • Поддержка режима обслуживания (maintenance mode) для сервисов
  • Повышение стабильности и оптимизация работы системы
ADO 2.6.3.1
  • Первый релиз с сохранением совместимости с Airflow (ADH)
  • Расширенные возможности управления сервисом
  • Дополнительные функции, доступные из коробки
  • Улучшения безопасности