Документация Arenadata
Наша цель — создание эффективных и гибких решений, масштабируемых до десятков петабайт
Продукты
Ознакомьтесь с нашими современными решениями в области Big Data

Arenadata Orchestrator

Arenadata Orchestrator (ADO) – это платформа для настройки и эксплуатации пайплайнов данных в промышленной среде.
Центральным компонентом платформы является Apache Airflow – инструмент с открытым исходным кодом, используемый для программного создания, планирования и мониторинга последовательностей процессов и задач (DAG).
Сценарии использования
Оркестрация рабочих процессов

Гибкие возможности планировщика в совокупности с его надежностью, отказоустойчивостью и возможностями масштабирования, делают платформу незаменимой при планировании и оркестрации процессов любой сложности.

Машинное обучение, искусственный интеллект

Применение машинного обучения требует тщательной организации данных для управления всем жизненным циклом моделей – от их создания до внедрения и последующего контроля.


ADO – это мощная платформа для управления данными, построенная на основе Apache Airflow. Она предоставляет надежные инструменты для оптимизации процессов MLOps, упрощая разработку, развертывание и сопровождение моделей.

Управление инфраструктурой

Конвейеры данных, написанные на Python, позволяют легко превращать пользовательские функции в задачи и взаимодействовать с любым API, что делает его отличным инструментом для управления вашей инфраструктурой. Например, кластерами Kubernetes.

Интеграция данных

ADO имеет встроенную интеграцию с множеством платформ и инструментов для работы с данными и аналитикой, а также поддерживает все популярные Python-библиотеки, которыми пользуются специалисты по данным, инженеры данных и другие профессионалы. Это предоставляет командам готовую структуру оркестрации, которую можно легко подключить к их предпочтительным инструментам. Таким образом, ADO упрощает совместную работу при проектировании, отладке и поддержке конвейеров данных, ускоряя процесс разработки и облегчая их развертывание и обслуживание.

Создание ETL/ELT-конвейеров

Конвейеры данных Extract-Transform-Load (ETL) и Extract-Load-Transform (ELT) являются наиболее распространенным вариантом использования Apache Airflow благодаря следующим особенностям:

  • Независимость от инструмента. Airflow можно использовать для организации конвейеров ETL/ELT для любого источника или места назначения данных.
  • Расширения. Airflow поддерживает множество модулей, а также позволяет создавать собственные операторы и хуки для конкретных случаев использования.
  • Динамика. Платформа позволяет динамически создавать новые конвейеры данных на основе входных параметров/метаданных.
  • Масштабируемость. Airflow можно масштабировать для обработки бесконечного количества задач и рабочих процессов при наличии достаточной вычислительной мощности.
Enterprise
Community
Встроенная функциональность Airflow
Автоматизированные инструменты управления и мониторинга
Техническая поддержка 24/7
Функции высокой доступности и аварийного восстановления
Автоматизация развертывания и обновления
Корпоративные обучающие курсы
Offline-установка
Индивидуальные решения
Расширенные функции Airflow, включающие безопасность и интеграцию с внешними системами
Доступные интеграции
ADQM
ADB
ADH
ADPG
ADS
HashiCorp Vault
HashiCorp Vault
Доступна нативная интеграция для управления секретами
DuckDB
Oracle
MS SQL
AWS S3
Azure Storage
Azure Datalake
GCS
MySQL
SFTP/FTP
DBT
DBT
*В разработке

Доступна нативная интеграция c dbt Core с поддержкой всех необходимых адаптеров для работы в Arenadata EDP

Git
Git
*В разработке

Интеграция с системой контроля версий для удобного развертывания рабочих процессов

Операционные системы
Alt Linux
  • Поддерживается Alt Linux 8.4 SP
  • Поддерживается Alt Linux 10 SP
CentOS
Поддерживается CentOS 7
RedHat
Поддерживается RedHat 7
Astra Linux
  • Поддерживается Astra Linux SE 1.7 Орел
  • Поддерживается Astra Linux SE 1.7 Воронеж
Ubuntu
Поддерживается Ubuntu 22.04.2 LTS
RedOS
Поддерживается RedOS 7.3
Встроенная функциональность Airflow
Автоматизированные инструменты управления и мониторинга
Техническая поддержка 24/7
Функции высокой доступности и аварийного восстановления
Автоматизация развертывания и обновления
Корпоративные обучающие курсы
Offline-установка
Индивидуальные решения
Расширенные функции Airflow, включающие безопасность и интеграцию с внешними системами
Доступные интеграции
ADQM
ADB
ADH
ADPG
ADS
HashiCorp Vault
HashiCorp Vault
Доступно только для Enterprise
DuckDB
Oracle
MS SQL
AWS S3
Azure Storage
Azure Datalake
GCS
MySQL
SFTP/FTP
DBT
DBT
Доступно только для Enterprise
Git
Git
Доступно только для Enterprise
Операционные системы
Alt Linux
Доступно только для Enterprise
CentOS
Поддерживается CentOS 7
RedHat
Поддерживается RedHat 7
Astra Linux
Доступно только для Enterprise
Ubuntu
Поддерживается Ubuntu 22.04.2 LTS
RedOS
Доступно только для Enterprise
Ключевые особенности
Экономия времени
Не требует длительной установки и настройки по сравнению с ручной установкой
Готовность к промышленной эксплуатации
Встроенные возможности, такие как режим обслуживания (maintenance mode), высокая доступность и централизованное управление зависимостями, делают ADO готовым к использованию в промышленной среде
Мониторинг
В комплекте поставляется все необходимое для организации системы мониторинга, что позволяет быть уверенным в работоспособности системы
Стандартизация
Стандартизированная установка на нескольких машинах, снижающая риск ошибок и несоответствий
Масштабирование
Возможность быстрого горизонтального масштабирования ADO
Экспертиза
Наша команда обладает сильной экспертизой для разработки дополнительного функционала и оценивает все исправленные баги, полученные от сообщества, чтобы определить, какие из них следует включить в продукт
Интеграция
Из коробки доступно множество провайдеров, которые протестированы со всеми продуктами Arenadata. Поддержка совместного использования хостов между кластерами под управлением ADCM, что позволяет устанавливать клиенты внешних сервисов (например, Spark-клиент для ADH) непосредственно на рабочие узлы ADO
Управление секретами
Интеграция с HashiCorp Vault и безопасная работа с чувствительными данными
Релизы
2023
ADO 2.10.5.1
  • Расширенные возможности управления Python-зависимостями
  • Поддержка HA Metastore и прокси для репозиториев
  • Интеграция с внешними сервисами через shared hosts
  • Обновление Airflow и компонентов мониторинга
  • Поддержка AltLinux 10 и Ansible 2.16
  • Улучшение стабильности и пользовательского опыта
ADO 2.6.3.2
  • Управление Python-зависимостями через ADCM
  • Поддержка ОС Astra Linux "Воронеж"
  • Улучшения мониторинга и управления SSL
  • Поддержка режима обслуживания (maintenance mode) для сервисов
  • Повышение стабильности и оптимизация работы системы
ADO 2.6.3.1
  • Первый релиз с сохранением совместимости с Airflow (ADH)
  • Расширенные возможности управления сервисом
  • Дополнительные функции, доступные из коробки
  • Улучшения безопасности