Arenadata Orchestrator
Гибкие возможности планировщика в совокупности с его надежностью, отказоустойчивостью и возможностями масштабирования, делают платформу незаменимой при планировании и оркестрации процессов любой сложности.
Применение машинного обучения требует тщательной организации данных для управления всем жизненным циклом моделей – от их создания до внедрения и последующего контроля.
ADO – это мощная платформа для управления данными, построенная на основе Apache Airflow. Она предоставляет надежные инструменты для оптимизации процессов MLOps, упрощая разработку, развертывание и сопровождение моделей.
Конвейеры данных, написанные на Python, позволяют легко превращать пользовательские функции в задачи и взаимодействовать с любым API, что делает его отличным инструментом для управления вашей инфраструктурой. Например, кластерами Kubernetes.
ADO имеет встроенную интеграцию с множеством платформ и инструментов для работы с данными и аналитикой, а также поддерживает все популярные Python-библиотеки, которыми пользуются специалисты по данным, инженеры данных и другие профессионалы. Это предоставляет командам готовую структуру оркестрации, которую можно легко подключить к их предпочтительным инструментам. Таким образом, ADO упрощает совместную работу при проектировании, отладке и поддержке конвейеров данных, ускоряя процесс разработки и облегчая их развертывание и обслуживание.
Конвейеры данных Extract-Transform-Load (ETL) и Extract-Load-Transform (ELT) являются наиболее распространенным вариантом использования Apache Airflow благодаря следующим особенностям:
- Независимость от инструмента. Airflow можно использовать для организации конвейеров ETL/ELT для любого источника или места назначения данных.
- Расширения. Airflow поддерживает множество модулей, а также позволяет создавать собственные операторы и хуки для конкретных случаев использования.
- Динамика. Платформа позволяет динамически создавать новые конвейеры данных на основе входных параметров/метаданных.
- Масштабируемость. Airflow можно масштабировать для обработки бесконечного количества задач и рабочих процессов при наличии достаточной вычислительной мощности.
- Поддерживается Alt Linux 8.4 SP
- Поддерживается Alt Linux 10 SP
- Поддерживается Astra Linux SE 1.7 Орел
- Поддерживается Astra Linux SE 1.7 Воронеж
- Поддерживается Astra Linux SE 1.8 Орел
- Поддерживается Astra Linux SE 1.8 Воронеж
Apache Airflow является основным движком оркестрации в ADO и используется для программного описания, планирования и мониторинга рабочих процессов обработки данных. Он позволяет создавать сложные пайплайны в виде кода (DAG) и обеспечивает управление зависимостями, повторными попытками, расписанием и наблюдаемостью. Airflow выступает центральной точкой управления выполнением всех пайплайнов в системе.
dbt (data build tool) – это инструмент для реализации ELT-процессов непосредственно в хранилище данных. Он позволяет описывать трансформации на SQL и управлять ими как кодом с использованием систем контроля версий. В ADO dbt интегрирован с Airflow, что позволяет оркестрировать трансформации вместе с другими этапами обработки данных.
DuckDB – это встроенная аналитическая СУБД, оптимизированная для быстрого выполнения аналитических запросов. Она предназначена для локальной обработки данных и легких нагрузок, что делает ее удобной для промежуточных трансформаций, анализа данных и встроенных сценариев обработки в рамках пайплайнов ADO.
- Доставка DAG через Git с помощью встроенного сервиса Git Sync
- Нативная интеграция с dbt для ELT-пайплайнов
- Поддержка адаптера dbt Greengage
- Новые провайдеры Ozone и HBase
- Функциональность отката (rollback)
- Поддержка обновления с Community Edition (CE) до Enterprise Edition (EE)
- Поддержка Astra Linux 1.8
- Расширенные возможности управления Python-зависимостями
- Поддержка HA Metastore и прокси для репозиториев
- Интеграция с внешними сервисами через shared hosts
- Обновление Airflow и компонентов мониторинга
- Поддержка AltLinux 10 и Ansible 2.16
- Улучшение стабильности и пользовательского опыта
- Управление Python-зависимостями через ADCM
- Поддержка ОС Astra Linux "Воронеж"
- Улучшения мониторинга и управления SSL
- Поддержка режима обслуживания (maintenance mode) для сервисов
- Повышение стабильности и оптимизация работы системы
- Первый релиз с сохранением совместимости с Airflow (ADH)
- Расширенные возможности управления сервисом
- Дополнительные функции, доступные из коробки
- Улучшения безопасности