Arenadata Hyperwave

Arenadata Hyperwave (ADH) – это универсальная гибридная платформа на основе open-source компонентов и собственных разработок, предназначенная для хранения, обработки и анализа данных любой структуры и объемов.

Изначально Arenadata Hyperwave базировалась на инструментах и компонентах экосистемы Hadoop, включая Hadoop Distributed File System (HDFS), MapReduce, YARN, а также других проектах Apache: Hive, Spark, HBase и Flink. Со временем дистрибутив расширился, добавились такие системы, как Apache Ozone, Trino, Impala, Iceberg, Kyuubi и SSM, что позволило создать современную платформу данных для гибридных нагрузок.

Сценарии использования

Классический Data Lake

Подход, в котором используется выделенный DWH (data warehouse) для оперативной отчетности, отдельное решение для быстрых SQL-запросов, а также необходимо озеро данных для дешевого хранения исторических данных с удобной интеграцией, остается все еще востребованным и актуальным.

Интеграция данных
Сбор и согласование разнородных источников (IoT-датчики, веб-логи, финансовые транзакции, социальные сети) в едином озере данных.
Аналитика логов
Хранение "сырых" лог-файлов в озере и последующая их агрегация в DWH для корреляции событий и оповещений об инцидентах.
Анализ больших данных
Предварительная обработка и хранение "сырых" данных в Data Lake, а глубокий статистический и BI-анализ – в DWH.

Lakehouse

Lakehouse – это универсальная платформа данных, объединяющая мощность классического DWH с гибкостью Data Lake. Подходит под любые нагрузки: от пакетной аналитики до стриминговых вычислений и ML.

Генеративный ИИ и LLM
Генеративный ИИ и большие языковые модели (LLM) используют огромные объемы неструктурированных данных. Но прием данных из разных источников может привести к медленным и непостоянным результатам. Поскольку технология GenAI быстро развивается и появляются новые инструменты, крайне важно хранить данные в открытых форматах, к которым могут легко получить доступ различные механизмы запросов и векторные базы данных.
Анализ больших данных
ADH может использоваться для обработки и анализа больших объемов данных, таких как активность на веб-страницах, показания различных датчиков, информация из социальных сетей, финансовые данные. Полученная информация может быть ценной для анализа статистики поведения клиентов, тенденций рынка и других важных показателей.
Обнаружение и предотвращение мошенничества (real-time).
Потоковая обработка транзакций и событий с минимальной задержкой, применение ML-моделей "на лету".
Интеграция данных
ADH можно использовать для интеграции данных из различных источников и форматов в единое, централизованное хранилище данных. Это может помочь бизнесу устранить разрозненность данных и обеспечить единое, согласованное представление данных.

Data Mesh & Multitenancy

Data Mesh превращает данные в продукты, а платформа Arenadata Hyperwave обеспечивает инфраструктуру для этого подхода: доменные команды работают с изолированными данными через единый каталог, сохраняя автономность. Мультитенантность реализована на всех уровнях: от разделения на уровне хранилища и ресурсов, четкого контроля доступа (Apache Ranger) до физического выделения кластера с необходимыми компонентами под отдельный домен. Это позволяет безопасно делить платформу между командами, партнерами и окружениями, соблюдая согласованность между доменами и оптимизируя затраты.

Корпоративные Data Mesh-инициативы
Доменные команды развивают собственные хранилища в рамках единого каталога, сохраняя автономность и единообразие метаданных.
Безопасное разделение среды
Физическая или логическая изоляция кластеров под разных партнеров, бизнес-юниты или окружения (dev/prod).
Согласованность между доменами и управление доступом
Тонкая гранулярная настройка политик безопасности и аудита.

Такой подход позволяет выбрать оптимальную композицию компонентов ADH: начать с Data Lake и дополнять Lakehouse-возможностями, а затем масштабироваться в сторону доменно-ориентированной Data Mesh-платформы с мультитенантностью.

Enterprise

Community

Поддержка ключевых компонентов

Функции высокой доступности и аварийного восстановления

Расширенные функции безопасности, включая шифрование, управление доступом на основе ролей

Автоматизированные инструменты управления и мониторинга

Автоматизация развертывания и обновления

Offline-установка

Техническая поддержка 24/7

Корпоративные обучающие курсы

Индивидуальные решения

Доступные интеграции

ADQM

ADB

ADPG

ADS

Iceberg

Oracle

MS SQL

AWS S3

Azure Storage

Azure Datalake

GCS

JDBC

Solr

Phoenix

Zeppelin

Airflow

AVRO

PARQUET

ORC

XML

JSON

Операционные системы

Alt Linux

CentOS

RedHat

Astra Linux

Ubuntu

RedOS

Поддержка ключевых компонентов

Функции высокой доступности и аварийного восстановления

Расширенные функции безопасности, включая шифрование, управление доступом на основе ролей

Автоматизированные инструменты управления и мониторинга

Автоматизация развертывания и обновления

Offline-установка

Техническая поддержка 24/7

Корпоративные обучающие курсы

Индивидуальные решения

Доступные интеграции

ADQM

ADB

ADPG

ADS

Iceberg

Oracle

MS SQL

AWS S3

Azure Storage

Azure Datalake

GCS

JDBC

Solr

Phoenix

Zeppelin

Airflow

AVRO

PARQUET

ORC

XML

JSON

Операционные системы

Alt Linux

CentOS

RedHat

Astra Linux

Ubuntu

RedOS

Компоненты

Trino

Trino – это инструмент, предназначенный для эффективной обработки огромных объемов данных с использованием распределенных федеративных запросов.

Движок предоставляет возможность запрашивать множество разрозненных источников данных в одной системе с помощью одного и того же SQL, что значительно упрощает аналитику, требующую понимания общей картины всех ваших данных. Федеративные запросы в Trino могут получить доступ к вашему хранилищу объектов, основным реляционным базам данных и новой потоковой системе или системе NoSQL – и все это в одном запросе.

Apache Ozone

Apache Ozone – это масштабируемое и распределенное объектное хранилище с открытым исходным кодом, предназначенное для нагрузок с большими данными. Является частью экосистемы Apache Hadoop и построен поверх распределенной файловой системы Hadoop (HDFS).

Ozone разработан для обеспечения высокой производительности и масштабируемости при хранении и обработке больших объемов неструктурированных данных, таких как файлы журналов, изображения, видео и другие объекты данных. Он оптимизирован для нагрузок, требующих высокой пропускной способности и низкой задержки, таких как аналитика больших данных, машинное обучение и обработка потоковых данных.

Одной из ключевых особенностей Ozone является поддержка нескольких типов хранилищ, включая горячее (hot), теплое (warm) и холодное (cold). Это позволяет хранить данные в зависимости от шаблонов доступа и жизненного цикла, оптимизируя затраты и производительность.

Ozone также имеет встроенные возможности репликации и распределения данных, что позволяет хранить данные на нескольких узлах кластера Hadoop для повышения их доступности.

Apache Iceberg

Apache Iceberg – это открытый высокопроизводительный формат для создания огромных аналитических таблиц. Iceberg привносит надежность и простоту SQL-таблиц в big data, позволяя таким движкам, как Spark, Trino, Flink, Hive, Impala и другим, безопасно работать с одними и теми же таблицами в одно и то же время.

Кроме того, формат предоставляет широкий набор функционала, который позволит эффективнее работать с вашими данными. К нему относятся Time Travel и Rollback, Schema Evolution, Hidden Partitioning, Data Compaction и многое другое.

Smart Storage Manager

Smart Storage Manager - это сервис, цель которого - оптимизировать эффективность хранения и управления данными в Hadoop Distributed File System. SSM собирает данные о работе HDFS и информацию о состоянии системы и на основе собранных показателей может автоматически использовать такие методологии как кеш, политики хранения данных, управление гетерогенными хранилищами (HSM), сжатие данных и Erasure Coding. Кроме того, SSM предоставляет возможность настройки асинхронной репликации данных и пространства имен на резервный кластер с целью организации DR.

Hue

HUE (Hadoop User Experience) – это веб-интерфейс экосистемы Hadoop для анализа данных.

Hue позволяет пользователям выполнять анализ данных без потери контекста. Цель состоит в том, чтобы продвигать самообслуживание и оставаться простыми, как Excel, чтобы пользователи могли находить, исследовать, запрашивать и анализировать имеющиеся данные

Одним из главных достоинств Hue является возможность подключения к различным источникам данных: Apache Hive, Impala, Flink SQL, Spark SQL, Phoenix, ksqlDB, Apache Hadoop HDFS, Ozone, HBase и пр.

Apache Kyuubi

Apache Kyuubi — это распределенный многопользовательский шлюз для предоставления SQL для DWH и DataLake.

Kyuubi создает распределенные механизмы запросов SQL поверх различных видов современных вычислительных платформ, например, Apache Spark, Flink, Hive, Impala и т. д., чтобы получать и обрабатывать большие наборы распределенных данных из разнородных источников.

Apache Impala

Apache Impala – это движок для SQL-запросов с открытым исходным кодом, предназначенный для массивно-параллельной обработки (MPP) больших объемов данных в режиме реального времени. Позволяет выполнять интерактивные запросы к данным Apache Hadoop, хранящимся в HDFS/HBase. Impala был разработан как более быстрый и эффективный механизм запросов SQL для обработки больших данных по сравнению с традиционными SQL-движками, ориентированными на пакетную обработку.

Impala обеспечивает высокую производительность благодаря архитектуре MPP, которая позволяет распределять обработку данных между несколькими узлами кластера Hadoop. Impala также поддерживает такие расширенные возможности, как complex joins, подзапросы и агрегатные функции.

Impala разработан для простоты использования и интеграции с существующими инструментами BI и аналитики. Сервис поддерживает стандартные SQL-запросы и JDBC/ODBC-драйверы для простой интеграции с широким спектром приложений.

Apache ZooKeeper

Apache ZooKeeper – это распределенный сервис, предназначенный для координации больших распределенных систем. Он предоставляет централизованную инфраструктуру для поддержания информации о конфигурации, именовании, обеспечении распределенной синхронизации и предоставлении групповых сервисов. ZooKeeper широко используется в кластерах Hadoop для координации распределенных систем и обеспечения того, чтобы каждому узлу в кластере было известно о состоянии других узлов.

Hadoop Distributed File System (HDFS)

HDFS – масштабируемая и отказоустойчивая распределенная файловая система, составляющая основу платформы ADH. Позволяет хранить большие объемы данных на нескольких узлах кластера со встроенной избыточностью для постоянной доступности данных даже в случае отказа узла. HDFS оптимизирована для работы с большими файлами, что делает ее идеальным выбором для приложений больших данных.

Apache YARN

YARN – это система управления ресурсами и планирования задач, которая позволяет одновременно запускать несколько приложений в кластере Hadoop. YARN позволяет динамически распределять ресурсы кластера в зависимости от потребностей каждого приложения, а также контролировать и управлять этими ресурсами для обеспечения оптимальной производительности.

Apache HBase

Это база данных NoSQL, которая обеспечивает доступ в режиме реального времени для чтения/записи больших массивов данных, хранящихся в Hadoop. HBase разработана для обработки огромных объемов данных и оптимизирована для случайного доступа к данным в режиме реального времени, что делает ее популярным выбором для приложений big data, которым требуется доступ к большим массивам данных с низкой задержкой.

Apache Phoenix

Apache Phoenix – это SQL-подобный механизм запросов для Hadoop с открытым исходным кодом, предназначенный для быстрого и эффективного выполнения запросов к большим наборам данных. Phoenix построен на базе HBase, что означает, что он может обрабатывать огромные объемы данных с низкой задержкой и обеспечивает поддержку обновлений и доступа к данным в режиме реального времени.

Apache Spark

Apache Spark – это быстрый и мощный механизм обработки данных с открытым исходным кодом, который обеспечивает масштабируемые, отказоустойчивые возможности обработки данных для больших нагрузок. Компонент Apache Spark в составе Arenadata Hadoop обеспечивает высокопроизводительную и распределенную вычислительную структуру, которая может обрабатывать большие массивы данных параллельно на узлах кластера. Благодаря своим расширенным аналитическим возможностям, включая машинное обучение, обработку графов и SQL-подобные запросы, Apache Spark может помочь бизнесу извлечь ценные сведения из своих данных.

Apache Hive

Apache Hive – это инфраструктура хранилища данных с открытым исходным кодом, предоставляющая возможности обобщения данных, запросов и анализа больших наборов данных, хранящихся в Hadoop. Компонент Apache Hive в составе Arenadata Hadoop предоставляет SQL-подобный интерфейс для запросов к данным в Hadoop, позволяя бизнесу выполнять специальные запросы, осуществлять анализ данных и вести отчетность. Hive конвертирует SQL-запросы в MapReduce-задачи для выполнения в кластере Hadoop. Благодаря поддержке разбиения, индексирования и сжатия Hive может помочь бизнесу оптимизировать хранение и обработку данных в Hadoop.

Apache Tez

Apache Tez – это платформа обработки данных с открытым исходным кодом, которая обеспечивает гибкое, эффективное и масштабируемое выполнение сложных задач обработки данных в кластере Hadoop. При использовании вместе с Apache Hive Tez обеспечивает более быстрое и эффективное выполнение запросов Hive, заменяя механизм выполнения MapReduce на более оптимизированный.

Комбинация Hive + Tez в Arenadata Hadoop обеспечивает мощную и масштабируемую платформу для хранилищ данных, позволяя бизнесу выполнять специальные запросы, осуществлять анализ данных и вести отчетность в масштабе. Благодаря поддержке динамического планирования задач и разделения данных, Tez может ускорить обработку запросов, оптимизируя поток данных между операторами Hive.

Apache Flink

Apache Flink – это система обработки потоковых данных с открытым исходным кодом, которая позволяет обрабатывать большие объемы данных в реальном времени с низкой задержкой. Компонент Apache Flink в составе Arenadata Hadoop предоставляет распределенную вычислительную среду для обработки данных в реальном времени, которая может быть легко интегрирована с пакетной обработкой. Flink поддерживает событийно-ориентированную обработку и предоставляет единую модель программирования как для пакетной, так и для потоковой обработки, что делает его идеальным для построения конвейеров (pipelines) обработки данных. Благодаря своим расширенным возможностям, включая поддержку потоковой обработки данных с учетом состояния, оконной обработки и машинного обучения, Apache Flink может помочь компаниям получить представление о данных в реальном времени.

Apache Solr

Apache Solr – это поисковая платформа корпоративного уровня с открытым исходным кодом, построенная на базе поисковой библиотеки Apache Lucene. Solr представляет собой надежное и масштабируемое решение для поиска, которое используется организациями всех размеров для обеспечения функциональности поиска на их веб-сайтах, в мобильных и других приложениях.

Ключевые особенности

Экономия времени

Не требует длительной установки и настройки по сравнению с ручной установкой

Простота

Пользователи могут легко установить и настроить Hadoop, не обладая продвинутыми техническими навыками

Стандартизация

Стандартизированная установка на нескольких машинах, снижающая риск ошибок и несоответствий

Повышенная эффективность

Снижение риска простоя системы и общее повышение эффективности

Экспертиза

Наша команда оценивает исправленные баги, полученные от сообщества, и определяет, какие из них следует включить в продукт. Кроме того, мы самостоятельно разрабатываем новый и дорабатываем уже существующий функционал.

Arenadata Platform Security

версия Enterprise

Arenadata Platform Security (ADPS) – это комбинация следующих компонентов безопасности:

Apache Ranger

Apache Ranger - система безопасности с открытым исходным кодом, обеспечивающая централизованное управление политиками для Hadoop и других экосистем больших данных. Платформа Arenadata интегрируется с Apache Ranger для обеспечения контроля доступа на основе политик и авторизации для приложений данных и аналитики.

Apache Knox

Apache Knox – шлюз с открытым исходным кодом, который обеспечивает безопасный доступ к кластерам Hadoop и другим системам больших данных. Платформа Arenadata интегрируется с Apache Knox для обеспечения безопасного доступа к платформе и ее сервисам.

Вместе эти компоненты ADPS обеспечивают комплексную систему безопасности, включая управление доступом на основе политик, авторизацию и безопасный доступ к платформе и ее сервисам. Это помогает организациям защитить конфиденциальные данные и обеспечить соответствие нормативным требованиям.

ADB Spark Connector

Коннектор ADB Spark предоставляет возможность высокоскоростного параллельного обмена данными между Apache Spark и Arenadata DB.

Он обладает большой гибкостью в настройке и множеством функций, таких как:

высокая скорость передачи данных;
автоматическое формирование схемы данных;
гибкое партиционирование;
поддержка push-down операторов;
поддержка batch-операций.

Читать документацию

ADQM Spark Connector

Многофункциональный коннектор с поддержкой параллельных операций чтения/записи между Apache Spark и Arenadata QuickMarts.

Обладает большой гибкостью в настройке и множеством функций, таких как:

высокая скорость передачи данных;
автоматическое формирование схемы данных;
гибкое партиционирование;
поддержка push-down операторов;
поддержка batch-операций.

Читать документацию

Сравнение продуктов

К сравнению

Cloudera 6.3.4

Cloudera 7.3.1

К сравнению

Cloudera 6.3.4

Cloudera 7.3.1

Инфраструктура

Система управления

Arenadata Cluster Manager (ADCM)

Единое средство управления жизненным циклом всех продуктов Arenadata.

ADCM устанавливается с помощью одной команды и требует только Docker.

Cloudera Manager

Автоматическое развертывание и настройка.

Настраиваемый мониторинг и отчетность.

Cloudera Manager

Автоматическое развертывание и настройка.

Настраиваемый мониторинг и отчетность.

Встроенный мониторинг

Есть

Централизованный апгрейд

Есть

Поддержка IT-ландшафта

Возможность развертывания различных сочетаний bare metal, cloud

Есть

Используя механизмы инфраструктурных бандлов, ADH поддерживает установку на физические и виртуальные сервера (on-premises), частные и публичные облака по модели IaaS. Кроме того, инфраструктурные бандлы позволяют выполнять автоматическую установку в существующие узлы и создавать узлы “на лету” для части облачных провайдеров (YC, VK).

Есть

Возможно.

Есть

Возможно.

Поддержка cloud-провайдеров

Yandex Cloud;

VK Cloud;

Sber Cloud;

Google Cloud Platform.

Google Cloud Platform;

AWS;

Azure.

Google Cloud Platform;

AWS;

Azure.

Поддержка отечественных операционных систем

Alt Linux

Есть

Нет

Astra Linux

Есть

Нет

Red OS

Есть

Нет

Функционал

Offline-установка

Есть

Высокая доступность (HA)

Есть

ADH поддерживает режим высокой доступности основных критически важных сервисов платформы данных (YARN, HDFS, Hive).

Есть

Интеграция с другими продуктами

Есть

ADH поддерживает ряд собственных решений для интеграции:

Spark Tarantool (Picodata) Connector;
Spark Arenadata DB Connector;
Spark Arenadata QuickMarts Connector.

ADH также имеет:

поддержку Kerberos для PXF;
поддержку Informatica DEI 10.4 для ADH 2.X.

Есть

Настройки безопасности

SSL-шифрование

Есть

Управляется в ADCM.

Есть

Стандартное разделение доступа на основе Role Base Access Control

Есть

Гибкие настройки с помощью Ranger в отдельном продукте ADPS, может обслуживать несколько экземпляров ADH и других продуктов Arenadata.

Есть

Единая точка безопасного доступа

Есть

Knox в составе ADPS.

Есть

Дополнительно

Техническая поддержка 24/7

Есть

Исправления и доработки по требованию

Есть

Обучение/тренинги

Есть

Полноценное обучение работе с продуктами Arenadata.

Недоступно для РФ

Community-версия

Есть

ADH - единственный коммерческий дистрибутив, который имеет доступную бесплатную версию. Вы можете просто скачать её.

Нет

Документация

Есть

Подробная документация на русском и английском языках по всем сервисам, их установке, настройке и эксплуатации.

Находится в открытом доступе.

Есть

Документация на английском языке.

Находится в открытом доступе.

Есть

Документация на английском языке.

Находится в открытом доступе.

Регистрация в реестре отечественного ПО

Есть

Нет

Успешные внедрения

Есть

Дистрибутив ADH прошел «обкатку» в сотни тысяч часов на площадках более чем 20 лидеров РФ в качестве центральной платформы данных, где хранится и обрабатывается до 25 петабайт данных.

Есть

История релизов с описанием

Есть

В открытом доступе полная история релизов с версиями сервисов и описанием доработанного функционала.

Есть

В открытом доступе полная история релизов с версиями сервисов и описанием доработанного функционала.

Есть

В открытом доступе полная история релизов с версиями сервисов и описанием доработанного функционала.

Сравнение акутальных версий

Сервис

ADH 4.1.0

Cloudera 6.3.4

Cloudera 7.3.1

HDFS & YARN

3.3.6_arenadata1

3.0.0

3.1.1

Impala

4.5.0_arenadata1

3.2.0

4.0.0

Hive

4.0.1_arenadata2

2.1.1

3.1.3

HBase

2.6.3_arenadata1

2.1.4

2.4.17

Phoenix

5.2.2_arenadata1

5.0

5.1.3

Tez

0.10.4_arenadata1

0.9.2

0.9.1

Zeppelin

0.11.2_arenadata2

0.8.2

ZooKeeper

3.8.4_arenadata1

3.4.5

3.8.1

Airflow2

2.6.3

Solr

8.11.4_arenadata1

7.4.0

8.11.2

Spark3

3.5.4_arenadata2

3.0.1

3.5.4

Spark4

4.0.1_arenadata1

Knox

2.0.0_arenadata1

1.2.0

2.0.0

Ranger

2.6.0_arenadata2

2.1.0

2.4.0

Flink

1.20.1_arenadata1

Flink2

2.0.0_arenadata1

Kyuubi

1.10.1_arenadata2

SSM

2.1.1

HUE

4.11.0_arenadata4

4.4.0

4.5.0

Trino

476_arenadata1

Ozone

2.0.0_arenadata1

1.4.0

Раздел "Сравнение продуктов" является актуальным на дату 30.10.2025.

Релизы

2023

ADH 4.1.0

ADH 4.0.0

ADH 3.3.6.2_b1

ADH 3.3.6.1_b1

ADH 3.2.4.3_b1

ADH 3.2.4.2_b2

ADH 3.2.4.1_b3

ADH 3.2.4.2_b1

ADH 3.2.4.1_b2

ADH 3.2.4.1_b1

ADH 3.1.2.1_b2

ADH 3.1.2.1

ADH 2.1.10

ADH 2.1.8

ADH 2.1.7

ADH 2.1.6

ADH 2.1.4_b11

ADH 2.1.4_b10

ADH 2.1.4_b9

ADH 2.1.4_b5

ADH 2.1.4_b3

ADH 2.1.4_b2

ADH 2.1.4_b1

ADH 2.1.3

ADH 2.1.2.5

ADH 2.1.2.3

ADH 2.1.2.2

ADH 2.1.2.1

ADH 2.1.2.0

ADH 2.1.1

ADH 2.1.0