Документация Arenadata
Наша цель — создание эффективных и гибких решений, масштабируемых до десятков петабайт
Продукты
Ознакомьтесь с нашими современными решениями в области Big Data

Arenadata Hadoop

Arenadata Hadoop (ADH) – это коммерческий дистрибутив программного обеспечения Apache Hadoop с открытым исходным кодом. Это платформа big data, предназначенная для хранения, обработки и анализа больших объемов структурированных и неструктурированных данных.
Arenadata Hadoop включает в себя различные инструменты и компоненты, являющиеся частью экосистемы Hadoop, такие как Hadoop Distributed File System (HDFS), MapReduce, YARN и различные другие проекты Apache. Он также включает дополнительные программные компоненты и инструменты, предназначенные для упрощения развертывания, управления и использования Hadoop в корпоративных средах.
Сценарии использования
Анализ больших данных

ADH может использоваться для обработки и анализа больших объемов данных, таких как активность на веб-страницах, показания различных датчиков, информация из социальных сетей, финансовые данные. Полученная информация может быть ценной для анализа статистики поведения клиентов, тенденций рынка и других важных показателей.

Машинное обучение и искусственный интеллект

ADH можно использовать в качестве платформы обработки данных для приложений машинного обучения и искусственного интеллекта. Это может помочь компаниям выстраивать прогнозные модели, обнаруживать аномалии и автоматизировать процессы принятия решений.

Интеграция данных

ADH можно использовать для интеграции данных из различных источников и форматов в единое, централизованное хранилище данных. Это может помочь бизнесу устранить разрозненность данных и обеспечить единое, согласованное представление данных.

Выявление и предотвращение мошенничества

ADH может использоваться для обнаружения и предотвращения мошенничества путем анализа больших объемов данных в режиме реального времени. Это может помочь предприятиям быстро выявлять и реагировать на мошеннические действия, сокращая убытки и защищая свою репутацию.

Аналитика логов

ADH можно использовать для обработки и анализа лог-данных, генерируемых ИТ-системами и приложениями. Это может помочь предприятиям вовремя устранить неполадки, выявить уязвимые места в производительности и повысить надежность системы.

Enterprise
Community
Поддержка компонентов Hadoop
Функции высокой доступности и аварийного восстановления
Расширенные функции безопасности, включая шифрование, управление доступом на основе ролей
Автоматизированные инструменты управления и мониторинга
Автоматизация развертывания и обновления
Offline-установка
Техническая поддержка 24/7
Корпоративные обучающие курсы
Индивидуальные решения
Доступные интеграции
ADQM
Arenadata QuickMarts
  • ADQM Spark connector обеспечивает возможность высокоскоростного параллельного обмена данными между ADH Apache Spark и Arenadata QuickMarts (ADQM).
  • Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
  • Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
ADB
ADB
  • ADB Spark connector обеспечивает возможность высокоскоростного параллельного обмена данными между Apache Spark и Arenadata DB (ADB).
  • Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
  • Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
ADPG
ADPG
  • Spark JDBC connector позволяет подключать Spark к любой JDBC-совместимой базе данных, например Arenadata Postgres (ADPG), и открывает новые возможности для анализа, обработки и визуализации данных.
  • Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
  • Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
ADS
ADS
  • Spark Streaming оптимизирует обработку данных в реальном времени с помощью Spark Streaming, Kafka или Arenadata Streaming (ADS), обеспечивая беспрепятственный ввод, обработку и анализ данных в масштабе.
  • Flink Apache Kafka connector обеспечивает высокопроизводительную обработку потоков, позволяя анализировать, преобразовывать и визуализировать данные в реальном времени в масштабе.
Oracle
Oracle
  • Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных, например Oracle, и открывает новые возможности для анализа, обработки и визуализации данных.
  • Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
  • Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
MS SQL
MS SQL
  • Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных, такой как MS SQL, и открывает новые возможности для анализа, обработки и визуализации данных.
  • Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
  • Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
AWS S3
AWS S3
  • Hadoop AWS Module обеспечивает поддержку AWS S3.
  • S3a connector позволяет быстро и эффективно получить доступ к данным, хранящимся в Simple Storage Service (S3) из приложений Spark.
  • Flink S3 connector позволяет использовать S3 с Flink для чтения и записи данных, а также в сочетании со streaming-бэкендами.
Azure Storage
Azure Storage
  • Hadoop Azure module обеспечивает интеграцию с ASB.
  • Spark WASB (Windows Azure Storage Blob) connector – это библиотека Apache Spark, которая позволяет приложениям Spark выполнять чтение и запись данных в Azure Blob Storage.
Azure Datalake
Azure Datalake
  • Spark ABFS (Azure Blob File System) connector предоставляет API для приложений Spark для чтения и записи данных непосредственно в ADLS Gen2 без необходимости размещения данных на локальном диске.
  • Flink ABS позволяет использовать Azure Blob Storage с Flink для чтения и записи данных.
GCS
GCS
  • Spark GS connector предоставляет API для приложений Spark для чтения и записи данных непосредственно в Google Cloud Storage без необходимости размещения данных на локальном диске.
  • Flink GCP можно использовать для чтения и записи данных, а также для хранения данных контрольных точек (checkpoint).
JDBC
JDBC
  • Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных и открывает новые возможности для анализа, обработки и визуализации данных.
  • Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
  • Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
Solr
Solr
Интеграция Spark Solr – это библиотека, которая позволяет приложениям Spark получать и записывать данные в Apache Solr. Благодаря интеграции Spark Solr приложения Spark могут читать данные из Solr, используя SolrRDD, что позволяет распараллелить обработку данных на кластере Spark.
Phoenix
Phoenix

Интеграция Spark Apache Phoenix – это библиотека, позволяющая приложениям Spark взаимодействовать с Apache Phoenix, который является SQL-оберткой с открытым исходным кодом для Apache HBase. Позволяет использовать SQL-подобный синтаксис для запросов и управления данными, хранящимися в HBase.

С помощью интеграции Spark Apache Phoenix приложения Spark могут читать данные из таблиц Phoenix, используя PhoenixRDD, что обеспечивает распределенное представление данных, хранящихся в таблицах Phoenix.

Zeppelin
Zeppelin
Apache Zeppelin – это веб-блокнот для интерактивного анализа данных с помощью Apache Hadoop. Позволяет создавать и запускать data-driven процессы с использованием различных языков в единой интегрированной среде.
Airflow
Airflow
Airflow2 – это платформа для создания, планирования и мониторинга рабочих процессов. Платформа предоставляет веб-интерфейс для создания и управления процессами, которые могут включать такие задачи, как ввод, преобразование и загрузка данных.
AVRO
AVRO
AVRO – это двоичный формат данных, разработанный для компактности и быстродействия. Поддерживает эволюцию схемы, что позволяет изменять схему данных без необходимости перезаписи или перезагрузки данных.
PARQUET
PARQUET
PARQUET – это колоночный формат хранения данных, оптимизированный для обработки больших массивов данных. Он хранит данные в виде столбцов, что позволяет ускорить доступ к отдельным столбцам и повысить степень сжатия.
ORC
ORC
ORC (Optimized Row Columnar) – это еще один формат колоночного хранения данных, разработанный для обеспечения высокой эффективности и масштабируемости. Поддерживает функцию спуска условия (predicate push-down), что может значительно повысить производительность запросов.
DELTA
DELTA
DELTA – это транзакционный формат хранения данных, построенный на базе Parquet и обеспечивающий поддержку транзакций ACID. Он также поддерживает эволюцию схемы и предоставляет такие возможности, как версионирование и ретроспективные запросы (time travel).
XML
XML
XML – это язык разметки, используемый для представления структурированных данных. Spark может работать с XML-данными с помощью таких библиотек, как spark-xml.
JSON
JSON
JSON (JavaScript Object Notation) – это легковесный формат данных, который обычно используется для обмена данными между приложениями. Spark имеет встроенную поддержку для чтения и записи данных JSON.
Операционные системы
Alt Linux
Поддерживается Alt Linux 8.4 SP
CentOS
Поддерживается CentOS 7
RedHat
Поддерживается RedHat 7
Astra Linux
Поддерживается Astra Linux SE 1.7 Орел
Ubuntu
В разработке Ubuntu 22.04.2 LTS
RedOS
В разработке RedOS 7.3
Поддержка компонентов Hadoop
Функции высокой доступности и аварийного восстановления
Расширенные функции безопасности, включая шифрование, управление доступом на основе ролей
Автоматизированные инструменты управления и мониторинга
Автоматизация развертывания и обновления
Offline-установка
Техническая поддержка 24/7
Корпоративные обучающие курсы
Индивидуальные решения
Доступные интеграции
ADQM
Arenadata QuickMarts
Доступно только для Enterprise
ADB
ADB
Доступно только для Enterprise
ADPG
ADPG
  • Spark JDBC connector позволяет подключать Spark к любой JDBC-совместимой базе данных, например Arenadata Postgres (ADPG), и открывает новые возможности для анализа, обработки и визуализации данных.
  • Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
  • Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
ADS
ADS
  • Spark Streaming оптимизирует обработку данных в реальном времени с помощью Spark Streaming, Kafka или Arenadata Streaming (ADS), обеспечивая беспрепятственный ввод, обработку и анализ данных в масштабе.
  • Flink Apache Kafka connector обеспечивает высокопроизводительную обработку потоков, позволяя анализировать, преобразовывать и визуализировать данные в реальном времени в масштабе.
Oracle
Oracle
  • Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных, например Oracle, и открывает новые возможности для анализа, обработки и визуализации данных.
  • Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
  • Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
MS SQL
MS SQL
  • Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных, такой как MS SQL, и открывает новые возможности для анализа, обработки и визуализации данных.
  • Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
  • Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
AWS S3
AWS S3
  • Hadoop AWS Module обеспечивает поддержку AWS S3.
  • S3a connector позволяет быстро и эффективно получить доступ к данным, хранящимся в Simple Storage Service (S3) из приложений Spark.
  • Flink S3 connector позволяет использовать S3 с Flink для чтения и записи данных, а также в сочетании со streaming-бэкендами.
Azure Storage
Azure Storage
  • Hadoop Azure module обеспечивает интеграцию с ASB.
  • Spark WASB (Windows Azure Storage Blob) connector – это библиотека Apache Spark, которая позволяет приложениям Spark выполнять чтение и запись данных в Azure Blob Storage.
Azure Datalake
Azure Datalake
  • Spark ABFS (Azure Blob File System) connector предоставляет API для приложений Spark для чтения и записи данных непосредственно в ADLS Gen2 без необходимости размещения данных на локальном диске.
  • Flink ABS позволяет использовать Azure Blob Storage с Flink для чтения и записи данных.
GCS
GCS
  • Spark GS connector предоставляет API для приложений Spark для чтения и записи данных непосредственно в Google Cloud Storage без необходимости размещения данных на локальном диске.
  • Flink GCP можно использовать для чтения и записи данных, а также для хранения данных контрольных точек (checkpoint).
JDBC
JDBC
  • Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных и открывает новые возможности для анализа, обработки и визуализации данных.
  • Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
  • Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
Solr
Solr
Интеграция Spark Solr – это библиотека, которая позволяет приложениям Spark получать и записывать данные в Apache Solr. Благодаря интеграции Spark Solr приложения Spark могут читать данные из Solr, используя SolrRDD, что позволяет распараллелить обработку данных на кластере Spark.
Phoenix
Phoenix

Интеграция Spark Apache Phoenix – это библиотека, позволяющая приложениям Spark взаимодействовать с Apache Phoenix, который является SQL-оберткой с открытым исходным кодом для Apache HBase. Позволяет использовать SQL-подобный синтаксис для запросов и управления данными, хранящимися в HBase.

С помощью интеграции Spark Apache Phoenix приложения Spark могут читать данные из таблиц Phoenix, используя PhoenixRDD, что обеспечивает распределенное представление данных, хранящихся в таблицах Phoenix.

Zeppelin
Zeppelin
Apache Zeppelin – это веб-блокнот для интерактивного анализа данных с помощью Apache Hadoop. Позволяет создавать и запускать data-driven процессы с использованием различных языков в единой интегрированной среде.
Airflow
Airflow
Airflow2 – это платформа для создания, планирования и мониторинга рабочих процессов. Платформа предоставляет веб-интерфейс для создания и управления процессами, которые могут включать такие задачи, как ввод, преобразование и загрузка данных.
AVRO
AVRO
AVRO – это двоичный формат данных, разработанный для компактности и быстродействия. Поддерживает эволюцию схемы, что позволяет изменять схему данных без необходимости перезаписи или перезагрузки данных.
PARQUET
PARQUET
PARQUET – это колоночный формат хранения данных, оптимизированный для обработки больших массивов данных. Он хранит данные в виде столбцов, что позволяет ускорить доступ к отдельным столбцам и повысить степень сжатия.
ORC
ORC
ORC (Optimized Row Columnar) – это еще один формат колоночного хранения данных, разработанный для обеспечения высокой эффективности и масштабируемости. Поддерживает функцию спуска условия (predicate push-down), что может значительно повысить производительность запросов.
DELTA
DELTA
DELTA – это транзакционный формат хранения данных, построенный на базе Parquet и обеспечивающий поддержку транзакций ACID. Он также поддерживает эволюцию схемы и предоставляет такие возможности, как версионирование и ретроспективные запросы (time travel).
XML
XML
XML – это язык разметки, используемый для представления структурированных данных. Spark может работать с XML-данными с помощью таких библиотек, как spark-xml.
JSON
JSON
JSON (JavaScript Object Notation) – это легковесный формат данных, который обычно используется для обмена данными между приложениями. Spark имеет встроенную поддержку для чтения и записи данных JSON.
Операционные системы
Alt Linux
Доступно только для Enterprise
CentOS
Поддерживается CentOS 7
RedHat
Поддерживается RedHat 7
Astra Linux
Доступно только для Enterprise
Ubuntu
В разработке Ubuntu 22.04.2 LTS
RedOS
Доступно только для Enterprise
Компоненты
Hue

В разработке. HUE (Hadoop User Experience) – это веб-интерфейс экосистемы Hadoop для анализа данных.

Hue позволяет пользователям выполнять анализ данных без потери контекста. Цель состоит в том, чтобы продвигать самообслуживание и оставаться простыми, как Excel, чтобы пользователи могли находить, исследовать, запрашивать и анализировать имеющиеся данные

Одним из главных достоинств Hue является возможность подключения к различным источникам данных: Apache Hive, Impala, Flink SQL, Spark SQL, Phoenix, ksqlDB, Apache Hadoop HDFS, Ozone, HBase и пр.

Apache Ozone

В разработке. Apache Ozone – это масштабируемое и распределенное объектное хранилище с открытым исходным кодом, предназначенное для нагрузок с большими данными. Является частью экосистемы Apache Hadoop и построен поверх распределенной файловой системы Hadoop (HDFS).

Ozone разработан для обеспечения высокой производительности и масштабируемости при хранении и обработке больших объемов неструктурированных данных, таких как файлы журналов, изображения, видео и другие объекты данных. Он оптимизирован для нагрузок, требующих высокой пропускной способности и низкой задержки, таких как аналитика больших данных, машинное обучение и обработка потоковых данных.

Одной из ключевых особенностей Ozone является поддержка нескольких типов хранилищ, включая горячее (hot), теплое (warm) и холодное (cold). Это позволяет хранить данные в зависимости от шаблонов доступа и жизненного цикла, оптимизируя затраты и производительность.

Ozone также имеет встроенные возможности репликации и распределения данных, что позволяет хранить данные на нескольких узлах кластера Hadoop для повышения их доступности.

Smart Storage Manager
Technology preview.
Сервисы Technology Preview не предназначены для использования в продуктивной среде и могут быть неполными функционально. Они находятся в разработке и предоставляются клиенту для ознакомления и тестирования.
Smart Storage Manager - это сервис, цель которого - оптимизировать эффективность хранения и управления данными в Hadoop Distributed File System. SSM собирает данные о работе HDFS и информацию о состоянии системы и на основе собранных показателей может автоматически использовать такие методологии как кеш, политики хранения данных, управление гетерогенными хранилищами (HSM), сжатие данных и Erasure Coding. Кроме того, SSM предоставляет возможность настройки асинхронной репликации данных и пространства имен на резервный кластер с целью организации DR.
Apache Kyuubi

Apache Kyuubi — это распределенный многопользовательский шлюз для предоставления SQL для DWH и DataLake.

Kyuubi создает распределенные механизмы запросов SQL поверх различных видов современных вычислительных платформ, например, Apache Spark, Flink, Hive, Impala и т. д., чтобы получать и обрабатывать большие наборы распределенных данных из разнородных источников.

Apache Impala

Apache Impala – это движок для SQL-запросов с открытым исходным кодом, предназначенный для массивно-параллельной обработки (MPP) больших объемов данных в режиме реального времени. Позволяет выполнять интерактивные запросы к данным Apache Hadoop, хранящимся в HDFS/HBase. Impala был разработан как более быстрый и эффективный механизм запросов SQL для обработки больших данных по сравнению с традиционными SQL-движками, ориентированными на пакетную обработку.

Impala обеспечивает высокую производительность благодаря архитектуре MPP, которая позволяет распределять обработку данных между несколькими узлами кластера Hadoop. Impala также поддерживает такие расширенные возможности, как complex joins, подзапросы и агрегатные функции.

Impala разработан для простоты использования и интеграции с существующими инструментами BI и аналитики. Сервис поддерживает стандартные SQL-запросы и JDBC/ODBC-драйверы для простой интеграции с широким спектром приложений.

Apache ZooKeeper

Apache ZooKeeper – это распределенный сервис, предназначенный для координации больших распределенных систем. Он предоставляет централизованную инфраструктуру для поддержания информации о конфигурации, именовании, обеспечении распределенной синхронизации и предоставлении групповых сервисов. ZooKeeper широко используется в кластерах Hadoop для координации распределенных систем и обеспечения того, чтобы каждому узлу в кластере было известно о состоянии других узлов.

Hadoop Distributed File System (HDFS)

HDFS – масштабируемая и отказоустойчивая распределенная файловая система, составляющая основу платформы ADH. Позволяет хранить большие объемы данных на нескольких узлах кластера со встроенной избыточностью для постоянной доступности данных даже в случае отказа узла. HDFS оптимизирована для работы с большими файлами, что делает ее идеальным выбором для приложений больших данных.

Apache YARN

YARN – это система управления ресурсами и планирования задач, которая позволяет одновременно запускать несколько приложений в кластере Hadoop. YARN позволяет динамически распределять ресурсы кластера в зависимости от потребностей каждого приложения, а также контролировать и управлять этими ресурсами для обеспечения оптимальной производительности.

Apache HBase

Это база данных NoSQL, которая обеспечивает доступ в режиме реального времени для чтения/записи больших массивов данных, хранящихся в Hadoop. HBase разработана для обработки огромных объемов данных и оптимизирована для случайного доступа к данным в режиме реального времени, что делает ее популярным выбором для приложений big data, которым требуется доступ к большим массивам данных с низкой задержкой.

Apache Phoenix

Apache Phoenix – это SQL-подобный механизм запросов для Hadoop с открытым исходным кодом, предназначенный для быстрого и эффективного выполнения запросов к большим наборам данных. Phoenix построен на базе HBase, что означает, что он может обрабатывать огромные объемы данных с низкой задержкой и обеспечивает поддержку обновлений и доступа к данным в режиме реального времени.

Apache Spark

Apache Spark – это быстрый и мощный механизм обработки данных с открытым исходным кодом, который обеспечивает масштабируемые, отказоустойчивые возможности обработки данных для больших нагрузок. Компонент Apache Spark в составе Arenadata Hadoop обеспечивает высокопроизводительную и распределенную вычислительную структуру, которая может обрабатывать большие массивы данных параллельно на узлах кластера. Благодаря своим расширенным аналитическим возможностям, включая машинное обучение, обработку графов и SQL-подобные запросы, Apache Spark может помочь бизнесу извлечь ценные сведения из своих данных.

Apache Hive

Apache Hive – это инфраструктура хранилища данных с открытым исходным кодом, предоставляющая возможности обобщения данных, запросов и анализа больших наборов данных, хранящихся в Hadoop. Компонент Apache Hive в составе Arenadata Hadoop предоставляет SQL-подобный интерфейс для запросов к данным в Hadoop, позволяя бизнесу выполнять специальные запросы, осуществлять анализ данных и вести отчетность. Hive конвертирует SQL-запросы в MapReduce-задачи для выполнения в кластере Hadoop. Благодаря поддержке разбиения, индексирования и сжатия Hive может помочь бизнесу оптимизировать хранение и обработку данных в Hadoop.

Apache Tez

Apache Tez – это платформа обработки данных с открытым исходным кодом, которая обеспечивает гибкое, эффективное и масштабируемое выполнение сложных задач обработки данных в кластере Hadoop. При использовании вместе с Apache Hive Tez обеспечивает более быстрое и эффективное выполнение запросов Hive, заменяя механизм выполнения MapReduce на более оптимизированный.

Комбинация Hive + Tez в Arenadata Hadoop обеспечивает мощную и масштабируемую платформу для хранилищ данных, позволяя бизнесу выполнять специальные запросы, осуществлять анализ данных и вести отчетность в масштабе. Благодаря поддержке динамического планирования задач и разделения данных, Tez может ускорить обработку запросов, оптимизируя поток данных между операторами Hive.

Apache Flink

Apache Flink – это система обработки потоковых данных с открытым исходным кодом, которая позволяет обрабатывать большие объемы данных в реальном времени с низкой задержкой. Компонент Apache Flink в составе Arenadata Hadoop предоставляет распределенную вычислительную среду для обработки данных в реальном времени, которая может быть легко интегрирована с пакетной обработкой. Flink поддерживает событийно-ориентированную обработку и предоставляет единую модель программирования как для пакетной, так и для потоковой обработки, что делает его идеальным для построения конвейеров (pipelines) обработки данных. Благодаря своим расширенным возможностям, включая поддержку потоковой обработки данных с учетом состояния, оконной обработки и машинного обучения, Apache Flink может помочь компаниям получить представление о данных в реальном времени.

Apache Solr

Apache Solr – это поисковая платформа корпоративного уровня с открытым исходным кодом, построенная на базе поисковой библиотеки Apache Lucene. Solr представляет собой надежное и масштабируемое решение для поиска, которое используется организациями всех размеров для обеспечения функциональности поиска на их веб-сайтах, в мобильных и других приложениях.

Ключевые особенности
Экономия времени
Не требует длительной установки и настройки по сравнению с ручной установкой
Простота
Пользователи могут легко установить и настроить Hadoop, не обладая продвинутыми техническими навыками
Стандартизация
Стандартизированная установка на нескольких машинах, снижающая риск ошибок и несоответствий
Повышенная эффективность
Снижение риска простоя системы и общее повышение эффективности
Экспертиза
Наша команда оценивает исправленные баги, полученные от сообщества Hadoop, и определяет, какие из них следует включить в продукт
Arenadata Platform Security
версия Enterprise
Arenadata Platform Security (ADPS) – это комбинация следующих компонентов безопасности:
Apache Ranger
Apache Ranger - система безопасности с открытым исходным кодом, обеспечивающая централизованное управление политиками для Hadoop и других экосистем больших данных. Платформа Arenadata интегрируется с Apache Ranger для обеспечения контроля доступа на основе политик и авторизации для приложений данных и аналитики.
Apache Knox
Apache Knox – шлюз с открытым исходным кодом, который обеспечивает безопасный доступ к кластерам Hadoop и другим системам больших данных. Платформа Arenadata интегрируется с Apache Knox для обеспечения безопасного доступа к платформе и ее сервисам.
Вместе эти компоненты ADPS обеспечивают комплексную систему безопасности, включая управление доступом на основе политик, авторизацию и безопасный доступ к платформе и ее сервисам. Это помогает организациям защитить конфиденциальные данные и обеспечить соответствие нормативным требованиям.
ADB Spark Connector
Коннектор ADB Spark предоставляет возможность высокоскоростного параллельного обмена данными между Apache Spark и Arenadata DB.
Он обладает большой гибкостью в настройке и множеством функций, таких как:
  • высокая скорость передачи данных;
  • автоматическое формирование схемы данных;
  • гибкое партиционирование;
  • поддержка push-down операторов;
  • поддержка batch-операций.
ADQM Spark Connector
Многофункциональный коннектор с поддержкой параллельных операций чтения/записи между Apache Spark и Arenadata QuickMarts.
Обладает большой гибкостью в настройке и множеством функций, таких как:
  • высокая скорость передачи данных;
  • автоматическое формирование схемы данных;
  • гибкое партиционирование;
  • поддержка push-down операторов;
  • поддержка batch-операций.
Сравнение продуктов
Инфраструктура
Система управления
Arenadata Cluster Manager (ADCM)

Единое средство управления жизненным циклом всех продуктов Arenadata.

ADCM устанавливается с помощью одной команды и требует только Docker.

Cloudera Manager

Автоматическое развертывание и настройка.

Настраиваемый мониторинг и отчетность.

Встроенный мониторинг
Есть
Есть
Централизованный апгрейд
Есть
Есть
Поддержка IT-ландшафта
Возможность развертывания различных сочетаний bare metal, cloud
Есть

Используя механизмы инфраструктурных бандлов, ADH поддерживает установку на физические и виртуальные сервера (on-premises), частные и публичные облака по модели IaaS. Кроме того, инфраструктурные бандлы позволяют выполнять автоматическую установку в существующие узлы и создавать узлы “на лету” для части облачных провайдеров (YC, VK).

Есть

Возможно.

Поддержка cloud-провайдеров
Yandex Cloud;
VK Cloud;
Sber Cloud;
Google Cloud Platform.
Google Cloud Platform;
AWS;
Azure.
Поддержка отечественных операционных систем
Alt Linux
Есть
Нет
Astra Linux
Есть
Нет
Функционал
Offline-установка
Есть
Есть
Высокая доступность (HA)
Есть

ADH поддерживает режим высокой доступности основных критически важных сервисов платформы данных (YARN, HDFS, Hive).

Есть
Интеграция с другими продуктами
Есть

ADH поддерживает ряд собственных решений для интеграции:

  • Spark Tarantool (Picodata) Connector;
  • Spark Arenadata DB Connector;
  • Spark Arenadata QuickMarts Connector.

ADH также имеет:

  • поддержку Kerberos для PXF;
  • поддержку Informatica DEI 10.4 для ADH 2.X.
Есть
Настройки безопасности
SSL-шифрование
Есть

Управляется в ADCM.

Есть
Стандартное разделение доступа на основе Role Base Access Control
Есть

Гибкие настройки с помощью Ranger в отдельном продукте ADPS, может обслуживать несколько экземпляров ADH и других продуктов Arenadata.

Есть
Единая точка безопасного доступа
Есть

Knox в составе ADPS.

Есть
Дополнительно
Техническая поддержка 24/7
Есть
Есть
Исправления и доработки по требованию
Есть
Есть
Обучение/тренинги
Есть

Полноценное обучение работе с продуктами Arenadata.

Недоступно для РФ
Community-версия
Есть

ADH - единственный коммерческий дистрибутив, который имеет доступную бесплатную версию. Вы можете просто скачать её.

Нет
Документация
Есть

Подробная документация на русском и английском языках по всем сервисам, их установке, настройке и эксплуатации.

Находится в открытом доступе.

Есть

Документация на английском языке.

Находится в открытом доступе.

Регистрация в реестре отечественного ПО
Есть
Нет
Успешные внедрения
Есть

Дистрибутив ADH прошел «обкатку» в сотни тысяч часов на площадках более чем 20 лидеров РФ в качестве центральной платформы данных, где хранится и обрабатывается до 25 петабайт данных.

Есть
История релизов с описанием
Есть

В открытом доступе полная история релизов с версиями сервисов и описанием доработанного функционала.

Есть

В открытом доступе полная история релизов с версиями сервисов и описанием доработанного функционала.

Сравнение акутальных версий
Сервис

ADH 3.2.4.2

Cloudera 6.3.4

HDFS & YARN
3.2.4
3.0.0
Impala
4.2.0_arenadata1
3.2.0
Hive
3.1.3_arenadata6
2.1.1
HBase
2.4.17_arenadata1
2.1.4
Phoenix
5.1.3_arenadata2
5.0
Tez
0.10.1_arenadata1
0.9.2
Zeppelin
0.8.1
0.8.2
ZooKeeper
3.5.10
3.4.5
Sqoop
1.4.7_arenadata2
1.4.7
Airflow2
2.6.3
Solr
8.11.2
7.4.0
Spark2
2.3.2_arenadata2
2.4.0
Spark3
3.4.2_arenadata1
3.0.1
Knox
1.6.0
1.2.0
Ranger
2.4.0_arenadata1
2.1.0
Flink
1.17.1_arenadata1
Kyuubi
1.18.0_arenadata1
SSM
1.6.0_arenadata1
Hue
В разработке
4.4.0

Раздел "Сравнение продуктов" является актуальным на дату 15.01.2024.

Релизы
2023
ADH 3.2.4.2_b1
  • Добавлен новый сервис Kyuubi
  • Добавлен новый сервис SSM
  • Обновлен Spark3 до версии 3.4.2
  • Добавлен новый компонент Spark Connect для сервиса Spark3
  • Добавлена поддержка Spark3 для ADQM Spark Connector
  • Добавлены улучшения, связанные с информационной безопасностью
ADH 3.2.4.1_b2
  • Патч-релиз с исправлением ошибок.
ADH 3.2.4.1_b1
  • Обновлен Hadoop до версии 3.2.4. Также обновлено много других сервисов
  • Поддержка Astra Linux для ADH и ADPS
  • Поддержка Zstd в HDFS
  • Исключена уязвимость библиотеки log4j
  • Добавлен компонент Spark3 Thrift Server
  • Сервис Airflow1 исключен из бандла
ADH 3.1.2.1_b2
  • Патч-релиз с исправлением ошибок.
ADH 3.1.2.1
  • Добавлен новый сервис Apache Impala
  • HBase обновлен до 2.2.7
  • Solr обновлен до 8.11.2
  • Flink обновлен до 1.16.2
  • Ranger обновлен до 2.2.0
  • Реализовано автоматическое управление HA
  • Hive обновлен до версии 3.1.3_arenadata4, включая важные фиксы
  • Представлен Maintanence mode, позволяющий удалить любой сервер из кластера
ADH 2.1.10
  • Добавлена возможность выбора версии TLS для сервисов ADH
  • Добавлена поддержка пользовательских интерпретаторов Zeppelin
  • Версия Spark3 обновлена до 3.3.2
  • Добавлен новый компонент Spark History Server для Spark3
  • Hive обновлен до версии 3.1.3, включая важные фиксы
ADH 2.1.8
  • Airflow2: добавлен режим высокой доступности
  • Airflow2: добавлена поддержка аутентификации/авторизации с помощью LDAP
  • Airflow2: добавлена возможность внешней конфигурации брокера
  • Hive обновлен до версии 3.1.3, включая важные фиксы
ADH 2.1.7
  • Компонент livy-spark3 добавлен в сервис Spark3
  • Добавлена опция Apply configs from ADCM для всех сервисов
  • Доступна сборка Flink 1.15.1
  • Добавлена возможность подключения к Flink JobManager в режиме высокой доступности (high availability)
  • Выполнена оптимизация по проверке пакетов для процесса установки
ADH 2.1.6
  • Добавлена поддержка Alt Linux 8.4
  • Добавлена возможность керберизации кластера с помощью FreeIPA
  • Добавлена возможность кастомизации krb5.conf через ADCM
  • Добавлена возможность кастомизации ldap.conf через ADCM
ADH 2.1.4_b11
  • Добавлена возможность указания внешних nameservices
  • Добавлена возможность подключения к HiveServer2 в отказоустойчивом режиме
ADH 2.1.4_b10
  • Добавлена опция Rewrite current service SSL parameters для действия Enable SSL
  • Пользовательская аутентификация (LDAP/AD) включена для Hive2Server
  • Добавлен Ranger-плагин для авторизации Solr
  • Добавлена возможность удаления сервисов из кластера
  • Добавлена возможность кастомизации конфигурационных файлов через ADCM
  • Добавлена поддержка Kerberos REALM
ADH 2.1.4_b9
  • Аутентификация Kerberos включена для веб-интерфейса
  • Добавлена возможность настройки SSL в кластерах Hadoop
ADH 2.1.4_b5
  • Реализована возможность использования Active Directory в качестве хранилища Kerberos
  • Добавлена авторизация AD/LDAP/SIMPLE для Zeppelin
ADH 2.1.4_b3
  • Интеграция MIT Kerberos реализована в ADCM
  • Ranger-плагин теперь работает в сервисах с поддержкой Kerberos
ADH 2.1.4_b2
  • Добавлены действия с хостами
ADH 2.1.4_b1
  • Добавлена возможность использовать внешний инстанс PostgreSQL для Hive Metastore
  • Spark 3.1.1 реализован для ADH 2.X
  • Добавлена возможность offline-установки для ADH
ADH 2.1.3
  • Реализована интеграция с Ranger 2.0.0
ADH 2.1.2.5
  • Добавлены клиентские компоненты для Flink
  • Добавлены клиентские компоненты для HDFS
  • Добавлены клиентские компоненты для YARN
ADH 2.1.2.3
  • Бандлы ADH разделены на версии Community и Enterprise
  • Реализован режим высокой доступности для NameNode
ADH 2.1.2.2
  • Установка epel-release отключена
  • Nginx скопирован из репозитория Epel в репозиторий ADH2
ADH 2.1.2.1
  • Solr 8.2.0 добавлен для ADH 2.2
  • Sqoop добавлен в бандл ADH
ADH 2.1.2.0
  • Добавлена возможность настройки Hive ACID
  • Flink добавлен в бандл ADH
  • Поддержка GPU включена для YARN
  • Airflow добавлен в бандл ADH
ADH 2.1.1
  • Добавлена настройка YARN Scheduler
  • Реализован HDFS mover
  • В интерфейсе ADCM добавлена кнопка для установки всего кластера
ADH 2.1.0
Реализовано управление для следующих сервисов:
  • Livy Server
  • Zeppelin
  • Spark Thrift Server
  • Spark Thrift Server
  • Spark Server
  • Phoenix Server
  • HBase Thrift
  • HBase Region Server
  • HBase Master
  • Node Manager
  • Resource Manager
  • Timeline Service
  • WebHCat
  • MySQL
  • Hive Metastore
  • Hive Server
  • DataNodes
  • Secondary NameNodes
  • NameNodes