Arenadata Hadoop
ADH может использоваться для обработки и анализа больших объемов данных, таких как активность на веб-страницах, показания различных датчиков, информация из социальных сетей, финансовые данные. Полученная информация может быть ценной для анализа статистики поведения клиентов, тенденций рынка и других важных показателей.
ADH можно использовать в качестве платформы обработки данных для приложений машинного обучения и искусственного интеллекта. Это может помочь компаниям выстраивать прогнозные модели, обнаруживать аномалии и автоматизировать процессы принятия решений.
ADH можно использовать для интеграции данных из различных источников и форматов в единое, централизованное хранилище данных. Это может помочь бизнесу устранить разрозненность данных и обеспечить единое, согласованное представление данных.
ADH может использоваться для обнаружения и предотвращения мошенничества путем анализа больших объемов данных в режиме реального времени. Это может помочь предприятиям быстро выявлять и реагировать на мошеннические действия, сокращая убытки и защищая свою репутацию.
ADH можно использовать для обработки и анализа лог-данных, генерируемых ИТ-системами и приложениями. Это может помочь предприятиям вовремя устранить неполадки, выявить уязвимые места в производительности и повысить надежность системы.
- ADQM Spark connector обеспечивает возможность высокоскоростного параллельного обмена данными между ADH Apache Spark и Arenadata QuickMarts (ADQM).
- Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
- Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
- ADB Spark connector обеспечивает возможность высокоскоростного параллельного обмена данными между Apache Spark и Arenadata DB (ADB).
- Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
- Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
- Spark JDBC connector позволяет подключать Spark к любой JDBC-совместимой базе данных, например Arenadata Postgres (ADPG), и открывает новые возможности для анализа, обработки и визуализации данных.
- Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
- Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
- Spark Streaming оптимизирует обработку данных в реальном времени с помощью Spark Streaming, Kafka или Arenadata Streaming (ADS), обеспечивая беспрепятственный ввод, обработку и анализ данных в масштабе.
- Flink Apache Kafka connector обеспечивает высокопроизводительную обработку потоков, позволяя анализировать, преобразовывать и визуализировать данные в реальном времени в масштабе.
Apache Iceberg – это транзакционный формат хранения данных, построенный на базе Parquet и обеспечивающий поддержку транзакций ACID. Он также поддерживает эволюцию схемы, версионирование, ретроспективные запросы (time travel) и много другое.
- Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных, например Oracle, и открывает новые возможности для анализа, обработки и визуализации данных.
- Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
- Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
- Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных, такой как MS SQL, и открывает новые возможности для анализа, обработки и визуализации данных.
- Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
- Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
- Hadoop AWS Module обеспечивает поддержку AWS S3.
- S3a connector позволяет быстро и эффективно получить доступ к данным, хранящимся в Simple Storage Service (S3) из приложений Spark.
- Flink S3 connector позволяет использовать S3 с Flink для чтения и записи данных, а также в сочетании со streaming-бэкендами.
- Hadoop Azure module обеспечивает интеграцию с ASB.
- Spark WASB (Windows Azure Storage Blob) connector – это библиотека Apache Spark, которая позволяет приложениям Spark выполнять чтение и запись данных в Azure Blob Storage.
- Spark ABFS (Azure Blob File System) connector предоставляет API для приложений Spark для чтения и записи данных непосредственно в ADLS Gen2 без необходимости размещения данных на локальном диске.
- Flink ABS позволяет использовать Azure Blob Storage с Flink для чтения и записи данных.
- Spark GS connector предоставляет API для приложений Spark для чтения и записи данных непосредственно в Google Cloud Storage без необходимости размещения данных на локальном диске.
- Flink GCP можно использовать для чтения и записи данных, а также для хранения данных контрольных точек (checkpoint).
- Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных и открывает новые возможности для анализа, обработки и визуализации данных.
- Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
- Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
Интеграция Spark Apache Phoenix – это библиотека, позволяющая приложениям Spark взаимодействовать с Apache Phoenix, который является SQL-оберткой с открытым исходным кодом для Apache HBase. Позволяет использовать SQL-подобный синтаксис для запросов и управления данными, хранящимися в HBase.
С помощью интеграции Spark Apache Phoenix приложения Spark могут читать данные из таблиц Phoenix, используя PhoenixRDD, что обеспечивает распределенное представление данных, хранящихся в таблицах Phoenix.
- Spark JDBC connector позволяет подключать Spark к любой JDBC-совместимой базе данных, например Arenadata Postgres (ADPG), и открывает новые возможности для анализа, обработки и визуализации данных.
- Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
- Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
- Spark Streaming оптимизирует обработку данных в реальном времени с помощью Spark Streaming, Kafka или Arenadata Streaming (ADS), обеспечивая беспрепятственный ввод, обработку и анализ данных в масштабе.
- Flink Apache Kafka connector обеспечивает высокопроизводительную обработку потоков, позволяя анализировать, преобразовывать и визуализировать данные в реальном времени в масштабе.
- Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных, например Oracle, и открывает новые возможности для анализа, обработки и визуализации данных.
- Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
- Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
- Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных, такой как MS SQL, и открывает новые возможности для анализа, обработки и визуализации данных.
- Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
- Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
- Hadoop AWS Module обеспечивает поддержку AWS S3.
- S3a connector позволяет быстро и эффективно получить доступ к данным, хранящимся в Simple Storage Service (S3) из приложений Spark.
- Flink S3 connector позволяет использовать S3 с Flink для чтения и записи данных, а также в сочетании со streaming-бэкендами.
- Hadoop Azure module обеспечивает интеграцию с ASB.
- Spark WASB (Windows Azure Storage Blob) connector – это библиотека Apache Spark, которая позволяет приложениям Spark выполнять чтение и запись данных в Azure Blob Storage.
- Spark ABFS (Azure Blob File System) connector предоставляет API для приложений Spark для чтения и записи данных непосредственно в ADLS Gen2 без необходимости размещения данных на локальном диске.
- Flink ABS позволяет использовать Azure Blob Storage с Flink для чтения и записи данных.
- Spark GS connector предоставляет API для приложений Spark для чтения и записи данных непосредственно в Google Cloud Storage без необходимости размещения данных на локальном диске.
- Flink GCP можно использовать для чтения и записи данных, а также для хранения данных контрольных точек (checkpoint).
- Spark JDBC connector позволяет подключить Spark к любой JDBC-совместимой базе данных и открывает новые возможности для анализа, обработки и визуализации данных.
- Hive JdbcStorageHandler поддерживает чтение из JDBC-источника данных в Hive.
- Flink JDBC connector позволяет читать и записывать данные в любые реляционные базы данных с помощью JDBC-драйвера.
Интеграция Spark Apache Phoenix – это библиотека, позволяющая приложениям Spark взаимодействовать с Apache Phoenix, который является SQL-оберткой с открытым исходным кодом для Apache HBase. Позволяет использовать SQL-подобный синтаксис для запросов и управления данными, хранящимися в HBase.
С помощью интеграции Spark Apache Phoenix приложения Spark могут читать данные из таблиц Phoenix, используя PhoenixRDD, что обеспечивает распределенное представление данных, хранящихся в таблицах Phoenix.
Trino – это инструмент, предназначенный для эффективной обработки огромных объемов данных с использованием распределенных федеративных запросов.
Движок предоставляет возможность запрашивать множество разрозненных источников данных в одной системе с помощью одного и того же SQL, что значительно упрощает аналитику, требующую понимания общей картины всех ваших данных. Федеративные запросы в Trino могут получить доступ к вашему хранилищу объектов, основным реляционным базам данных и новой потоковой системе или системе NoSQL – и все это в одном запросе.
Apache Ozone – это масштабируемое и распределенное объектное хранилище с открытым исходным кодом, предназначенное для нагрузок с большими данными. Является частью экосистемы Apache Hadoop и построен поверх распределенной файловой системы Hadoop (HDFS).
Ozone разработан для обеспечения высокой производительности и масштабируемости при хранении и обработке больших объемов неструктурированных данных, таких как файлы журналов, изображения, видео и другие объекты данных. Он оптимизирован для нагрузок, требующих высокой пропускной способности и низкой задержки, таких как аналитика больших данных, машинное обучение и обработка потоковых данных.
Одной из ключевых особенностей Ozone является поддержка нескольких типов хранилищ, включая горячее (hot), теплое (warm) и холодное (cold). Это позволяет хранить данные в зависимости от шаблонов доступа и жизненного цикла, оптимизируя затраты и производительность.
Ozone также имеет встроенные возможности репликации и распределения данных, что позволяет хранить данные на нескольких узлах кластера Hadoop для повышения их доступности.
Apache Iceberg – это открытый высокопроизводительный формат для создания огромных аналитических таблиц. Iceberg привносит надежность и простоту SQL-таблиц в big data, позволяя таким движкам, как Spark, Trino, Flink, Hive, Impala и другим, безопасно работать с одними и теми же таблицами в одно и то же время.
Кроме того, формат предоставляет широкий набор функционала, который позволит эффективнее работать с вашими данными. К нему относятся Time Travel и Rollback, Schema Evolution, Hidden Partitioning, Data Compaction и многое другое.
Smart Storage Manager - это сервис, цель которого - оптимизировать эффективность хранения и управления данными в Hadoop Distributed File System. SSM собирает данные о работе HDFS и информацию о состоянии системы и на основе собранных показателей может автоматически использовать такие методологии как кеш, политики хранения данных, управление гетерогенными хранилищами (HSM), сжатие данных и Erasure Coding. Кроме того, SSM предоставляет возможность настройки асинхронной репликации данных и пространства имен на резервный кластер с целью организации DR.
HUE (Hadoop User Experience) – это веб-интерфейс экосистемы Hadoop для анализа данных.
Hue позволяет пользователям выполнять анализ данных без потери контекста. Цель состоит в том, чтобы продвигать самообслуживание и оставаться простыми, как Excel, чтобы пользователи могли находить, исследовать, запрашивать и анализировать имеющиеся данные
Одним из главных достоинств Hue является возможность подключения к различным источникам данных: Apache Hive, Impala, Flink SQL, Spark SQL, Phoenix, ksqlDB, Apache Hadoop HDFS, Ozone, HBase и пр.
Apache Kyuubi — это распределенный многопользовательский шлюз для предоставления SQL для DWH и DataLake.
Kyuubi создает распределенные механизмы запросов SQL поверх различных видов современных вычислительных платформ, например, Apache Spark, Flink, Hive, Impala и т. д., чтобы получать и обрабатывать большие наборы распределенных данных из разнородных источников.
Apache Impala – это движок для SQL-запросов с открытым исходным кодом, предназначенный для массивно-параллельной обработки (MPP) больших объемов данных в режиме реального времени. Позволяет выполнять интерактивные запросы к данным Apache Hadoop, хранящимся в HDFS/HBase. Impala был разработан как более быстрый и эффективный механизм запросов SQL для обработки больших данных по сравнению с традиционными SQL-движками, ориентированными на пакетную обработку.
Impala обеспечивает высокую производительность благодаря архитектуре MPP, которая позволяет распределять обработку данных между несколькими узлами кластера Hadoop. Impala также поддерживает такие расширенные возможности, как complex joins, подзапросы и агрегатные функции.
Impala разработан для простоты использования и интеграции с существующими инструментами BI и аналитики. Сервис поддерживает стандартные SQL-запросы и JDBC/ODBC-драйверы для простой интеграции с широким спектром приложений.
Apache ZooKeeper – это распределенный сервис, предназначенный для координации больших распределенных систем. Он предоставляет централизованную инфраструктуру для поддержания информации о конфигурации, именовании, обеспечении распределенной синхронизации и предоставлении групповых сервисов. ZooKeeper широко используется в кластерах Hadoop для координации распределенных систем и обеспечения того, чтобы каждому узлу в кластере было известно о состоянии других узлов.
HDFS – масштабируемая и отказоустойчивая распределенная файловая система, составляющая основу платформы ADH. Позволяет хранить большие объемы данных на нескольких узлах кластера со встроенной избыточностью для постоянной доступности данных даже в случае отказа узла. HDFS оптимизирована для работы с большими файлами, что делает ее идеальным выбором для приложений больших данных.
YARN – это система управления ресурсами и планирования задач, которая позволяет одновременно запускать несколько приложений в кластере Hadoop. YARN позволяет динамически распределять ресурсы кластера в зависимости от потребностей каждого приложения, а также контролировать и управлять этими ресурсами для обеспечения оптимальной производительности.
Это база данных NoSQL, которая обеспечивает доступ в режиме реального времени для чтения/записи больших массивов данных, хранящихся в Hadoop. HBase разработана для обработки огромных объемов данных и оптимизирована для случайного доступа к данным в режиме реального времени, что делает ее популярным выбором для приложений big data, которым требуется доступ к большим массивам данных с низкой задержкой.
Apache Phoenix – это SQL-подобный механизм запросов для Hadoop с открытым исходным кодом, предназначенный для быстрого и эффективного выполнения запросов к большим наборам данных. Phoenix построен на базе HBase, что означает, что он может обрабатывать огромные объемы данных с низкой задержкой и обеспечивает поддержку обновлений и доступа к данным в режиме реального времени.
Apache Spark – это быстрый и мощный механизм обработки данных с открытым исходным кодом, который обеспечивает масштабируемые, отказоустойчивые возможности обработки данных для больших нагрузок. Компонент Apache Spark в составе Arenadata Hadoop обеспечивает высокопроизводительную и распределенную вычислительную структуру, которая может обрабатывать большие массивы данных параллельно на узлах кластера. Благодаря своим расширенным аналитическим возможностям, включая машинное обучение, обработку графов и SQL-подобные запросы, Apache Spark может помочь бизнесу извлечь ценные сведения из своих данных.
Apache Hive – это инфраструктура хранилища данных с открытым исходным кодом, предоставляющая возможности обобщения данных, запросов и анализа больших наборов данных, хранящихся в Hadoop. Компонент Apache Hive в составе Arenadata Hadoop предоставляет SQL-подобный интерфейс для запросов к данным в Hadoop, позволяя бизнесу выполнять специальные запросы, осуществлять анализ данных и вести отчетность. Hive конвертирует SQL-запросы в MapReduce-задачи для выполнения в кластере Hadoop. Благодаря поддержке разбиения, индексирования и сжатия Hive может помочь бизнесу оптимизировать хранение и обработку данных в Hadoop.
Apache Tez – это платформа обработки данных с открытым исходным кодом, которая обеспечивает гибкое, эффективное и масштабируемое выполнение сложных задач обработки данных в кластере Hadoop. При использовании вместе с Apache Hive Tez обеспечивает более быстрое и эффективное выполнение запросов Hive, заменяя механизм выполнения MapReduce на более оптимизированный.
Комбинация Hive + Tez в Arenadata Hadoop обеспечивает мощную и масштабируемую платформу для хранилищ данных, позволяя бизнесу выполнять специальные запросы, осуществлять анализ данных и вести отчетность в масштабе. Благодаря поддержке динамического планирования задач и разделения данных, Tez может ускорить обработку запросов, оптимизируя поток данных между операторами Hive.
Apache Flink – это система обработки потоковых данных с открытым исходным кодом, которая позволяет обрабатывать большие объемы данных в реальном времени с низкой задержкой. Компонент Apache Flink в составе Arenadata Hadoop предоставляет распределенную вычислительную среду для обработки данных в реальном времени, которая может быть легко интегрирована с пакетной обработкой. Flink поддерживает событийно-ориентированную обработку и предоставляет единую модель программирования как для пакетной, так и для потоковой обработки, что делает его идеальным для построения конвейеров (pipelines) обработки данных. Благодаря своим расширенным возможностям, включая поддержку потоковой обработки данных с учетом состояния, оконной обработки и машинного обучения, Apache Flink может помочь компаниям получить представление о данных в реальном времени.
Apache Solr – это поисковая платформа корпоративного уровня с открытым исходным кодом, построенная на базе поисковой библиотеки Apache Lucene. Solr представляет собой надежное и масштабируемое решение для поиска, которое используется организациями всех размеров для обеспечения функциональности поиска на их веб-сайтах, в мобильных и других приложениях.
- высокая скорость передачи данных;
- автоматическое формирование схемы данных;
- гибкое партиционирование;
- поддержка push-down операторов;
- поддержка batch-операций.
- высокая скорость передачи данных;
- автоматическое формирование схемы данных;
- гибкое партиционирование;
- поддержка push-down операторов;
- поддержка batch-операций.
Единое средство управления жизненным циклом всех продуктов Arenadata.
ADCM устанавливается с помощью одной команды и требует только Docker.
Автоматическое развертывание и настройка.
Настраиваемый мониторинг и отчетность.
Используя механизмы инфраструктурных бандлов, ADH поддерживает установку на физические и виртуальные сервера (on-premises), частные и публичные облака по модели IaaS. Кроме того, инфраструктурные бандлы позволяют выполнять автоматическую установку в существующие узлы и создавать узлы “на лету” для части облачных провайдеров (YC, VK).
Возможно.
ADH поддерживает режим высокой доступности основных критически важных сервисов платформы данных (YARN, HDFS, Hive).
ADH поддерживает ряд собственных решений для интеграции:
- Spark Tarantool (Picodata) Connector;
- Spark Arenadata DB Connector;
- Spark Arenadata QuickMarts Connector.
ADH также имеет:
- поддержку Kerberos для PXF;
- поддержку Informatica DEI 10.4 для ADH 2.X.
Управляется в ADCM.
Гибкие настройки с помощью Ranger в отдельном продукте ADPS, может обслуживать несколько экземпляров ADH и других продуктов Arenadata.
Knox в составе ADPS.
Полноценное обучение работе с продуктами Arenadata.
ADH - единственный коммерческий дистрибутив, который имеет доступную бесплатную версию. Вы можете просто скачать её.
Подробная документация на русском и английском языках по всем сервисам, их установке, настройке и эксплуатации.
Находится в открытом доступе.
Документация на английском языке.
Находится в открытом доступе.
Дистрибутив ADH прошел «обкатку» в сотни тысяч часов на площадках более чем 20 лидеров РФ в качестве центральной платформы данных, где хранится и обрабатывается до 25 петабайт данных.
В открытом доступе полная история релизов с версиями сервисов и описанием доработанного функционала.
В открытом доступе полная история релизов с версиями сервисов и описанием доработанного функционала.
ADH 3.3.6.2
Cloudera 6.3.4
Раздел "Сравнение продуктов" является актуальным на дату 31.01.2025.
- Поддержка Ред ОС 7.3
- Новый сервис - Trino
- Новый сервис - Ozone
- Полная доступность сервиса SSM
- Поддержка SPNEGO для Impala
- Поддержка Ubuntu 22.04.2 LTS
- Обновление всех сервисов и компонентов
- Поддержка Apache Iceberg, а также дополнительных коннекторов/форматов для Flink
- Шифрование чувствительных данных в сервисных конфигурациях
- Поддержка SPNEGO для HUE
- Добавлен новый сервис - HUE
- Обновление сервисов: Impala, Spark, Kyuubi, Zeppelin
- Поддержка Apache Iceberg
- Добавлена LDAP-аутентификация для сервисов Impala и Kyuubi
- Добавлен Kyuubi AuthZ-плагин для Spark3
- Устранена необходимость устанавливать Axiom JDK при использовании Astra Linux
- Добавлена возможность изменить JAVA_HOME в кластере
- Исправлены ряд багов
- Устранена необходимость устанавливать Axiom JDK при использовании Astra Linux
- Добавлен новый сервис Kyuubi
- Добавлен новый сервис SSM
- Обновлен Spark3 до версии 3.4.2
- Добавлен новый компонент Spark Connect для сервиса Spark3
- Добавлена поддержка Spark3 для ADQM Spark Connector
- Добавлены улучшения, связанные с информационной безопасностью
- Патч-релиз с исправлением ошибок.
- Обновлен Hadoop до версии 3.2.4. Также обновлено много других сервисов
- Поддержка Astra Linux для ADH и ADPS
- Поддержка Zstd в HDFS
- Исключена уязвимость библиотеки log4j
- Добавлен компонент Spark3 Thrift Server
- Сервис Airflow1 исключен из бандла
- Патч-релиз с исправлением ошибок.
- Добавлен новый сервис Apache Impala
- HBase обновлен до 2.2.7
- Solr обновлен до 8.11.2
- Flink обновлен до 1.16.2
- Ranger обновлен до 2.2.0
- Реализовано автоматическое управление HA
- Hive обновлен до версии 3.1.3_arenadata4, включая важные фиксы
- Представлен Maintanence mode, позволяющий удалить любой сервер из кластера
- Добавлена возможность выбора версии TLS для сервисов ADH
- Добавлена поддержка пользовательских интерпретаторов Zeppelin
- Версия Spark3 обновлена до 3.3.2
- Добавлен новый компонент Spark History Server для Spark3
- Hive обновлен до версии 3.1.3, включая важные фиксы
- Airflow2: добавлен режим высокой доступности
- Airflow2: добавлена поддержка аутентификации/авторизации с помощью LDAP
- Airflow2: добавлена возможность внешней конфигурации брокера
- Hive обновлен до версии 3.1.3, включая важные фиксы
- Компонент livy-spark3 добавлен в сервис Spark3
- Добавлена опция Apply configs from ADCM для всех сервисов
- Доступна сборка Flink 1.15.1
- Добавлена возможность подключения к Flink JobManager в режиме высокой доступности (high availability)
- Выполнена оптимизация по проверке пакетов для процесса установки
- Добавлена поддержка Alt Linux 8.4
- Добавлена возможность керберизации кластера с помощью FreeIPA
- Добавлена возможность кастомизации krb5.conf через ADCM
- Добавлена возможность кастомизации ldap.conf через ADCM
- Добавлена возможность указания внешних nameservices
- Добавлена возможность подключения к HiveServer2 в отказоустойчивом режиме
- Добавлена опция Rewrite current service SSL parameters для действия Enable SSL
- Пользовательская аутентификация (LDAP/AD) включена для Hive2Server
- Добавлен Ranger-плагин для авторизации Solr
- Добавлена возможность удаления сервисов из кластера
- Добавлена возможность кастомизации конфигурационных файлов через ADCM
- Добавлена поддержка Kerberos REALM
- Аутентификация Kerberos включена для веб-интерфейса
- Добавлена возможность настройки SSL в кластерах Hadoop
- Реализована возможность использования Active Directory в качестве хранилища Kerberos
- Добавлена авторизация AD/LDAP/SIMPLE для Zeppelin
- Интеграция MIT Kerberos реализована в ADCM
- Ranger-плагин теперь работает в сервисах с поддержкой Kerberos
- Добавлены действия с хостами
- Добавлена возможность использовать внешний инстанс PostgreSQL для Hive Metastore
- Spark 3.1.1 реализован для ADH 2.X
- Добавлена возможность offline-установки для ADH
- Реализована интеграция с Ranger 2.0.0
- Добавлены клиентские компоненты для Flink
- Добавлены клиентские компоненты для HDFS
- Добавлены клиентские компоненты для YARN
- Бандлы ADH разделены на версии Community и Enterprise
- Реализован режим высокой доступности для NameNode
- Установка epel-release отключена
- Nginx скопирован из репозитория Epel в репозиторий ADH2
- Solr 8.2.0 добавлен для ADH 2.2
- Sqoop добавлен в бандл ADH
- Добавлена возможность настройки Hive ACID
- Flink добавлен в бандл ADH
- Поддержка GPU включена для YARN
- Airflow добавлен в бандл ADH
- Добавлена настройка YARN Scheduler
- Реализован HDFS mover
- В интерфейсе ADCM добавлена кнопка для установки всего кластера
- Livy Server
- Zeppelin
- Spark Thrift Server
- Spark Thrift Server
- Spark Server
- Phoenix Server
- HBase Thrift
- HBase Region Server
- HBase Master
- Node Manager
- Resource Manager
- Timeline Service
- WebHCat
- MySQL
- Hive Metastore
- Hive Server
- DataNodes
- Secondary NameNodes
- NameNodes