Добавление сервисов

В ADCM сервис означает программное обеспечение, выполняющее некоторую функцию. Примеры сервисов в кластерах ADH: HDFS, HBase, Hive и другие. Для добавления сервисов в кластер:

  1. Выберите кластер на странице Clusters. Для этого нажмите на имя кластера в столбце Name.

    Выбор кластера
    Выбор кластера
  2. Откройте вкладку Services на странице кластера и нажмите Add service.

    Переход к добавлению сервисов
    Переход к добавлению сервисов
  3. В открывшемся окне выберите сервисы для добавления в кластер и нажмите Add.

    Выбор сервисов
    Выбор сервисов

    Краткое описание доступных сервисов приведено ниже.

    Сервисы, которые могут быть добавлены в кластер ADH
    Сервис Назначение

    Airflow

    Сервис для создания, планирования и мониторинга процессов, представленных в форме ориентированных ациклических графов (Directed Acyclic Graphs, DAG). Используется в кластерах Hadoop для построения процессов ETL/ELT

    Airflow2

    По сравнению с версией Airflow 1.x, Airflow2 предлагает дополнительные функции: высокую отказоустойчивость (High Availability), уменьшенная задержка выполнения задач, полный REST API, TaskFlow API, группы задач, независимые провайдеры и другие

    Flink

    Распределенная платформа, используемая в высоконагруженных приложениях Big Data для анализа данных, хранимых в кластерах Hadoop. Наиболее частые сценарии использования: приложения, управляемые событиями (event-driven), потоковая и пакетная аналитика, конвейеры данных, ETL и другое

    HBase

    Нереляционная распределенная база данных, написанная на Java и работающая поверх HDFS. Относится к классу колоночных СУБД, хранящих данные в формате key-value. Используется для произвольного доступа к большим данным на чтение и запись в режиме реального времени

    HDFS

    Распределенная файловая система, используемая в кластерах Hadoop для хранения больших файлов. Обеспечивает возможность потокового доступа к информации, распределенной поблочно по нодам кластера

    Hive

    Сервис, предназначенный для создания корпоративных хранилищ данных (Data Warehouse, DWH) и анализа Big Data. Работает поверх HDFS и других совместимых систем, таких как Apache HBase. Использование Hive облегчает запись, чтение и управление большими наборами данных, хранимыми в распределенных системах

    Impala

    Impala обеспечивает быстрые интерактивные SQL-запросы к данным, хранящимся в HDFS, HBase или S3-хранилище. В дополнение к унифицированной платформе хранения Impala также использует те же метаданные, синтаксис SQL (Hive SQL) и драйвер JDBC, что и Apache Hive. Это делает Impala унифицированной платформой для запросов в режиме реального времени или пакетных запросов

    Kyuubi

    Apache Kyuubi — это распределенный многопользовательский шлюз для предоставления SQL для DWH и DataLake. Kyuubi создает распределенные механизмы запросов SQL поверх различных видов современных вычислительных платформ, например, Apache Spark, Flink, Hive, Impala и т. д., чтобы получать и обрабатывать большие наборы распределенных данных из разнородных источников

    Monitoring

    Сервис, добавляемый в случаях, когда запланирована настройка мониторинга ADH через ADCM

    Maria DB

    Maria DB — реляционная база данных, построенная на основе MySQL и совместимая с ним. Некоторые команды и интерфейсы MariaDB ближе к NoSQL, чем к SQL. Например, MariaDB поддерживает такие типы хранения данных, как Column Store (для хранения колоночных данных и поддержки распределенной архитектуры), OQGRAPH (для хранения древовидных и графических структур) и другие

    Solr

    Поисковая платформа, основанная на проекте Apache Lucene. Основные функции Solr включают полнотекстовый поиск, фасетный поиск, выделение результатов поиска (highlighting), распределенное индексирование, интеграцию с базами данных, обработку документов со сложными форматами (Word, PDF и так далее), запросы с балансировкой нагрузки, централизованную настройку и другое

    Spark

    Spark 2.x. Аналитический фреймворк, используемый для быстрой обработки больших объемов данных. Spark может работать в кластерах Hadoop, используя standalone-режим YARN или Spark. Он может обрабатывать данные, поступающие в форматах HDFS, HBase, Cassandra, Hive и любых других форматах, поддерживаемых в Hadoop. Применяется для пакетной обработки и других задач: потоковой передачи, машинного обучения, интерактивных запросов и так далее

    Spark3

    Spark 3.x. По сравнению с версией Spark 2.x, Spark 3.x предлагает дополнительные функции: адаптивное выполнение Spark SQL, Dynamic Partition Pruning (DPP), обработку графов, расширенную поддержка Deep Learning и другое

    Sqoop

    Сервис, предназначенный для передачи объемных данных между Hadoop и реляционными базами данных или мейнфреймами. Sqoop можно использовать, например, для импорта данных из MySQL, Oracle и других систем управления реляционными базами данных (РСУБД) в кластеры Hadoop, преобразования данных определенным образом и последующего экспорта данных обратно в РСУБД

    SSM

    Smart Storage Manager — это сервис, цель которого — оптимизировать эффективность хранения и управления данными в Hadoop Distributed File System. SSM собирает данные о работе HDFS и информацию о состоянии системы и на основе собранных показателей может автоматически использовать такие методологии как кеш, политики хранения данных, управление гетерогенными хранилищами (HSM), сжатие данных и Erasure Coding. Кроме того, SSM предоставляет возможность настройки асинхронной репликации данных и пространства имен на резервный кластер с целью организации DR

    YARN

    Сервис, необходимый для управления ресурсами кластера и планирования/мониторинга задач (jobs). Использует специальный демон (Resource Manager), абстрагирующий все вычислительные ресурсы кластера и управляющий их предоставлением распределенным приложениям

    Zeppelin

    Сервис, который играет роль web-блокнота и обеспечивает интерактивный анализ данных. Позволяет создавать запросы к данным в кластерах Hadoop и отображать результаты в виде таблиц, графиков, диаграмм и так далее

    Zookeeper

    Сервис централизованного управления распределенными приложениями. Он используется в кластерах Hadoop для обнаружения сбоев, выбора активных NameNode, мониторинга работоспособности (health checks), управления сеансами и так далее

    Минимальный набор сервисов, рекомендуемый для кластеров ADH, приведен ниже:

    • HDFS;

    • YARN;

    • Zookeeper (опционально для Community-версии ADH).

    Эти сервисы составляют ядро Hadoop и являются достаточными для организации распределенного хранения и обработки данных. Полный перечень сервисов будет зависеть от требований конкретного проекта.

  4. В результате успешно добавленные сервисы отображаются на вкладке Services.

    Результат успешного добавления сервисов в кластер
    Результат успешного добавления сервисов в кластер
ПРИМЕЧАНИЕ
Опциональные сервисы могут быть добавлены в кластер позднее. Процесс добавления сервисов в уже развернутый кластер не отличается от описанного выше.
Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней