Подготовка к установке кластера

В разделе приведена информация и даны материалы для подготовки к установке кластера ADH:

Системные требования

Для корректного запуска Hadoop необходимо соблюдение минимальных системных требований, представленных в таблице.

Табл. 2. Минимальные системные требования для установки кластера Arenadata Hadoop
Компонент Требования
Платформа
  • Intel x86_64
Операционная система

Поддерживаются следующие 64-разрядные ОС:

  • Red Hat Enterprise Linux (RHEL) v7.X;
  • CentOS v7.X;

Установщик использует множество пакетов из базовых
репозиториев ОС. Если нет полного набора базовых
репозиториев ОС, доступных для всех компьютеров во
время установки, могут возникнуть проблемы.

В случае возникновения проблем с недоступными
базовыми хранилищами ОС, необходимо обратиться к
системному администратору для обеспечения
проксирования или зеркалирования этих дополнительных
репозиториев

Браузер

Arenadata Cluster Manager работает как веб-приложение
на основе браузера. Поэтому необходимо наличие
машины, способной использовать графический браузер
для применения данного веб-инструмента.

Минимальные требуемые версии браузера:

  • Internet Explorer 11.0 (устаревшая версия);
  • Firefox 18;
  • Google Chrome 26;
  • Safari 10;

На платформе рекомендуется обновить браузер до
последней, стабильной версии (кроме Internet
Explorer 11.0)

Программное обеспечение

На всех узлах кластера необходимо установить
следующие компоненты:

  • YUM и rpm (RHEL / CentOS);
  • Scp, curl, unzip, tar и wget;
Java

Поддерживаются следующие среды выполнения Java:

  • Oracle JDK 1.8 64-разрядный: минимум JDK 1.8.64;

Сбор информации

Перед развертыванием кластера ADH необходимо:

  • Проверить полное доменное имя (FQDN) каждого хоста в кластере. Для проверки и установки FQDN необходимо воспользоваться командой:

    hostname –f

Развертывание всех компонентов ADH на одном хосте возможно, но не рекомендуется для продуктивного использования. Как правило, для минимального кластера настраивается три узла – один главный и два подчиненных.

  • Определить список компонентов, которые необходимо настроить на каждом узле;
  • Установить базовые каталоги, которые будут определены в качестве точек для хранения:
    • Узла NameNode;
    • Узла (узлов) DataNode (в этих каталогах не должно содержаться никаких других данных);
    • Узла Secondary NameNode;
    • Узла YARN;
    • Узлов ZooKeeper, если устанавливается ZooKeeper;
    • Различных журналов, файлов pid и db, в зависимости от типа установки.

Необходимо использовать каталоги, которые предоставляют постоянные места хранения компонентов ADH и данных Hadoop.

Important

Не используйте /TMP каталог для установки, так как файлы могут быть удалены в любое время

Подготовка к установке Hadoop

Для корректного развертывания Arenadata Hadoop необходимо выполнить действия, описанные в главах:

Синхронизация часов на всех узлах кластера

Часам на всех узлах кластера необходимо иметь возможность синхронизации друг с другом. Для этого следует включить службу NTP и убедиться, что синхронизация происходит автоматически:

  • RHEL/CentOS 7.X:

    systemctl is-enabled ntpd

Для настрйоки службы NTP на автоматический запуск при загрузке машины необходимо выполнить следующую команду на каждом хосте:

  • RHEL/CentOS 7.X:

    systemctl enable ntpd

Для запуска службы NTP необходимо выполнить команду на каждом хосте:

  • RHEL/CentOS 7.X:

    systemctl start ntpd

Настройка DNS и NSCD

Все узлы в кластере должны быть настроены как для прямого, так и для обратного DNS.

В случае если не получается настроить DNS, необходимо отредактировать файл /etc/hosts на каждом узле кластера так, чтобы он содержал IP-адрес и FQDN каждого узла.

Приведенные инструкции представлены в виде обзора и охватывают базовую настройку сети для общих узлов Linux. Разные версии и варианты Linux могут потребовать различные команды и процедуры.

Hadoop сильно зависит от DNS и выполняет многие DNS-запросы во время работы. Для того, чтобы снизить нагрузку на инфраструктуру DNS, настоятельно рекомендуется использовать Name Service Caching Daemon (NSCD) на узлах кластера под управлением Linux. NSCD кэширует запросы хоста, пользователя и группы, а также обеспечивает лучшую производительность и снижает нагрузку на инфраструктуру DNS.

Редактирование файла хоста

Для редактирования файла хоста необходимо, используя текстовый редактор, открыть файл hosts на каждом узле кластера командой:

vi/etc/hosts

И добавить строку для каждого хоста, состоящую из IP-адреса и FQDN, например:

1.2.3.4 <fully.qualified.domain.name>
127.0.0.1 localhost.localdomain localhost
::1 localhost6.localdomain6 localhost6

Проверка имени хоста

Проверка установленного имени хоста осуществляется командой:

hostname –f

В результате для имени хоста возвращается значение fully.qualified.domain.name. Для установки имени на каждом узле кластера необходимо использовать команду:

hostname <имя узла>

Редактирование файла конфигурации сети

С помощью текстового редактора необходимо открыть файл конфигурации сети на каждом узле и установить ему требуемую конфигурацию сети для каждого узла:

vi /etc/sysconfig/network

Следует изменить свойство HOSTNAME, чтобы задать FQDN:

NETWORKING=yes
HOSTNAME=<fully.qualified.domain.name>

Настройка IPTables

Для взаимодействия во время установки компонентов с развернутыми узлами необходимо, чтобы определенные компоненты были открыты и доступны. Самый простой способ сделать это – временно отключить IPTables:

  • RHEL/CentOS 7:

    systemctl disable firewalld
    systemctl stop firewalld
    

По завершению установки следует перезапустить IPTables.

В случае если протоколы безопасности предотвращают отключение IPTables, можно продолжить работу с включенными IPTables при условии, что все необходимые порты открыты и доступны.

Настройка SELinux, PackageKit и Umask

Работа с SELinux не поддерживается, поэтому необходимо его отключить, выполнив команду:

  • RHEL/CentOS 7:

    setenforce 0
    

И установить значение /etc/selinux/config.

На установочном узле, где запущен RHEL/CentOS с установленным PackageKit, с помощью текстового редактора необходимо открыть /etc/yum/pluginconf.d/refresh-packagekit.conf и выполнить следующее изменение:

  • RHEL/CentOS 7:

    enabled=0
    

При создании нового файла или папки в системе Linux UMASK устанавливает разрешения по умолчанию или базовые разрешения. Большинство дистрибутивов Linux устанавливают UMASK значение по умолчанию 022. Это разрешение допускает чтение, запись и выполнение 755 для новых файлов или папок. Значение UMASK равное 027 допускает чтение, запись и выполнение 750 для новых файлов или папок.

Поддерживается оба значения UMASK. Например, чтобы установить значение UMASK равное 022, необходимо запустить команду в корне на всех хостах:

vi /etc/profile

Затем добавить следующую строку:

umask 022