Настройка HDFS

Для настройки HDFS существуют два способа:

  • Использование Arenadata Cluster Manager.

  • Редактирование файлов конфигурации с помощью любого текстового редактора.

 
Есть несколько основных файлов настройки:

  • core-site.xml

  • hdfs-site.xml

  • httpfs-site.xml

  • ranger-hdfs-audit.xml

  • ranger-hdfs-security.xml

  • hadoop-env.sh

Все эти файлы хранятся в каталоге <hadoop_home>/etc/hadoop/. Вы можете редактировать их, используя удобный для вас текстовый редактор.

ПРИМЕЧАНИЕ

Рекомендуемым инструментом для настройки кластера ADH является Arenadata Cluster Manager (ADCM).

core-site.xml

Это самый важный файл конфигурации для HDFS. Его применяют для настройки текущего окружения Hadoop. Например, в нем указывают на каком узле работает NameNode или какие порты TCP используются.

За более подробной информацией обратитесь к разделу Параметры core-site.xml.

hdfs-site.xml

Данный файл содержит параметры настройки серверов NameNode и DataNode. Он также определяет размер блока для процесса репликации.

За более подробной информацией обратитесь к разделу Параметры hdfs-site.xml.

httpfs-site.xml

Вы можете использовать сервис HttpFS для взаимодействия с HDFS. В этом случае потребуется настраивать файл httpfs-site.xml. Этот файл нужен для следующих целей:

  • Высокая надежность доступа. Сервис WebHDFS не поддерживает автоматическое замещение сервера при отказе (High Availability failover). Для обеспечения этой функции наилучшей заменой этого сервиса является сервис HttpFS.

  • Подмена пользователя (impersonation). Пользователь, от имени которого работает сервис HDFS, не доступен для подмены. Если вы разрешили подмену пользователя в окружении с ограниченным использованием для этой цели суперпользователя HDFS, вы можете разрешить использование сервиса HttpFS и использовать суперпользователя HttpFS для имперсонации.

РЕКОМЕНДАЦИЯ

Если вы включили сервис HttpFS с использованием высокой надежности доступа (High Availability), исключите этот сервис из использования на главном узле, то есть NameNode, кластера ADH.

За более подробной информацией обратитесь к разделу Параметры httpfs-site.xml.

hadoop-env.sh

Этот файл используют для настройки параметров, относящихся к операционному окружению. К таким относится, например, Java_HOME. Hadoop использует JRE, и одной из переменных окружения является Java_Home в файле hadoop-env.sh.

ranger-hdfs-audit.xml

Этот файл содержит параметры настройки аудиторского слежения и анализа политик в целях более глубокого наблюдения за рабочим окружением.

За более подробной информацией обратитесь к разделу Параметры ranger-hdfs-audit.xml.

ranger-hdfs-security.xml

Путем настройки Ranger можно разрешить работу Apache Ranger plugin для сервиса HDFS. Администратор системы безопасности имеет возможность настраивать уровни управления авторизацией для проверки прав доступа к HDFS с помощью параметров настройки в файле ranger-hdfs-security.xml.

Когда вы установите все параметры настройки, механизм авторизации (authorization engine) будет проверять списки управления доступом (Access Control Lists, ACL) HDFS. Если ACL запрещен путем установки соответствующего параметра в false, то решение о предоставлении доступа обеспечивает политика Ranger без проверки списков доступа HDFS. Когда пользователь пытается получить доступ к данным через такие сервисы как Hive, происходит проверка политик доступа как самого сервиса, так и HDFS.

За более подробной информацией обратитесь к разделу Параметры ranger-hdfs-security.xml.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней