Настройка HDFS
Для настройки HDFS существуют два способа:
-
Использование Arenadata Cluster Manager.
-
Редактирование файлов конфигурации с помощью любого текстового редактора.
Есть несколько основных файлов настройки:
-
core-site.xml
-
hdfs-site.xml
-
httpfs-site.xml
-
ranger-hdfs-audit.xml
-
ranger-hdfs-security.xml
-
hadoop-env.sh
Все эти файлы хранятся в каталоге <hadoop_home>/etc/hadoop/. Вы можете редактировать их, используя удобный для вас текстовый редактор.
ПРИМЕЧАНИЕ
Рекомендуемым инструментом для настройки кластера ADH является Arenadata Cluster Manager (ADCM). |
core-site.xml
Это самый важный файл конфигурации для HDFS. Его применяют для настройки текущего окружения Hadoop. Например, в нем указывают на каком узле работает NameNode или какие порты TCP используются.
За более подробной информацией обратитесь к разделу Параметры core-site.xml.
hdfs-site.xml
Данный файл содержит параметры настройки серверов NameNode и DataNode. Он также определяет размер блока для процесса репликации.
За более подробной информацией обратитесь к разделу Параметры hdfs-site.xml.
httpfs-site.xml
Вы можете использовать сервис HttpFS для взаимодействия с HDFS. В этом случае потребуется настраивать файл httpfs-site.xml. Этот файл нужен для следующих целей:
-
Высокая надежность доступа. Сервис WebHDFS не поддерживает автоматическое замещение сервера при отказе (High Availability failover). Для обеспечения этой функции наилучшей заменой этого сервиса является сервис HttpFS.
-
Подмена пользователя (impersonation). Пользователь, от имени которого работает сервис HDFS, не доступен для подмены. Если вы разрешили подмену пользователя в окружении с ограниченным использованием для этой цели суперпользователя HDFS, вы можете разрешить использование сервиса HttpFS и использовать суперпользователя HttpFS для имперсонации.
РЕКОМЕНДАЦИЯ
Если вы включили сервис HttpFS с использованием высокой надежности доступа (High Availability), исключите этот сервис из использования на главном узле, то есть NameNode, кластера ADH. |
За более подробной информацией обратитесь к разделу Параметры httpfs-site.xml.
hadoop-env.sh
Этот файл используют для настройки параметров, относящихся к операционному окружению. К таким относится, например, Java_HOME
. Hadoop использует JRE, и одной из переменных окружения является Java_Home
в файле hadoop-env.sh.
ranger-hdfs-audit.xml
Этот файл содержит параметры настройки аудиторского слежения и анализа политик в целях более глубокого наблюдения за рабочим окружением.
За более подробной информацией обратитесь к разделу Параметры ranger-hdfs-audit.xml.
ranger-hdfs-security.xml
Путем настройки Ranger можно разрешить работу Apache Ranger plugin для сервиса HDFS. Администратор системы безопасности имеет возможность настраивать уровни управления авторизацией для проверки прав доступа к HDFS с помощью параметров настройки в файле ranger-hdfs-security.xml.
Когда вы установите все параметры настройки, механизм авторизации (authorization engine) будет проверять списки управления доступом (Access Control Lists, ACL) HDFS. Если ACL запрещен путем установки соответствующего параметра в false
, то решение о предоставлении доступа обеспечивает политика Ranger без проверки списков доступа HDFS. Когда пользователь пытается получить доступ к данным через такие сервисы как Hive, происходит проверка политик доступа как самого сервиса, так и HDFS.
За более подробной информацией обратитесь к разделу Параметры ranger-hdfs-security.xml.