Глоссарий
- ACL
-
Access Control List — определяет пользователей или группы, которые имеют доступ к конкретным объектам, а также операции, которые им разрешено или запрещено выполнять над этими объектами.
- AD
-
Active Directory — служба каталогов корпорации Microsoft для операционных систем семейства Windows Server. Первоначально создавалась как LDAP-совместимая реализация службы каталогов. Однако начиная с Windows Server 2008, включает возможности интеграции с другими службами авторизации, выполняя для них интегрирующую и объединяющую роль.
Позволяет администраторам использовать групповые политики для обеспечения единообразия настройки пользовательской рабочей среды, разворачивать программное обеспечение на множестве компьютеров через групповые политики или посредством System Center Configuration Manager (ранее — Microsoft Systems Management Server), устанавливать обновления операционной системы, прикладного и серверного программного обеспечения на всех компьютерах в сети, используя Службу обновления Windows Server. Хранит данные и настройки среды в централизованной базе данных. Сети Active Directory могут быть различного размера: от нескольких десятков до нескольких миллионов объектов.
- API
-
Application programming interface — набор готовых классов, процедур, функций, структур данных и констант, предоставляемых приложением (библиотекой, службой) или операционной системой для использования во внешних программных продуктах.
- Arenadata Unified Data Platform
-
Интегрированный набор коммерческих компонентов, основанный на решениях с открытым исходным кодом.
- Cache Directive
-
Определяет пути в файловой системе HDFS для кеширования. Пути могут указывать либо на каталоги, либо на файлы. Каталоги не кешируются рекурсивно, кешируются только файлы первого уровня в каталогах. Директивы кеша также определяют дополнительные параметры, такие как кеш коэффициента репликации и время окончания.
- Cache Pool
-
Административный объект, используемый для управления группами Cache Directive. Кеш-пулы используют разрешения Unix, которые ограничивают доступ пользователей и групп к пулу.
- CLI
-
Интерфейс командной строки — вид текстового пользовательского интерфейса, в котором инструкции компьютеру передаются путем набора текстовых команд с клавиатуры. Другие названия — консоль и терминал.
- Cluster
-
Группа серверов и координирующего программного обеспечения, объединенных логически, способных обрабатывать одинаковые запросы и действовать как единый ресурс.
- DataNode
-
Рабочий сервер, представляющий собой программный код, выполняющийся, как правило, на отдельном узле HDFS и отвечающий за операции на файловом уровне, такие как запись, чтение данных и выполнение команд, полученных от NameNode: создание, удаление, репликация блоков и так далее.
Помимо этого, DataNode также выполняет следующие функции:
-
Периодическая отправка сообщений о состоянии (heartbeat-сигналы).
-
Обработка запросов на чтение и запись, полученных от HDFS-клиентов, так как данные поступают от остальных машин кластера к клиенту, минуя NameNode.
-
- Distribution Package
-
Форма распространения программного обеспечения. Обычно содержит программы для первой инициализации системы.
- DNS
-
Domain Name System — распределённая иерархическая система для получения информации о компьютерах, доменах, службах и других ресурсах, доступных через интернет или по другим сетевым протоколам. Чаще всего используется для получения IP-адреса по имени хоста (компьютера или устройства), получения информации о маршрутизации почты и/или обслуживающих узлах для протоколов в домене.
Распределённая база данных DNS поддерживается с помощью иерархии DNS-серверов, взаимодействующих по определённому протоколу.
- DNS Server
-
Приложение, предназначенное для ответов на DNS-запросы по соответствующему протоколу. Также DNS-сервером могут называть хост, на котором запущено соответствующее приложение.
- ECC memory
-
Error-correcting code memory — тип компьютерной памяти, которая автоматически распознаёт и исправляет спонтанно возникшие изменения (ошибки) битов памяти.
- FD
-
File Descriptor — целое положительное число, которое позволяет открыть доступ к потокам ввода-вывода, связанным с файлами, директориями, сокетами и очередями типа FIFO. При получении доступа к файлу по имени процесс получает дескриптор файла, который предоставляет доступ к объекту файла. Обращение к объекту по дескриптору происходит быстрее, чем при использовании имени.
- Firewall
-
Компонент программного обеспечения, который позволяет защитить компьютер от взлома злоумышленниками, защищает от вирусов и троянов. Благодаря этой системе повышается уровень безопасности сетей и большинство компьютерных атак отражаются путем фильтрации сетевого трафика.
- FreeIPA
-
Система управления идентификацией пользователей с открытым исходным кодом для сетей на базе Linux/UNIX. FreeIPA использует Fedora Linux, 389 Directory Server, MIT Kerberos, NTP, DNS, систему сертификатов DogTag, SSSD и другие компоненты с открытым исходным кодом. Основное назначение FreeIPA — предоставление функционала, схожего с Active Directory.
- FQDN
-
Fully Qualified Domain Name — имя домена, не имеющее неоднозначностей в определении. Включает в себя имена всех родительских доменов иерархии DNS. FQDN завершаются точкой (например, example.com.), то есть включает корневое доменное имя, которое является безымянным (пустым).
- Gateway
-
Сетевое устройство для передачи трафика между двумя сетями, которые обладают разными характеристиками, используют разные протоколы или технологии. Одним из популярных назначений использования сетевого шлюза является предоставление доступа из локальной сети (LAN) во внешнюю (Интернет).
- HAR
-
Архив Hadoop.
- HBase
-
Нереляционная распределенная база данных с открытым исходным кодом, написанная на Java. Является аналогом Google BigTables.
Разработана как часть проекта Apache Software Foundation Hadoop. Работает поверх HDFS и обеспечивает возможности для Hadoop, схожие с BigTable. Например, предоставляет отказоустойчивый способ хранения больших объемов разреженных данных.
- HDFS
-
Hadoop Distributed File System — файловая система для хранения больших данных, распределенных в виде блоков на узлах кластера. Все блоки в HDFS (кроме последнего блока файла) имеют одинаковый размер, и каждый блок может размещаться на нескольких узлах. Размер блока и фактор репликации (количество узлов, на которые должен реплицироваться каждый блок) определяются в настройках на уровне файла. Благодаря репликации распределенная система устойчива к сбоям отдельных узлов.
- Heap
-
Динамически выделяемая область памяти, создаваемая при запуске JVM.
- Host
-
Компьютер или другое устройство, имеющее доступ к сети. Хост может выполнять функции сервера, предоставляя информацию о ресурсах, услугах и приложениях пользователям или другим хостам. Каждому хосту в сети присваивается как минимум один сетевой адрес.
- Inode
-
Index Descriptor — структура данных в традиционных файловых системах Unix, таких как: UFS, ext4 и так далее. В этой структуре хранится метаинформация о стандартных файлах, каталогах и других объектах файловой системы, кроме самих данных и имени.
- Instance
-
Экземпляр программного обеспечения, работающий на одном физическом или виртуальном сервере. В объектно-ориентированном программировании этим термином также называется объект класса.
- IP
-
Internet Protocol Address — уникальный сетевой адрес узла в компьютерной сети, построенной на основе стека протоколов TCP/IP. IP-адрес состоит из двух частей: номера сети и номера узла.
- IOPS
-
Input/output operations per second — количество операций ввода/вывода, выполняемых системой хранения данных за одну секунду.
- JCE
-
Java Cryptography Extension — официальное стандартное расширение для платформы Java и часть архитектуры криптографии Java (Java Cryptography Architecture, JCA). Это набор пакетов, обеспечивающих выполнение криптографических функций, таких как: шифрование и дешифрование данных, генерация и проверка ключей управления, а также реализация алгоритмов кода аутентификации сообщений (Message Authentication Code, MAC).
- JMX
-
Java Management Extensions — технология Java, предназначенная для контроля и управления приложениями, системными объектами, устройствами (например, принтерами) и компьютерными сетями.
- JNI
-
Java Native Interface — cтандартный механизм запуска кода в JVM, который написан на языках C/C++ или Assembler и компилируется в виде динамических библиотек. Позволяет не использовать статическое связывание.
- Kerberos KDC
-
Key Distribution Center — сторонний механизм аутентификации, который используется пользователями и сервисами для аутентификации.
Включает в себя 3 составляющие:
-
База данных пользователей и служб (принципалы), к которой имеет доступ KDC, и соответствующие пароли Kerberos.
-
Сервер аутентификации (Authentication Server, AS), который выполняет первоначальную аутентификацию и выдает тикет на предоставление тикетов (Ticket Granting Ticket, TGT).
-
Сервер выдачи тикетов (Ticket Granting Server, TGS) — сервер, который выдает тикеты на основе исходного тикета на выдачу тикетов.
-
- Kerberos Authentication Server
-
Сервер аутентификации, главная функция которого — получение запроса, содержащего имя клиента, запрашивающего аутентификацию, и возвращение клиенту зашифрованного тикета на выдачу тикетов (TGT). Позднее пользователь может использовать этот TGT для дальнейших запросов. В большинстве реализаций Kerberos время жизни TGT составляет 8-10 часов. После этого клиент должен снова запросить TGT у cервера аутентификации.
- Kerberos Keytab
-
Файл, содержащий один или несколько принципалов и их ключи. Используется для аутентификации в инфраструктуре Kerberos и позволяет не вводить имена пользователей и пароли вручную.
- Kerberos Principal
-
Уникальное имя пользователя или службы.
- Kerberos Realm
-
Сеть Kerberos, которая включает KDC и несколько клиентов.
- Kerberos TGS
-
Ticket Granting Server — сервер для выдачи разрешений.
- Kerberos TGT
-
Ticket Granting Ticket — включает копию сеансового ключа, имя пользователя и срок действия тикета. TGT зашифрован с использованием собственного главного ключа KDC и может быть расшифрован только самой службой KDC.
- LDAP
-
Lightweight Directory Access Protocol — протокол, использующий TCP/IP и позволяющий выполнять операции аутентификации, поиска и сравнения, а также операции добавления, изменения или удаления записей.
- MapReduce
-
Сервис для программирования распределенных вычислений в рамках парадигмы MapReduce. Разработчику приложения для Hadoop MapReduce необходимо реализовать базовый обработчик, преобразующий исходные пары ключ/значение на каждом вычислительном узле кластера в промежуточный набор пар ключ/значение (класс, реализующий интерфейс Mapper), и обработчик, преобразующий промежуточный набор пар в окончательный набор (реализация интерфейса Reducer).
- Metadata
-
Структурированная служебная информация об используемых данных. Содержит характеристики, полезные для идентификации, поиска, оценки и управления.
- MTBF
-
Mean time between failures — среднее время с момента восстановления функционального состояния системы после отказа до момента следующего отказа.
- MySQL
-
Система управления реляционными базами данных с открытым исходным кодом.
- NameNode
-
Ведущий сервер, который управляет метаданными файловой системы. Это программный код, который запускается, как правило, на отдельной машине экземпляра HDFS и отвечает за операции с файлами, такие как: открытие и закрытие файлов, создание и удаление каталогов и так далее.
Помимо этого, NameNode выполняет следующие функции:
-
Управление пространством имен файловой системы.
-
Управление доступом для внешних клиентов.
-
Обеспечение соответствия между файлами и блоками, реплицируемыми на Data Nodes.
-
- Node
-
Устройство, подключенное к другим устройствам по сети. Имеет собственный IP-адрес и может обмениваться данными. Узлами могут быть компьютеры, мобильные телефоны, карманные компьютеры, а также специальные сетевые устройства, такие как: маршрутизаторы, коммутаторы, концентраторы и так далее.
- NSCD
-
Name Service Caching Daemon — демон (служба), обеспечивающий кеширование наиболее распространенных запросов службы имен.
- NTP
-
Network Time Protocol — сетевой протокол для синхронизации внутренних часов компьютера с использованием сетей с переменной задержкой.
- OpenJDK
-
Полностью совместимый проект Java Development Kit, состоящий исключительно из бесплатного и открытого исходного кода.
- Over-Provisioning
-
Технология, используемая в твердотельных накопителях для резервирования свободного места для определенных действий контроллера.
- PostgreSQL
-
Бесплатная объектно-реляционная система управления базами данных.
- Postgres
-
Суперпользователь в PostgreSQL, имеющий максимальные права во всех базах данных, включая право создавать других пользователей. Глобальные права могут быть изменены в любое время текущим суперпользователем.
- PSU
-
Power Supply Unit — блок питания.
- RAID
-
Redundant Array of Independent Disks — технология виртуализации данных, которая подразумевает объединение нескольких дисков в единый логический элемент для резервирования и повышения производительности.
- Replication
-
Механизм синхронизации содержимого нескольких копий одного и того же объекта (например, содержимого базы данных).
- REST
-
Representational State Transfer — архитектурный подход взаимодействия компонентов распределенного приложения в сети по протоколу HTTP. Это согласованный набор ограничений и правил, которые принимаются при проектировании распределенной системы гипермедиа.
- Root
-
Суперпользователь — специальная учетная запись в Unix-подобных системах, владелец которой имеет право выполнять все без исключения операции.
- RPM Package Manager
-
Формат программных пакетов и программа, созданная для управления этими пакетами. Программа позволяет пользователям устанавливать, удалять и обновлять программное обеспечение.
- Script
-
Совокупность инструкций, выполняемых системой. Разница между программой и скриптом весьма размыта: скрипт — это программа, работающая с готовыми программными компонентами.
В более узком смысле скриптовым языком называют язык для расширения возможностей командной оболочки, текстового редактора или средств администрирования операционной системы.
- Self-signed certificate
-
Особый тип цифрового сертификата, подписанный самим его субъектом. Технически такой сертификат ничем не отличается от сертификата, заверенного подписью удостоверяющего центра (УЦ), только вместо передачи на подпись в УЦ пользователь создаёт свою собственную сигнатуру. Проще говоря, создатель сертификата сам является в данном случае УЦ. Все корневые сертификаты доверенных УЦ являются самозаверенными.
- Secondary NameNode
-
Узел HDFS, который периодически сохраняет пространство имен и контролирует размер файла журнала изменений HDFS в определенных пределах для NameNode.
Выполняет следующие функции:
-
Копирует образ HDFS (находящийся в файле FsImage) и журнал транзакций операций с файловыми блоками (Edit Log) во временную папку.
-
Применяет изменения, накопленные в журнале транзакций, к образу HDFS.
-
Записывает новый FsImage в NameNode, после чего журнал редактирования очищается.
-
- Smoke Test
-
Минимальный набор тестов на явные ошибки. Обычно выполняется разработчиками.
- Source code
-
Текст компьютерной программы на любом языке программирования или разметки, который может быть прочитан человеком. В более общем смысле — любые исходные данные для интерпретатора/компилятора.
- Snapshot
-
Копия файлов и каталогов файловой системы (или базы данных) в определенный момент времени.
- SSH
-
Secure Shell — сетевой протокол прикладного уровня, позволяющий осуществлять удаленное управление операционной системой и туннелирование TCP-соединений (например, для передачи файлов). По функционалу похож на протоколы Telnet и rlogin, но, в отличие от них, шифрует весь трафик, включая передаваемые пароли. SSH позволяет выбирать различные алгоритмы шифрования. Клиенты SSH и серверы SSH доступны для большинства сетевых операционных систем.
- SSL
-
Secure Sockets Layer — криптографический протокол, который подразумевает безопасное соединение. Использует асимметричную криптографию для аутентификации ключей обмена, симметричное шифрование для сохранения конфиденциальности, коды аутентификации сообщений для целостности сообщений.
- Stack
-
Абстрактный тип данных, представляющий собой список элементов, организованных по принципу LIFO (last in — first out, последним пришёл — первым вышел).
- Sticky bit
-
Дополнительный атрибут файлов или каталогов в операционных системах семейства UNIX. Изначально применялся для уменьшения времени загрузки наиболее часто используемых программ. В наши дни sticky bit используется в основном для каталогов, чтобы защитить в них файлы.
- Sudo
-
Substitute user and do — программа для системного администрирования UNIX-систем, позволяющая делегировать те или иные привилегированные ресурсы пользователям с ведением протокола работы. Основная идея — дать пользователям как можно меньше прав, при этом достаточных для решения поставленных задач.
- Su
-
Switch user — команда Unix-подобных операционных систем, позволяющая пользователю войти в систему под другим именем, не завершая текущий сеанс.
- TCO
-
Total Cost of Ownership (Совокупная стоимость владения) — общая величина целевых затрат, которые вынужден нести владелец с момента начала реализации вступления в состояние владения до момента выхода из состояния владения и исполнения владельцем полного объёма обязательств, связанных с владением.
- URI
-
Uniform Resource Identifier — последовательность символов, идентифицирующая абстрактный или физический ресурс.
- URL
-
Uniform Resource Locator — единообразный определитель местонахождения абстрактного или физического файла.
- View
-
Виртуальная (логическая) таблица, представляющая собой поименованный запрос, который будет подставлен как подзапрос при использовании представления.
В отличие от обычных таблиц реляционных баз данных, представление не является самостоятельной частью набора данных, хранящегося в базе. Содержимое представления динамически вычисляется на основании данных, находящихся в реальных таблицах. Изменение данных в реальной таблице базы данных немедленно отражается в содержимом всех представлений, построенных на основании этой таблицы.
- YARN
-
Yet Another Resource Negotiator — модуль, появившийся в версии Hadoop 2.0, отвечающий за управление ресурсами кластеров и планирование заданий. Если в предыдущих выпусках эта функция была интегрирована в модуль MapReduce, где была реализована единым компонентом (JobTracker), то в YARN функционирует логически самостоятельный демон — планировщик ресурсов (ResourceManager), абстрагирующий все вычислительные ресурсы кластера и управляющий их предоставлением приложениям распределённой обработки.
Работать под управлением YARN могут как MapReduce-программы, так и любые другие распределённые приложения, поддерживающие соответствующие программные интерфейсы. YARN обеспечивает возможность параллельного выполнения нескольких различных задач в рамках кластера и их изоляцию (по принципам мультиарендности).