Глоссарий

AD

Active Directory — служба каталогов корпорации Microsoft для операционных систем семейства Windows Server. Первоначально создавалась как LDAP-совместимая реализация службы каталогов. Однако начиная с Windows Server 2008, включает возможности интеграции с другими службами авторизации, выполняя для них интегрирующую и объединяющую роль.

Позволяет администраторам использовать групповые политики для обеспечения единообразия настройки пользовательской рабочей среды, разворачивать программное обеспечение на множестве компьютеров через групповые политики или посредством System Center Configuration Manager (ранее — Microsoft Systems Management Server), устанавливать обновления операционной системы, прикладного и серверного программного обеспечения на всех компьютерах в сети, используя службу обновления Windows Server. Хранит данные и настройки среды в централизованной базе данных. Сети Active Directory могут быть различного размера: от нескольких десятков до нескольких миллионов объектов.

API

Application programming interface — набор готовых классов, процедур, функций, структур данных и констант, предоставляемых приложением (библиотекой, службой) или операционной системой для использования во внешних программных продуктах.

CLI

Интерфейс командной строки — вид текстового пользовательского интерфейса, в котором инструкции компьютеру передаются путем набора текстовых команд с клавиатуры. Другие названия — консоль и терминал.

ClickHouse Keeper

Сервис координации, который предоставляет совместимый с ZooKeeper клиент-серверный протокол и может использоваться для репликации данных и выполнения распределенных DDL-запросов в ADQM/ClickHouse в качестве альтернативы ZooKeeper.

Cluster

Группа серверов и координирующего программного обеспечения, объединенных логически, способных обрабатывать одинаковые запросы и действовать как единый ресурс.

Codec

Определяет алгоритм сжатия, применяемый к данным ADQM/ClickHouse.

Database engine

Движок базы данных — механизм хранения данных в ClickHouse, который отвечает за управление данными (хранение, извлечение, манипулирование) в базе. Основной движок баз данных ADQM/ClickHouse — Atomic.

DataNode

Рабочий сервер, представляющий собой программный код, который выполняется, как правило, на отдельном узле HDFS и отвечает за операции на файловом уровне (такие как запись, чтение данных) и выполнение команд, полученных от NameNode (создание, удаление, репликация блоков и так далее). Помимо этого, DataNode выполняет следующие функции:

  • периодическая отправка сообщений о состоянии (heartbeat-сигналы);

  • обработка запросов на чтение и запись, полученных от HDFS-клиентов, так как данные поступают от остальных машин кластера к клиенту, минуя NameNode.

Dictionary

Хранилище данных типа ключ/значение, которое полностью или частично хранится в оперативной памяти сервера ClickHouse и может быть использовано в качестве справочника для подстановки значений по ключам в итоговую выборку данных. В ADQM/ClickHouse словари часто бывают более эффективной альтернативой оператору JOIN.

DNS

Domain Name System — распределенная иерархическая система для получения информации о компьютерах, доменах, службах и других ресурсах, доступных через интернет или по другим сетевым протоколам. Чаще всего используется для получения IP-адреса по имени хоста (компьютера или устройства), получения информации о маршрутизации почты и/или обслуживающих узлах для протоколов в домене.

Распределенная база данных DNS поддерживается с помощью иерархии DNS-серверов, взаимодействующих по определенному протоколу.

DNS Server

Приложение, предназначенное для ответов на DNS-запросы по соответствующему протоколу. Также DNS-сервером могут называть хост, на котором запущено соответствующее приложение.

Firewall

Компонент программного обеспечения, предназначенный для ограничения и фильтрации сетевого трафика.

FreeIPA

Система управления идентификацией пользователей с открытым исходным кодом для сетей на базе Linux/UNIX. FreeIPA использует Fedora Linux, 389 Directory Server, MIT Kerberos, NTP, DNS, систему сертификатов DogTag, SSSD и другие компоненты с открытым исходным кодом. Основное назначение FreeIPA — предоставление функциональности, схожей с Active Directory.

FQDN

Fully Qualified Domain Name — имя домена, не имеющее неоднозначностей в определении. Включает в себя имена всех родительских доменов иерархии DNS.

Gateway

Сетевое устройство для передачи трафика между двумя сетями, которые обладают разными характеристиками, используют разные протоколы или технологии. Одним из популярных назначений использования сетевого шлюза является предоставление доступа из локальной сети (LAN) во внешнюю (Интернет).

Granule

Гранула — минимальный неделимый набор данных в ClickHouse, состоящий из целого количества строк (по умолчанию 8192), который считывается при выборке данных.

HDFS

Hadoop Distributed File System — файловая система для хранения больших данных, распределенных в виде блоков на узлах кластера. Все блоки в HDFS (кроме последнего блока файла) имеют одинаковый размер, и каждый блок может размещаться на нескольких узлах. Размер блока и фактор репликации (количество узлов, на которые должен реплицироваться каждый блок) определяются в настройках на уровне файла. Благодаря репликации распределенная система устойчива к сбоям отдельных узлов.

Hive

Apache Hive — распределенная система выполнения SQL-запросов в экосистеме Apache Hadoop.

Host

Компьютер или другое устройство, имеющее доступ к сети. Хост может выполнять функции сервера, предоставляя информацию о ресурсах, услугах и приложениях пользователям или другим хостам. Каждому хосту в сети присваивается как минимум один сетевой адрес.

Indexes

Индексы в ADQM/ClickHouse — это специальные структуры данных, обеспечивающие быстрый поиск запрашиваемых данных по значениям ключевого столбца (или набора столбцов) без выполнения полного сканирования таблицы.

Inode

Index Descriptor — структура данных в традиционных файловых системах Unix, таких как UFS, ext4 и так далее. В этой структуре хранится метаинформация о стандартных файлах, каталогах и других объектах файловой системы, кроме самих данных и имени.

Instance

Экземпляр программного обеспечения, работающий на одном физическом или виртуальном сервере. В объектно-ориентированном программировании этим термином также называется объект класса.

IP

Internet Protocol Address — уникальный сетевой адрес узла в компьютерной сети, построенной на основе стека протоколов IP.

Kafka

Apache Kafka — распределенный брокер сообщений с открытым исходным кодом, который реализует систему публикации сообщений и подписки на них.

Kerberos Authentication Server

Сервер аутентификации, главная функция которого — получение запроса, содержащего имя клиента, который запрашивает аутентификацию, и возвращение клиенту зашифрованного тикета на выдачу тикетов (TGT). Позднее пользователь может использовать этот TGT для дальнейших запросов. В большинстве реализаций Kerberos время жизни TGT составляет 8-10 часов. После этого клиент должен снова запросить TGT у сервера аутентификации.

Kerberos KDC

Key Distribution Center — сторонний механизм аутентификации, который используется пользователями и сервисами для аутентификации. Включает в себя 3 составляющие:

  • База данных пользователей и служб (принципалы), к которой имеет доступ KDC, и соответствующие пароли Kerberos.

  • Сервер аутентификации (Authentication Server, AS), который выполняет первоначальную аутентификацию и выдает тикет на предоставление тикетов (Ticket Granting Ticket, TGT).

  • Сервер выдачи тикетов (Ticket Granting Server, TGS) — сервер, который выдает тикеты на основе исходного тикета на выдачу тикетов.

Kerberos keytab

Файл, содержащий один или несколько принципалов и их ключи. Используется для аутентификации в инфраструктуре Kerberos и позволяет не вводить имена пользователей и пароли вручную.

Kerberos principal

Уникальное имя пользователя или службы.

Kerberos realm

Сеть Kerberos, которая включает KDC и несколько клиентов.

Kerberos TGS

Ticket Granting Server — сервер для выдачи разрешений.

Kerberos TGT

Ticket Granting Ticket — включает копию сеансового ключа, имя пользователя и срок действия тикета. TGT зашифрован с использованием собственного главного ключа KDC и может быть расшифрован только самой службой KDC.

LDAP

Lightweight Directory Access Protocol — протокол, использующий TCP/IP и позволяющий выполнять операции аутентификации, поиска и сравнения, а также операции добавления, изменения или удаления записей.

Materialized view

Материализованное представление в ADQM/ClickHouse — вычисляет промежуточные агрегатные состояния для данных другой таблицы (source table) согласно запросу SELECT, который указывается в описании представления, и сохраняет результаты в свою внутреннюю или отдельную таблицу (target table). Обновление агрегатных состояний происходит автоматически при каждой вставке новых данных в исходную таблицу.

Metadata

Структурированная служебная информация об используемых данных. Содержит характеристики, полезные для идентификации, поиска, оценки и управления.

MySQL

Система управления реляционными базами данных с открытым исходным кодом.

NameNode

Ведущий сервер, который управляет метаданными файловой системы HDFS. Это программный код, который запускается, как правило, на отдельной машине экземпляра HDFS и отвечает за операции с файлами (такие как открытие и закрытие файлов, создание и удаление каталогов и так далее). Помимо этого, NameNode выполняет следующие функции:

  • управление пространством имен файловой системы;

  • управление доступом для внешних клиентов;

  • обеспечение соответствия между файлами и блоками, реплицируемыми на DataNodes.

Node

Узел — устройство, подключенное к другим устройствам по сети. Имеет собственный IP-адрес и может обмениваться данными. Узлами могут быть компьютеры, мобильные телефоны, карманные компьютеры, а также специальные сетевые устройства (такие как маршрутизаторы, коммутаторы, концентраторы и так далее).

NTP

Network Time Protocol — сетевой протокол для синхронизации внутренних часов компьютера с использованием сетей с переменной задержкой.

Part

Физический файл на диске, который хранит часть данных таблицы ClickHouse. Не путайте с partition.

Partition

Набор записей в таблице ClickHouse, логически объединенных по критерию, который определяется ключом партиционирования (partition key).

Postgres

Суперпользователь в PostgreSQL, имеющий максимальные права во всех базах данных, включая право создавать других пользователей. Глобальные права могут быть изменены в любое время текущим суперпользователем.

PostgreSQL

Система управления реляционными базами данных с открытым исходным кодом.

Projection

 Дополнительная скрытая таблица, которая хранит данные исходной таблицы ClickHouse в преобразованном виде, оптимальном для выполнения какого-либо типа запросов.

RAID

Redundant Array of Independent Disks — технология виртуализации данных, которая подразумевает объединение нескольких дисков в единый логический элемент для резервирования и повышения производительности.

Replica

Реплика — копия данных, хранящихся в базе данных ClickHouse. Репликами также могут называться хосты ClickHouse в составе кластера/шарда, которые содержат одинаковые данные.

Replication

Механизм синхронизации содержимого нескольких копий одного и того же объекта (например, содержимого базы данных). Дублирование данных на нескольких хостах-репликах обеспечивает более высокую доступность данных и повышает надежность системы.

Root

Суперпользователь — специальная учетная запись в Unix-подобных системах, владелец которой имеет право выполнять все без исключения операции.

Script

Совокупность инструкций, выполняемых системой. Разница между программой и скриптом весьма размыта: скрипт — это программа, работающая с готовыми программными компонентами.

В более узком смысле скриптовым языком называют язык для расширения возможностей командной оболочки, текстового редактора или средств администрирования операционной системы.

Self-signed certificate

Особый тип цифрового сертификата, подписанный самим его субъектом. Технически такой сертификат ничем не отличается от сертификата, заверенного подписью удостоверяющего центра (УЦ), только вместо передачи на подпись в УЦ пользователь создает свою собственную сигнатуру. Проще говоря, создатель сертификата сам является в данном случае УЦ. Все корневые сертификаты доверенных УЦ являются самозаверенными.

Shard

Подмножество (часть) данных. В кластере ClickHouse всегда есть по крайней мере один шард — если данные не разделяются между несколькими серверами, они хранятся в одном шарде. Шардами также могут называться узлы кластера (серверы или группы серверов), на которых размещаются разные части одной базы данных.

Sharding

Принцип проектирования базы данных, при котором части одной таблицы размещаются на разных шардах. Шардирование данных между несколькими серверами позволяет распределять нагрузку таким образом, чтобы не превышать пропускную способность одного сервера.

Source code

Текст компьютерной программы на любом языке программирования или разметки, который может быть прочитан человеком. В более общем смысле — любые исходные данные для интерпретатора/компилятора.

Snapshot

Копия файлов и каталогов файловой системы (или базы данных) в определенный момент времени.

SSH

Secure Shell — сетевой протокол прикладного уровня, позволяющий осуществлять удаленное управление операционной системой и туннелирование TCP-соединений (например, для передачи файлов). По функционалу похож на протоколы Telnet и rlogin, но, в отличие от них, шифрует весь трафик, включая передаваемые пароли. SSH позволяет выбирать различные алгоритмы шифрования. Клиенты SSH и серверы SSH доступны для большинства сетевых операционных систем.

SSL

Secure Sockets Layer — криптографический протокол, который подразумевает безопасное соединение. Использует асимметричную криптографию для аутентификации ключей обмена, симметричное шифрование для сохранения конфиденциальности, коды аутентификации сообщений для целостности сообщений.

Sudo

Substitute user and do — программа для системного администрирования UNIX-систем, позволяющая делегировать те или иные привилегированные ресурсы пользователям с ведением протокола работы. Основная идея — дать пользователям как можно меньше прав, при этом достаточных для решения поставленных задач.

Su

Switch user — команда Unix-подобных операционных систем, позволяющая пользователю войти в систему под другим именем, не завершая текущий сеанс. Обычно используется для временного входа суперпользователя в систему для выполнения административной работы.

Table engine

Движок таблицы в ClickHouse — тип таблицы, который определяет место и способ хранения данных, какие запросы поддерживаются и каким образом. Основной движок таблиц для работы с большими данными в ADQM/ClickHouse — MergeTree.

TTL

Time to live — функциональная возможность в ADQM/ClickHouse устанавливать интервал времени, по истечении которого старые данные будут удаляться, перемещаться на другой диск/том хранилища, обобщаться или сжиматься указанным кодеком в фоновом режиме.

UDF

User-defined functions — пользовательские функции, с помощью которых можно расширять встроенную функциональность ADQM/ClickHouse для выполнения специализированных задач, используя лямбда-выражения или вызывая внешние исполняемые программы/скрипты для обработки данных.

URI

Uniform Resource Identifier — последовательность символов, идентифицирующая абстрактный или физический ресурс.

URL

Uniform Resource Locator — единообразный определитель местонахождения абстрактного или физического файла.

View

Представление в ADQM/ClickHouse — считывает данные из другой таблицы при каждом обращении (не хранит эти данные), выполняя указанный в описании представления запрос SELECT. Иными словами, это сохраненный запрос, который может быть использован как подзапрос в выражении FROM.

ZooKeeper

Сервис с открытым исходным кодом для синхронизации и координации распределенных систем. В ADQM/ClickHouse ZooKeeper используется для организации репликации данных и выполнения распределенных DDL-запросов.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней