Сравнение HDFS и Ozone
Как HDFS, так и Ozone (O3) являются подходящими распределенными хранилищами данных с открытым исходным кодом для кластера Hadoop, но они имеют ряд различий, которые рассматриваются в данной статье.
Сравнение функций
В таблице ниже представлено сравнение ключевых функций сервисов.
Функция | HDFS | Ozone |
---|---|---|
Модель данных |
Файловое хранилище с иерархической структурой |
Хранилище объектов, работающее с неструктурированными данными и оптимизированное для облака |
Репликация данных |
Репликация данных между узлами DataNode для предоставления отказоустойчивости |
Программно определяемое хранилище, которое позволяет настраивать политики репликации данных и обеспечивать избыточность данных |
Масштабируемость |
Хорошая масштабируемость для больших задач по обработке данных |
Разработан с целью предоставить еще более хорошую масштабируемость, чем в HDFS |
Управление пространством имен |
Единое пространство имен для всего кластера |
Несколько пространств имен для различных задач |
Хранилище объектов |
Нет |
Да |
Поддержка S3 и других протоколов хранилищ объектов |
Нет |
Да |
Управление доступом |
Права в стиле POSIX |
Права в стиле S3 и управление доступом на уровне бакета |
Аутентификация и авторизация |
Kerberos |
Kerberos, Ozone Token |
Согласованность данных |
Согласованность рано или поздно достигается |
Сильная согласованность за счет таких протоколов, как RAFT |
Плюсы и минусы
HDFS
HDFS является файловой системой по умолчанию в Hadoop, и она имеет следующие преимущества:
-
поддержка хранения большого количества данных;
-
быстрое определение и реагирование на аппаратные сбои;
-
поддержка потоковой передачи данных;
-
упрощенная модель согласованности;
-
высокая отказоустойчивость и легкость восстановления;
-
предназначена для коммерческого оборудования.
Однако у нее есть и некоторые недостатки:
-
не подходит для большого числа маленьких файлов;
-
не поддерживает изменение файлов (HDFS 2.x поддерживает добавление данных в файлы);
-
проблемы при хранении более 400 миллионов файлов;
-
не поддерживает параллельную запись.
Ozone
Недостатки HDFS, приводящие к дискомфорту при удовлетворении современных потребностей в хранении больших данных, потребовали реализации нового решения с рядом ключевых преимуществ:
-
высокая согласованность данных;
-
разработано для хранения более 100 миллиардов объектов в одном кластере;
-
отличная масштабируемость благодаря многослойной архитектуре;
-
такая же отказоустойчивость и легкость восстановления, как у HDFS;
-
может работать рядом с HDFS на одних и тех же хостах.
Так как проект зародился не так давно, есть и некоторые недостатки:
-
мало примеров внедрения;
-
разработан для интеграции с экосистемой Hadoop, однако пока не имеет широкого уровня поддержки, и для работы с Ozone некоторые сервисы могут потребовать дополнительной настройки;
-
отсутствие локального сокета, общая производительность ниже.
Области применения
Apache Ozone имеет преимущество перед HDFS в средах, где требуется масштабируемость для небольших файлов, совместимость с S3 или работа с облаком. Однако HDFS остается подходящим для рабочих нагрузок Hadoop с меньшими требованиями к хранению небольших объектов без возможности их объединения или облачной интеграции.