Сравнение HDFS и Ozone

Как HDFS, так и Ozone (O3) являются подходящими распределенными хранилищами данных с открытым исходным кодом для кластера Hadoop, но они имеют ряд различий, которые рассматриваются в данной статье.

Сравнение функций

В таблице ниже представлено сравнение ключевых функций сервисов.

Функция HDFS Ozone

Модель данных

Файловое хранилище с иерархической структурой

Хранилище объектов, работающее с неструктурированными данными и оптимизированное для облака

Репликация данных

Репликация данных между узлами DataNode для предоставления отказоустойчивости

Программно определяемое хранилище, которое позволяет настраивать политики репликации данных и обеспечивать избыточность данных

Масштабируемость

Хорошая масштабируемость для больших задач по обработке данных

Разработан с целью предоставить еще более хорошую масштабируемость, чем в HDFS

Управление пространством имен

Единое пространство имен для всего кластера

Несколько пространств имен для различных задач

Хранилище объектов

Нет

Да

Поддержка S3 и других протоколов хранилищ объектов

Нет

Да

Управление доступом

Права в стиле POSIX

Права в стиле S3 и управление доступом на уровне бакета

Аутентификация и авторизация

Kerberos

Kerberos, Ozone Token

Согласованность данных

Согласованность рано или поздно достигается

Сильная согласованность за счет таких протоколов, как RAFT

Плюсы и минусы

HDFS

HDFS является файловой системой по умолчанию в Hadoop, и она имеет следующие преимущества:

  • поддержка хранения большого количества данных;

  • быстрое определение и реагирование на аппаратные сбои;

  • поддержка потоковой передачи данных;

  • упрощенная модель согласованности;

  • высокая отказоустойчивость и легкость восстановления;

  • предназначена для коммерческого оборудования.

Однако у нее есть и некоторые недостатки:

  • не подходит для большого числа маленьких файлов;

  • не поддерживает изменение файлов (HDFS 2.x поддерживает добавление данных в файлы);

  • проблемы при хранении более 400 миллионов файлов;

  • не поддерживает параллельную запись.

Ozone

Недостатки HDFS, приводящие к дискомфорту при удовлетворении современных потребностей в хранении больших данных, потребовали реализации нового решения с рядом ключевых преимуществ:

  • высокая согласованность данных;

  • разработано для хранения более 100 миллиардов объектов в одном кластере;

  • отличная масштабируемость благодаря многослойной архитектуре;

  • такая же отказоустойчивость и легкость восстановления, как у HDFS;

  • может работать рядом с HDFS на одних и тех же хостах.

Так как проект зародился не так давно, есть и некоторые недостатки:

  • мало примеров внедрения;

  • разработан для интеграции с экосистемой Hadoop, однако пока не имеет широкого уровня поддержки, и для работы с Ozone некоторые сервисы могут потребовать дополнительной настройки;

  • отсутствие локального сокета, общая производительность ниже.

Области применения

Apache Ozone имеет преимущество перед HDFS в средах, где требуется масштабируемость для небольших файлов, совместимость с S3 или работа с облаком. Однако HDFS остается подходящим для рабочих нагрузок Hadoop с меньшими требованиями к хранению небольших объектов без возможности их объединения или облачной интеграции.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней