Архитектура ADH

Константин Алпашкин, Альберт Багдасарян

Hadoop реализует две основные функции:

Хранение данных и управление ими.
Обработка данных и различные вычисления.

Основу Hadoop составляют следующие компоненты:

Hadoop Common — библиотеки и утилиты, используемые различными модулями Hadoop.
Распределенная файловая система HDFS — распределенная система хранения данных на обычных компьютерах, обеспечивающая очень высокую агрегированную пропускную способность кластера, схожая с файловой системой Unix и предоставляющая систему команд с семантикой в стиле POSIX.
Hadoop YARN — платформа управления вычислительными ресурсами кластера при планировании и выполнении прикладных задач.
Hadoop MapReduce — среда исполнения заданий, реализующая модель MapReduce в больших распределенных системах.

Верхнеуровневая архитектурная схема ADH

Проекты MapReduce и HDFS стали продолжением проектов Google, опубликованных в статьях MapReduce: Simplified Data Processing on Large Clusters и The Google File System.

Экосистема Hadoop не является языком программирования или сервисом. Hadoop — это платформа (фреймворк) для решения задач с большими данными. Вы можете рассматривать Hadoop как набор сервисов для загрузки, хранения, анализа и поддержки больших данных. На рисунке ниже представлены сервисы, поддерживаемые Hadoop.

Экосистема Hadoop

Доступ к данным:

Apache Kyuubi — распределенный многопользовательский шлюз для предоставления SQL для DWH и DataLake.
Apache Zeppelin — веб-блокнот, позволяющий проводить интерактивную аналитику данных и вести совместную работу над документами, используя SQL, Scala, Python, R и так далее.
HUE — SQL-ассистент с поддержкой множества баз данных, включая Apache Impala и Hive. Умный редактор запросов имеет функцию автодополнения, что делает его удобным инструментом для работы с хранилищами данных.

Обработка данных:

Apache Spark — единый механизм аналитики и обработки данных больших объемов. Spark предоставляет API для Java, Scala, Python и R, а также предоставляет оптимизированный механизм для обработки графов. Spark также поддерживает набор расширений, таких как Spark SQL для обработки структурированных данных, MLlib для машинного обучения, GraphX для обработки графов, Structured Streaming для инкрементных вычислений и потоковой обработки.
Apache Hive — хранилище данных, которое позволяет использовать SQL для упрощения процесса чтения, записи и управления большими наборами данных в распределенных хранилищах. Структура может быть спроецирована на данные, которые уже находятся в хранилище. Для доступа к Hive доступна утилита командной строки и JDBC-драйвер.
Apache Flink — фреймворк и распределенный движок обработки для stateful-вычислений на ограниченных и неограниченных потоках данных.
Apache Impala — быстрая база данных для работы с данными в кластере Hadoop. Impala использует те же метаданные, синтаксис SQL (Hive SQL) и драйвер JDBC, что и Apache Hive, что делает её унифицированной платформой для запросов в режиме реального времени или пакетных запросов.
Apache HBase — база данных Hadoop, которая служит распределенным и масштабируемым хранилищем больших данных. Используйте Apache HBase, когда вам нужен произвольный доступ к большим данным на запись/чтение в реальном времени.
Apache Solr — высоконадежная, масштабируемая и отказоустойчивая платформа, которая обеспечивает распределенную индексацию, репликацию и балансирование нагрузки при запросах, автоматическое восстановление, централизованную настройку и другое. Solr используется в механизмах поиска и навигации множества мировых сайтов.

Безопасность:

Apache Ranger — фреймворк для мониторинга и управления безопасностью данных в платформе Hadoop.
Apache Knox — приложение-шлюз для взаимодействия с REST API и веб-интерфейсами Apache Hadoop. Knox обеспечивает безопасность, чтобы предприятия могли уверенно расширять доступ к Hadoop для новых пользователей, вместе с тем поддерживая соответствие с политиками безопасности компании.

Оркестровка данных:

Apache Airflow — платформа для программного создания, планирования и мониторинга рабочих процессов.

Управление сервисами:

SSM — сервис, цель которого — оптимизировать эффективность хранения и управления данными в Hadoop Distributed File System. Кроме того, SSM предоставляет возможность настройки асинхронной репликации данных и пространства имен на резервный кластер с целью организации DR.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней