Arenadata Hadoop
Arenadata Hadoop (ADH) — это полноценный дистрибутив корпоративного уровня, построенный на базе Apache Hadoop и предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.
ТОП-10 популярных статей
В статье описан процесс создания и запуска вашего первого DAG с использованием файлов CSV. Этот DAG будет имитировать процесс ETL (Extract, Transform, Load).
Описание наиболее распространенных HDFS-команд с примерами.
Обзор архитектуры HDFS (Hadoop Distributed File System) — распределенной файловой системы, которая обеспечивает высокую отказоустойчивость на оборудовании с низкой стоимостью.
Описание архитектуры Apache Iceberg, его возможностей и примеров использования. Iceberg — это открытый формат таблиц для больших хранилищ данных, который обеспечивает ACID-транзакции, перемещение во времени (time travel), изменение схемы (schema evolution), изменение партиции (partition evolution) и предоставляет другие возможности работы с данными.
Таблицы с сетевыми требованиями к установке Arenadata Hadoop: порты сервисов ADH, порты JMX, переопределяемые со стороны Kerberos порты, клиентские порты.
В разделе представлена справочная информация о конфигурационных параметрах, которые можно использовать для настройки ADH-сервисов через ADCM.
Информация о логах Airflow для анализа ошибок, которые могут возникнуть в процессе работы DAG. Работа с текстовыми логами, а также описание веб-интерфейса Airflow для анализа лог-файлов.
Apache Iceberg — это открытый, высокопроизводительный формат для больших аналитических таблиц. Сервис ADH Spark3 поддерживает данный формат, позволяя взаимодействовать с таблицами Iceberg через Spark.
Обзор работы с сенсорами в Airflow: виды сенсоров и параметры. Примеры использования сенсоров, а также описание процесса создания пользовательского сенсора.
Airflow — это платформа, позволяющая разрабатывать, планировать, запускать и отслеживать выполнение сложных процессов обработки данных (workflows). Airflow идеально подходит для описания ETL/ELT-процессов, но также может быть полезен для периодического запуска и мониторинга любых иных задач.