Arenadata Hyperwave
Arenadata Hyperwave (ADH) — это универсальная гибридная платформа, основанная на компонентах с открытым исходным кодом и проприетарной разработке, предназначенная для хранения, обработки и анализа данных любой структуры и объема.
ТОП-10 популярных статей
В статье описан процесс создания и запуска вашего первого DAG с использованием файлов CSV. Этот DAG будет имитировать процесс ETL (Extract, Transform, Load).
Описание архитектуры Apache Iceberg, его возможностей и примеров использования. Iceberg — это открытый формат таблиц для больших хранилищ данных, который обеспечивает ACID-транзакции, перемещение во времени (time travel), изменение схемы (schema evolution), изменение партиции (partition evolution) и предоставляет другие возможности работы с данными.
Описание наиболее распространенных HDFS-команд с примерами.
В разделе представлена справочная информация о конфигурационных параметрах, которые можно использовать для настройки ADH-сервисов через ADCM.
Обзор архитектуры HDFS (Hadoop Distributed File System) — распределенной файловой системы, которая обеспечивает высокую отказоустойчивость на оборудовании с низкой стоимостью.
Таблицы с сетевыми требованиями к установке Arenadata Hyperwave: порты сервисов ADH, порты JMX, переопределяемые со стороны Kerberos порты, клиентские порты.
Обзор сервиса Trino — движка SQL-запросов с открытым исходным кодом, используемого для параллельной обработки данных, распределенных по хранилищам разного типа, таких как объектные хранилища (S3), базы данных и файловые системы.
Описание основных концепций (DAG, task, operator) и архитектурных компонетов Airflow (Web server, Metadata database, Scheduler, Executor, Worker). Airflow — это платформа, позволяющая разрабатывать, планировать, запускать и отслеживать выполнение сложных процессов обработки данных (workflow).
Обзор работы с сенсорами в Airflow: виды сенсоров и параметры. Примеры использования сенсоров, а также описание процесса создания пользовательского сенсора.
Обзор сервиса Ozone — распределенного хранилища объектов, использующего формат ключ/значение и оптимизированного для работы как с сервисами Hadoop, так и с хранилищами S3.