Arenadata Hyperwave
Arenadata Hyperwave (ADH) — это универсальная гибридная платформа, основанная на компонентах с открытым исходным кодом и проприетарной разработке, предназначенная для хранения, обработки и анализа данных любой структуры и объема.
ТОП-10 популярных статей
Обзор сервиса Ozone — распределенного хранилища объектов, использующего формат ключ/значение и оптимизированного для работы как с сервисами Hadoop, так и с хранилищами S3.
Обзор архитектуры HDFS (Hadoop Distributed File System) — распределенной файловой системы, которая обеспечивает высокую отказоустойчивость на оборудовании с низкой стоимостью.
Описание наиболее распространенных HDFS-команд с примерами.
Список требований к программному обеспечению для работы c кластером Arenadata Hyperwave.
Описание основных концепций (DAG, task, operator) и архитектурных компонентов Airflow (Web server, Metadata database, Scheduler, Executor, Worker). Airflow — это платформа, позволяющая разрабатывать, планировать, запускать и отслеживать выполнение сложных процессов обработки данных (workflow).
Таблицы с сетевыми требованиями к установке Arenadata Hyperwave: порты сервисов ADH, порты JMX, переопределяемые со стороны Kerberos порты, клиентские порты.
Список сетевых портов, используемых компонентами и сервисами ADH.
Обзор сервиса Trino — движка SQL-запросов с открытым исходным кодом, используемого для параллельной обработки данных, распределенных по хранилищам разного типа, таких как объектные хранилища (S3), базы данных и файловые системы.
Анализ плана выполнения запросов Hive с помощью команд EXPLAIN и ANALYZE.
Описание встроенного каталога Trino для работы с таблицами Iceberg. Данный каталог использует коннектор Iceberg и готов к работе с таблицами Iceberg, хранящимися в кластере ADH.