Arenadata Hyperwave

Arenadata Hyperwave (ADH) — это универсальная гибридная платформа, основанная на компонентах с открытым исходным кодом и проприетарной разработке, предназначенная для хранения, обработки и анализа данных любой структуры и объема.

ТОП-10 популярных статей

Создание простого DAG

В статье описан процесс создания и запуска вашего первого DAG с использованием файлов CSV. Этот DAG будет имитировать процесс ETL (Extract, Transform, Load).

HDFS command cheatsheet

Описание наиболее распространенных HDFS-команд с примерами.

Таблицы Iceberg

Описание архитектуры Apache Iceberg, его возможностей и примеров использования. Iceberg — это открытый формат таблиц для больших хранилищ данных, который обеспечивает ACID-транзакции, перемещение во времени (time travel), изменение схемы (schema evolution), изменение партиции (partition evolution) и предоставляет другие возможности работы с данными.

Работа с таблицами Hive

Краткое руководство по работе с таблицами Apache Hive. Подключение к Hive и описание основных CRUD-операций над таблицами Hive.

Использование сенсоров в Airflow

Обзор работы с сенсорами в Airflow: виды сенсоров и параметры. Примеры использования сенсоров, а также описание процесса создания пользовательского сенсора.

Работа с таблицами Iceberg в Spark

Apache Iceberg — это открытый, высокопроизводительный формат для больших аналитических таблиц. Сервис ADH Spark3 поддерживает данный формат, позволяя взаимодействовать с таблицами Iceberg через Spark.

Конфигурационные параметры

В разделе представлена справочная информация о конфигурационных параметрах, которые можно использовать для настройки ADH-сервисов через ADCM.

Архитектура HDFS

Обзор архитектуры HDFS (Hadoop Distributed File System) — распределенной файловой системы, которая обеспечивает высокую отказоустойчивость на оборудовании с низкой стоимостью.

Airflow

Описание основных концепций (DAG, task, operator) и архитектурных компонетов Airflow (Web server, Metadata database, Scheduler, Executor, Worker). Airflow — это платформа, позволяющая разрабатывать, планировать, запускать и отслеживать выполнение сложных процессов обработки данных (workflow).

Kerberos

Обзор механизма аутентификации Kerberos, используемого для безопасного доступа к ADH-кластерам.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней