Arenadata Hadoop

Arenadata Hadoop (ADH) — это полноценный дистрибутив копоративного уровня, построенный на базе Apache Hadoop и предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

ТОП-10 популярных статей

Вы можете использовать DML-запросы (Data Manipulation Language, DML) для импорта или добавления данных в таблицу. Также вы можете напрямую переносить данные в таблицы Hive, используя HDFS-команды.

HiveServer2 поддерживает Beeline shell. Это клиент JDBC, который основан на командном интерфейсе SQLLine.

Airflow ведет текстовые логи для анализа ошибок, которые могут возникнуть в процессе работы DAG. Эти логи расположены в папке logs домашнего каталога Airflow.

Руководство по использованию DBeaver для подключения к Hive в керберизированном кластере.

В статье описан процесс создания и запуска вашего первого DAG с использованием файлов CSV. Этот DAG будет имитировать процесс ETL (Extract, Transform, Load).

Airflow — это платформа, позволяющая разрабатывать, планировать, запускать и отслеживать выполнение сложных процессов обработки данных (workflows).

В HDFS можно ограничивать доступ к файлам и каталогам с использованием стандартной модели защиты, базирующейся на соответствующем стандарте POSIX с некоторыми модификациями. Вы можете предоставлять права на файл или каталог отдельно владельцу этого объекта, определенной группе пользователей и всем остальным пользователям.

ADB Spark 3 Connector обеспечивает высокоскоростной параллельный обмен данными между Spark 3 и Arenadata DB.

Solr — это поисковая платформа для работы с большими объемами данных. Так как Solr может хранить данные, Solr является и нереляционным NoSQL-хранилищем, и платформой для обработки данных.

Существует два основных способа запуска задач Spark (jobs) в кластере. Вы можете запустить задачу на любом хосте, где установлен клиент Spark с помощью spark-submit или spark-shell.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней