
Универсальная платформа данных¶
Arenadata Enterprise Data Platform (EDP) – универсальная платформа данных – это интегрированный набор компонентов корпоративного уровня на базе решений с открытым исходным кодом. Платформа включает в себя все необходимые компоненты для работы с данными: управление, доступ, анализ, интеграция, безопасность и администрирование.
Основная идея универсальной платформы заключается в обеспечении возможности работы с любыми типами и форматами данных путем комбинированного использования различных технологических решений и архитектур обработки данных.

В настоящий момент полностью реализован уровень хранения и обработки слабоструктурированных и неструктурированных данных – Arenadata Hadoop (ADH). Это полноценный дистрибутив распределенной платформы хранения на базе Apache Hadoop, адаптированный для корпоративного использования.

В 2016 году дистрибутив Arenadata Hadoop 1.3.2 прошел сертификацию и получил подтверждение о полном соответствии стандартам Open Data Platform Initiative (ODPi). ODPi – крупнейшее мировое сообщество разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation: подробнее
Текущий релиз версии 1.6.1 вышел во втором квартале 2018 года. В состав версии входят следующие компоненты: Ambari, HDFS, YARN, Zookeeper, Tez, Hive, HBase, Phoenix, Pig, Sqoop, Flume, Oozie, Atlas, NiFi, Apex, Flink, Kafka, LogSearch, Knox, Mahout, Ranger, Ranger KMS, Solr, Spark, Zeppelin, Giraph.
В отличие от других корпоративных дистрибутивов, представленных на рынке, Arenadata Hadoop обладает рядом особенностей:
- Вся поддержка и непосредственно экспертиза доступна в России и на русском языке;
- Есть пакет утилит для полной off-line установки (без доступа к сети Интернет);
- Вся сборка выполнена на базе открытых проектов Apache, нет проприетарных компонентов;
- Российское программное обеспечение;
- Поддержка доступна как удаленно, так и on-site;
- Есть набор доступных типовых пакетных сервисов по планированию, установке и аудиту системы.
Arenadata Hadoop обеспечивает полный набор возможностей и инструментов для автоматического развертывания компонентов как на “голом железе”, так и на виртуальных машинах (в “облаке”). Средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность для всех компонентов системы. Apache Ambari обеспечивает интерфейсы для интеграции с существующими системами управления, например, Microsoft System Center и Teradata ViewPoint.
Оригинальная документация на русском языке позволяет облегчить процесс планирования и разворачивания кластера Hadoop. Инструкция может быть полезна администраторам, программистам, разработчикам и сотрудникам подразделений информационных технологий, осуществляющих внедрение и сопровождение кластеров Arenadata.
Далее в документации приведена инструкция по установке ADH, руководство администратора по работе с кластером, настройка авторизации, настройка безопасности для Hadoop и Ambari, руководство администратора по HDFS, описание Ambari View и Release Notes.
Important
Контактная информация службы поддержки – e-mail: info@arenadata.io
Оглавление:
- Инструкция по установке кластера
- Руководство администратора по работе с кластером
- Настройка безопасности и авторизации в Hadoop
- Настройка безопасности для Ambari
- Руководство администратора по HDFS
- ACL на HDFS
- Примеры ACL
- Особенности ACL для HDFS
- Архивные хранилища
- Централизованное управление кэшем в HDFS
- Настройка HDFS Compression
- Настройка Rack Awareness на ADH
- Архивы Hadoop
- API-интерфейсы JMX Metrics для HDFS Daemons
- Память в качестве хранилища (техническое превью)
- Запуск DataNodes от Non-root
- Режим локального чтения данных на HDFS
- Руководство администратора по WebHDFS
- Использование Ambari View
- Руководство по работе с Knox Gateway
- Knox Gateway. Обзор
- Архитектура развертывания Knox Gateway
- Поддерживаемые шлюзом сервисы Hadoop
- Демонстрационные примеры возможностей шлюза
- Каталоги шлюза
- Master Secret
- Ручное перераспределение кластеров
- Запуск и остановка Knox вручную
- Включение WebSocket
- Определение топологий кластера
- Доступ к внутренним сервисам Hadoop
- Пример определения сервиса
- Проверка подключения к сервисам
- Добавление нового сервиса
- Настройка Knox SSO для Ambari
- Release Notes
- Глоссарий терминов для работы с ADH