
Универсальная платформа данных¶
Arenadata Enterprise Data Platform (EDP) – универсальная платформа данных – это интегрированный набор компонентов корпоративного уровня на базе решений с открытым исходным кодом. Платформа включает в себя все необходимые компоненты для работы с данными: управление, доступ, анализ, интеграция, безопасность и администрирование.
Основная идея универсальной платформы заключается в обеспечении возможности работы с любыми типами и форматами данных путем комбинированного использования различных технологических решений и архитектур обработки данных.
В настоящий момент полностью реализован уровень хранения и обработки слабоструктурированных и неструктурированных данных – Arenadata Hadoop (ADH). Это полноценный дистрибутив распределенной платформы хранения на базе Apache Hadoop, адаптированный для корпоративного использования.

В 2016 году дистрибутив Arenadata Hadoop 1.3.2 прошел сертификацию и получил подтверждение о полном соответствии стандартам Open Data Platform Initiative (ODPi). ODPi – крупнейшее мировое сообщество разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation: подробнее.
Текущий релиз версии 1.6.1 вышел во втором квартале 2018 года. В состав версии входят следующие компоненты: Ambari, HDFS, YARN, Zookeeper, Tez, Hive, HBase, Phoenix, Pig, Sqoop, Flume, Oozie, Atlas, NiFi, Apex, Flink, Kafka, LogSearch, Knox, Mahout, Ranger, Ranger KMS, Solr, Spark, Zeppelin, Giraph.
В отличие от других корпоративных дистрибутивов, представленных на рынке, Arenadata Hadoop обладает рядом особенностей:
- Вся поддержка и непосредственно экспертиза доступна в России и на русском языке;
- Есть пакет утилит для полной off-line установки (без доступа к сети Интернет);
- Вся сборка выполнена на базе открытых проектов Apache, нет проприетарных компонентов;
- Российское программное обеспечение;
- Поддержка доступна как удаленно, так и on-site;
- Есть набор доступных типовых пакетных сервисов по планированию, установке и аудиту системы.
Arenadata Hadoop обеспечивает полный набор возможностей и инструментов для автоматического развертывания компонентов как на “голом железе”, так и на виртуальных машинах (в “облаке”). Средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность для всех компонентов системы. Apache Ambari обеспечивает интерфейсы для интеграции с существующими системами управления, например, Microsoft System Center и Teradata ViewPoint.
Оригинальная документация на русском языке позволяет облегчить процесс планирования и разворачивания кластера Hadoop. Инструкция может быть полезна администраторам, программистам, разработчикам и сотрудникам подразделений информационных технологий, осуществляющих внедрение и сопровождение кластеров Arenadata.
Далее в документации приведена инструкция по планированию и установке ADH, руководство администратора по работе с кластером, с HDFS, с Apache Ranger и с Knox Gateway, настройка авторизации и безопасности, описание использования Ambari View и Release Notes.
Important
Контактная информация службы поддержки – e-mail: info@arenadata.io
Оглавление:
- Инструкция по установке ADH
- Руководство администратора по ADH
- Руководство администратора по HDFS
- Настройка безопасности для Ambari
- Руководство по работе с Apache Ranger
- Руководство по работе с Knox Gateway
- Knox Gateway. Обзор
- Архитектура развертывания Knox Gateway
- Поддерживаемые шлюзом сервисы Hadoop
- Демонстрационные примеры возможностей шлюза
- Каталоги шлюза
- Master Secret
- Ручное перераспределение кластеров
- Запуск и остановка Knox вручную
- Включение WebSocket
- Определение топологий кластера
- Доступ к внутренним сервисам Hadoop
- Пример определения сервиса
- Проверка подключения к сервисам
- Добавление нового сервиса
- Настройка Knox SSO для Ambari
- Release Notes
- Глоссарий терминов для работы с ADH