Общий обзор

Arenadata Streaming (ADS) – платформа распределенных потоковых операций, включающая интегрированный набор компонентов корпоративного уровня на базе решений с открытым исходным кодом. Платформа содержит в себе все необходимые компоненты для потоковой передачи и обработки данных в реальном времени, их преобразования, взаимодействия и хранения, передачи в семантике “exactly-once delivery”, интеграции, безопасности и администрирования. Также платформа может выступать в качестве корпоративной шины данных и ETL-инструмента.

Идея платформы распределенных потоковых операций заключается в обеспечении:

  • Единой точки доступа – возможность использования в качестве корпоративной шины обмена данными для приложений;
  • Легкого, безопасного и надежного способа управления потоком данных – возможность безопасного сбора больших потоков данных и эффективного управления ими в режиме реального времени;
  • Политики безопасности – возможность создания потоков данных с поддержкой разграничения прав доступа к ним;
  • Быстрой и непрерывной разработки – возможность разработки потоковых аналитических приложений за считанные минуты в режиме реального времени без единой строчки кода.

Платформа потоковой передачи данных имеет три ключевые возможности:

  • Публикация и подписка на потоковую передачу данных, похожую на очередь сообщений или корпоративную систему обмена сообщениями;
  • Хранение потоков записей отказоустойчивым способом;
  • Обработка потоков записей по мере их возникновения.

Платформа ADS, как правило, используется для двух обширных классов приложений:

  • Создание канала для потоковой передачи данных в реальном времени с целью надежного обмена данными между системами и приложениями;
  • Создание приложений для потоковой передачи данных в реальном времени с целью их преобразования и взаимодействия с другими потоками.

Несколько концепций Arenadata Streaming:

  • ADS запускается как кластер на одном или нескольких серверах, которые могут располагаться в разных центрах обработки данных;
  • В кластере ADS потоки записей хранятся по категориям, называемым topics (топики);
  • Каждая запись состоит из ключа, значения и временной метки.

ADS имеет четыре основных API (Рис.3.):

  • Producer API (поставщик) позволяет приложению публиковать поток записей по одному или нескольким топикам платформы. Примеры использования приведены в javadocs;
  • Consumer API (потребитель) позволяет приложению подписываться на один или несколько топиков и обрабатывать принадлежащие им потоки записей. Примеры использования приведены в javadocs;
  • Streams API позволяет приложению выступать в качестве stream processor (потокового процессора), потребляя входной поток данных из одного или нескольких топиков и создавая выходной поток данных так же для одного или нескольких топиков, эффективно преобразуя входные потоки в выходные. Примеры использования приведены в javadocs;
  • Connector API позволяет создавать и запускать повторное использование поставщиков и потребителей, которые связывают топики с существующими приложениями или системами данных. Например, коннектор для реляционной базы данных может записывать каждое изменение в таблицу. Примеры использования приведены в javadocs.
../_images/ADS_intro_API-ADS.png

Рис. 3. API платформы ADS

Kлиенты для работы с Apache Kafka доступны на многих языках программирования (Clients).

Сервис NiFi в составе платформы ADS – мощный инструмент для построения масштабируемых ориентированных графов маршрутизации данных и их преобразования. Некоторые из высокоуровневых возможностей и целей NiFi:

  • Веб-интерфейс пользователя:
    • Разработка, управление и мониторинг в едином интерфейсе;
  • Гибкое конфигурирование в зависимости от потребностей:
    • Устойчивость к потерям или гарантированная доставка;
    • Низкая задержка или высокая пропускная способность;
    • Динамическое определение приоритетов;
    • Возможность изменения потока во время выполнения;
  • Происхождение данных:
    • Отслеживание потока данных от начала до конца;
  • Расширение функционциональных возможностей:
    • Возможность создания собственных процессоров и многого другого;
    • Обеспечение быстрой разработки и эффективного тестирования;
  • Безопасность:
    • SSL, SSH, HTTPS, зашифрованный контент и т.д.;
    • Multi-tenant авторизация и внутренняя авторизация/управление политикой.

В документе приведены концепции хранения, гарантии и рекомендации по использованию ADS. Раздел предлагается к прочтению перед переходом к непосредственной установке системы.

Important

Контактная информация службы поддержки – e-mail: info@arenadata.io