Хосты ETL для загрузки данных

ADB поддерживает быструю параллельную загрузку данных с помощью функции внешних таблиц. Используя внешние таблицы в сочетании с параллельным файловым сервером (gpfdist), удаётся получить максимальное распараллеливание и наивысшую пропускную способность.

Одним из преимуществ использования программы файлового сервера gpfdist является то, что он гарантирует, что все сегменты в системе базы данных полностью используются при чтении данных таблицы из внешних файлов. Программа gpfdist может обслуживать данные в объектах сегмента со средней скоростью около 350 МБ/с для файлов с разделителями текста и 200 МБ/с для файлов в формате CSV. В связи с этим, следует рассмотреть следующие параметры при запуске gpfdist, чтобы максимизировать пропускную способность сети систем ETL:

  • Если сервер ETL настроен с несколькими сетевыми платами, необходимо запустить один объект gpfdist на хосте ETL и затем задать местоположение внешней таблицы так, чтобы имя хоста каждой сетевой платы было объявлено в соответствующей части параметра LOCATION. Это позволяет сетевому трафику между кластером ADB и сервером ETL одновременно использовать все сетевые платы.
  • Запустить несколько объектов gpfdist на хосте ETL и разделить файлы внешних данных одинаково на каждом объекте. Например, если есть система ETL с двумя сетевыми платами (NIC), то можно запустить два экземпляра gpfdist на этом аппарате, чтобы максимизировать производительность загрузки. Это достигается путем равномерного деления данных между двумя программами gpfdist.