Параллельная загрузка данных

В разделе приводится краткое описание методов загрузки данных в ADB.

В крупномасштабном хранилище большие объемы данных должны загружаться за довольно короткий промежуток времени. ADB поддерживает быструю параллельную загрузку данных с помощью функции внешних таблиц. Администраторы также могут загружать внешние таблицы в режиме изоляции ошибочных строк, чтобы фильтровать ошибочные строки в отдельную таблицу, продолжая загрузку правильно отформатированных строк. Администраторы могут указать порог ошибок для операции загрузки, чтобы контролировать, какое количество неправильно отформатированных строк заставляет ADB прерывать операцию загрузки.

Используя внешние таблицы в сочетании с параллельным файловым сервером (gpfdist) можно достичь максимального распараллеливания и пропускной способности базы данных.

Другая утилита ADBgpload – запускает задачу загрузки, указанную в управляемом файле в формате YAML. Необходимо описать местоположение исходных данных, формат, необходимые преобразования, участвующие хосты, адресаты баз данных и другие данные в файле управления, после чего gpload выполняет загрузку. Это позволяет описать сложную задачу и выполнить ее контролируемым системным образом.