Ноды PostgreSQL, используемые с Hive Metastore

Планирование размера внешней базы данных для Apache Hive Metastore требует тщательного учета различных факторов, таких как количество таблиц, партиций (partitions), пользователей и общая рабочая нагрузка. Несмотря на то, что определить точный размер внешней базы данных достаточно сложно, следующие рекомендации помогут вам принять обоснованное решение:

  • Оценка размера базы данных

    • Количество таблиц. Для каждой таблицы требуется хранилище для схемы и метаданных, которое может быть от нескольких килобайт до нескольких мегабайт на таблицу, в зависимости от сложности схемы таблицы.

    • Количество партиций. Требования к объему памяти для хранения партиций зависят от типа данных ключа партиции и количества столбцов партиции, и в среднем может быть оценено примерно как 1 КБ на партицию.

    • Информация о пользователях и разрешениях. Для этого требуется небольшой объем памяти, обычно несколько килобайт на пользователя.

  • Темпы роста данных, сложившиеся исторически и планируемый рост. Учитывайте исторические темпы роста ваших данных и ожидаемый будущий рост. Регулярно отслеживайте размер базы данных и масштабируйте ее по мере необходимости.

  • Репликация и резервное копирование. Выделите дополнительный объём хранилища для резервного копирования и репликации, чтобы обеспечить избыточность и надежность данных. Рекомендуется оставлять 50% от общего размера базы данных для резервного копирования.

  • Нагрузка. Оцените количество параллельных запросов и пользователей, которые будут обращаться к системе одновременно. Более высокая рабочая нагрузка может потребовать больше ресурсов и дополнительный объём хранилища данных для кеширования, планирования запросов и временного хранения.

  • Буфер для оптимизации производительности. Оставьте дополнительное пространство для индексирования, кеширования и других операций оптимизации производительности. Обычно следует оставлять 20-30% от общего размера базы данных.

Хотя эти рекомендации могут помочь вам оценить размер внешней базы данных для Hive Metastore, крайне важно продолжать отслеживать использование базы данных и соответствующим образом корректировать её размер.

ВАЖНО

Системные требования, приведенные ниже, являются минимальными. Целевой сайзинг необходимо рассчитывать исходя из требований вашей организации.

Минимальные требования к оборудованию для хостов внешней базы данных перечислены в таблице ниже.

Требование Небольшой кластер Средний кластер Большой кластер

Количество одновременных подключений (сессий пользователей)

5-10

20-50

50+

Процессор

64bit рекомендуется *, 4+ выделенных ядер

64bit, 4-8 ядер

64bit, 8+ ядер

Процессоры с большим кешем L3 лучше работают с большим набором данных

RAM

8-16 ГБ

16-32 ГБ

32+ ГБ

Дисковое пространство

(минимум один отдельный диск, SSD, RAID 1 или RAID 10)

50+ ГБ

100 ГБ

200+ ГБ

* Если вам нужно использовать 32-битную версию сервера, установите в LDR_CNTRL значение MAXDATA=0xn0000000, где 1 <= n <= 8, перед запуском сервера PostgreSQL. Попробуйте подобрать подходящее значение и параметры postgresql.conf, чтобы найти конфигурацию, работающую удовлетворительно. Для получения дополнительной информации обратитесь к статье Platform-Specific Notes.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней