Ноды PostgreSQL, используемые с Hive Metastore
Планирование размера внешней базы данных для Apache Hive Metastore требует тщательного учета различных факторов, таких как количество таблиц, партиций (partitions), пользователей и общая рабочая нагрузка. Несмотря на то, что определить точный размер внешней базы данных достаточно сложно, следующие рекомендации помогут вам принять обоснованное решение:
-
Оценка размера базы данных
-
Количество таблиц. Для каждой таблицы требуется хранилище для схемы и метаданных, которое может быть от нескольких килобайт до нескольких мегабайт на таблицу, в зависимости от сложности схемы таблицы.
-
Количество партиций. Требования к объему памяти для хранения партиций зависят от типа данных ключа партиции и количества столбцов партиции, и в среднем может быть оценено примерно как 1 КБ на партицию.
-
Информация о пользователях и разрешениях. Для этого требуется небольшой объем памяти, обычно несколько килобайт на пользователя.
-
-
Темпы роста данных, сложившиеся исторически и планируемый рост. Учитывайте исторические темпы роста ваших данных и ожидаемый будущий рост. Регулярно отслеживайте размер базы данных и масштабируйте ее по мере необходимости.
-
Репликация и резервное копирование. Выделите дополнительный объём хранилища для резервного копирования и репликации, чтобы обеспечить избыточность и надежность данных. Рекомендуется оставлять 50% от общего размера базы данных для резервного копирования.
-
Нагрузка. Оцените количество параллельных запросов и пользователей, которые будут обращаться к системе одновременно. Более высокая рабочая нагрузка может потребовать больше ресурсов и дополнительный объём хранилища данных для кеширования, планирования запросов и временного хранения.
-
Буфер для оптимизации производительности. Оставьте дополнительное пространство для индексирования, кеширования и других операций оптимизации производительности. Обычно следует оставлять 20-30% от общего размера базы данных.
Хотя эти рекомендации могут помочь вам оценить размер внешней базы данных для Hive Metastore, крайне важно продолжать отслеживать использование базы данных и соответствующим образом корректировать её размер.
ВАЖНО
Системные требования, приведенные ниже, являются минимальными. Целевой сайзинг необходимо рассчитывать исходя из требований вашей организации. |
Минимальные требования к оборудованию для хостов внешней базы данных перечислены в таблице ниже.
Требование | Небольшой кластер | Средний кластер | Большой кластер |
---|---|---|---|
Количество одновременных подключений (сессий пользователей) |
5-10 |
20-50 |
50+ |
Процессор |
64bit рекомендуется *, 4+ выделенных ядер |
64bit, 4-8 ядер |
64bit, 8+ ядер Процессоры с большим кешем L3 лучше работают с большим набором данных |
RAM |
8-16 ГБ |
16-32 ГБ |
32+ ГБ |
Дисковое пространство (минимум один отдельный диск, SSD, RAID 1 или RAID 10) |
50+ ГБ |
100 ГБ |
200+ ГБ |
* Если вам нужно использовать 32-битную версию сервера, установите в LDR_CNTRL
значение MAXDATA=0xn0000000
, где 1 <= n <= 8, перед запуском сервера PostgreSQL. Попробуйте подобрать подходящее значение и параметры postgresql.conf, чтобы найти конфигурацию, работающую удовлетворительно. Для получения дополнительной информации обратитесь к статье Platform-Specific Notes.