distcp
Инструмент используется для копирования файлов и каталогов внутри и между кластерами.
Использование показано ниже:
$ mapred distcp <src> <dst> [args]
-append |
Позволяет использовать существующие данные в целевых файлах и добавлять к ним новые данные, если это возможно |
-async |
Запускает команду |
-atomic |
Позволяет |
-bandwidth <arg> |
Указывает пропускную способность для map-задач (в МБ/сек) |
-blocksperchunk <arg> |
Количество блоков в части (chunk). Если флаг задан, разбивает файл на части для параллельного копирования |
-copybuffersize |
Размер буфера копирования (в байтах).
По умолчанию, используется значение |
-delete |
Удаляет файлы, существующие в |
-diff <oldSnapshot> <newSnapshot> |
Определяет разницу между исходным и целевым файлом и применяет разницу к целевому файлу, чтобы синхронизировать с исходным файлом |
-f <urilist_uri> |
Указывает путь к файлу со списком URI для копирования |
-filelimit <n> |
Устанавливает максимальное количество файлов для копирования <= |
-filters |
Путь к файлу, который содержит список регулярных выражений, по одному в каждой строке, чтобы исключить файлы, соответствующие выражениям |
-i |
Игнорирует ошибки |
-log <path/to/logdir> |
Сохраняет логи в <path/to/logdir> |
-m |
Определяет максимальное количество одновременных копий |
-numListstatusThreads |
Количество потоков, используемых для создания листингов файлов |
-overwrite |
Если флаг задан, перезаписывает целевые файлы/каталоги |
-p <arg> |
Сохраняет статус (репликация, размера блока, пользователь, группа, разрешение, хеш-сумма, XATTR и временная метка).
Если флаг |
-rdiff <newSnapshot> <oldSnapshot> |
Позволяет определить изменения в target-объекте с момента создания |
-sizelimit <n> |
Флаг устарел.
Ограничивает общий размер до значения <= |
-skipcrccheck |
Определяет, следует ли пропускать CRC-проверки для source- и target-путей |
-strategy <arg> |
Стратегия копирования, используемая в |
-tmp <path/to/dir> |
Временная локация, которая будет использоваться для атомарных коммитов |
-update |
Обновляет target, копируя только отсутствующие файлы или каталоги |
-v |
Логирует дополнительную информацию (пути, размер) в SKIP/COPY-лог |
-xtrack <path> |
Сохраняет информацию о недостающих source-файлах по указанному |
Пример:
$ mapred distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo