distcp

Инструмент используется для копирования файлов и каталогов внутри и между кластерами.

Использование показано ниже:

$ mapred distcp <src> <dst> [args]
Аргументы

-append

Позволяет использовать существующие данные в целевых файлах и добавлять к ним новые данные, если это возможно

-async

Запускает команду distcp в асинхронном режиме. Как только Hadoop-задача старовала, работа скрипта завершается

-atomic

Позволяет distcp копировать исходные данные во временное местоположение, а затем атомарно перемещать данные из временной локации в окончательное местоположение

-bandwidth <arg>

Указывает пропускную способность для map-задач (в МБ/сек)

-blocksperchunk <arg>

Количество блоков в части (chunk). Если флаг задан, разбивает файл на части для параллельного копирования

-copybuffersize

Размер буфера копирования (в байтах). По умолчанию, используется значение 8192

-delete

Удаляет файлы, существующие в <dst>, но не в <src>

-diff <oldSnapshot> <newSnapshot>

Определяет разницу между исходным и целевым файлом и применяет разницу к целевому файлу, чтобы синхронизировать с исходным файлом

-f <urilist_uri>

Указывает путь к файлу со списком URI для копирования

-filelimit <n>

Устанавливает максимальное количество файлов для копирования <= n

-filters

Путь к файлу, который содержит список регулярных выражений, по одному в каждой строке, чтобы исключить файлы, соответствующие выражениям

-i

Игнорирует ошибки

-log <path/to/logdir>

Сохраняет логи в <path/to/logdir>

-m

Определяет максимальное количество одновременных копий

-numListstatusThreads

Количество потоков, используемых для создания листингов файлов

-overwrite

Если флаг задан, перезаписывает целевые файлы/каталоги

-p <arg>

Сохраняет статус (репликация, размера блока, пользователь, группа, разрешение, хеш-сумма, XATTR и временная метка). Если флаг -p задан без <arg>, сохраняет статус репликации, размера блоков, пользователя, групп, разрешений, хеш-сумм и временных меток. XATTRs сохраняются, если и исходный, и целевой пути находятся в /.reserved/raw иерархии (только для HDFS)

-rdiff <newSnapshot> <oldSnapshot>

Позволяет определить изменения в target-объекте с момента создания <oldSnapshot> в target-объекте, и применять различия в обратном порядке к target-объекту, а также копировать измененные файлы из исходного <oldSnapshot>, чтобы сделать target-объект таким же, как <oldSnapshot>

-sizelimit <n>

Флаг устарел. Ограничивает общий размер до значения <= n (в байтах)

-skipcrccheck

Определяет, следует ли пропускать CRC-проверки для source- и target-путей

-strategy <arg>

Стратегия копирования, используемая в distcp. Возможные значения: dynamic и uniformsize

-tmp <path/to/dir>

Временная локация, которая будет использоваться для атомарных коммитов

-update

Обновляет target, копируя только отсутствующие файлы или каталоги

-v

Логирует дополнительную информацию (пути, размер) в SKIP/COPY-лог

-xtrack <path>

Сохраняет информацию о недостающих source-файлах по указанному <path>

Пример:

$ mapred distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo
Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней