将 Kudu 数据迁移到 CDP

这是CDH/HDP/Apache Hadoop迁移到CDP系列之一,如对迁移感兴趣,请关注该系列之前博客《使用 Replication Manager 迁移到CDP 私有云基础》、《将数据迁移到CDP 私有云基sparkhub础的数据迁移用例》、《将Hive数据迁移到CDP》。

了解如何将 Kudunix系统还有人用吗u数据从 CDH 迁移到 CDP

当您将 Kudu 数据从 CDH 迁移到 CDP 时,您必须使用 Kudu 备份工hadoop三大组件具来备份和恢复您的 Kudu 数据。

1.使用 kudu-backup-tools.jar Kudu 备份工具备份 Kudu 中的所有数据。

2.在旧集群中的新集群中手动应用任何自定义 Kuduhadoop是什么意思 配置。

3.将备份的数据复制到目标 CDP 集群。

4.使用 Kudu 备份工具恢复备份 Kudu 数据。

1. 在 Kudu 中备份数据

您可以使用Kuunix是什么操作系统du 备份工具ku存储du-backup-tools.jar备份Kudu 中的所有数据。

Kud存储单元u 备份工具运行 Spark 作业,该作业会根据您指定的内容构建备份数据文件并将其测试技术及应用写入 HDFS AWS S3。请存储诸天注意,如苏卿陆容渊果您要备份到 S3,则必须提供 S3 凭据以进行 spark-submit,如指定凭据以从 Spark 访问 S3 中所述

Kuduhadoop菜鸟教程 备份工具在第一次运行时为您的数据创建完整备份。随后,该工具会创建增量备份。

重要的

增量备份和恢复功能仅适sparkling用于 CDH 6.3.0 及更高版本。因此,如果您有活动的摄取过程,例如 Spark hadoop集群搭建业、Impala SQL 批处理或 Nifi Kudu 中插入或更新数据,您可能需要在开始完整备份之前暂停这些过程,以避免在开始 Kudu 备份过程后丢失数据更apache和nginx的区别.

运行以下命令以分布式计算机系统与计算机网络系统启动备份过程:

spark-submit --class org.apache.kudu.backup.KuduBackup <path to kudu-backup2_2.11-1.12.0.jar> \
--kuduMasterAddresses <addresses of Kudu masters> \
--rootPath <path to store the backed up data> \
<table_name>

在哪里

--kuduMasterAddre存储器sses用于将 Kudu 大师的地址指定为逗号分隔的列表。例如,master1-host,mastehadoop发行版本分为r-hive官网2-host,master-3-host哪些是 Kudu 大师的实际主机名。

-分布式计算机系统与计算机网络系统-rootPath盛气凌人的意思用于指定存储备份数据的路径。它接受任何 Spark 兼容的路径。

o HDFS hive数据库例:hdfs:///kudu-backups

o AWS S3 示例:s3a://kudu-backup/

如果您正在备份到 S3 并看到线程“main”中的异常java.lang.IllegalArgumentExcehadoop怎么读音ption:路径必须是绝对的错误,帅气撩人高冷动漫男头请确保 S3 路径以正斜杠(/)结尾。

<table_name>可以是要备份的表或表列表。

例子:

spark-submit --class org.apache.kudu.backup.KuduBackup /opt/cloudera/parcels/CDH-7.2.1-1.cdh7.2.1.p0.4041380/lib/kudu/kudu-backup2_2.11.jar \
--kuduMasterAddresses cluster-1.cluster_name.root.hwx.site,cluster-2.cluster_name.root.hwx.site \
--rootPath hdfs:///kudu-backups \

my_sparkytable分布式计算框架

2hive是什么意思中文.将 Kudu 数据恢复到新集群中

Kudu中备份数据后,您可以将数据复制到目标 CDP 集群,然后使用 Kudu备份工具将其恢复。unix和linux的区别

如果您在旧集群中应用了任何自定义 Kudu 配置,那么您必须hadoop怎么读音手动在目标集群中应用这分布式计算可以解释为些配置。

如果您更存储单元改了的值tablet_hisunix网络编程tory_max_age_sec并计划在分布式计算框架目标集群上运行 Kudu 的增量备份,我们建议将其unix是系统软件么重置tablet_history_max_age_secspark面试题默认值 1 周(请参阅https://issue存储容量s.apache.org/jira/browse/KUhive建表语句DU-2677)。

常用修改配置标志的示例:

rpc_max_message_size

tablunix是系统软件么et_transaction_memory

rpc_serhive面试题vi存储单元ce_queue_length

raft_heartbeat_interval

heartbeat_interval_ms

memory_limit_hard_bytes

block_cache_capacity_mb

手动应用hadoop菜鸟教程自定义配置后,重新启动存储容量的基本单位 Kudu 集群。

1.通过以下方式之一将备份的数据复制到目标 CDP 集群:

o 使用 distcp

sudo -u hdfs hadoop distcp hdfs:///kudu/kudu-backups/* hdfs://cluster-2.cluster_name.root.hwx.site/kudu/kudu-backups/

o 使用复制管理器。有关更apache是干嘛用的多信息分布式计算机可以解释为,请参阅存储单元HDFS 复制

2.运行以下命令在目标集群上恢复备份:

spark-submit --class org.apache.kudu.backup.KuduRestore <path to kudu-backup2_2.11-1.12.0.jar> \
--kuduMasterAddresses <addresses of Kudu masters> \
--rootPath <path to the stored backed up data> \
<table_name>

在哪里

o --测试技术基础kuduMasterAddresses用于将 Kudspark和hadoop的区别u 大师的地址指定为逗号分隔的列表。例如,master1-host,master-2-host,master-3-host哪些是 Kudu 大师的实际主机名。

o --roospark不夜城微博tPath用于指定存储备份数据的路径。它接hive是什么意思中文受任何与 Spark 兼容的路径。

HDFS 示例:hdfs:///kudu-backup存储容量的基本单位s

AWS S3 示例:s3a://kudu-backup/

如果您已备份到 S3 并看到线程“main”中的异常java.lang.IllegalArgumentException:路径必须是绝对的错误,请确保 S3 路径以正斜杠(/)结尾。

o存储过程 <table_name>可以是要备份的表或表列表。

o 可选:--tab分布式计算leSuffix,如果设置,添加到恢复的表名就足够了。它只能在createTables属性为时使用true

o 可选:--timestampMs是以毫秒为单位的 UNIX 分布式计算可以解释为间戳,它定义了选择还原候选者时要使用的最晚时间。其默认值为System.currentTimeMillis()

sudo -u hdfs spark-submit --class org.apache.kudu.backup.KuduRestore /opt/cloudera/parcels/CDH-7.2.0-1.cdh7.2.0.p0.3758356/lib/kudu/kudu-backup2_2.11.jar \
--kuduMasterAddresses cluster-1.cluster_name.root.hwx.site \
--rootPath hdfs:///kudu/kudu-backups \

my_table

3. Cloudera Manager 中重启测试技术员工作内容 Kudu 服务。

原文链接https://docs.clouderapache的配置文件a.com/cdp-private-cloud-hive官网upgrade/latest/data-migration/topics/cdp-data-migration-kudu.html