tencent cloud

云 HDFS

产品简介
购买指南
快速入门
操作指南
创建 CHDFS
创建权限组
创建权限规则
创建挂载点
挂载 CHDFS
使用 CAM 授权访问
通过 Java 代码访问 CHDFS
删除文件系统
实践教程
使用 CHDFS 作为 Druid 的 Deep storage
原生 HDFS 数据迁移到腾讯云 CHDFS
使用 DataX 导入或导出 CHDFS
CDH 配置 CHDFS 指引
CHDFS Ranger 权限体系解决方案
API 文档
History
Introduction
API Category
Making API Requests
Restoration task APIs
Permission rule APIs
Permission group APIs
Other APIs
Mount point APIs
Lifecycle rule APIs
File system APIs
Data Types
Error Codes
常见问题
词汇表
相关协议
隐私协议
数据处理和安全协议
文档云 HDFS实践教程使用 DataX 导入或导出 CHDFS

使用 DataX 导入或导出 CHDFS

PDF
聚焦模式
字号
最后更新时间: 2025-09-26 10:17:22

环境依赖

DataX 版本:DataX-3.0。

下载与安装

获取 CHDFS JAR

在官方 Github 上下载 CHDFS_JAR

获取 DataX 软件包

在官方 Github 上下载 DataX

安装 CHDFS JAR

下载 CHDFS JAR 后,将chdfs_hadoop_plugin_network-1.7.jar拷贝到 Datax 解压路径plugin/reader/hdfsreader/libs/以及plugin/writer/hdfswriter/libs/下。

使用方法

DataX 配置

修改 datax.py 脚本

打开 DataX 解压目录下的 bin/datax.py 脚本,修改脚本中的 CLASS_PATH 变量为如下:
CLASS_PATH = ("%s/lib/*:%s/plugin/reader/hdfsreader/libs/*:%s/plugin/writer/hdfswriter/libs/*:.") % (DATAX_HOME, DATAX_HOME, DATAX_HOME)

在配置 JSON 文件里配置 hdfsreader 和 hdfswriter

示例 JSON 如下:
{
"job": {
"setting": {
"speed": {
"byte": 10485760
},
"errorLimit": {
"record": 0,
"percentage": 0.02
}
},
"content": [{
"reader": {
"name": "hdfsreader",
"parameter": {
"path": "testfile",
"defaultFS": "ofs://f4xxxxxxxxx-hxT9.chdfs.ap-beijing.myqcloud.com/",
"column": ["*"],
"fileType": "text",
"encoding": "UTF-8",
"hadoopConfig": {
"fs.AbstractFileSystem.ofs.impl": "com.qcloud.chdfs.fs.CHDFSDelegateFSAdapter",
"fs.ofs.impl": "com.qcloud.chdfs.fs.CHDFSHadoopFileSystemAdapter",
"fs.ofs.tmp.cache.dir": "/data/chdfs_tmp_cache",
"fs.ofs.user.appid": "1250000000"
},
"fieldDelimiter": ","
}
},
"writer": {
"name": "hdfswriter",
"parameter": {
"path": "/user/hadoop/",
"fileName": "testfile1",
"defaultFS": "ofs://f4xxxxxxxxx-hxT9.chdfs.ap-beijing.myqcloud.com/",
"column": [{
"name": "col",
"type": "string"
},
{
"name": "col1",
"type": "string"
},
{
"name": "col2",
"type": "string"
}
],
"fileType": "text",
"encoding": "UTF-8",
"hadoopConfig": {
"fs.AbstractFileSystem.ofs.impl": "com.qcloud.chdfs.fs.CHDFSDelegateFSAdapter",
"fs.ofs.impl": "com.qcloud.chdfs.fs.CHDFSHadoopFileSystemAdapter",
"fs.ofs.tmp.cache.dir": "/data/chdfs_tmp_cache",
"fs.ofs.user.appid": "1250000000"
},
"fieldDelimiter": ":",
"writeMode": "append"
}
}
}]
}
}
其中,hadoopConfig 配置为 CHDFS 所需要的配置,defaultFS 填写为 CHDFS 的路径。例如ofs://f4xxxxxxxxx-hxT9.chdfs.ap-beijing.myqcloud.com/,其他配置同 hdfs 配置项即可。

执行数据迁移

将配置文件保存为 hdfs_job.json,存放到 job 目录下,执行以下命令行:
bin/datax.py job/hdfs_job.json
观察屏幕正常输出如下:
2020-03-09 16:49:59.543 [job-0] INFO JobContainer -
[total cpu info] =>
averageCpu | maxDeltaCpu | minDeltaCpu
-1.00% | -1.00% | -1.00%


[total gc info] =>
NAME | totalGCCount | maxDeltaGCCount | minDeltaGCCount | totalGCTime | maxDeltaGCTime | minDeltaGCTime
PS MarkSweep | 1 | 1 | 1 | 0.024s | 0.024s | 0.024s
PS Scavenge | 1 | 1 | 1 | 0.014s | 0.014s | 0.014s

2020-03-09 16:49:59.543 [job-0] INFO JobContainer - PerfTrace not enable!
2020-03-09 16:49:59.543 [job-0] INFO StandAloneJobContainerCommunicator - Total 2 records, 33 bytes | Speed 3B/s, 0 records/s | Error 0 records, 0 bytes | All Task WaitWriterTime 0.000s | All Task WaitReaderTime 0.033s | Percentage 100.00%
2020-03-09 16:49:59.544 [job-0] INFO JobContainer -
任务启动时刻 : 2020-03-09 16:49:48
任务结束时刻 : 2020-03-09 16:49:59
任务总计耗时 : 11s
任务平均流量 : 3B/s
记录写入速度 : 0rec/s
读出记录总数 : 2
读写失败总数 : 0


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈