【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax概述
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax快速入门
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax类图
【大数据进阶第三阶段之Datax学习笔记】使用阿里云开源离线同步工具Datax实现数据同步
2、快速入门
2.1 官方地址
下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
源码地址:GitHub - alibaba/DataX: DataX是阿里云DataWorks数据集成的开源版本。
2.2 前置要求
- Linux
- JDK(1.8以上,推荐1.8)
- Python(推荐Python2.6.X)
2.3 安装
(1) 将下载好的datax.tar.gz上传到服务器的/home/soft文件夹下
[root@xxx soft]$ ls
datax.tar.gz
(2) 解压datax.tar.gz到/opt/module
[root@xxx soft]$ tar -zxvf datax.tar.gz -C /opt/module/
(3) 运行脚本检测
[root@xxx bin]$ cd /opt/module/datax/bin/
[root@xxxbin]$ python datax.py /opt/module/datax/job/job.json
(4) json配置文件注释
/*一个json就是一个job,一个job主要包含:
content,setting 两个属性*/
{
"job": {
/*content是job的核心,主要放reader和writer插件*/
"content": {
/*raader插件*/
"reader": {},
/*writer插件*/
"writer": {}
},
/*setting主要用来设置job的基本设置*/
"setting": {
/*speed流量控制*/
"speed": {
"channel": 1, /*同步时候的并发数*/
"byte": 1024 /*同步时候的字节大小,影响速度,可选*/
},
/*脏数据控制,配置的意思是当脏数据大于10条,或者脏数据比例达到0.05%,任务就会报错*/
"errorLimit": {
"record": 10,/*脏数据最大记录数阈值*/
"percentage": 0.05 /*脏数据占比阈值*/
}
}
}
}
json的reader和writer内容根据插件不同而变化,具体查询官网