Canal+RabbitMQ实现MySQL数据同步至ClickHouse

ClickHouse作为一个被广泛使用OLAP分析引擎,在执行分析查询时的速度优势很好的弥补了MySQL的不足,但是如何将MySQL数据同步到ClickHouse就成了用户面临的第一个问题。本文利用Canal来实现ClickHouse实时同步MySQL数据,使用RabbitMQ来做消息队列,给出了将MySQL多张表同步至ClickHouse同一张表的方案。

Canal简介;

Canal主要用途是基于MySQL数据库增量日志解析,提供增量数据订阅和消费。

工作原理:

·Canal模拟MySQL slave的交互协议,伪装自己为MySQL slave,向MySQL master发送dump协议

·MySQL master收到dump请求,开始推送binary log给slave(即Canal)

·Canal解析binary log对象(原始为byte流)

RabbitMQ简介

RabbitMQ是一款使用Erlang语言开发的,实现AMQP(高级消息队列协议)的开源消息中间件。

RabbitMQ工作过程:

53ae5ece3e541795e375231e20028ad8.jpeg

消息生产者并没有直接将消息发送给消息队列,而是通过建立Exchange(交换器)和Channel(信道),将消息发送给Exchange,Exchange根据routing key,将消息转发给指定的Queue(消息队列)。然后,消息会被消费者从队列里读取并消费。

接下来让我们开始进入实操

MySQL及ClickHouse建表示例

MySQL示例:

CREATE TABLE `test` (

`id` int(11) NOT NULL,

 `name` varchar(100) DEFAULT NULL,

 `quantity` int(11) DEFAULT NULL,

PRIMARY KEY (`id`)

)

ClickHouse示例:

CREATE TABLE default.test

(

 `id` Int32,

`name` String,

`quantity` Int32

)

ENGINE = MergeTree

PRIMARY KEY id

ORDER BY id

MySQL配置

(1)开启binlog

vi /etc/my.cnf 添加下面内容:

server-id = 1

log_bin = /var/lib/mysql/bin.log

binlog-format = row

expire_logs_days = 30

max_binlog_size= 768M

bind-address = 0.0.0.0

重启MySQL服务:

systemctl restart mysqld.service

登陆mysql,查看binlog启动情况:

show variables like 'log_%';

04d70d4eaa725f5fda21994b8024b511.jpeg

(2)新增同步账号

登陆mysql,执行下面命令,创建账号maxwell,密码为123456

CREATE USER 'maxwell'@'%' IDENTIFIED BY '123456';GRANT SELECT, REPLICATION CLIENT, REPLICATION SLAVE ON *.* TO 'maxwell'@'%';flush privileges;

rabbitMQ配置

登录http://IP:15672,进入rabbitMQ管理页面(账号和密码默认都是guest)

(1)新建同步用户

注1:不要使用初始guest账户,在canal连接时,权限会不够。

注2:密码中除了下划线,不要使用特殊字符,否则canal消费端配置会报错。

新建cktest用户如下:

094ccb6681e3dde6397fc0b9b7612129.jpeg

9cb795035d943d6585fccbd37f79e568.jpeg

(2)新建交换机

1d1eb5345911390cf92dbf4b3b83131e.jpeg

(3)新建队列

d5403ca77736c4f1db2ccffb3026f4cb.jpeg

(4)绑定交换机和队列

点击下图红框处

7f5eab365ac579c4d19cdb266c564fca.jpeg

绑定交换机和队列

cf1f0cee32719b807737990436b70592.jpeg

canal服务端安装配置

(1)安装

下载canal安装包

wget https://github.com/alibaba/canal/releases/download/canal-1.1.5/canal.deployer-1.1.5.tar.gz

/opt下创建canal目录

mkdir canal

解压到指定目录

tar zxvf canal.deployer-1.1.5.tar.gz -C canal

0f02ced09254970f7d9df40b0c5f0643.jpeg

(2)配置

服务端要配置两个文件conf文件下canal.properties、example文件夹中的instance.properties

配置canal.properties

选择模式

49af3498f72fa9910763cddf0971d47a.jpeg

配置读取mysql二进制文件的用户名和密码

0b1f68ce56ab3bb7bfd5ad807a5d884c.jpeg

设置RabbitMQ相关属性

rabbitmq.exchange 填写mq队列相对应的交换机名称

rabbitmq.deliveryMode = 2(2表示Durable持久化)

31bb00e87644bc397a2b5a0f5100e6d2.jpeg

配置instance.properties

配置MySQL数据库的IP地址和端口

af5f7868ceeda58c37d1347f1d676d13.jpeg

设置用户和密码

504ba1017b1a4a1e57f426d3d178565e.jpeg

表过滤 (.*\\..*)所有库所有表  (xxx\\..*)指定库所有表 (xxx\\.xxx)指定库指定表,如果多个用英文逗号隔开

63797eaa89de3ee92722e61ade952e04.jpeg

canal.mq.topic=example-routingkey 配置交换机和队列的routingkey

4e68543d75543e4cad58756f627eeb42.jpeg

canal客户端安装配置

(1)安装

下载canal安装包

wget https://github.com/alibaba/canal/releases/download/canal-1.1.5/canal.adapter-1.1.5.tar.gz

/opt下创建canal-client目录

mkdir canal-client

解压到指定目录

tar zxvf canal.adapter-1.1.5.tar.gz -C canal-client

619e1973d92dccc63a26821c4849de94.jpeg

在lib目录下要导入几个包:

clickhouse-jdbc-qbe-0.2.4-jar-with-dependencies.jar

httpclient-4.5.5.jar

httpcore-4.4.9.jar

lz4-1.3.0.jar

lz4-java-1.4.1.jar

(2)配置

canal客户端配置包含两部分。application.yml(应用配置)和rdb文件夹中xxx.yml配置(数据映射配置)

配置application.yml

选择模式

bdb2676c03b091905fba830f6a9e2013.jpeg

rabbitMQ消费者配置

dece93d7feade3521957d5d7514e5df6.jpeg

源数据库配置

2c5f872b9e7caeffbddb13c95f640f64.jpeg

目标数据库配置

instance: ck-queue配置rabbitmq的队列

key:example-routingkey填写mq队列的key

97839059523f792a424aa17a54cb7c21.jpeg

配置mytest_user.yml

注:一个yml文件,仅可编辑一张表的映射关系,多张表就要新建多个配置文件。

dataSourceKey: 对应application.yml中的配置,默认为defaultDS

destination: 对应application.yml中的instance配置

targetTable: 目标库的目标表,不需要带数据库名称,否则会出现:库名.库名.表名的错误

mapAll: 映射关系true为全映射,false为非全映射,若为非全映射,则需要编辑targetColumns下面的配置来进行字段映射

b8b7eef64226b38e929481a7a02b4ebf.jpeg

结果演示

我们配置了mytest_user.yml、test1.yml两个文件,将MySQL中的两个表同步至ClickHouse。

启动canal,在canal目录下:

bin/startup.sh

查看server日志:

tail -200f logs/canal/canal.log

e88344db81fee160471724fe61bb3f14.jpeg

查看instance日志:

tail -200f logs/example/example.log

a1e3c7996eb512786d4858562cd1175f.jpeg

启动canal-client,在canal-client目录下:

bin/startup.sh

canal-client目录下查看日志:

tail -200f logs/adapter/adapter.log

af87e706261538fb87d6a294b3d41f75.jpeg

向MySQL的test表中写入数据

source /opt/test.sql;

可以看到canal客户端会输出如下日志:

03e54ff9bed72df253f0c84437594a59.jpeg

进入ClickHouse中查看数据

75d1abe47d7fceb08cd9cbcb9d5843a1.jpeg

再向MySQL的test1表中写入数据:

insert into test1 values(10001,'apple',13);

进入ClickHouse中查看数据

0b6639f4db2f39b0dff9ea43595eb06e.jpeg

可以看到数据已经同步至ClickHouse。

获取更多内容,欢迎关注万山数据!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/289957.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

c++语言基础16-出现频率最高的字母

题目描述 给定一个只包含小写字母的字符串,统计字符串中每个字母出现的频率,并找出出现频率最高的字母,如果最高频率的字母有多个,输出字典序靠前的那个字母。 输入描述 包含多组测试数据,每组测试数据占一行。 输…

在ARMv8中aarch64与aarch32切换

需求描述 在项目调试过程中,由于内存或磁盘空间不足需要将系统从aarch64切换到aarch32的运行状态去执行,接下来记录cortexA53的调试过程。 相关寄存器描述 ARM64: SPSR_EL3 N (Negative):表示运算结果的最高位,用于指示运算结果是否为负数。 Z (Zero):表示运算结果是否…

Spark Streaming的DStream与窗口操作

实时数据处理已经成为当今大数据时代的一个重要领域,而Spark Streaming是Apache Spark生态系统中的一个关键模块,用于处理实时数据流。本文将深入探讨Spark Streaming中的DStream(离散流)概念以及如何使用窗口操作来处理实时数据。…

如何将Docker中的Tomact彻底删除

目录 前言: 一.删除Tomcat容器 列出所有在运行的容器信息 ​编辑 如果tomcat容器正在运行先停止,可以通过容器id或者容器名称 再次查看容器运行情况,可以看到没有运行中的容器了. 查看所有容器(-a表示查看所有)无…

【数据结构】一些数组面试题以及顺序表的思考

简单不先于复杂,而是在复杂之后。 文章目录 1. 数组相关面试题2. 顺序表的问题及思考 1. 数组相关面试题 1.原地移除数组中所有的元素val,要求时间复杂度为O(N),空间复杂度为O(1)。 int removeElement(int* nums, int numsSize, int val) {i…

Ps:创建基于颜色的蒙版

有时候画面上的某种颜色显得不是很和谐,如下图所示。 将画面上的某种颜色换掉,也是得到创意效果的一种重要手段。 演示视频 如果能创建好相关颜色的蒙版,这样在替换颜色的时候就会更加方便。 ◆ ◆ ◆ 创建基于颜色的蒙版 主要思路&#xf…

8. C++ function的介绍和使用

std::function的介绍和使用 std::function是一个可变参类模板,是一个通用的函数包装器(Polymorphic function wrapper)。std::function的实例可以存储、复制和调用任何可复制构造的可调用目标,包括普通函数、成员函数、类对象&am…

系列七、Ribbon

一、Ribbon 1.1、概述 Ribbon是基于Netflix Ribbon实现的一套客户端负载均衡的工具,是Netflix发布的一款开源项目,其主要功能是提供客户端的软件负载均衡算法和服务调用,Ribbon客户端组件提供一系列完善的配置项,例如&#xff1a…

组合算法简单实现

组合算法 目录概述需求: 设计思路实现思路分析1.简单的字符串方式 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,wait for change,challenge …

网页爬虫对于网络安全有哪些影响?

在当今信息爆炸的时代,网络已经成为人们获取信息、交流思想和开展业务的重要平台。然而,随着网络的普及和技术的不断发展,网络安全问题也日益凸显,其中网页爬虫对网络安全的影响不容忽视。本文将就网页爬虫对网络安全的影响进行深…

XYZ世代

Z世代,Gen Zers,Generation Z ,一词最早出现于欧美地区,是美国及欧洲的流行用语,泛指在1995-2009年间出生的一代人,千禧后一代。又称网络世代、互联网世代,网生代,二次元世代&#x…

项目框架构建之3:Nuget服务器的搭建

本文是“项目框架构建”系列之3,本文介绍一下Nuget服务器的搭建,这是一项简单的工作,您或许早已会了。 1.打开vs2022创建Asp.net Web应用程序 框架选择.net framework4.8,因为nuget服务器只支持.net framework。 2.选择空项目和去…

multipath 内核接口及框架介绍

文章目录 1 云主机使用网络存储 io 流程2 multipath 介绍 1 云主机使用网络存储 io 流程 对于一个云服务环境,大致会有网络节点,存储节点,计算节点,控制节点,其中虚拟云主机在计算节点工作,而虚拟云主机&a…

Unity SVN更新提交小工具

Unity SVN更新提交小工具 前言使用说明必要前提源码参数说明 感谢 前言 Unity开发时每次都要到文件夹中操作SVN,做了一个小工具能够在Editor中直接操作。 使用说明 必要前提 前提是要安装好SVN,在文件夹右键能够看到安装的SVN 源码 using System…

UE4.27.2 网页串流

1、和Unity串流一样安装Node.js 下载地址https://nodejs.org/ 2、下载安装Epic Games启动程序https://www.unrealengine.com/zh-CN/download 3、安装UE4.7.2 4、这里就不安装像素流送演示,选个别的然后创建工程 5、启用PixelStreaming插件 6、设置额外启动参数&am…

uni-app 前后端调用实例 基于Springboot 详情页实现

锋哥原创的uni-app视频教程: 2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中..._哔哩哔哩_bilibili2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中...共计23条视频,包括:第1讲 uni…

OEE如何为制造企业实施ISO50001提供支持

ISO50001是一项旨在帮助企业建立和实施能源管理体系的国际标准,以提高能源效率、降低能源消耗和减少环境影响。而设备OEE(设备综合效率)作为一个关键的生产效率指标,可以为企业实施ISO50001提供重要的支持。本文将介绍ISO50001能源…

Hive10_窗口函数

窗口函数(开窗函数) 1 相关函数说明 普通的聚合函数聚合的行集是组,开窗函数聚合的行集是窗口。因此,普通的聚合函数每组(Group by)只返回一个值,而开窗函数则可为窗口中的每行都返回一个值。简单理解,就是对查询的结果多出一列…

计算机网络期末知识点总结

计算机网络概述考点 计算机网络的组成 从组成部分看:一个完整的计算机网络主要由硬件、软件、协议三大部分组成,缺一不可。硬件主要指:主机、通信链路、交换设备和通信设备等;软件主要指:用户使用的各种软件&#xf…

vue使用elementui 的 table且自定义某列表头时,添加的点击事件和自带的筛选功能有类似冒泡行为

element 自带的table 需求:在时间这一列的筛选按钮旁边添加一个批量修改按钮问题:如果不加排序这个属性,那么表格自带的筛选和新加的批量筛选点击事件会冲突(冒泡事件)解决方法:在该列添加sortable属性&…