2024-02-19(Flume,DataX)

1.flume中拦截器的作用:个人认为就是修改或者删除事件中的信息(处理一下事件)。

2.一些拦截器

Host Interceptor,Timestamp Interceptor,Static Interceptor,UUID Interceptor,Search and Replace Interceptor,自定义拦截器

3.Channel选择器

Replicating Channel Selector,Multiplexing Channel Selector等。

功效:根据一些设置,使得传过来的事件选择走哪个channel。并且可以配合拦截器来呈现出许多不同的功效。

通过自定义的规则,来去决定事件Event发送到哪个channel。

4.Sink处理器

Sink用来消费存储在channel中的事件Event。

可以将多个sink放入到一个组中,sink处理器能够对一个组中所有的sink进行负载均衡,在一个sink出现临时错误时进行故障转移。

5.一些sink处理器

Default Sink Processor:

默认的Sink处理器只支持单个Sink。

Failover Sink Processor:

故障转移处理器维护了一个带有优先级的sink列表,故障转移机制将失败的sink放入到一个冷却池中,如果sink成功了发送事件,将其放入到活跃池中,sink可以设置优先级,优先级越高,如果一个sink发送事件失败,下一个有更高优先级的sink将被用来发送事件,比如:优先级100的比优先级80的先被使用,如果没有设置优先级,按照配置文件中配置的顺序来决定。

一个组中有sink处理器时,进行负载均衡选择sink处理器的方式是可选的,例如:轮询,随机,自定义等。

6.使用Flume导入数据到HDFS

数据导出到HDFS需要使用HDFS Sink,conf配置文件中进行相应的配置即可。

7.Flume监控

Ganglia工具。Ganglia用于测量和监控数以千计的节点(其实不外乎就是用Ganglia工具来监控Flume节点),Ganglia核心包括gmond(监控守护进程)、gmetad(元数据守护进程)以及一个web前端。主要是用来监控节点的性能,例如:cpu,memory,硬盘利用率,I/O负载,网络流量情况等,可以通过曲线见到每个节点的工作状态,对合理调整,分配系统资源,提高系统整体性能起到重要作用。

8.Flume总结

Flume是一个分布式高可用高可靠的海量日志采集,聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时提供了对数据进行简单处理写到各种数据接收方的能力。

分布式:指通过部署多个agent来实现分布式。

高可用:通过sink的负载均衡或者副本机制来保证高可用。

高可靠:通过Channel的事务来保证高可靠。

各类数据发送方:通过可以指定很多类型的Source来实现支持各种类型的数据发送方。

eg:

对数据进行简单处理:通过拦截器,制定规则,来对数据进行修改,丢弃等操作。

写到各种数据接收方:通过支持各种类型的Sink来实现支持写到各种数据接收方的能力。

eg:

Flume的使用:

Flume的使用也非常简单,我们只需要在配置文件中配置好Flume的三大组件(Source,Channel,Sink)的相应配置,就可以使用了。

Flume的监控:使用Ganglia工具来监控Flume节点。

---------------------------------------------------------------------------------------------------------------------------------

DataX

9.DataX概述:

DataX是阿里巴巴开源的一个异构数据源(就是不同数据的来源,例如mysql,mongodb,hdfs等)的离线同步工具,致力于实现包括关系型数据库(mysql,oracle等),hdfs,hive,odps,hbase,ftp等各种异构数据源之间稳定高效的数据同步功能。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能将已有的数据源做到无缝数据同步。

如图所示:

为了解决异构数据源的同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。 

sqoop是将mysql数据库的数据导入到hdfs中(以及反方向的导出),使用场景相对“单一”。

10.DataX的结构:

以Mysql为例:

Reader:数据采集模块,负责数据源数据的采集,将数据发给FrameWork

Writer:数据写入模块,负责不断从Frameworks中拿数据,并将数据写入到目的端。

Framework:用于连接Reader和Writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。 

11.在配置文件中配置好reader的读取信息,以Json格式的形式,DataX自己就知道怎么去做了

eg:

12.在配置文件中配置好writer的读取信息,以Json格式的形式,DataX自己就知道怎么去做了

eg:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/397736.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Docker从入门到上天系列第一篇:Docker开篇介绍

😉😉 欢迎加入我们的学习交流群呀! ✅✅1:这是孙哥suns给大家的福利! ✨✨2:我们免费分享Netty、Dubbo、k8s、Mybatis、Spring、Security、Docker、Grpc、消息中间件、Rpc、SpringCloud等等很多应用和源码级…

如何在iStoreOS软路由系统中安装cpolar实现公网远程本地电脑桌面

文章目录 简介一、配置远程桌面公网地址二、家中使用永久固定地址 访问公司电脑**具体操作方法是:** 简介 软路由是PC的硬件加上路由系统来实现路由器的功能,也可以说是使用软件达成路由功能的路由器。 使用软路由控制局域网内计算机的好处&#xff1a…

git上传报错:Object too large, rejecting the pack

在gerrit设置了最大不能上传超过600M的文件,今天开发遇到推送问题: 结果到本地怎么也找不到大文件。 后来只能按commit排查,用如下命令排查到了: 解决方法,将大文件去掉:(commitid为大文件所在commit&…

扫盲:什么是webGPU,和webGL对比哪些优点?

web端的3D图像渲染,大都采用webGL,不过其性能让大家很崩溃,webGPU的出现,让大家看到了访问加速的可能,本文通过对比webGPU与webGL,给老铁们普及一下。老铁们如有数据可视化的设计和开发需求,可以…

“丑女”上春晚:任素汐获赞,黄绮珊遭网暴?

♥ 为方便您进行讨论和分享,同时也为能带给您不一样的参与感。请您在阅读本文之前,点击一下“关注”,非常感谢您的支持! 文 |猴哥聊娱乐 编 辑|徐 婷 校 对|侯欢庭 在这个光怪陆离的人间舞台,我们常被绚烂的表象所迷…

Solidworks:钣金模型作业

有了实体模型设计的基础,钣金模型掌握起来很容易。

微博数据可视化分析:利用Python构建信息图表展示话题热度

1. 引言 随着社交媒体的迅速发展,微博已成为人们交流观点、表达情感的重要平台之一。微博评论数据蕴含着丰富的信息,通过对这些数据进行分析和可视化,我们可以深入了解用户对特定话题的关注程度和情感倾向。本文将介绍如何利用Python进行微博…

网络原理 - HTTP/HTTPS(3)

HTTP请求 认识请求"报头" header的整体的格式也是"键值对"的结构. 每个键值对占一行,键和值之间使用分号进行分割. 报头的种类有很多,此处仅介绍几个常见的. Host 表示服务器主机的地址和端口.(Host和URL中的ip地址端口啥的,绝大部分情况下都是一样的,少…

React项目基础搭建过程中遇到的问题

由于React Router版本的不同导致的问题 报错信息如下: Line 9:18: Switch is not defined react/jsx-no-undef Line 13:88: Redirect is not defined react/jsx-no-undef 问题出现的原因: 对于导入 Switch is not defined 和 Redirect is not…

Netty Review - NIO空轮询及Netty的解决方案源码分析

文章目录 Pre问题说明NIO CodeNetty是如何解决的?源码分析入口源码分析selectCntselectRebuildSelector Pre Netty Review - ServerBootstrap源码解析 Netty Review - NioServerSocketChannel源码分析 Netty Review - 服务端channel注册流程源码解析 问题说明 N…

某和OA C6 RssModulesHttp.aspx存在SQL注入漏洞(附漏洞利用脚本)

免责声明 文章中涉及的漏洞均已修复,敏感信息均已做打码处理,文章仅做经验分享用途,切勿当真,未授权的攻击属于非法行为!文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直接或者间接的…

Linux调优指南

更多相关知识可以阅读: https://www.yuque.com/treblez/qksu6c/yxl59pkvczqot9us https://www.yuque.com/treblez/qksu6c/nqe8ip59cwegl6rk 本文不会讲解linux的基础知识。 CPU 工具大图 观测时优先使用top、vmstat和pidstat三个工具: 设置调度器 这…

设计模式----开题

简介: 本文主要介绍设计模式中的六大设计原则。开闭原则,里氏代换原则,依赖倒转原则,接口隔离原则,迪米特原则和合成复用原则。这几大原则是设计模式使用的基础,在使用设计模式时,应该牢记这六大…

《剑指 Offer》专项突破版 - 面试题 53 : 二叉搜索树的下一个节点(详解 C++ 实现的两种方法)

目录 前言 一、方法一 二、方法二 前言 题目链接:LCR 053. 二叉搜索树中的中序后继 - 力扣(LeetCode) 题目: 给定一棵二叉搜索树和它的一个节点 p,请找出按中序遍历的顺序该节点 p 的下一个节点。假设二叉搜索树…

十一、图像颜色通道分离与合并

项目功能实现&#xff1a;对一张彩色图片的三个颜色通道进行分离&#xff0c;修改之后进行合并 按照之前的博文结构来&#xff0c;这里就不在赘述了 一、头文件 channel.h #pragma once#include<opencv2/opencv.hpp>using namespace cv;class CHANNELS { public:void …

[word] word正反面打印应该怎么设置呢? #知识分享#学习方法#职场发展

word正反面打印应该怎么设置呢&#xff1f; word文档打印时&#xff0c;如果页数比较多&#xff0c;出于格式要求或为了节省纸张&#xff0c;通常需要正反面打印&#xff0c;那怎么操作正反双面打印呢&#xff1f;通常有两种方法打印。 1、选择“打印”对话框底部的“打印”下…

android11:基于rk3568 适配裕泰以太网Phy芯片YT8512

使用裕太以太网 Phy 芯片YT8512C 确认硬件连接&#xff1a; 根据硬件连接修改设备&#xff1a; rk3568设备树修改&#xff1a; &gmac1 {phy-mode "rmii";clock_in_out "output";//phy inputsnps,reset-gpio <&gpio3 RK_PB2 GPIO_ACTIVE_LOW…

如何选择适合你的阿里云服务器?

阿里云服务器配置怎么选择&#xff1f;根据实际使用场景选择&#xff0c;个人搭建网站可选2核2G配置&#xff0c;访问量大的话可以选择2核4G配置&#xff0c;企业部署Java、Python等开发环境可以选择2核8G配置&#xff0c;企业数据库、Web应用或APP可以选择4核8G配置或4核16G配…

Sample Pairing(ICLR 2018)

paper&#xff1a;Data Augmentation by Pairing Samples for Images Classification 本文的创新点 本文提出了一种新的应用于图像分类的数据增强方法SamplePairing&#xff0c;这种简单的数据增强技术显著提高了所有测试的数据集的分类精度。此外当训练集中的样本数量非常少…

如何使用安卓平板远程Ubuntu服务器通过VS Code远程开发

文章目录 1.ubuntu本地安装code-server2. 安装cpolar内网穿透3. 创建隧道映射本地端口4. 安卓平板测试访问5.固定域名公网地址6.结语 正文开始前给大家推荐个网站&#xff0c;前些天发现了一个巨牛的 人工智能学习网站&#xff0c; 通俗易懂&#xff0c;风趣幽默&#xff0c;…