如何利用flume进行日志采集

介绍    

    Apache Flume 是一个分布式、可靠、高可用的日志收集、聚合和传输系统。它常用于将大量日志数据从不同的源(如Web服务器、应用程序、传感器等)收集到中心化的存储或数据处理系统中。

基本概念

  • Agent(代理): Flume 中的基本工作单元,用于数据的采集、传输和处理。
  • Source(数据源): 代理中的组件,负责接收和发送数据到 Flume。
  • Channel(通道): 用于临时存储数据的缓冲区,用于在 Source 和 Sink 之间传输数据。
  • Sink(数据目的地): 代理中的组件,负责将数据传送到指定的目的地,如 HDFS、Kafka es等。

安装步骤

安装和配置 Flume

下载并安装 Apache Flume。从 Apache Flume 官网 下载适用于你环境的版本,并按照官方文档进行安装和配置。

我下载的是flume-v1.11.0版本,下载地址:Apache Download Mirrors

下载完成后上传到服务器的/opt/software目录

1.将 apache-flume-1.11.0-bin.tar.gz 上传到 linux 的/opt/software 目录下

2.解压 apache-flume-1.11.0-bin.tar.gz 
tar -zxf apache-flume-1.11.0-bin.tar.gz

3.修改 apache-flume-1.11.0-bin 的名称为 flume
mv apache-flume-1.11.0-bin flume

4.将 flume/conf 下的 flume-env.sh.template 文件重命名为 flume-env.sh,并配置 flumeenv.sh 文件
mv flume-env.sh.template flume-env.sh

vi flume-env.sh
# 添加java环境变量
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

配置环境变量

vim /etc/profile

#FLUME
export FLUME_HOME=/opt/software/flume
export PATH=$PATH:$FLUME_HOME/bin

source /etc/profile

查看版本:flume-ng version

定义数据流

        创建 Flume 配置文件,定义数据流。这个配置文件描述了数据流的来源、通道和目的地。一个基本的 Flume 配置文件可能包含以下几个关键组件:

  • Source(数据源):定义数据的来源,如日志文件、网络端口、Kafka 等。
  • Channel(通道):定义数据在 Flume 内部的缓冲区,暂存数据,确保可靠地传输。
  • Sink(数据目的地):定义数据的最终目的地,可以是 HDFS、HBase、Kafka 等。
  1. 配置 Source、Channel 和 Sink:

    • 在 Flume 配置文件中配置 Source、Channel 和 Sink。你需要根据你的数据来源和目的地的不同选择合适的 Source、Channel 和 Sink,并配置相关参数。
  2. 启动 Flume Agent:

    • 运行 Flume Agent,并指定 Flume 配置文件。例如:flume-ng agent -n agent_name -c conf -f conf/flume-conf.properties
  3. 监控和管理:

    • 使用 Flume 的监控和管理工具来跟踪数据流、监控性能,并对 Flume 进行管理。
  4. 测试和优化:

    • 测试数据流,确保数据能够按预期采集、传输和存储。根据需要进行优化配置,以提高性能和稳定性。

示例配置文件

   以下是一个简单的 Flume 配置文件示例:

  1. 创建一个flume-agent-conf.yml并写入以下内容

# 定义 agent 名称
agent1.sources = source1
agent1.channels = channel1
agent1.sinks = sink1

# 配置数据源
agent1.sources.source1.type = exec
agent1.sources.source1.command = tail -F /opt/test.log
agent1.sources.source1.channels = channel1

# 配置通道
agent1.channels.channel1.type = memory
agent1.channels.channel1.capacity = 1000
agent1.channels.channel1.transactionCapacity = 100

# 配置数据目的地
agent1.sinks.sink1.type = logger
agent1.sinks.sink1.channel = channel1

上述配置文件定义了一个名叫agent1的实例,数据来源为tail -F /opt/test.log,收集test.log的内容,并且通过sink配置输出到控制台

2.通过命令启动agent

flume-ng agent -n agent1 -c conf -f conf/flume-agent-conf.properties

3.往test.log里写入内容,vi test.log

4.查看agent日志,tail -f flume.log,能够看到以下内容输出,表示log采集成功。

         上面是一个很简单的flume采集示例,其实flume 可以将收集的日志输出到指定的目的地(如 HDFS、HBase、Kafka 等)。要查看已收集的日志,需要前往 Flume 配置文件中指定的输出目的地(sink),并使用相应的工具或方式来访问这些日志。

        例如,如果 Flume 配置将日志输出到 HDFS 中,可以使用 Hadoop 命令来查看或下载这些日志。如果将日志发送到 Kafka,则可以使用 Kafka 相关的命令或工具来消费这些消息。

   根据你的具体需求和环境配置更复杂的 Flume 配置文件,并确保理解每个组件的作用和配置参数的含义。 Flume 提供了丰富的 Source、Channel 和 Sink 类型以及各种配置选项,可以根据实际场景选择适合的组件和配置。

Flume 的常用组件

  • Avro Source: 从 Avro 格式数据源接收数据。
  • File Source: 从文件系统中的文件接收数据。
  • Memory Channel: 在内存中存储事件的通道。
  • HDFS Sink: 将数据写入 HDFS 目标的 Sink。

注意事项

  • 通道容量和事务容量的调整:根据需要调整 Flume 通道的容量和事务容量,确保适应大型数据的传输。
  • 合理配置 Source 和 Sink:根据实际情况选择合适的 Source 和 Sink 类型。
  • 数据格式正确性:确保发送到 Flume 的数据符合所需的格式,以避免消息被截断。

结语

        Apache Flume 是一个强大的数据收集和传输工具,可以轻松地处理大量的数据流。使用本文提供的示例和概念,可以开始使用 Flume 并适应不同的数据采集和传输需求。本篇文章就介绍到这里,感兴趣的同学可以自己去深入研究,使用flume完成日志采集、关键字告警等一整套的业务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/267443.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

039、转置卷积

之——增大高宽 杂谈 通常来说,卷积不会增大输入的高宽,通常要么不变,要么减半;如果想要直接padding来增加高宽,在不断的卷积过程中,padding的0越来越多,最后要做像素级的判断时候,由…

分布式核心技术之分布式共识

文章目录 什么是分布式共识?分布式共识方法PoWPoSDPoS 三种分布式共识算法对比分析 选主过程就是一个分布式共识问题,因为每个节点在选出主节点之前都可以认为自己会成为主节点,也就是说集群节点“存异”;而通过选举的过程选出主节…

基于Java SSM框架实现医院挂号上班打卡系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现医院挂号上班打卡系统演示 摘要 在网络发展的时代,国家对人们的健康越来越重视,医院的医疗设备更加先进,医生的医术、服务水平也不断在提高,给用户带来了很大的选择余地,而且人们越来越追求更个…

【leetcode100-019】【矩阵】螺旋矩阵

【题干】 给你一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。 【思路】 不难注意到,每进行一次转向,都有一行/列被输出(并失效);既然已经失效,那我…

MyBatis-Plus中默认方法对应的SQL到底长啥样?

我希望成为:自媒体圈中技术最好、实战经验最丰富的达人,技术圈中最会分享的架构师。加油! 我的公众号:Hoeller 过段时间要给公司同事做Mybatis-Plus相关的培训,所以抓紧时间看看Mybatis-Plus的源码,顺便也分…

RT-Thread 内核对象管理框架

内核对象管理框架 RT-Thread采用内核对象管理系统来访问/管理所有内核对象,内核对象包含了内核中绝大部分设施,这些内核对象可以是静态分配的静态对象,也可以是从系统内存堆中分配的动态对象。 RT-Thread内核对象包括:线程&…

使用VisualStutio2022开发第一个C++程序

使用VisualStudio2022创建C项目 第一步:新建C的控制台应用 第二步:填写项目名称和代码存放位置,代码的存放目录不要有中文名 第三步:点击创建,VisualStudio会自动开始帮我们创建项目 第四步:项目创建好以后&…

2023,测试开发人的年终总结

根据TesterHome社区发帖整理。从该年终总结可以看出当前测试行业,哪怕是测试开发也是竞争很厉害。作为测试同仁,不但要掌握功能测试、接口测试、性能测试,掌握各种工具使用,还得懂开发,懂Java/Python,懂VUE…

洛谷——P3884 [JLOI2009] 二叉树问题(最近公共祖先,LCA)c++

文章目录 一、题目[JLOI2009] 二叉树问题题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示基本思路: 一、题目 [JLOI2009] 二叉树问题 题目描述 如下图所示的一棵二叉树的深度、宽度及结点间距离分别为: 深度: 4 4 4宽度&…

【AI提示词故事】《启示之星:寻找神殿的探险之旅》

故事叙述 在未来的某一天,人类发现了一个神秘的星球,被称为“启示之星”。传说在这颗星球上,有一座可以实现人类最大愿望的神殿。 启示之星 一支探险队被派往这颗星球,他们的目标是寻找神殿并实现自己的最大愿望。 在星球上&…

关于 curl 常用命令的使用整理【不定期更新】

目录 1. HTTP 请求2. 文件操作2.1 文件下载2.2 文件上传2.3 FTP 操作 3. 代理和网络设置4. 身份验证5. 调试和信息显示6. more and more curl 是一个用于在命令行下进行数据传输的工具,支持多种协议,包括 HTTP、HTTPS、FTP、FTPS、SCP、SFTP 等。它通常用…

结合ChatGPT和MINDSHOW自动生成PPT

总结/朱季谦 一、首先,通过chatGPT说明你的需求,学会提问是Ai时代最关键的一步。你需要提供一些关键信息,如果没有关键信息,就按照大纲方式让它设计,例如,我让它帮我写一份《2023年年中述职报告》的模版—…

项目管理进阶之序言

背景 可能任何一个程序猿/媛都有一个梦想,立志成为一个技术Leader,带领一个Team,完成一个组织中重要的Project。 有些人天赋异禀,光彩夺目,从小已形成的某些特质,足以让他/她胜任这个领域,我们…

第11章 GUI Page428 步骤七 设置圆,矩形,文字的前景色

运行效果: 关键代码: 分别设置圆,矩形,和文字的画笔颜色,其中文字的设置方法稍有不同 圆: 矩形: 文字:

CV算法面试题学习

本文记录了CV算法题的学习。 CV算法面试题学习 1 点在多边形内(point in polygon)2 高斯滤波器3 ViTPatch EmbeddingPosition EmbeddingTransformer Encoder完整的ViT模型 4 SE模块5 Dense Block6 Batch Normalization 1 点在多边形内(point …

2000-2021年全国各省三农指标数据(700+指标)

2000-2021年全国各省三农指标数据合集(700指标) 1、时间:2000-2021年 2、来源:整理自2001-2022年农村年鉴 3、范围:31省市 4、指标:、农村经济在国民经济中的地位、社会消费品零售额_亿元、社会消费品零…

持续集成交付CICD:Jira 发布流水线

目录 一、实验 1.环境 2.GitLab 查看项目 3.Jira 远程触发 Jenkins 实现合并 GitLab 分支 4.K8S master节点操作 5.Jira 发布流水线 一、实验 1.环境 (1)主机 表1 主机 主机架构版本IP备注master1K8S master节点1.20.6192.168.204.180 jenkins…

Linux环境变量剖析

一、什么是环境变量 概念:环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数,是在操作系统中一个具有特定名字的对象,它包含了一个或多个应用程序所将使用到的信息&#xff0c…

Open3D 点云数据处理基础(Python版)

Open3D 点云数据处理基础(Python版) 文章目录 1 概述 2 安装 2.1 PyCharm 与 Python 安装 2.3 Anaconda 安装 2.4 Open3D 0.13.0 安装 2.5 新建一个 Python 项目 3 点云读写 4 点云可视化 2.1 可视化单个点云 2.2 同一窗口可视化多个点云 2.3…

蓝桥村的神秘农田

蓝桥村的神秘农田 问题描述 小蓝是蓝桥村的村长,他拥有一块神秘的农田。这块农田的奇特之处在于,每年可以种植两种作物,分别称为 "瑶瑶豆" 和 "坤坤果"。小蓝需要为每种作物选择一个整数的生长指数,瑶瑶豆的…