Ubuntu安装Apache Airflow详细指南

本文我们介绍如何在Ubuntu上安装Apache Airflow。Apache Airflow旨在通过编程方式编写、调度和监控工作流。随着数据编排在现代数据工程中变得越来越重要,掌握Apache Airflow等工具可以显著提高您的生产力和效率。

学习Apache Airflow的首要任务是安装单机版本进行测试,通过实践逐步掌握其原理及应用。本指南为在Ubuntu 24.04上安装Apache Airflow提供全面的分步过程。
在这里插入图片描述

软件依赖

首先需要安装下列软件组件:

  • Python: Version 3.6 or higher
  • Pip: Python package installer
  • PostgreSQL: 建议使用的元数据存储数据库,默认为SQLITE,当然MySQL也可以;
  • Virtualenv: 创建Python虚拟环境

操作系统准备

您应该可以使用具有sudo权限的非root用户访问Ubuntu服务器。这确保你可以执行管理任务而不会危及系统安全性。

1. 准备环境

  • 更新系统

第一步是更新软件包列表并升级任何现有软件包,以确保拥有最新的安全更新和特性。执行如下命令:

sudo apt update
sudo apt upgrade -y
  • 安装必要的依赖

接下来,使用以下命令安装Python和虚拟环境工具:

sudo apt install python3-pip python3-venv -y
  • 设置虚拟环境

虚拟环境能够分别管理不同项目的依赖关系,实现项目环境隔离。使用以下命令创建和激活虚拟环境:

mkdir airflow-project
cd airflow-project
python3 -m venv airflow-env
source airflow-env/bin/activate

2. 安装Airflow

我们可以使用pip或Docker安装Apache Airflow。本指南侧重于pip安装方法,这种方法简单且广泛使用。

  • 使用pip安装Airflow

你可以安装Apache Airflow和必要的额外的,如PostgreSQL支持运行:

pip install apache-airflow[postgres,celery,rabbitmq]

该命令安装airflow和它的依赖关系,存储元数据数据库PostgreSQL,用于分布式任务执行的Celery,以及作为消息代理的RabbitMQ。

  • 验证安装

安装完成后,通过检查版本确认安装正确:

airflow version

3. 初始化数据库

  • 准备元数据存储数据库

元数据数据库非常重要,因为它存储有关任务实例、DAG运行和其他操作数据的信息。默认情况下,Airflow使用SQLite,但建议在生产环境中使用PostgreSQL。

  • 初始化数据库

如果连接Postgresql,需要先配置数据库连接。

初始化数据库的命令如下:

airflow db init
  • 初始化用户
airflow users create \
    --username admin \
    --password passw0rd \
    --firstname Peter \
    --lastname Parker \
    --role Admin \
    --email spiderman@superhero.org

也可以在环境变量中设置:

AIRFLOW_WWW_USER_USERNAME: Sets the username for the admin UI account.
AIRFLOW_WWW_USER_PASSWORD: Sets the password for the admin UI account.
AIRFLOW_WWW_USER_FIRSTNAME: Optional first name for the user.
AIRFLOW_WWW_USER_LASTNAME: Optional last name for the user.
AIRFLOW_WWW_USER_EMAIL: Optional email address for the user.

4. 配置Airflow

  • 编辑配置文件

Airflow主要配置文件位于$AIRFLOW_HOME/Airflow.cfg。在首选文本编辑器中打开此文件以调整执行器类型和数据库连接字符串等设置。

主要修改配置项:

  • [core]: 设置执行类型 ,包括:LocalExecutor 或 CeleryExecutor等
  • [database]: 更新默认数据库连接,PostgreSQL:sql_alchemy_conn = postgresql+psycopg2://user:password@localhost/dbname
  • [webserver]: 配置web管理服务,如端口等

设置环境变量

可能需要设置环境变量来定义Airflow安装文件位置。使用以下命令设置AIRFLOW_HOME:

export AIRFLOW_HOME=~/airflow

5. 启动Airflow

  • 启动web服务和调度程序

web服务提供用于监控和管理Airflow的用户界面。要同时启动web服务器和调度程序,请在不同的终端窗口中运行以下命令:

# Start Web Server
airflow webserver --port 8080

# Start Scheduler
airflow scheduler
  • 访问web管理界面

您可以通过导航到http://localhost:8080访问气流web界面。默认用户名和密码与前节配置一致。

在这里插入图片描述

Airflow执行方式

1. LocalExecutor(本地执行器)

  • 概述

    LocalExecutor 是 Airflow 的默认执行器,它允许在本地机器上以多进程的方式执行任务。每个任务作为一个独立的进程在本地运行,通过一个 SQL 数据库(通常是 MySQL 或 PostgreSQL)来协调任务的调度和状态管理。

  • 工作原理

    当 Airflow 调度器触发一个任务实例时,它会在本地机器上启动一个新的进程来运行该任务。这些进程之间通过共享数据库来通信和同步状态。例如,调度器会将任务实例的状态更新到数据库中(如将任务标记为 “运行中”),而任务进程在完成或失败后也会更新数据库中的相应状态记录。

  • 适用场景

    适合用于开发和测试环境,或者在任务负载较小、对资源隔离要求不高的简单生产场景。例如,在一个小型的数据处理工作流中,任务数量较少且计算资源需求不大,使用 LocalExecutor 就可以方便地在本地进行任务的调度和执行。

2. CeleryExecutor(分布式执行器)

  • 概述

    CeleryExecutor 用于在分布式环境中执行任务。它依赖于 Celery 消息队列系统来将任务分发到多个工作节点(worker nodes)上进行处理,从而实现任务的并行执行和资源的有效利用。

  • 工作原理

    当 Airflow 调度器触发任务时,它会将任务消息发送到 Celery 消息队列中。多个 Celery worker 节点监听这个队列,当有任务消息到达时,worker 节点会从队列中获取任务并执行。每个 worker 节点可以在不同的机器上运行,它们可以根据自身的资源配置和任务类型来处理相应的任务。例如,在一个数据处理集群中,可以有一些 worker 节点专门用于数据提取任务,另一些用于数据转换任务等。

  • 适用场景

    适用于大规模的生产环境,需要处理大量任务、对任务执行效率和资源利用要求较高的场景。例如,在一个处理海量数据的 ETL(Extract、Transform、Load)工作流中,涉及到众多的数据提取、清洗、转换和加载任务,通过使用 CeleryExecutor 可以将这些任务分布到多个计算节点上并行执行,大大提高工作流的整体执行效率。

3. KubernetesExecutor(容器化执行器)

  • 概述

    KubernetesExecutor 允许将 Airflow 任务作为容器在 Kubernetes 集群中运行。它利用了 Kubernetes 强大的容器编排功能,将每个任务封装在一个容器中,并根据任务的需求动态地在 Kubernetes 集群中分配资源和调度执行。

  • 工作原理

    当 Airflow 调度器触发一个任务时,它会向 Kubernetes API 发送请求,创建一个包含任务执行环境的容器。Kubernetes 会根据集群的资源状况和任务的配置要求(如 CPU、内存需求等),在合适的节点上启动这个容器并执行任务。例如,在一个微服务架构的数据处理系统中,每个服务的任务可以被打包成一个容器,通过 KubernetesExecutor 在集群中灵活地调度和执行,并且可以方便地进行版本升级和资源调整。

  • 适用场景

    非常适合云原生环境和容器化部署的场景。如果你的应用已经在 Kubernetes 集群中运行,或者希望利用容器化的优势(如资源隔离、易于部署和扩展等)来执行 Airflow 工作流,那么 KubernetesExecutor 是一个很好的选择。例如,在一个基于云服务的大数据处理平台中,使用 KubernetesExecutor 可以方便地在云原生的 Kubernetes 集群中运行各种数据处理任务,同时享受容器化带来的高效管理和灵活扩展的好处。

4. SequentialExecutor(顺序执行器)

  • 概述

    SequentialExecutor 是最简单的执行器,它按照任务在 DAG(有向无环图)中的顺序依次执行任务,每次只执行一个任务,不存在任务的并行处理。

  • 工作原理

    当调度器触发 DAG 运行时,SequentialExecutor 会从 DAG 的起始任务开始,一个接一个地执行任务。只有当前一个任务执行完成后,才会开始执行下一个任务。它通过在本地单进程环境中简单地遍历 DAG 的任务依赖关系来实现任务的顺序执行。

  • 适用场景

    主要用于非常简单的测试场景或对任务执行顺序有严格要求且不需要并行处理的情况。例如,在开发一个新的 Airflow DAG 时,为了初步验证任务的逻辑顺序是否正确,可以使用 SequentialExecutor 进行简单的测试。这种执行器在处理复杂工作流时效率较低,因为它不能利用并行计算资源来加速任务的完成。

最后总结

本文介绍了适合顺序执行和本地执行的非集群Airflow安装,主要用于测试开发环境准备。要在生成环境运行Airflow,通常需要集群环境,采用分布式或容器方式执行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/945470.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Learning Multi-Scale Photo Exposure Correction

Abstract 用错误的曝光捕捉照片仍然是相机成像的主要错误来源。曝光问题可分为以下两类:(i)曝光过度,即相机曝光时间过长,导致图像区域明亮和褪色;(ii)曝光不足,即曝光时间过短,导致图像区域变暗。曝光不足和曝光过度都会大大降低…

【python】matplotlib(moon cake)

文章目录 1、Style12、Style23、Style34、Style45、Style56、Style67、Style78、参考的库函数matplotlib.patches.Arcmatplotlib.patches.Wedge 9、参考 1、Style1 """ author: tyran """from numpy import sin, cos, pi import matplotlib.pyp…

node.js卸载并重新安装(超详细图文步骤)

卸载node.js 重新安装nodejs 一、卸载 1、首先进入控制面板卸载程序 2、卸载后 到文件夹中进行进一步的删除 删除上述的几个文件夹 每个人可能不一样,总之是找到自己的nodejs安装路径,下面是我的 ①删除C:UsersAdminAppDataRoaming路径下的npm相关文件…

每天40分玩转Django:Django表单集

Django表单集 一、知识要点概览表 类别知识点掌握程度要求基础概念FormSet、ModelFormSet深入理解内联表单集InlineFormSet、BaseInlineFormSet熟练应用表单集验证clean方法、验证规则熟练应用自定义配置extra、max_num、can_delete理解应用动态管理JavaScript动态添加/删除表…

抽奖2(信奥)

【问题描述】 公司举办年会,为了活跃气氛,设置了摇奖环节。参加聚会的每位员工都有一张带有号码的抽奖券。现在,主持人从小到依次公布了n个不同的获奖号码,小谢看着自己抽奖券上的号码win,无比紧张。请编写一个程序&am…

JWT包中的源码分析【Golang】

前言 最近在学web编程的途中,经过学长提醒,在进行登陆(Login)操作之后,识别是否登陆的标识应该要放入authorization中,正好最近也在学鉴权,就顺便来看看源码了。 正文 1. 代码示例 在进行分…

Airbnb/Booking 系统设计(high level architecture)

原文地址 CodeKarle: Airbnb System Design | Booking.com System Design B站搜 “Airbnb System Design” 有视频版本 需求: 功能性需求 系统用户包括商家和客人。 Hotel - 商家(拥有hotel的人) onboarding - 商家可以入住系统。 update…

windows系统安装完Anaconda之后怎么激活自己的虚拟环境并打开jupyter

1.在win主菜单中找到Anaconda安装文件夹并打开终端 文件夹内有所有安装后的Anaconda的应用软件和终端窗口启动窗口 点击Anaconda Prompt(Anaconda)就会打开类似cmd的命令终端窗口,默认打开的路径是用户名下的路径 2.激活虚拟环境 使用命令…

C++进阶(三)--多态

目录 一、多态的基本概念 1.什么是多态 二、多态的定义及实现 1.虚函数 2.虚函数的重写 3.虚函数重写的⼀些其他问题 协变(了解) 析构函数的重写 C11 override和final 4.重载、覆盖(重写)、隐藏(重定义)的对比 三、抽象类 1.纯虚函数 2.接口继承和实现继承 四、多…

2025经典的软件测试面试题(答案+文档)

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 以下是软件测试相关的面试题及答案,希望对各位能有帮助! 1、测试分为哪几个阶段? 一般来说分为5个阶段:单元测试、集成测试…

海南省首套数据资产化系列团体标准正式发布

近日,首套数据资产化系列团体标准正式发布。本次系列涵盖《数据资产 数据治理规范》、《数据资产数据质量评价规范》、《数据资产 数据评估定价办法》和《数据资产 入表流程规范化标准》四项团体标准,通过海南省人工智能学会面向行业发布,自2…

突发!GitLab(国际版)将停止对中国区用户提供 GitLab.com 账号服务

消息称: 目前,为了更加严格的遵循中国网络数据安全管理的相关要求,GitLab SaaS(国际版)已逐步停止向国内用户提供服务与支持,国内用户亦无法注册或使用 GitLab SaaS(国际版)。自您的…

LLaVA模型讲解与总结

系列文章目录 第一章:LoRA微调系列笔记 第二章:Llama系列关键知识总结 第三章:LLaVA模型讲解与总结 文章目录 系列文章目录LLaVA(Large Language and Vision Assistant)Q: 这篇论文试图解决什么问题?Q: 论…

【linux内核分析-存储】EXT4源码分析之“创建文件”原理

EXT4源码分析之“文件创建”原理,详细的介绍文件创建的核心流程,并对EXT4中关于文件创建的关键函数进行了分析。 文章目录 0.前言1.创建文件概览1.1关键流程1.2 关键步骤说明 2.源码分析2.1 入口函数ext4_create2.2 分配inode关键函数 ext4_new_inode_st…

自学记录鸿蒙 API 13:骨骼点检测应用Core Vision Skeleton Detection

骨骼点检测技术是一项强大的AI能力,能够从图片中识别出人体的关键骨骼点位置,如头部、肩部、手肘等。这些信息在人体姿态分析、动作捕捉、健身指导等场景中有着广泛应用。我决定深入学习HarmonyOS Next最新版本API 13中的Skeleton Detection API&#xf…

使用ArcGIS Pro自带的Notebook计算多个遥感指数

在之前的分享中,我们介绍了如何使用ArcPy将GEE下载的遥感影像转为单波段文件。基于前面创建的单波段文件,我们可以一次性计算多种遥感指数,例如NDVI、EVI、NDSI等。我这里直接在ArcGIS Pro中自带的Notebook进行的运行。如下图所示&#xff0c…

XGPT用户帮助手册

文章目录 2024 更新日志2024.12.272024.12.29 摘要 本文详细介绍了XGPT软件的功能及发展历程。XGPT是一款融合了当前最先进人工智能技术的多模态智能软件,专为国内用户优化设计。除了强大的智能问答功能外,XGPT还结合日常办公和科学研究的需求&#xff0…

面试提问:Redis为什么快?

Redis为什么快? 引言 Redis是一个高性能的开源内存数据库,以其快速的读写速度和丰富的数据结构支持而闻名。本文将探讨Redis快速处理数据的原因,帮助大家更好地理解Redis的内部机制和性能优化技术。 目录 完全基于内存高效的内存数据结构…

强化学习——贝尔曼公式

文章目录 前言一、Return的重要性二、State Value三、贝尔曼公式总结 前言 一、Return的重要性 在不同策略下,最终得到的return都会有所不同。因此,return可以用来评估策略。 return的计算公式在基础概念中已经给出,通过包含 γ {\gamma} γ与…

使用MFC编写一个paddleclas预测软件

目录 写作目的 环境准备 下载编译环境 解压预编译库 准备训练文件 模型文件 图像文件 路径整理 准备预测代码 创建预测应用 新建mfc应用 拷贝文档 配置环境 界面布局 添加回cpp文件 修改函数 报错1解决 报错2未解决 修改infer代码 修改MFCPaddleClasDlg.cp…