系统设计面试指南之分布式任务调度

1 简介

任务是需要资源(CPU 时间、内存、存储、网络带宽等)在指定时间内完成的一段计算工作。

通过智能地将资源分配给任务以满足任务级和系统级目标的系统称为任务调度程序。

任务调度程序:

及时决定和分配资源给任务的过程称为任务调度。

当我们在 Facebook 发表评论时。我们不会让评论发布者等待直到那条评论被交付给所有关注者。交付被委托给一个异步任务调度程序离线完成。

在分布式系统中,许多任务是在用户的单个请求的背景下运行。考虑Facebook、WhatsApp 或 Instagram 这样的热门系统有数亿用户。这些系统需要一个任务调度程序来处理数十亿个任务。Facebook 使用 Async 根据其用户的数十亿个并行异步请求来调度其所有任务。

Async 是 Facebook 自己的分布式任务调度程序,调度其所有任务。一些任务时间敏感,如应该运行的通知用户某项活动开始直播的任务。如果用户在直播结束后才收到通知就没意义了。某些任务可延迟,如向用户提出好友建议的任务。Async 根据适当的优先级调度任务。

2 需求

  • 可用性:系统应高可用以调度和执行任务
  • 持久性:系统收到的任务应持久化,不应丢失
  • 可扩展性:系统应能每天调度和执行越来越多的任务
  • 有限的等待时间:这是任务在开始执行之前需要等待的时间。我们不能在预期时间之后执行任务。用户不应该无限期地等待。如果用户的等待时间超过一定阈值,他们应该收到通知

3 组件设计

3.1 任务调度程序架构设计

① Task Submitter(任务提交者)

接受任务。没有单一的任务提交者。相反,我们有一组接收越来越多任务的节点。

② Database(数据库)

任务提交者接收的所有任务都存储在分布式数据库。使用关系数据库来存储:

  • task IDs
  • user IDs
  • 所需资源
  • 执行上限
  • 客户端尝试总次数
  • 延迟容忍度
  • ...

使用有向无环图(DAG)存储依赖任务的数据的图数据结构的非关系数据库。

③ Batching and prioritization(批处理和优先级)

将任务存储在 RDB 后,将任务分批。优先级基于任务的属性,如:

  • 延迟容忍度
  • 或执行时间短的任务等。

将最高 K 优先级的任务推送到分布式队列,K限制可以推送到队列的元素数量。K值取决许多因素,如:

  • 当前可用资源
  • 客户端
  • 或任务优先级
  • 订阅级别
④ Queue manager(队列管理器)

队列管理器在队列中添加、更新或删除任务。它跟踪我们使用的队列的类型。它还负责保持任务在队列中直到成功执行。如果任务执行失败,该任务将再次出现在队列。队列管理器知道在高峰时段、非高峰时段应该运行什么队列。

⑤ Resource manager(资源管理器)

知道哪些资源空闲。它从分布式队列中拉取任务并分配给它们资源。资源管理器:

  • 跟踪每个任务的执行情况
  • 并将其状态发送回队列管理器

若任务超出其能力或所需的资源使用,则终止该任务,并将状态发送回任务提交者,后者将通过错误消息通知客户端有关任务终止的情况。

4 执行上限

4.1 任务分类

  • 不能延迟的任务 - 紧急任务
  • 可延迟的任务
  • 需定期执行的任务 - 周期性任务

基于任务类别的多个队列:

系统需确保非紧急队列中的任务不会被饿死。一旦某些任务的延迟限制即将达到,它就会被移动到紧急任务队列以获得优先服务。

4.2 优先级

一些任务执行时间很长并占用资源,阻塞其他任务。在调度任务时,执行上限(execution cap)是个重要参数。

若我们完全分配资源给单个任务并等待该任务完成,则由于任务脚本错误,某些任务可能不会停止,无法完成执行。我们允许用户为其任务设置执行上限。指定时间后停止任务执行,释放资源并分配给队列中的下一任务。若由于执行上限而停止任务执行,系统会通知所属用户的这些实例。他们需针对这种情况采取人工兜底。

5 任务紧急执行

有些任务需紧急执行。如Facebook社交应用中,用户可在紧急情况下标记自己是安全的,如地震。执行此活动的任务应及时执行,否则此功能对 Facebook 用户毫无用处。向客户发送电子邮件通知,告知其账户扣除一定金额的资金,是另一个需要紧急执行的任务示例。

为优先处理任务,任务调度程序为每个任务维护一个delay tolerance(延迟容忍度)参数,并在接近其延迟容忍度时执行该任务。

延迟容忍度是任务执行可延迟的最大时间量。首先执行延迟容忍时间最短的任务。通过使用延迟容忍参数,可在高峰时段推迟延迟容忍值更长的任务,为紧急任务留出空间。

6 资源容量优化

有时资源接近过载阈值(如超过 80% 利用率),这就是高峰期。同一资源在非高峰时段可能闲置。所以,须考虑如何在非高峰时段更好利用资源及如何在高峰时段保持资源可用。

有些任务无需紧急执行。如Facebook社交应用,建议好友不是紧急任务。可以为这样的任务创建一个单独的队列,并在非高峰时段执行它们。如果我们一直有比可用资源更多的工作要做,我们可能会遇到容量问题,就该配置更多资源。

7 任务幂等性

如果任务成功执行,但由于某些原因机器无法发送确认,则调度程序将再次调度该任务。再次执行该任务。

我们不希望再次执行任务时最终结果发生更改。这在转账时对金融应用程序至关重要。我们要求任务是幂等的。幂等任务无论执行多少次都会产生相同的结果。

此属性是由开发人员在实现中添加的,通过某些内容(例如名称)来标识该属性并覆盖旧的。

8 评估

8.1 可用性

任务提交是由多个节点完成的。若提交任务的节点失败,其他节点将接替其位置。推送任务的队列在本质上也是分布式,确保可用性。由于持续监控是否需要添加或删除资源,可尽力保证始终有可用资源。设计中的每个组件都是分布式的,使得整个系统可用性大大增强。

8.2 持久性

我们将任务存储在持久化分布式数据库中,并在接近执行时间时将任务推送到队列中。一旦提交任务,它就会在数据库中直到执行完成。

8.3 可扩展性

任务调度程序提供可扩展性,因为设计中任务提交者是分布式的。可向集群添加更多节点以提交大规模数量的任务。

然后将这些任务保存到也是可扩展的分布式关系数据库中。

再从 RDB 将任务推送到分布式队列,它可随任务数量增加而扩展。可为不同类型的任务添加更多队列。还可根据资源与需求比添加更多资源。

8.4 容错性

任务在首次发送执行时不会从队列中删除。如果执行失败,将尝试最大允许次数的重试。若任务包含死循环,会在指定时间后终止任务并通知用户。

参考:

  • 编程严选网

    本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/205520.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

13-Vue基础之自定义指令与插槽的使用

个人名片: 😊作者简介:一名大二在校生 🤡 个人主页:坠入暮云间x 🐼座右铭:懒惰受到的惩罚不仅仅是自己的失败,还有别人的成功。 🎅**学习目标: 坚持每一次的学习打卡 文章…

【驱动】串口驱动分析(二)-tty core

前言 tty这个名称源于电传打字节的简称,在linux表示各种终端,终端通常都跟硬件相对应。比如对应于输入设备键盘鼠标,输出设备显示器的控制终端和串口终端。也有对应于不存在设备的pty驱动。在如此众多的终端模型之中,linux是怎么…

jmeter做接口自动化测试,你可能只是个新手!

jmeter 这个工具既可以做接口的功能测试,也可以做自动化测试,还可以做性能测试,其主要用途就是用于性能测试。但是,有些公司和个人,就想用 jmeter 来做接口自动化测试。 你有没有想过呢? 下面我就给大家讲…

WPF应用开发之附件管理

在我们之前的开发框架中,往往都是为了方便,对附件的管理都会进行一些简单的封装,目的是为了方便快速的使用,并达到统一界面的效果,本篇随笔介绍我们基于SqlSugar开发框架的WPF应用端,对于附件展示和控件的一…

软考:2024年软考高级:软件工程

软考:2024年软考高级: 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性 关于互联网大厂的笔试面试,都是需要细心准备的 (1…

性能测试线上监控

如果你的产品出现了一个线上问题,你会是怎么样的反应? 也许会跟下面这张图一样。 哇!有一个线上bug,好慌呀!! 咦,问题似乎自动解决了?渐渐冷静。 不对!!&a…

数据结构:图文详解顺序表的各种操作(新增元素,查找元素,删除元素,给指定位置元素赋值)

目录 一.顺序表的概念 二.顺序表的实现 新增元素 默认尾部新增 指定位置添加元素 查找元素 查找是否存在 查找元素对应的位置 查找指定位置对应的元素 删除元素 获取顺序表长度 清空顺序表 一.顺序表的概念 在线性数据结构中,我们一般分为俩类&#xf…

2023.11.29 -hmzx电商平台建设项目 -核销主题阶段总结

目录 1.准备源数据 2.准备数仓工具进行源数据同步到ods层,本项目使用Datax 3.使用Datax完成数据同步前建表时的方案选择 3.1同步方式区别: 3.2存储格式和压缩区别: 4.在hive中创建表,共31个表 5.数仓概念 和 数仓建模方案 5.1数仓的基本概念 5.2 数仓建模方案 关系建模…

接口02-Java

接口02 一、接口与继承类1、引入2、总结(1)接口和继承解决的问题不同。(2)接口比继承更加灵活。(3)接口在一定程度上实现代码解耦。 二、接口的多态性1、多态参数① 回顾:继承中的多态② 接口的…

银河麒麟v10——植物大战僵尸原版——2023教程

1、原版安装包如下: 阿里云盘分享https://www.alipan.com/s/Qn5DpDKs2YT 2、麒麟信息: 3、安装命令: 注意:最后一步,需要先解压tar包,再切到PlantsVsZombies.exe所在目录下,再执行启动命令&a…

Linux C/C++高级全栈开发(后端/游戏/嵌入式/高性能网络/存储/基础架构)

Linux C/C高级全栈开发是一个涉及到多个领域的综合性技术要求,需要对Linux系统、C/C编程语言以及各种相关的技术进行深入的理解和应用。 下面是一些涵盖的主要技术领域和技能要点: Linux系统基础:熟悉Linux操作系统的原理和常用命令&#xf…

命名管道:简单案例实现

📟作者主页:慢热的陕西人 🌴专栏链接:Linux 📣欢迎各位大佬👍点赞🔥关注🚓收藏,🍉留言 本博客主要内容讲解了什么是命名管道,匿名管道和命名管道的…

咨询+低代码,强强联合为制造业客户赋能

内容来自演讲:沈毅 | 遨睿智库 | 董事长 & 王劭禹 | 橙木智能 | 联合创始人 摘要 文章主要讲述了智库董事长沈毅创办广告公司的经历,以及他在管理公司过程中遇到的问题和挑战,最后通过与明道云以及橙木智能联合创始人王邵禹老师的合作&…

java二十章多线程

概念 有很多工作是可以同时完成的,这种思想放在Java中被称为并发,并发完成每一件事被称为线程。 程序员可以在程序中执行多个线程,每一个线程完成一个功能//与其他线程并发执行,这种机制被称为多线程,并不算所有编程…

如何提高3D建模技能?

无论是制作影视动画还是视频游戏,提高3D建模技能对于你的工作都至关重要的。那么如何能创建出精美的3D模型呢?本文给大家一些3D建模技能方面的建议。 3D建模通过专门的软件完成,涉及制作三维对象。这项技能在视频游戏开发、建筑、动画和产品…

FFmpeg架构全面分析

一、简介 它的官网为:https://ffmpeg.org/,由Fabrice Bellard(法国著名程序员Born in 1972)于2000年发起创建的开源项目。该人是个牛人,在很多领域都有很大的贡献。 FFmpeg是多媒体领域的万能工具。只要涉及音视频领…

【Vulnhub 靶场】【DriftingBlues: 9 (final)】【简单】【20210509】

1、环境介绍 靶场介绍:https://www.vulnhub.com/entry/driftingblues-9-final,695/ 靶场下载:https://download.vulnhub.com/driftingblues/driftingblues9.ova 靶场难度:简单 发布日期:2021年05月09日 文件大小:738 …

达索系统SOLIDWORKS 2024工程图新功能

工程图概述 设计模型不仅能比绘制直线更快;SOLIDWORKS 从模型中生成工程图,模型的参数和几何关系在工程图中被保留,这样工程图可反映模型的设计意图;模型或工程图中的更改反映在其相关文件中,这样更改起来更容易&…

map文件解析

Map文件内容分为以下五段: 1)Section Cross References:模块、段(入口)交叉引用;(ASR编译生成的map文件没有输出该段信息) 2)Removing Unused input sections from the image:移除未使用的模块&#xff1…

【Linux】基础IO--文件基础知识/文件操作/文件描述符

文章目录 一、文件相关基础知识二、文件操作1.C语言文件操作2.操作系统文件操作2.1 比特位传递选项2.2 文件相关系统调用2.3 文件操作接口的使用 三、文件描述符fd1.什么是文件描述符2.文件描述符的分配规则 一、文件相关基础知识 我们对文件有如下的认识: 1.文件 …