【VLDB 2023】基于预测的云资源弹性伸缩框架MagicScaler,实现“高QoS,低成本”双丰收

开篇

近日,由阿里云计算平台大数据基础工程技术团队主导,与计算平台MaxCompute团队、华东师范大学数据科学与工程学院、达摩院合作,基于预测的云计算平台资源弹性伸缩框架论文《MagicScaler: Uncertainty-aware, Predictive Autoscaling 》被数据库领域顶会VLDB 2023接收。

MagicScaler论文提出了一种创新的基于预测的云资源主动弹性伸缩框架 MagicScaler,该框架主要包含一个基于多尺度注意力高斯过程的预测模型和一个考虑需求不确定性的弹性伸缩优化决策器。论文在阿里云云原生大数据计算服务MaxCompute 3个集群的真实数据集上进行了实验,综合成本和QoS两个层面,MagicScaler要显著优于其他经典的弹性伸缩算法,实现了“高QoS(Quality of Service),低成本”的双丰收。

背景

云计算需求的日益发展,基于用户需求合理地进行云资源分配是保障稳定性和控制成本的重要因素。图1所示是三种易于理解的扩缩容策略,保守(Conservative)策略会提供“保守、虚高”的 ECS 供应量,但会造成较高的资源浪费;被动(Passive)策略是用户的需求到达后才执行扩缩容决策,会由于资源“冷启动”问题导致 QoS 违约的风险;为集成这两种策略的优点,预测式自动扩缩容(Predictive Autoscaling)策略可以理解为“提前知道用户需求”后执行扩缩容决策,这将最有可能作为实现图 1 中理想境况的途径。

1.png

图 1:三种易于理解的 AutoScaling 策略:a) 保守策略:高成本,低 QoS 风险;b) 被动策略:较低成本,高 QoS 风险;c) 理想策略:低成本,低 QoS 风险。

现有的自动扩缩框架主要基于控制理论、强化学习、排队理论或基于规则生成扩所容决策,这些方法要么仅使用了较为简单的预测算法,如历史一段时间的平均需求,并未考虑需求可能存在的周期性以及需求的不确定性,使得预测精度不高,且难以应对需求的多变性。部分现有研究仅以启发式方法处理需求的不确定性,难以得到稳健的扩缩容决策。理想的扩缩容框架需要在预测和扩缩容决策阶段都充分考虑需求的不确定性。此外,现有的自动扩缩容框架并未考虑云资源弹性伸缩场景中的一些业务属性和真实约束,例如弹性资源在扩缩容阶段会经历的冷启动、退回成本,云平台场景下QoS和成本之间的权衡约束等,因此现有的这些自动扩缩容框架难以直接应用于阿里云计算平台的弹性伸缩场景中。

挑战

云计算需求的日益发展,基于用户需求合理地进行云资源分配是保障稳定性和控制成本的重要因素。图2展示了阿里云云原生大数据计算服务某个集群在不同数据粒度下的资源请求情况(数据已作脱敏处理),可以看出云上用户需求往往具有高度复杂性、不确定性和粒度敏感的时间依赖性,这给未来需求的准确预测带来了一定困难,也使得主动弹性伸缩更具挑战性。一个好的主动弹性伸缩策略需要在考虑需求不确定性的同时,保持云平台低运行成本和高QoS之间的合理平衡。

2.png

图2 某集群不同数据粒度下的资源请求情况

破局

本文提出了一种创新的基于预测的云资源弹性伸缩框架 MagicScaler。该框架主要包含一个基于多尺度注意力高斯过程的预测模型和一个考虑需求不确定性的弹性扩缩容优化决策器,以实现“高QoS(Quality of Service),低成本”双丰收的目标。图3描述了 MagicScaler 的整体框架,包含预测器和调度器两部分。

3.png

图3 MagicScaler整体框架

(1)预测器: 预测器部分主要构建了基于多尺度注意力机制的高斯回归预测模型。该预测模型设计有机融合了两种高效的预测策略:一是多尺度注意力机制,能够捕捉复杂的多尺度特征;二是随机过程回归,以量化预测结果不确定性。 这使得预测模型可以实现精确的需求预测,结合量化的不确定性为后续的弹性伸缩打下基础。
在这里插入图片描述

4.png

图4 预测器流程

(2)调度器: 调度器部分设计了基于预测结果和量化不确定性的弹性扩缩容优化决策器。将复杂业务场景建模为马尔可夫决策(MDP)过程,并利用滚动时域优化的方法近似求解最优策略,实现了资源成本与 QoS 违规风险之间的灵活平衡。图5展示了调度器流程,包括马尔可夫决策过程(MDP)、优化器和弹性伸缩决策执行器。我们的弹性伸缩器以概率需求预测分布作为输入,将弹性伸缩问题建模为马尔可夫决策过程。因为考虑到MDP优化是一个无限域贝尔曼方程优化问题,我们使用滚动时域优化策略,将贝尔曼方程在无限时域内的求解转换为有限时域内的随机规划,从而使得能够找到最佳策略来近似贝尔曼方程的最优解。

图5 调度器流程

论文在阿里云云原生大数据计算服务MaxCompute 3个集群的真实数据集上进行了实验,综合成本和QoS两个层面,MagicScaler要显著优于其他经典的弹性伸缩算法,更多实验结果请参阅我们的论文原文。

应用

后续将进一步研究如何将MagicScaler技术与MaxCompute现有调度策略结合。

  • 论文标题:MagicScaler: Uncertainty-aware, Predictive Autoscaling
  • 论文作者:潘志诚,王益杭,张颖莹,杨斌,程云爻,陈鹏,郭晨娟,文青松,田西夺,窦云亮,周志强,杨程程,周傲英,杨彬

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/94723.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

linux操作系统的权限的深入学习

1.Linux权限的概念 Linux下有两种用户:超级用户(root)、普通用户。 超级用户:可以再linux系统下做任何事情,不受限制 普通用户:在linux下做有限的事情。 超级用户的命令提示符是“#”,普通用户…

架构师日记-软件工程里的组织文化 | 京东云技术团队

一 引言 本文是京东到家自动化测试体系建设过程中的一些回顾和总结,删减了部分系统设计与实践的章节,保留了组织与文化相关的内容,整理成文,以飨读者。 下面就以QA(Quality Assurance)的视角来探讨工作中经…

Git分支机制

一、分支机制简述 要想真正理解Git的分支机制,我们要首先回过头来看一下Git是如何存储数据的。 Git并没有采用多个变更集( changeset )或是差异的方式存储数据,而是采用一系列快照的方式。当你发起提交时,Git存储的是提交对象( commi…

fastadmin iis伪静态应用入口文件index.php

<?xml version"1.0" encoding"UTF-8"?> <configuration><system.webServer><rewrite><rules><rule name"OrgPage" stopProcessing"true"><match url"^(.*)$" /><conditions…

开始MySQL之路——外键关联和多表联合查询详细概述

多表查询和外键关联 实际开发中&#xff0c;一个项目通常需要很多张表才能完成。例如&#xff0c;一个商城项目就需要分类表&#xff0c;商品表&#xff0c;订单表等多张表。且这些表的数据之间存在一定的关系&#xff0c;接下来我们将在单表的基础上&#xff0c;一起学习多表…

抖音seo矩阵系统源代码开发部署分享

一、 开发步骤分享 抖音SEO矩阵系统源代码开发部署分享&#xff0c;需要经验丰富的开发人员和服务器管理人员&#xff0c;以下是大致的步骤&#xff1a; 确定你需要的功能和设计&#xff0c;确定开发人员和设计师的角色和任务分配&#xff0c;以及开发进度和计划。 确定服务器…

java+ssm+mysql农场信息管理系统

项目介绍&#xff1a; 本系统为基于jspssmmysql的农场信息管理系统&#xff0c;功能如下&#xff1a; 用户&#xff1a;注册登录系统&#xff0c;菜地信息管理&#xff0c;农作物信息管理&#xff0c;种植信息管理&#xff0c;客户信息管理&#xff0c;商家信息管理&#xff…

《Flink学习笔记》——第四章 Flink运行时架构

4.1 系统架构 Flink运行时架构 Flink 运行时由两种类型的进程组成&#xff1a;一个 JobManager 和一个或者多个 TaskManager。 1、作业管理器&#xff08;JobManager&#xff09; JobManager是一个Flink集群中任务管理和调度的核心&#xff0c;是控制应用执行的主进程。也就…

花5分钟判断,你的Jmeter技能是大佬还是小白!

jmeter 这个工具既可以做接口的功能测试&#xff0c;也可以做自动化测试&#xff0c;还可以做性能测试&#xff0c;其主要用途就是用于性能测试。但是&#xff0c;有些公司和个人&#xff0c;就想用 jmeter 来做接口自动化测试。 你有没有想过呢&#xff1f; 下面我就给大家讲…

Redis之集群模式

一、Redis集群 一个节点就是一个运行在集群模式下的Redis服务器&#xff0c;Redis服务器在启动时会根据cluster-enabled配置选项是否为yes来决定是否开启服务器的集群模式。 Redis节点不会互相发现&#xff0c;连接各个节点的工作需要使用cluster meet命令来完成 CLUSTER MEE…

代码随想录算法训练营day42 | 01背包问题,416. 分割等和子集

目录 01背包问题 416. 分割等和子集 01背包问题 416. 分割等和子集 类型&#xff1a;动态规划&#xff0c;01背包 难度&#xff1a;medium 思路: 经典的01背包问题&#xff0c;背包容量为sum/2, 每个物品的重量为nums[i],其价值也为nums[i]。 需要注意的是&#xff0c;如果…

【PLSQL】PLSQL基础

文章目录 一&#xff1a;记录类型1.语法2.代码实例 二&#xff1a;字符转换三&#xff1a;%TYPE和%ROWTYPE1.%TYPE2.%ROWTYPE 四&#xff1a;循环1.LOOP2.WHILE&#xff08;推荐&#xff09;3.数字式循环 五&#xff1a;游标1.游标定义及读取2.游标属性3.NO_DATA_FOUND和%NOTFO…

基于SSM的旅游管理系统jsp房源信息java源代码Mysql

本项目为前几天收费帮学妹做的一个项目&#xff0c;Java EE JSP项目&#xff0c;在工作环境中基本使用不到&#xff0c;但是很多学校把这个当作编程入门的项目来做&#xff0c;故分享出本项目供初学者参考。 一、项目描述 基于SSM的旅游管理系统 系统有2权限&#xff1a;管理…

【Axure教程】调用日期选择器并筛选中继器表格

今天教大家在Axure里怎么调用代码调用浏览器的日期选择器并对对中继器表格进行日期区间的筛选。调用浏览器日期选择器的好处是&#xff0c;可以选择真实的日期&#xff0c;包括某年某月某日是星期几&#xff0c;哪个二月是29天……都是真实的&#xff0c;那不同的浏览器日期选择…

Linux内核学习(十二)—— 页高速缓存和页回写(基于Linux 2.6内核)

目录 一、缓存手段 二、Linux 页高速缓存 三、flusher 线程 Linux 内核实现了一个被叫做页高速缓存&#xff08;page cache&#xff09;的磁盘缓存&#xff0c;它主要用来减少对磁盘的 I/O 操作。它是通过把磁盘中的数据缓存到内存中&#xff0c;把对磁盘的访问变为对物理内…

Markdown 扩展语法练习

风无痕 August 26, 2023 Markdown 指南中文版 Markdown 入门指南Markdown 基本语法Markdown 扩展语法Markdown 基本语法练习Markdown 扩展语法练习 代码 <h3 id"table">表格</h3>| Syntax | Description | | --- | --- | | Header | Title | | Paragrap…

抖店商品怎么让达人带货?说下找达人技巧和寄样后的操作,可收藏

我是王路飞。 找达人带货的玩法是公认出单快、易爆单、长久稳定的出单方式。 虽然新手可能感觉要给达人佣金&#xff0c;自己利润会降低&#xff0c;但是这种玩法可以让你快速入门&#xff0c;且能长久玩下去。 尤其是现在抖音直播间的产品全都是来自抖音小店的&#xff0c;…

多线程基础篇

我们平常说的一个程序&#xff0c;一个程序中有声音&#xff0c;图片&#xff0c;字幕 实际上是一个进程中有多个线程 main线程是主线程。 多核&#xff0c;多个cpu&#xff0c;多个线程&#xff0c;切换的很快 单核的话是一个cpu,某一时间只能是一个线程&#xff0c;但是因为…

抢先体验|乐鑫推出 ESP32-S3-BOX-3 新一代开源 AIoT 开发套件

乐鑫科技 (688018.SH) 非常高兴地宣布其开发套件阵容的最新成员 ESP32-S3-BOX-3。这款完全开源的 AIoT 应用开发套件搭载乐鑫高性能 ESP32-S3 AI SoC&#xff0c;旨在突破传统开发板&#xff0c;成为新一代开发工具的引领者。 【乐鑫新品抢先体验】ESP32-S3-BOX-3 新一代开源 A…

WPF基础入门-Class3-WPF数据模板

WPF基础入门 Class3&#xff1a;WPF数据模板 1、先在cs文件中定义一些数据 public partial class Class_4 : Window{public Class_4(){InitializeComponent();List<Color> test new List<Color>();test.Add(new Color() { Code "Yellow", Name &qu…