如何在大规模服务中迁移缓存

当您启动初始服务时,通常会过度设计以考虑大量流量。但是,当您的服务达到爆炸式增长阶段,或者如果您的服务请求和处理大量流量时,您将需要重新考虑您的架构以适应它。糟糕的系统设计导致难以扩展或无法满足处理大量流量的需求,可能会导致糟糕的用户体验甚至服务失败。

缓存在处理大量流量的服务中起着重要作用,因为它可以快速将数据传递给用户。然而,缺乏可扩展性,这在早期服务中很容易被忽略,如果缓存需要增加容量或进行物理移动,可能会导致重大服务失败。

图片描述

系统架构中的缓存

我在一家拥有大量流量的全球信使公司担任核心团队成员六年,有很多机会思考这样的可扩展性。在本文中,我将分享在我需要物理移动缓存并增加其容量的类似情况下如何可靠地迁移和改进缓存而不影响服务。

大规模消息服务中的缓存

图片描述

消息服务中的常见流程

由于 Messenger 的全球性,数据从许多国家/地区以各种形式传输,包括文本、图像、视频、音频和二进制文件。如果你想分解这个过程,它是这样的。

  1. 上游数据
  2. 下游数据
  3. 交货数据

图片描述

在大规模服务中缓存请求/响应流

如果缓存每次在数据下游都检查数据源所在的存储,那么数据的传递速度会很慢,用户体验会很差。因此,缓存检查并在数据下游传递用户数据,因为为了用户体验必须快速传递数据。

系统架构可能会因各项服务的特殊因素而有所不同,例如数据的性质和用户的服务模式。因此,即使对于相同的服务,设计也会根据流量的大小而有所不同,因此灵活的设计很重要。我运行的平台是一个高流量服务,所以我根据用户的服务使用模式不同地应用了缓存。

图片描述

根据用户对服务的使用情况访问不同的数据

从数据利用的角度来看,用户如何使用您的服务存在三种一般模式。

  1. 用户在上传数据后立即访问他们的数据。
  2. 用户上传数据后,他们不会立即访问数据,但会频繁访问。
  3. 用户上传数据后,他们立即访问数据的频率就会降低。

如果一个缓存同样适用于所有这些情况,它将会是低效和昂贵的,这不是一个好的系统设计。根据用户的模式,缓存应该足够灵活以应用于相同的服务。

图片描述

在大规模服务中缓存请求/响应流

认识到上述情况,可以按如下方式应用缓存。

  1. 对于可立即访问的数据,在上游时将其推送到缓存中,并使其在之后立即被命中。
  2. 对于不能立即访问的数据,如果尚未命中,则在下载时将其从缓存中拉出。

当然,在第二种情况下,您可能会发现自己在第一次下载时访问存储,这是按需的,不会立即访问缓存。但是,如果此后数据被频繁访问,它会不断地命中缓存,这将减少存储 I/O,从而显着降低成本。

技术总是与Trade-off一起应用,因此从架构师的角度来看,它们是为成本、可靠性和用户体验而设计的。

缓存迁移

在实时产生大量流量的消息服务中,缓存起着非常重要的作用。在这种情况下,缓存服务器老化,需要增加容量。为此,我们首先需要整理现有设计中存在的问题,并定义需要改进的功能。

软件设计问题

图片描述

旧设计的问题是双重的。

具有难以缩放结构的哈希算法

首先,现有哈希服务器的哈希算法是一种基于特定标识符以服务器数量为分母进行划分和哈希的结构,如果哈希服务器数量发生变化,则现有缓存的访问方式也会发生变化,并且所有数据的命中率大幅下降。

因此,需要重新定义缓存服务器的哈希算法来扩展缓存服务器的容量。

图片描述

在役期间难以管理哈希服务器

第二个问题是缓存服务器不能实时自主控制,即在服务中途,如果缓存服务器发生变化或故障,无需重启后端应用程序。

这两个问题的关键共同问题是缺乏可扩展性,因此我们着手通过将可扩展性作为我们的首要任务以及实现它的操作来改进它们。

一致性哈希

为什么要使用一致性哈希

哈希算法有很多算法方法,视情况而定。但是,为了解决上述问题,我们需要优先考虑可扩展性,因此我们决定引入一种一致性哈希算法,即使在扩展时也可以被同一节点访问。

那么,什么是一致性哈希以及它的好处是什么?

概念

图片描述

一致性哈希概念

在分布式系统中,Consistent Hashing 有助于解决以下场景。

  1. 为缓存服务器提供弹性伸缩。
  2. 扩展一组服务器节点,例如 NoSQL 数据库或缓存。

图片描述

一致性哈希算法

我们的目标是设计一个缓存系统。

  1. 能够在一组“n”个缓存服务器上均匀分布请求的散列键。
  2. 我们必须能够动态地添加或删除缓存服务器。
  3. 添加或删除缓存服务器时,需要在服务器之间进行最少的数据移动。

Consistent Hashing 可以解决水平可扩展性问题,无需在每次向上或向下扩展时重新排列所有键或操作所有缓存服务器。

怎么运行的

图片描述

一致性哈希的工作原理

  1. 创建散列键空间:假设您有一个散列函数,它生成范围 [0, ²³²-1] 内的整数散列值。
  2. 我们将哈希空间表示为哈希环,并假设在步骤 1 中生成的整数被放置在一个环中,以便封闭最后一个值。
  3. 我们会在密钥空间(Hash Ring)中放置一批缓存服务器,并使用哈希函数将每个缓存服务器映射到环中的特定位置。例如,如果您有四台服务器,您可以使用散列函数来使用它们的 IP 地址的散列将它们映射到不同的整数。
  4. 这决定了服务器的关键位置。
  5. 在哈希环中添加或删除服务器时,您无需操作缓存服务器。

它如何在生产环境中工作

图片描述

生产环境中的一致性哈希

假设您已经在特定哈希环中部署了哈希密钥和服务器。

当系统触发哈希键时,它将尝试在分配给它的最近服务器上查找数据。这种旋转或放置可以根据系统设计进行调整。这些缓存服务器中的每一个在系统设计中都被称为一个“节点”,这里分别表示为A、B、C、D。它们按顺时针方向排列,后面是密钥。

现在,当系统收到有关“Cairo, Eygpt”的数据请求时,它会首先在相应的节点(即“A”)中查找该信息。类似地,对于键“英国伦敦和日本东京”,最接近的相应位置或节点是顺时针方向的“D”,因此它将与该特定节点交互以检索数据。

与传统的哈希不同,当系统遇到服务器故障、添加或移除时,请求或数据密钥会自动连接或分配到最近的服务器或节点。

在服务器出现问题或问题的情况下,传统的散列方法不足以使用和处理网络上的请求。假设有固定数量的服务器,并且密钥到服务器的映射是同时发生的。

添加服务器需要为新服务器重新映射和散列对象以及大量计算。另一方面,一致性哈希中节点的非线性放置允许节点在系统发生变化时相互交互。

然而,有时 Hash Ring 中所有节点的分布或负载不相等或不成比例,从而导致分布不平衡。让我们仔细看看 Consistent Hashing 系统如何响应添加或删除服务器/节点的情况,以及它如何确保系统不会变得不平衡。

热点

承载分布不均的数据请求负载的节点成为热点。为了解决这个问题,系统工程师可以使用虚拟节点来启用哈希环,将请求平均分配给所有活动节点。

在一致性哈希中添加和删除服务器

图片描述

在一致性哈希中添加和删除服务器

当您将新节点添加到环中时,例如,在“Srushtoka & Freddie”键之间。最初,如上图所示处理两个键。现在,在新服务器之后,“Freddie”密钥的哈希或分配将被分配或映射到而不是。但是,“Srushtika”键分配仍将映射到 .

在从环中删除现有服务器的情况下遵循相同的原则。因此,哈希环可确保在添加或删除服务器或节点出现故障的情况下不影响整个过程。此外,如果出现重新分配的情况,与传统的散列机制相比,它不会花费太多时间。

注意事项和好处

您有一个缓存服务器集群,需要能够根据流量负载进行弹性扩展或缩减。例如,一个常见的情况是在圣诞节或新年期间添加更多服务器以处理额外的流量。因此,你需要有一套可以根据流量负载弹性伸缩的缓存服务器。

这就是一致性哈希在这种情况下大放异彩的地方,在这种情况下,您正在运行一个弹性缓存集群。让我们总结一下这样做的好处。

  • 数据库或缓存服务器集群的弹性扩展
  • 更容易在服务器之间复制或分区数据
  • 分区数据允许均匀分布以减少热点
  • 启用系统范围的高可用性

可扩展的软件设计

随着哈希算法更改为一致性哈希,您拥有易于扩展的现成缓存服务器形式,但您需要做一些额外的准备,以使用一组现成的缓存服务器替换或添加到现有的缓存集群。

要在不中断服务的情况下迁移缓存服务器并对现有集群进行更改,您需要确保后端应用程序支持热重载,这意味着它们可以在不重新启动服务的情况下读取和反映设置。如果您的服务基于大量流量,您需要格外小心以确保它已准备好并能够处理此任务。

准备迁移

首先,我们做了很多配置减法,以便在不中断服务的情况下从后端应用程序添加或删除更改的缓存服务器。这个过程应该只针对应该由配置控制的信息,并且这样做的原因应该是清楚和明确的。

迁移场景

图片描述

上述设置完成后,我们一路将场景分为成功的场景和失败的场景,准备相应的应对。

大规模服务的成功缓存迁移场景

成功案例

  1. 根据地域等因素,依次迁移各族缓存服务器。
  2. 数据迁移到新配置的缓存集群完成,新缓存集群的命中率接近100%。
  3. 减少对现有缓存集群的请求,命中率接近0%。
  4. 在不重启服务的情况下使用设置移除旧的缓存集群
  5. 所有数据请求现在都将由新配置的缓存集群传送。

图片描述

大规模服务缓存迁移失败场景

故障场景

  1. 每个缓存服务器集群根据特定因素(例如区域)依次迁移。
  2. 当数据迁移到新配置的缓存集群时,它会与现有数据哈希混合,导致数据中断。
  3. 删除所有新的缓存集群并将请求回滚到仅现有的缓存集群。
  4. 现有后端应用程序服务器或存储 I/O 由于使用率高而出现死锁。
  5. 监控系统资源,观察情况,并比以前多添加 20-50% 的后端应用程序服务器。
  6. 通过断路器临时限制一些请求以适应存储 I/O。
  7. 系统稳定后,执行分析以确定原因。

我们首先考虑了可行的方案和可能失败的方案,并与我们自己和我们的团队成员一起审查它们,以确保我们不会错过任何任务或案例。如果场景可行,我们会列出我们需要的功能并一一实现。

迭代测试

如果您直接跳入缓存迁移而不测试依赖大量流量的服务,那么它顺利进行的可能性非常低。即使你准备了很多场景和响应,工程师也无法预料到每一种情况,人总是会犯错误,所以即使是小问题也很可能发生。

图片描述

大规模服务中的迭代测试

因此,在我开始在生产环境中迁移缓存之前,我将测试分为两部分。

  1. 在开发环境中运行小型模拟以进行测试。
  2. 在生产中请求最少的服务器集群上运行多个 Canary 测试。

对于以上两个测试,我们设置了与生产环境相同的监控和告警系统。

开发环境中的仿真

我们在开发环境做小规模模拟的时候,会根据mock数据产生流量,让我们承受小规模的高流量,也就是压力测试。但是,这种模拟的缺点是无法测试与实际生产环境相同。

生产环境中的金丝雀测试

图片描述

金丝雀测试

开发环境测试没有覆盖的是mock数据流量,不是真实用户流量,所以没有考虑生产环境缓存迁移时用户的时间,events当时,天气和其他背景因素。我们认为这些测试很难在开发环境中覆盖,所以我们想通过在生产环境中运行多个金丝雀测试来弥补。

但是由于金丝雀测试是在生产环境中进行的,会影响到服务,所以我们选择了请求量最少的区域的一组服务器,在请求量最少的时候进行测试。

迁移

我们把缓存迁移成功和失败的所有场景都写了出来,为它们开发了特性,并在小范围内测试了几次,所以我们认为如果不出什么大事,迁移就会顺利进行。事实上,一旦我们在生产中这样做,从旧缓存集群迁移到新缓存集群大约需要一个月的时间。花费这么长时间的原因是因为有一些流量可能是从各种客户端或遗留客户端代码遗留下来的。

由于新的缓存集群已经到位,我们能够在正确的时间移除旧的缓存集群,因为我们一直在监控和密切管理警报。另外,为了通过缓存迁移保持稳定的服务,我们着眼于降低失败率而不是以成功为目标,因此我们有灵活的应对失败场景的计划。最终,这个过程让我们在长达一个月的时间内顺利完成了缓存迁移,没有出现任何问题。

结论

在本文中,我们讨论了缓存对依赖大量流量的服务的影响,这些服务设计中的可扩展性差距会导致什么,以及我们在尝试扩展缓存时遇到的问题以及我们如何解决他们。

总的来说,这些变化对于依赖大量流量的服务来说可能是非常沉重的负担,所以你应该经常质疑自己的想法是否有错误。此外,我们并没有仅仅实现缓存迁移的短期目标,而是考虑了很多关于“我们可以用当前系统做出回应吗?”的问题。或“我们可以扩展吗?” 当将来出现类似的需求时。如果我们有缓存迁移的短期目标,我们会简单地根据现有的哈希算法增加服务器的数量。

当您考虑大型服务的架构时,您可能会遇到许多需要权衡取舍的情况。在这些情况下,提前计划并着眼于减少可能会失败以实现目标的场景的数量,而不是试图实现零碎的目标,这可能是解决问题的有效方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/31769.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

docker基础

文章目录 通过Vagrant安装虚拟机修改虚拟机网络配置 docker CE安装(在linux上)docker desktop安装(在MacOS上)Docker架构关于-阿里云镜像加速服务配置centos卸载docker 官网: http://www.docker.com 仓库: https://hub.docker.com Docker安装在虚拟机上,可以通过V…

Go语言的TCP和HTTP网络服务基础

目录 【TCP Socket 编程模型】 Socket读操作 【HTTP网络服务】 HTTP客户端 HTTP服务端 TCP/IP 网络模型实现了两种传输层协议:TCP 和 UDP,其中TCP 是面向连接的流协议,为通信的两端提供稳定可靠的数据传输服务;UDP 提供了一种…

[MySQL]不就是SQL语句

前言 本期主要的学习目标是SQl语句中的DDL和DML实现对数据库的操作和增删改功能,学习完本章节之后需要对SQL语句手到擒来。 1.SQL语句基本介绍 SQL(Structured Query Language)是一种用于管理关系型数据库的编程语言。它允许用户在数据库中存…

双因素身份验证在远程访问中的重要性

在快速发展的数字环境中,远程访问计算机和其他设备已成为企业运营的必要条件。无论是在家庭办公室运营的小型初创公司,还是团队分散在全球各地的跨国公司,远程访问解决方案都能保证工作效率和连接性,能够跨越距离和时间的阻碍。 …

7Z045 引脚功能详解

本文针对7Z045芯片,详细讲解硬件设计需要注意的技术点,可以作为设计和检查时候的参考文件。问了方便实用,按照Bank顺序排列,包含配置Bank、HR Bank、HP Bank、GTX Bank、供电引脚等。 参考文档包括: ds191-XC7Z030-X…

怎么计算 flex-shrink 的缩放尺寸

计算公式: 子元素的宽度 - (子元素的宽度的总和 - 父盒子的宽度) * (某个元素的flex-shrink / flex-shrink总和) 面试问题是这样的下面 left 和 right 的宽度分别是多少 * {padding: 0;margin: 0;}.container {width: 500px;height: 300px;display: flex;}.left {width: 500px…

红日靶场(一)外网到内网速通

红日靶场(一) 下载地址:http://vulnstack.qiyuanxuetang.net/vuln/detail/2/ win7:双网卡机器 win2003:域内机器 win2008域控 web阶段 访问目标机器 先进行一波信息收集,扫一下端口和目录 扫到phpmyadmin,还有一堆…

【资料分享】Xilinx Zynq-7010/7020工业核心板规格书(双核ARM Cortex-A9 + FPGA,主频766MHz)

1 核心板简介 创龙科技SOM-TLZ7x是一款基于Xilinx Zynq-7000系列XC7Z010/XC7Z020高性能低功耗处理器设计的异构多核SoC工业核心板,处理器集成PS端双核ARM Cortex-A9 PL端Artix-7架构28nm可编程逻辑资源,通过工业级B2B连接器引出千兆网口、USB、CAN、UA…

Triton教程 --- 动态批处理

Triton教程 — 动态批处理 Triton系列教程: 快速开始利用Triton部署你自己的模型Triton架构模型仓库存储代理模型设置优化动态批处理 Triton 提供了动态批处理功能,将多个请求组合在一起执行同一模型以提供更大的吞吐量。 默认情况下,只有当每个输入在…

【开源与项目实战:开源实战】81 | 开源实战三(上):借Google Guava学习发现和开发通用功能模块

上几节课,我们拿 Unix 这个超级大型开源软件的开发作为引子,从代码设计编写和研发管理两个角度,讲了如何应对大型复杂项目的开发。接下来,我们再讲一下 Google 开源的 Java 开发库 Google Guava。 Google Guava 是一个非常成功、…

io.netty学习(十一)Reactor 模型

目录 前言 传统服务的设计模型 NIO 分发模型 Reactor 模型 1、Reactor 处理请求的流程 2、Reactor 三种角色 单Reactor 单线程模型 1、消息处理流程 2、缺点 单Reactor 多线程模型 1、消息处理流程 2、缺点 主从Reactor 多线程模型 主从Reactor 多线程模型示例 1…

CTF-Show密码学:ZIP文件密码破解【暴力破解】

萌新 隐写23 题目内容: 文件的主人喜欢用生日做密码,而且还是个90后。 一、已知条件 在这个题目中,我们有以下已知条件: 文件的主人喜欢用生日做密码 - 这个条件告诉我们,密码可能是一个八位的纯数字密码&#xff0c…

云原生之深入解析如何正确计算Kubernetes容器CPU使用率

一、简介说明 使用 Prometheus 配置 kubernetes 环境中 Container 的 CPU 使用率时,会经常遇到 CPU 使用超出 100%,现在来分析一下: container_spec_cpu_period:当对容器进行 CPU 限制时,CFS 调度的时间窗口&#xff…

[架构之路-214]- UML-类图图解、详解、结构化、本质化讲解

目录 一、什么是类 1.1 概述 1.2 UML中类的表示 1.3 接口 1.4 抽象类 1.5 模板类 二、什么类图 2.1 概述 2.2 类关系 三、UML类图 3.1 结构关系 3.1.1 完全一体:继承关系 (类与类耦合度最高,类与类之间最强的关系) …

计算机基础知识

参考链接:https://blog.csdn.net/ChineseSoftware/article/details/123176978 https://www.cnblogs.com/8023-CHD/p/11067141.html https://blog.csdn.net/qq_42033567/article/details/108088514 http与https的区别 HTTP 的URL以http:// 开头,而HTTPS…

【Matlab】语音信号分析与处理实验报告

一、目的 使用Matlab分析与设计实验,理解与掌握以下知识点: 1、信号的采样、频谱混叠 2、信号的频谱分析 3、信号的幅度调制与解调方法 4、理想滤波器的时域和频域特性 5、数字滤波器的设计与实现 二、内容 1、录制一段个人的语音信号 2、采用合适的频…

Unity光照贴图的切换,实现黑夜和白天效果

有这么一个需求,不能使用实时光来进行动态控制光照开关,但是又要实现白天和黑夜的效果,我的场景中有大概十几个点光源和平行光 实现步骤: 一、模型原模原样复制到另一个场景中(因为贴图只能存在于当前的场景文件夹&am…

支付宝沙箱支付详细教程(IDEA版)—2023最新版

😇作者介绍:一个有梦想、有理想、有目标的,且渴望能够学有所成的追梦人。 🎆学习格言:不读书的人,思想就会停止。——狄德罗 ⛪️个人主页:进入博主主页 🗼专栏系列:无 &#x1f33c…

Redis数据库操作

Redis 命令参考 — Redis 命令参考http://doc.redisfans.com/ 1、Redis,远程词典服务器,是一个基于内存的键值型NoSQL数据库 特征: 键值型,支持多种不同数据结构,功能丰富 单线程,每个命令具备原子性 …

Docker的安装部署以及配置的操作流程(图文)

Docker的安装以及配置流程(图文) Docker一、配置域名解析二、CentOS Docker 安装1. 查询已安装的docker2. 安装必要的一些系统工具3. 添加软件源(阿里云)信息4. 更新并安装Docker-CE5. 查看docker 的版本6. 关闭运行的防火墙7. 开…