CHAPTER 11: 《DESIGN A NEWS FEED SYSTEM》 第 11 章:《设计新闻系统》

在本章中,您将被要求设计一个新闻提要系统。什幺是新闻系统?根据Facebook 页面,“News feed 是中间不断更新的故事列表。您的主页。动态消息包括状态更新、照片、视频、链接、应用活动记录和喜欢您在 Facebook 上关注的人、页面和群组“[1]。这是一个常见的面试问题。类似的问题有:设计Facebook新闻提要,Instagram 提要、Twitter 时间线等
在这里插入图片描述

第 1 步 - 了解问题并确定设计范围

第一组澄清问题是了解面试官的想法当她要求你设计一个新闻提要系统时。至少,你应该弄清楚支持哪些功能。以下是应聘者与面试官互动的例子:
应聘者:这是移动应用进程吗?还是 Web 应用进程?还是两者兼而有之?
面试官:Both
应聘者:有哪些重要功能?
面试官:用户可以在动态消息页面上发布帖子并查看其朋友的帖子。
应聘者:新闻提要是按时间倒序排序还是按任何特定顺序排序比如题目分数?例如,来自密友的帖子比重更高。
面试官:为了简单起见,让我们假设提要是按时间倒序排序的订单。
应聘者:一个用户可以有多少个好友?
面试官:5000
应聘者:流量是多少?
面试官:1000万DAU
应聘者:Feed 可以包含图片、视频还是仅包含文本?
面试官:它可以包含媒体文档,包括图像和视频。

现在您已经收集了需求,我们专注于设计系统。

第 2 步 - 提出高级设计并获得支持

该设计分为两个流程:Feed 发布和新闻 Feed 构建。

  • Feed 发布:当用户发布帖子时,相应的数据会写入缓存和数据库。帖子会发布到她朋友的新闻提要中。
  • news Feed构建:为简单起见,我们假设新闻源是通过聚合构建的朋友的帖子按时间倒序排列。

新闻源 API
新闻源 API 是客户端与服务器通信的主要方式。那些API 基于 HTTP,允许客户端执行操作,包括发布状态检索新闻提要、添加好友等。我们将讨论两个最重要的 API:feed发布 API 和新闻提要检索 API。
Feed 发布 API
要发布帖子,HTTP POST 请求将发送到服务器。API如下图所示:
POST /v1/me/feed
参数:

  • 内容:内容是帖子的文本。
  • auth_token:用于对 API 请求进行身份验证。

新闻源检索 API
检索新闻提要的 API 如下所示:
获取 /v1/me/feed
参数:

  • auth_token:用于对 API 请求进行身份验证。

Feed 发布
图 11-2 显示了源发布流程的高级设计。
在这里插入图片描述

  • 用户:用户可以在浏览器或移动应用进程上查看新闻源。用户使用内容 “Hello” 通过 API:
    /v1/me/feed?content=Hello&auth_token={auth_token}
  • 负载均衡器:将流量分配到 Web 服务器。
  • Web 服务器:Web 服务器将流量重定向到不同的内部服务。
  • 帖子服务:将帖子保留在数据库和缓存中。
  • 扇出服务:将新内容推送到朋友的新闻提要。新闻源数据存储在缓存,以便快速检索。
  • 通知服务:通知好友有新内容可用,并发送推送通知。

构建新闻提要
在本节中,我们将讨论如何在幕后构建新闻提要。图 11-3 显示了高级设计:
在这里插入图片描述

  • 用户:用户发送请求以检索其新闻提要。请求如下所示:/ v1/me/feed。
  • 负载均衡器:负载均衡器将流量重定向到 Web 服务器。
  • Web 服务器:Web 服务器将请求路由到新闻源服务。
  • 新闻源服务:新闻源服务从缓存中获取新闻源。
  • 新闻源缓存:存储呈现新闻源所需的新闻源 ID。

第 3 步 - 深入探究设计

高级设计简要介绍了两个流程:源发布和新闻源生成。在这里,我们将更深入地讨论这些主题。
提要发布深入探讨
图 11-4 概述了新闻发布的详细设计。我们已经讨论了大部分组件,我们将重点介绍两个组件:Web 服务器和扇出服务。
在这里插入图片描述
网站服务器
除了与客户端通信之外,Web 服务器还强制执行身份验证和速率限制。只有使用有效 auth_token 登录的用户才可以发帖。系统限制了用户在一定时间内可以发布的帖子数量,对于防止垃圾邮件和滥用行为至关重要内容。
扇出服务
扇出是将帖子发送给所有朋友的过程。两种类型的扇出模型是:写入时的扇出(也称为推模型)和读取时的扇出(也称为拉模型)。两个都模型各有利弊。我们解释他们的工作流程并探索最佳方法支持我们的系统。

写入时扇出。通过这种方法,新闻源是在写入时预先计算的。一个新的帖子发布后会立即发送到朋友的缓存中。
优点:

  • 动态消息实时生成,可以立即推送给好友。
  • 获取新闻源速度很快,因为新闻源是在写入时预先计算的。
    缺点:
  • 如果用户有很多朋友,则获取朋友列表并为所有朋友生成新闻提要它们既缓慢又耗时。这就是所谓的热键问题。
  • 对于不活跃或很少登录的用户,预计算新闻源会浪费计算能力资源。

读取时扇出。新闻源是在阅读期间生成的。这是一个按需模型。当用户加载其主页时,最近的帖子将被拉出。
优点:

  • 对于不活跃的用户或很少登录的用户,读时扇出效果更好,因为它可以不要在他们身上浪费计算资源。
  • 数据不会推送给好友,因此不存在热键问题。
    缺点
  • 由于新闻提要不是预先计算的,因此获取新闻提要很慢。

我们采用混合方法来获得这两种方法的优点并避免其中的陷阱。由于快速获取新闻源至关重要,因此我们对大多数用户使用推送模型。对于名人或拥有很多朋友/关注者的用户,我们让关注者拉取新闻内容按需以避免系统过载。一致性哈希是一种有用的技术,可以减轻热键问题,因为它有助于更​​均匀地分配请求/数据。让我们仔细看看如图11-5所示的扇出服务
在这里插入图片描述
扇出服务的工作原理如下:

  1. 从图形数据库中获取好友 ID。图形数据库适合管理朋友关系和朋友推荐。有兴趣的读者希望了解更多信息关于这个概念应参考参考资料[2]。
  2. 从用户缓存中获取好友信息。然后,系统会根据用户过滤掉好友设置。例如,如果您将某人静音,则该帖子将不会显示在您的动态消息中即使你们仍然是朋友。帖子可能不显示的另一个原因是用户可以有选择地与特定朋友分享信息或对其他人隐藏信息。
  3. 将好友列表和新帖子 ID 发送到消息队列。
  4. 扇出工作器从消息队列中获取数据,并将新闻源数据存储在新闻feed缓存。您可以将新闻feed缓存视为映射表。每当有新帖子发布时,它都会被附加到新闻提要表中,如图 11-6。如果我们存储整个用户,并在缓存中发布对象,内存消耗可能会变得非常大。因此,仅存储 ID。为了保持较小的内存大小,我们设置了一个可配置的限制。用户滚动浏览数千个帖子的新闻提要很小。大多数用户只对新内容感兴趣,因此缓存丢失率很低。
  5. Store <post_id, user_id >在news feed缓存中。图11-6展示了这样一个例子新闻feed看起来像在缓存中。
    在这里插入图片描述
    新闻源检索深入探讨
    图 11-7 说明了新闻检索的详细设计。
    在这里插入图片描述
    如图11-7所示,媒体内容(图片、视频等)存储在CDN中,检索速度更快。让我们看看客户端如何检索新闻提要。
    1. 用户发送请求以检索其新闻提要。请求如下所示:/v1/me/feed
    2. 负载均衡器将请求重新分发到 Web 服务器。
    3. Web 服务器调用新闻源服务来获取新闻源。
    4. 新闻feed服务从新闻feed缓存中获取列表帖子 ID。
    5. 用户的新闻提要不仅仅是一个提要 ID 列表。它包含用户名,配置文档图片、帖子内容、帖子图片等。因此,新闻feed服务获取完整的用户和帖子对象从缓存(用户缓存和post缓存)构造完整的新闻内容。
    6. 整合好的新闻源以 JSON 格式返回给客户端,用于渲染。

缓存体系结构
缓存对于新闻提要系统极为重要。我们将缓存层分为 5 层如图11-8所示
在这里插入图片描述

  • 新闻提要:它存储新闻提要的 ID。
  • 内容:它存储每个帖子数据。热门内容存储在热缓存中。
  • 社交图谱:它存储用户关系数据。
  • 操作:它存储有关用户是否喜欢帖子、回复帖子或获取其他信息对帖子的操作。
  • 计数器:它存储点赞、回复、关注、关注等计数器

第 4 步 - 结束

在本章中,我们设计了一个新闻提要系统。我们的设计包含两个流程:feed发布和新闻提要检索。像任何系统设计面试问题一样,没有完美的系统设计方法。公司有其独特的约束条件,您必须设计一个系统来适应这些约束条件。了解设计和技术选择的权衡非常重要。如果有剩下的几分钟,您可以谈谈可伸缩性问题。为避免重复讨论,仅下面列出了高级别的谈话要点。
扩展数据库

  • 垂直缩放与水平缩放
  • SQL 与 NoSQL
  • 主从复制
  • 只读副本
  • 一致性模型
  • 数据库分片

其他谈话要点:

  • 保持 Web 层无状态
  • 尽可能多地缓存数据
  • 支持多个数据中心
  • 丢失消息队列的一对组件
  • 监控关键指标。例如,高峰时段的 QPS 和用户时的延迟刷新他们的新闻提要很有趣。

恭喜你走到这一步!现在拍拍自己的背。干得好!
参考资料
[1] 动态消息的工作原理:
https://www.facebook.com/help/327131014036297/
[2] 朋友的朋友推荐 Neo4j 和 SQL 服务器:
http://geekswithblogs.net/brendonpage/archive/2015/10/26/friend-of-friendrecommendations-with-neo4j.aspx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/335016.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

linux C语言socket函数send

在Linux中&#xff0c;使用C语言进行网络编程时&#xff0c;send函数是用于发送数据到已连接的套接字的重要函数之一。它通常用于TCP连接&#xff0c;但也可以用于UDP&#xff08;尽管对于UDP&#xff0c;通常更推荐使用sendto&#xff0c;因为它允许你指定目标地址和端口&…

插入排序(一)——直接插入排序与希尔排序

目录 一.前言 二.排序的概念及其运用 1.1排序的概念 1.2 常用排序算法 三.常用排序算法的实现 3.1 插入排序 3.1.1 基本思想 3.1.2 直接插入排序 3.1.3 希尔排序&#xff08;缩小增量排序&#xff09; 四.全部代码 sort.c sort.h test.c 五.结语 一.前言 本文我们…

SpringBoot 3.1.7 集成Mybatis

一、介绍 Mybatis的中文官网并没找到与SpringBoot最新的集成的教程&#xff0c;有的都是老式的配置方法&#xff0c;所以记录一下怎么我是怎么集成SpringBoot 3.1.7 集成Mybatis 的方法 有条件的可以打开源网站 https://github.com/mybatis/spring-boot-starter 没有条件的我…

虚拟机下载docker

一&#xff0c;Docker简介 百科说&#xff1a;Docker 是一个开源的应用容器引擎&#xff0c;让开发者可以打包他们的应用以及依赖包到一个可移植的容器中&#xff0c;然后发布到任何流行的Linux机器上&#xff0c;也可以实现虚拟化&#xff0c;容器是完全使用沙箱机制&#xff…

GetShell的姿势

0x00 什么是WebShell 渗透测试工作的一个阶段性目标就是获取目标服务器的操作控制权限&#xff0c;于是WebShell便应运而生。Webshell中的WEB就是web服务&#xff0c;shell就是管理攻击者与操作系统之间的交互。Webshell被称为攻击者通过Web服务器端口对Web服务器有一定的操作权…

nodejs前端项目的CI/CD实现(二)jenkins的容器化部署

一、背景 docker安装jenkins&#xff0c;可能你会反问&#xff0c;这太简单了&#xff0c;有什么好讲的。 我最近就接手了一个打包项目&#xff0c;它是一个nodejs的前端项目&#xff0c;jenkins已在容器里部署且运行OK。 但是&#xff0c;前端组很追求新技术&#xff0c;不…

【STM32】STM32学习笔记-I2C通信外设(34)

00. 目录 文章目录 00. 目录01. I2C简介02. I2C外设简介03. I2C框图04. I2C基本结构05. 主机发送06. 主机接收07. 软件/硬件波形对比08. 预留09. 附录 01. I2C简介 I2C(Inter&#xff0d;Integrated Circuit)总线是一种由NXP&#xff08;原PHILIPS&#xff09;公司开发的两线式…

Web3艺术市场:NFT与数字创作的结合

在数字时代&#xff0c;随着区块链技术的崛起&#xff0c;一种新型数字资产&#xff0c;非同质化代币&#xff08;NFT&#xff09;&#xff0c;正逐渐改变传统艺术市场的格局。这种数字化的艺术品售卖方式成为了Web3艺术市场的代表&#xff0c;推动着数字创作与艺术市场的结合。…

深度学习—常见的卷积操作和卷积神经网络

各种常见的卷积操作 0、三种模式及输出矩阵尺寸计算 W输入矩阵宽&#xff0c;w是卷积核的大小&#xff0c;p是padding的数值&#xff0c;stride是滑动步幅 Full 补k-1圈 &#xff1a;w0 &#xff08; | W | - w 2p &#xff09;/ stride 1 Same 补若干圈&#xff1a;w0 …

UI组件在线预览,程序员直呼“不要太方便~”

一、介绍 以往大家如果想查看组件的使用效果&#xff0c;需要打开DevEco Studio构建工程。现在为了便于大家高效开发&#xff0c;文档上线了JS UI组件在线预览功能&#xff0c;无需本地构建工程&#xff0c;在线即可修改组件样式等参数、一键预览编译效果。程序员直呼&#xff…

使用 ClassFinal 对SpringBoot jar加密加固并进行机器绑定

写在前面&#xff1a;各位看到此博客的小伙伴&#xff0c;如有不对的地方请及时通过私信我或者评论此博客的方式指出&#xff0c;以免误人子弟。多谢&#xff01;如果我的博客对你有帮助&#xff0c;欢迎进行评论✏️✏️、点赞&#x1f44d;&#x1f44d;、收藏⭐️⭐️&#…

回溯算法篇-02:括号生成

力扣22、括号生成 题目分析 对于括号类问题&#xff0c;有以下两个性质&#xff1a; 一个“合法”的括号组合中&#xff0c;左括号数量一定等于右括号数量对于一个 “合法” 的括号字符串组合 p &#xff0c;必然对于任何 0 < i < len(p) 都有&#xff1a;子串 p[0...i…

商铺工厂119消防火灾SOS声光一键报警器平台联网

商铺工厂119消防火灾SOS声光一键报警器平台联网 1.设有火灾自动报警系统的建筑&#xff0c;宜选择符合相关现行国家技术标准的消防应急广播、火灾声光警报类产品&#xff0c;由火灾报警或消防联动控制器进行控制&#xff0c;在消防控制室应能一键启动全楼火灾声光警报或向全楼进…

phpStorm 设置终端为git bash

环境&#xff1a; windows , PhpStorm 2022 为自己的终端配置git样式的使用&#xff0c; 默认终端样式 一、打开设置&#xff0c;选择git bin 二、重新打开终端 不加--login -i 的终端 加了--login -i 的终端 最重要的一点是什么&#xff0c;他可以像mac一样支持 ctrlv 复…

【Qt5】QString的成员函数chop

2024年1月19日&#xff0c;周五下午 QString 的 chop 方法用于从字符串的末尾移除指定数量的字符。这个方法会修改原始字符串&#xff0c;并返回 void。 下面是一个简单的示例&#xff1a; #include <QString> #include <QDebug>int main() {QString originalStr…

PE解释器之PE文件结构(二)

接下来的内容是对IMAGE_OPTIONAL_HEADER32中的最后一个成员DataDirectory&#xff0c;虽然他只是一个结构体数组&#xff0c;每个结构体的大小也不过是个字节&#xff0c;但是它却是PE文件中最重要的成员。PE装载器通过查看它才能准确的找到某个函数或某个资源。 一&#xff1…

安捷伦AgilentE8363B网络分析仪

安捷伦AgilentE8363B网络分析仪 E8363B 是 Agilent 的 40 GHz 网络分析仪。网络分析仪是一种功能强大的仪器&#xff0c;可以以无与伦比的精度测量射频设备的线性特性。许多行业使用网络分析仪来测试设备、测量材料和监控信号的完整性 附加功能&#xff1a; 104 dB 的动态范围…

Redis--HyperLogLog的指令语法与使用场景举例(UV统计)

文章目录 前言HyperLogLog介绍HyperLogLog指令使用使用场景&#xff1a;UV统计 前言 Redis除了常见的五种数据类型之外&#xff0c;其实还有一些少见的数据结构&#xff0c;如Geo&#xff0c;HyperLogLog等。虽然它们少见&#xff0c;但是作用却不容小觑。本文将介绍HyperLogL…

使用KTO进行更好、更便宜、更快速的LLM对齐

KTO全称为Kahneman-Tversky Optimisation&#xff0c;这种对齐方法使在我们的数据上对大型语言模型&#xff08;LLM&#xff09;进行对齐变得前所未有地容易和便宜&#xff0c;而且不会损害性能。大型语言模型的成功在很大程度上得益于与人类反馈的对齐。如果ChatGPT曾经拒绝回…

三星刚刚将Google Gemini集成到Galaxy S24中

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版&#xff0c;欢迎购买。点击进入详情 AI手机的新时代即将到来。 三星刚刚将 Google Gemini 集成到 Galaxy S24 中&#xff01; 准备好迎接智能手机吧&#xff0c;它不仅智能&#xff0c;而且具有灵性。…