为什么 Facebook 不使用 Git?

在编程的世界里,Git 就像水一样常见,以至于我们认为它是创建和管理代码更改的唯一可行的工具。

前 Facebook 员工,2024 年

首先,我为什么关心?

我致力于构建 Graphite,它从根本上受到 Facebook 内部工具的启发。当我开始与朋友创建一家初创公司时,我从未听说过 Mercurial - 尽管我对开发工具的所有事物充满热情。我之前的工程经验包括个人项目、大学作业、Google 的 iOS 开发以及 Airbnb 的基础设施开发。在我的一生中,Git 就像水一样常见。事实上,它是如此常见,以至于我认为它是创建和管理代码更改的唯一可行的工具。

有趣的是,在 Airbnb,Mercurial 专家坐在离我几个座位远的地方,尽管我只知道他是一个好心的同桌,对他的贡献一无所知。Gregory Szorc

2021 年,我的队友托马斯和尼克打开了我的思路。他们来自 Facebook,令我惊讶的是,他们几乎不了解 Git。相反,他们接受了 Mercurial 模式和 Facebook 的“堆叠差异”工作流程的深入培训。随着时间的推移,他们向我推销了非 git 工具和模式的好处,最终我们做出了早期的公司转型,为 GitHub 开发人员带来了堆积的差异。在此过程中,我们制作了一个 CLI,将 Hg 的想法融入到 Git 中。

这篇文章与我们的初创公司无关。相反,这是过去三年来困扰我的根本问题。为什么 Facebook 用户(Metamates 🏴‍☠️)不使用 Git?

为什么要采用 Mercurial 并在其之上构建自定义工作流程?

我知道 Google 不使用 Git - 但这是有道理的 - Google 的工程比 Git 早五年多。另一方面,Facebook 是在 2004 年左右与 Git 创建的同时成立的,当 Facebook 认真评估源代码控制工具时,Git 比 Mercurial 更受欢迎。那么为什么 Facebook 不使用 Git 呢?

这个问题很小众,但我认为这是一个值得考虑的有趣问题。

如果 Facebook 在 2010 年代初就开始使用 Git 并做出贡献,工程世界可能会有所不同。Git 可能更加用户友好,并且可能本身支持堆叠更改。GitHub 可能为闭源软件开发提供了更好的支持。Uber 和 Pinterest 等前 Facebook 早期公司可能也使用 Git 和 GitHub 作为源代码控制,而不是 Phabricator 和 Mercurial,从而在过去十年中减少了生态系统的碎片化。

但 Facebook 并没有坚持使用 Git(作为他们的主要 monorepos)。相反,他们采用 Mercurial 进行版本控制,并在顶部逐渐添加自定义工具。为什么?首先,我尝试用谷歌搜索答案并找到以下明确的博客文章:

https://engineering.fb.com/2014/01/07/core-infra/scaling-mercurial-at-facebook/

这篇十年前的文章,以及后来的一些 YouTube 技术演讲,给了我一个起始答案:

“因为性能……”

但我想更深入地了解最初的决定工程师的意见。在队友的帮助下,我在 Facebook 前成员群组上发布了一个问题,询问这段历史。我还给参与该项目的两名原始工程师发送了冷电子邮件,要求他们迁移到 Mercurial - 他们很友善地取消了我的记录,并提供了该项目的个人帐户。以下是我了解到的 Facebook 不使用 Git 的完整原因 - 希望这篇文章可以帮助进一步记录 2024 年我们的工具为何如此的历史。

注:我从未在 Facebook 工作过,这个帐户是我作为一个没有在 Facebook 工作过的人对事实的最好理解。我能够与一些参与该项目的人交谈,并获得他们的许可来写下他们向我解释的内容。

Facebook 为何以及如何从 Git 迁移

根据 2014 年 Facebook 博客文章,Facebook 是从 Git 起步的。正如人们所预料的那样,这是他们当时对源代码控制系统的默认选择。但在 2012 年左右,他们开始达到规模极限。该帖子声称他们的代码库“甚至比 Linux 内核还要大很多倍,Linux 内核有 1700 万行代码和 44,000 个文件”。具体来说,工程师开始感觉 Git 操作很慢。虽然速度不算太慢,但足够慢到值得调查。

关键瓶颈是“统计”所有文件的过程。

Git 会检查每个文件,随着文件数量的增加,它自然会变得越来越慢。

工程师尝试运行模拟,创建一个虚拟存储库,以匹配 Facebook 几年后代码库的预期规模。结果令人震惊 - 基本的 Git 命令花了超过 45 分钟才能完成。用该项目的一位原始工程师的话来说,“这不是那种你想在所有工程师都抱怨之前就放弃的事情。到那时,这个东西就太笨重了。尝试进行损害控制,没关系,想出一个更清洁的解决方案,将是一项艰巨的努力。”

因此,一群乌合之众的瑞典人开始研究解决方案。首先,他们联系了 Git 维护者,看看如何扩展 Git 以更好地支持大型 monorepos:

以下是来自 Git 维护者的一封电子邮件的一些精选引述——已经过去 12 年了,但读到这些消息时我还是感到有些沮丧:

听起来好像你在一个 .git 中拥有所有内容。将大型存储库拆分为较小的 .git 存储库。

虽然您/可以/这样做,但这不是一个好主意,您应该拆分存储库

我同意。我在xx公司工作,该公司拥有多年的开发历史,拥有多个大型 CVS 存储库,我们正在缓慢但坚定地将代码库从 CVS 迁移到 Git。把事情分开。这将使您能够更好地重新组织事情,恕我直言,没有任何缺点。

虽然 Git 可以更好地处理大型存储库(特别是在交互式 rebase 中应用提交似乎会减慢较大存储库的速度),但对于统计 130 万个文件,您能做的只有这么多。

这种反应并不合作——而且在未来充满大型单一回购的情况下,这种反应也没有很好地适应。Git 维护者拒绝提高性能,而是建议 Facebook 对其 monorepo 进行分片。 然而,分片对于 Facebook 团队来说是不可能的,他们表示对 Git 不愿意扩展感到惊讶。传统上,大型科技公司提供免费的开源劳动力是一件很受欢迎的礼物,可以确保项目的长期寿命。

话虽这么说,Git 项目没有义务屈服于 Facebook 的要求——我无意将他们描绘成这个故事中的“坏人”。仅仅因为 Facebook 的要求而做某事并不是一种生活方式。有趣的是,两年后,Git 维护者在看到 Facebook 为 Mercurial 做出有意义的改进后似乎改变了语气:

他们邮寄了有关 git 性能问题的列表。据我所知,反馈相对较少。

我有这样的印象,如果他们有 git 开发社区相对不关心大型存储库的性能问题的印象,我不会感到惊讶。

所以问题是 git 社区是否有兴趣在如此大规模的场景中保持竞争力 - Mercurial 现在似乎是开箱即用的

十年后,Git 做出了重大改进,以更好地支持 monorepos。

今天的情况已经发生了很大的变化,Git 现在(知道如何做到这一点)在非常非常大的存储库上运行良好。

Ani Betts,前 Facebook 用户

考虑的替代方案

2012 年,Git 的替代品还很少。该团队考虑了闭源 Perforce,Google 以前的源代码控制解决方案。在与 Perforce 销售工程师的早期调查电话中,Facebook 指出了 Perforce 读取器和写入器节点之间的本地一致性的架构缺陷。这一回应并没有给人们带来信心——销售工程师没有意识到根本问题,也没有解决该问题的路线图计划。

还考虑了其他解决方案,例如 Bitkeeper,但很快就被取消了资格。最后一个选择是 Mercurial。它的性能与 Git 类似,但架构更简洁。Git 是一个由 Bash 和 C 代码组成的复杂网络,而 Mercurial 是使用面向对象的编码模式在 Python 中设计的,并且被设计为可扩展的。

其中一名调查工程师之前曾使用 Mercurial,因此该团队决定参加在阿姆斯特丹举行的 Mercurial 黑客马拉松以进一步调查。

由于我之前与 Mercurial 有过很多联系,因此在将 Mercurial 摆上桌面之前,我竭尽全力地寻求各种可能的替代方案。

布莱恩·奥沙利文,前 Facebook 员工

他们发现了一个易于扩展的系统和一个维护者社区,他们非常欢迎 Facebook 团队的积极改变。

我认为这就是提到的具体黑客马拉松,但我并不肯定。这段视频中展现了 2010 年初的真实氛围:

https://www.youtube.com/watch?v=fml4s6MEjW8

迁移整个工程组织

阿姆斯特丹黑客马拉松结束后,Facebook 团队被说服了。剩下的就是让公司的其他成员相信这次迁移。这是一项令人生畏的任务 - 工程师可能对工具更改极其敏感(想象一下 vim 与 emacs),并且更改源代码控制系统是一件大事。

团队尽可能顺利地出发,以免引发其他工程师的防御反应。接下来的事情听起来像是内部开发工具迁移的大师班。该团队花了几个月的时间宣传迁移到 Mercurial 的可能性,并花时间映射 Git 和 Mercurial 之间的所有常用命令和工作流程。他们甚至收集了整个公司运行的 Git 命令的频率,并专门记录了最频繁的操作在 Mercurial 中的工作方式。

其次,他们为开发人员创造了表达他们的担忧并讨论新系统中可能棘手的任何边缘情况的机会。团队一开始就认为他们会因为迟钝的 8 路章鱼合并假设而陷入激烈的争论。但令他们惊讶的是,他们发现同事工程师非常包容和友好。“没有人站起来并开始尖叫他们的特殊处境。”

最后,他们致力于迁移并将公司移交给 Mercurial。剩下的就是历史了。Facebook 为 Mercurial 做出了性能改进,使其成为大型单一存储库的最佳选择。 Evan Priestley 扩展了 Phabricator以支持 Mercurial。Facebook 利用 Mercurial 的“差异”概念创建了“堆叠”模式, 解锁了新颖的代码审查并行化。前 Facebook 员工跳槽到了新公司,并带来了他们的工作流程,创建了一个规模虽小但声名狼藉的 diff 爱好者崇拜者。最后,我遇到了其中一些爱好者,并决定用我 20 多岁的时间将 Mercurial 风格的堆叠差异引入 Git 和 GitHub。

结束语 这个故事的要点是什么?反思这些引述和采访,我想起了经典智慧:历史上许多关键技术决策都是人类驱动的,而不是技术驱动的。

善良和开放在开发工具的世界中走得很远,我的目标是在为源代码控制的历史做出贡献时继承这些价值观。

IT镜闻39

IT镜闻 · 目录

上一篇人工智能将意味着更多的程序员,而不是更少下一篇太忙”意味着你的个人策略很糟糕

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/577823.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第十五届蓝桥杯省赛第二场C/C++B组E题【遗迹】题解

解题思路 错解 贪心:每次都移动至当前最近的对应方块上。 反例: s s s abxac t t t abac 贪心结果(下标) 0 → 1 → 0 → 4 0 \rightarrow 1 \rightarrow 0 \rightarrow 4 0→1→0→4,答案为 5 5 5。 正确结…

【MRI重建】基于径向采样的GRASP重建实现(matlab)

关于 对比增强MRI和弥散MRI成像,对于时间分辨率要求都比较高,为了捕获高时间空间分辨率,这里使用GRASP方法,重建radial径向采样的MR数据。使用的稀疏正则项为 temporal total variation。 相关文章 https://onlinelibrary.wiley.com/doi/10.1002/mrm.24980 https://onl…

前端学习笔记3

列表、表格与表单​ 列表就是信息资源的一种展示形式。它可以使信息结构化和条理化,并以列表的样式显示出来,以便浏览者能更快捷地获得相应的信息。 3.0 代码访问地址 https://gitee.com/qiangge95243611/java118/tree/master/web/day03 3.1 列表 ​ 列表大致可以分为3类…

mac资源库的东西可以删除吗?提升Mac运行速度秘籍 Mac实用软件

很多小伙伴在使用mac电脑处理工作的时候,就会很疑惑,电脑的运行速度怎么越来越慢,就想着通过删除mac资源库的东西,那么mac资源库的东西可以删除吗?删除了会不会造成电脑故障呢? 首先,mac资源库…

沉浸式推理乐趣:体验线上剧本杀小程序的魅力

在这个信息爆炸的时代,人们的娱乐方式也在不断地推陈出新。其中,线上剧本杀小程序以其独特的沉浸式推理乐趣,成为了许多人的新宠。它不仅让我们在闲暇之余享受到了推理的快乐,更让我们在虚拟的世界里感受到了人性的复杂与多彩。 线…

【hackmyvm】 Quick2靶机

渗透流程 渗透开始1.IP地址 获取2.端口扫描3.任意文件读取4.扫描目录5.总结信息6.漏洞扫描7.php_filter_chain_generator.py使用8.提权 渗透开始 1.IP地址 获取 ┌─[✗]─[userparrot]─[~] └──╼ $fping -ag 192.168.9.0/24 2>/dev/null 192.168.9.124 本机 192.1…

base64格式图片直接显示

<img :src"data:image/png;base64,url"/>

阿斯达年代记游戏下载教程 阿斯达年代记下载教程

《阿斯达年代记&#xff1a;三强争霸》作为一款气势恢宏的MMORPG大作&#xff0c;是Netmarble与STUDIO DRAGON强强联合的巅峰创作&#xff0c;定于4月24日迎来全球玩家热切期待的公测。游戏剧情围绕阿斯达大陆的王权争夺战展开&#xff0c;三大派系——阿斯达联邦、亚高联盟及边…

“PowerInfer:消费级GPU上的高效大语言模型推理引擎“

PowerInfer是由上海交通大学IPADS实验室开发的一个高效大语言模型&#xff08;LLM&#xff09;推理引擎&#xff0c;专为个人电脑&#xff08;PC&#xff09;上的消费者级GPU设计。它通过利用LLM推理中的高局部性&#xff0c;实现了快速且资源消耗低的模型推理&#xff0c;这一…

windows如何安装MySQL(详)

MySQL在Windows上的安装和配置 官网&#xff1a;www.mysql.com 下载地址&#xff1a;MySQL :: Download MySQL Community Server (Archived Versions) window系统 安装包&#xff08;Windows (x86, 64-bit), MSI Installer&#xff09; 压缩包&#xff08;Windows (x86, 64…

Java后端利用百度地图全球逆地理编码,获取地址

声明&#xff1a;本人是在实习项目的时候遇到的问题 一.使用Api分为四步骤全球逆地理编码 rgc 反geo检索 | 百度地图API SDK 步骤1,2自行完成 接下来去获取AK 二.申请AK 登录百度账号 点击创建应用&#xff0c;选择自己想用的服务&#xff0c;我只单选了逆地理编码&#xff…

目标检测的mAP、PR指标含义

基本概念 什么是一个任务的度量标准。对于目标检测任务来说&#xff0c;它的首要目标是确定目标的位置并判别出目标类别。这里已医学图像为例&#xff0c;我们需要计算出血液红细胞&#xff08;RBC&#xff09;、白细胞&#xff08;WBC&#xff09;和血小板的数量。为了实现这一…

表格的单元格合并和表头的合并——vxe-table

vxe-table的官网&#xff1a;https://vxetable.cn/#/table/advanced/mergeCell在你的项目中下载安装完成后&#xff0c;先在main.js文件中引入&#xff1a; import VXETable from vxe-table import vxe-table/lib/style.css Vue.use(VXETable)一、单元格合并 效果图&#xff…

时间序列预测:基于PyTorch框架的循环神经网络(RNN)实现销量预测

之前随手一写&#xff0c;没想到做预测的同学还挺多&#xff0c;但是之前那个效果并不好&#xff0c;于是在之前的基础上重新修改完善&#xff0c;到了现在这一步才感觉预测算是初步能应用。 上文地址&#xff1a;LSTM模型预测时间序列&#xff1a;根据历史销量数据预测商品未…

开源代码分享(24)-考虑柔性负荷的综合能源系统低碳经济优化调度

参考文献&#xff1a; [1]薛开阳,楚瀛,凌梓,等.考虑柔性负荷的综合能源系统低碳经济优化调度[J].可再生能源, 2019, 37(08): 1206-1213. [2]刘蓉晖,李子林,杨秀,等.考虑用户侧柔性负荷的社区综合能源系统日前优化调度[J].太阳能学报, 2019, 40(10):2842-2850. 1.基本原理 基…

智慧药房系统源码解析:开发高效医保购药小程序教学

今天&#xff0c;小编将为大家讲解智慧药房系统的源码结构及其开发过程&#xff0c;旨在为开发者提供一份高效、可靠的指南。 一、系统架构概述 智慧药房系统由前端和后端两部分组成。医保购药小程序则是智慧药房系统的一个重要应用场景&#xff0c;其功能主要包括药品浏览、医…

学浪app视频下载方法,让你随时随地观看

学浪app客户端现在越来越难&#xff0c;不但禁止了录屏软件&#xff0c;而且连抓包都禁止了&#xff0c;其实学浪的难度很高&#xff0c;我只是很幸运&#xff0c;找到了网页进入学浪的方法&#xff0c;但是我知道这个方法不稳定&#xff0c;所以就做成了软件&#xff0c;大家直…

Vscode上使用Clang,MSVC, MinGW, (Release, Debug)开发c++完全配置教程(包含常见错误),不断更新中.....

1.VSCode报错头文件找不到 clang(pp_file_not_found) 在Fallback Flags中添加 -I&#xff08;是-include的意思&#xff0c;链接你的编译器对应头文件地址&#xff0c;比如我下面的是MSVC的地址&#xff09; 问题得到解决~

成为程序员后,我才真正明白的那些事儿

嗨&#xff0c;我是小路。一名努力向上生长&#xff0c;提高职业能力的90后程序员。今天想和大家分享一下踏入编程世界&#xff0c;成为一名程序员以来&#xff0c;那些让我恍然大悟、受益匪浅的道理。无论你是正在考虑转行编程&#xff0c;还是已经在路上持续精进程序猿们&…

Java集合相关的List、Set、Map基础知识

目录 一、集合介绍 二、List 三、Map HashMap的数据结构 如何理解红黑树 四、set 一、集合介绍 在Java中&#xff0c;集合是一种用于存储对象的数据结构&#xff0c;它提供了一种更加灵活和强大的方式来处理和操作数据。Java集合框架提供了一系列接口和类&#xff0c;用…