我的领导马斯克:痛恨开会,不要非技术中层,推崇裁员

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


马斯克称得上是个“魔鬼老板”这事儿,已经出了名了。

现在,他的老部下卡帕西(Andrej Karpathy)又在最新访谈中“锤”了他一把(doge):

我不得不恳求他允许我招人。

他(马斯克)总是默认要裁掉员工。

图片

喜欢裁人之外,在这场红杉组织的AI Ascent活动上,卡帕西还揭秘了更多马斯克管理公司的细节:

痛恨开会、拒绝躺平、比起跟VP更喜欢直接和工程师们聊工作……

另外,他也聊了不少大家伙关心的大模型话题,包括:

  • LLM OS

  • 规模重要吗?

  • 年轻的初创公司要如何与OpenAI竞争?

更多细节,以下奉上文字版分享~

(Claude 3亦有贡献)

大语言模型是新时代的CPU

Q:安德烈,非常感谢你今天加入我们。OpenAI最初的办公室就在我们旧金山办公室的对面,当时你们很多人都挤在一起。

除了在一家巧克力工厂楼上工作,实现了威利·旺卡的梦想,在这里工作还有哪些令你难忘的时刻?

卡帕西:是的,OpenAI最初的办公室就在那里,如果不算Greg的公寓的话。

我们在那里待了大概两年,楼下就是巧克力工厂,味道一直很香。那时团队大概有10-20多人。

我们在那里度过了一段非常有趣的时光。老黄在GTC大会上提到的,他把第一台DGX超级计算机送到OpenAI的事,就发生在那里。

图片

Q:安德烈其实是不需要介绍的,不过我还是想提一下他的背景。他师从Geoffrey Hinton和李飞飞,最早因为在斯坦福大学开设的深度学习课程成名。

2015年他联合创办了OpenAI。2017年,他被马斯克挖走了。

大家可能不太记得当时的情况了:特斯拉经历了6任Autopilot负责人,每个人都只做了6个月。我记得安德烈接手这个职位时,我还祝他好运来着。

没过多久,他就回到了OpenAI。而现在他拥有完全的自由,可以想做什么就做什么。所以我们很期待听他今天分享的见解。

我最欣赏安德烈的地方在于,他是一位令人着迷的未来主义思想家,他是坚定的乐观主义者,同时他也是非常务实的建设者。今天他会和我们分享一些关于这些方面的见解。

首先,即便在7年前,AGI看起来也是一个在我们有生之年几乎不可能实现的目标。而现在它似乎已经在望了。你对未来10年有什么看法?

卡帕西:你说的没错。几年前,AGI的路径还很不明朗,还处于非常学术化的探讨阶段。但现在已经很清晰了,大家都在努力填补这片空白。

优化工作正在如火如荼地进行。大致来说,每个人都在努力构建“大模型操作系统(LLM OS)”。

我喜欢把它比作一个操作系统。你要准备好各种外围设备,然后把它们连接到一个新的CPU上。这些外围设备包括文本、图像、音频等各种模态。CPU就是语言模型本身。它还要与我们已经构建的所有Software 1.0基础设施相连。

我认为大家都在努力构建这样一个东西,然后把它定制成适用于各个经济领域的产品。

总的来说,发展方向就是我们可以调整这些相对独立的agent,给它们分配高层次的任务,让它们专门从事各种工作。这将非常有趣和令人兴奋。而且不止一个agent,会有很多agent。想象一下那会是什么样子?

图片

Q:如果未来真的如你所说,那我们现在应该如何调整自己的生活方式?

卡帕西:我不知道。我想我们必须努力去构建它,去影响它,确保它是正向的。总之就是尽量让结果变好。

Q:既然你现在是一个自由人,我想提一个显著的问题,那就是OpenAI正在主导整个生态。

今天在座的大多数人都是创业者,他们试图开辟一些小众市场,并祈祷OpenAI不会在一夜之间把他们打垮。

你认为其中还有机会吗?OpenAI会在哪些领域继续占据主导地位?

卡帕西:我的总体印象是,OpenAI正在努力构建LLM操作系统。正如我们今天早些时候听到的,OpenAI正试图开发一个平台。在此基础上,你可以在不同的垂直领域建立不同的公司。

操作系统的类比其实很有意思,因为像Windows这样的操作系统,也自带一些默认的应用程序,比如浏览器。

所以我认为,OpenAI或其他公司可能也会推出一些默认的应用,但这并不意味着你不能在其上面运行不同的浏览器,你可以在他们的基础之上运行不同的agent。

会有一些默认应用,但也可能会有一个充满活力的生态系统,有各种各样的应用,针对具体场景进行了微调。

我很喜欢用早期的iPhone应用来类比。这些应用一开始都有点像开玩笑,需要时间来发展。我想我们现在正在经历同样的事情。人们正在努力弄清楚这个东西擅长什么?不擅长什么?我如何使用它?如何编程?如何调试?如何让它执行实际任务?需要什么样的监督?因为它相当自主,但不完全自主的。所以监督应该是什么样的?评估应该是什么样的?有很多事情需要思考,需要理解。我认为需要一些时间来弄清楚如何与这种新的基础设施合作。所以我认为在未来几年我们会看到这一点。

图片

Q:现在大语言模型的竞赛正在如火如荼地进行,有OpenAI、Anthropic、Mistral、Llama、Gemini,还有整个开源模型生态系统,以及大量的小模型。你如何预见生态系统未来的发展?

卡帕西:是的,所以我再次强调,操作系统的类比很有意思。我们有Windows、macOS这样闭源的系统,也有开源的Linux。我认为大模型可能也会是这样的格局。

我们称呼这些模型的时候也要小心,你列举的很多模型,比如Llama、Mistral等,我不认为它们是真正的开源。这就像是把一个操作系统的二进制文件扔出来,你可以使用它,但不是完全有用。确实有一些我认为是完全开源的语言模型,它们完整地发布了编译“操作系统”所需的全部基础设施,从数据采集到模型训练。这比只拿到模型权重肯定要好得多,因为你可以微调模型。

但我认为有一个微妙的问题,就是你不能完全微调模型,因为你微调得越多,它在其他所有任务上的表现就会越差。

所以如果你想增加某种能力而不影响其他能力,实际上可能需要混合之前的数据集分布和新的数据集分布来进行训练。如果只给你模型权重,你其实做不到这一点。你需要训练循环,需要数据集等。所以你在使用这些模型时实际上是受限的。

它们肯定是有帮助的,但我们可能需要更好的术语对其进行描述。开放权重模型、开源模型,还有专有模型,生态系统可能会是这样的。而且很可能会与我们今天的生态系统非常相似。

图片

规模是最主要决定因素

Q:我想问的另一个问题,就是规模。简单来说,规模似乎是最重要的。数据规模、算力规模。因此,大型研究实验室、大型科技巨头今天拥有巨大的优势。你对此有何看法?规模就是一切吗?如果不是,还有什么重要的?

卡帕西:我认为规模绝对是第一位的。

其中有一些细节确实需要处理好。我认为数据集的准备工作也很重要,要让数据非常好、非常干净,这可以使计算效率提升。

但我认为规模将是主要的决定因素,是第一主成分,当然你还需要把其他很多事情做好。

如果没有规模,那你从根本上就无法训练这些大模型。如果你只做微调之类的工作,可能不需要那么大的规模,但我们还没有真正看到这一点完全实现。

Q:你能详细说说除了规模之外,你认为还有哪些重要因素吗,可能优先级低一些?

卡帕西:首先,你不能只训练这些模型。如果你只是提供资金和规模,实际上训练这些模型仍然非常困难。

部分原因是基础设施太新了,还在开发中,还不完善。但在这种规模上训练模型是极其困难的,是一个非常复杂的分布式优化问题。这方面的人才目前其实相当稀缺。这基本上是一个疯狂的事情,模型在成千上万个GPU上运行,在不同的时间点随机失败。监控这个过程,让它工作起来,实际上是极其困难的挑战。

直到最近,GPU才像预期的那样能处理1万个GPU的工作负载。所以我认为很多基础设施在这种压力下都在吱吱作响,我们需要解决这个问题。

现在,如果你只是给某人一大笔钱或大量的GPU,我不确定他们是否能直接生产出大模型,这就是为什么不仅仅是规模的问题。你实际上需要大量的专业知识,包括基础设施方面、算法方面,以及数据方面,要非常谨慎。

图片

Q:生态系统发展得如此之快,一年前我们认为存在的一些挑战,现在也越来越多地得到解决。幻觉、上下文窗口、多模态能力、推理速度越来越快、成本越来越低。现在还有哪些语言模型研究的挑战让你夜不能寐?你认为有哪些问题足够紧迫,但也是可以解决的?

卡帕西:我认为在算法方面,我想了很多的一个问题是扩散模型和自回归模型之间的明显区别。它们都是表示概率分布的方法。事实证明,不同的模态显然适合其中之一。我认为可能有一些空间来统一它们,或者以某种方式将它们联系起来。

我想指出的另一件事是,运行大模型的基础设施的内在效率。我的大脑功耗大概是20瓦。老黄在GTC上刚刚谈到了他们要建造的大型超级计算机,数字都是兆瓦级的。所以也许你不需要那么多能量来运行一个大脑。我不知道具体需要多少,但我认为可以肯定地说,在运行这些模型的效率方面,我们还可以1000倍到100万倍地提升。

我认为部分原因是当前的计算机根本不适合这个工作负载。英伟达的GPU朝着这个方向迈出了很好的一步,因为你需要极高的并行性。我们实际上并不关心以某种方式依赖数据的顺序计算。我们只是需要在许多不同的数组元素上执行相同的算法。所以我认为第一是调整计算机架构以适应新的数据工作流,第二是推动一些我们目前看到有改进的东西。

第一个可能是精度。我们看到精度从最初的64位双精度下降到现在的4、5、6位,甚至根据你阅读的论文不同,可能是1.5到8位。所以我认为精度是控制这个问题的一个很大的杠杆。

第二个当然是稀疏性。事实上,大模型中的很多参数都是零,或者接近零。所以如果你能以某种方式利用这一点,比如说让稀疏矩阵乘法变得更有效率,那就太好了。这方面有一些有前景的研究。

此外还有一些有趣的想法,比如奇异值分解(SVD),看看是否可以将其分解成更小的矩阵,然后重新组合。比如只计算前向传播,不做反向传播,训练一个较小的模型来预测较大模型的输出。

所以我认为,从根本上讲,要解决两个问题:

一个是构建更合适的硬件。另一个是找到更好的算法,在保持性能的同时提高效率。

我认为这两个方面都还有很大的探索空间。从能效的角度来看,如果我们能缩小与大脑的差距,那将是一个巨大的进步。这可能意味着我们每个人都可以负担得起一个模型,或在我们的设备上运行一个模型,而不需要连接到云端。

马斯克“在管理世界上最大的创业公司”

图片

Q:好的,我们换个话题。你曾与这个时代的许多伟人并肩工作过,OpenAI的Sam、Greg及其他团队成员,还有马斯克。

在座有多少人听过关于美国赛艇队和日本赛艇队的笑话?这是个有趣的故事。马斯克分享过这个笑话,我认为它反映了他在打造企业文化和团队方面的很多理念。故事中有两支队伍,日本队有4名划手和1名舵手,美国队有4名舵手和1名划手。有人猜得出当美国队输了后他们会怎么做吗?大声说出来。完全正确,他们会开除那个划手。

马斯克分享这个例子,我认为是在阐述他对于雇佣合适的人才、打造合适团队的看法。通过与这些不可思议的领导者的密切合作,你学到了什么?

卡帕西:我想说马斯克管理公司的方式非常独特。我觉得人们并没有真正意识到它有多特别。即便是听别人讲,你也很难完全理解。我觉得这很难用语言描述。我甚至都不知道从何说起。但这确实是一种非常独特、与众不同的方式。

用我的话说,他在管理全球最大的创业公司。我觉得我现在也很难描述清楚,这可能需要更长时间来思考和总结。

不过首先,他喜欢由实力强大且技术含量高的小团队来组成公司

在其他公司,发展的过程中团队规模往往会变大。而马斯克则总是反对团队过度扩张。为了招募员工,我不得不做很多努力。我必须恳求他允许我招人。

另外,大公司通常很难摆脱绩效不佳的员工。而马斯克则更愿意主动裁人。

事实上,为了留住一些员工,我不得不据理力争,因为他总是默认要裁掉他们。

所以第一点就是,保持一支实力强劲、技术过硬的小团队。绝对不要有那种非技术型的中层管理。这是最重要的一点。

第二点则是他如何营造工作氛围,以及当他走进办公室时给人的感觉。

他希望工作环境充满活力。人们四处走动,思考问题,专注于令人兴奋的事物。他们或是在白板上写写画画,或是在电脑前敲代码。他不喜欢一潭死水,不喜欢办公室里没有生机。

他也不喜欢冗长的会议,总是鼓励人们在会议毫无意义时果断离场。你真的能看到,如果你对会议毫无贡献也没有收获,那就可以直接走人,他非常支持这一点。我想这在其他公司是很难见到的。

所以我认为营造积极向上的工作氛围是他灌输的第二个重要理念。也许这其中还包括,当公司变大后,往往会过度呵护员工。而在他的公司不会如此。公司的文化就是你要拿出百分之百的专业能力,工作节奏和强度都很高。

我想最后一点或许是最独特、最有趣也最不寻常的,就是他与团队如此紧密地联系在一起

通常一个公司的CEO是一个遥不可及的人,管理着5层下属,只和副总裁沟通,副总裁再和他们的下属主管沟通,主管再和经理层沟通,你只能和直属上司对话。但马斯克经营公司的方式完全不同。他会亲自来到办公室,直接与工程师交谈。

我们开会时,会议室里经常是50个人和马斯克面对面,他直接跟工程师对话。他不想只是和副总裁、主管们说话。

通常一个CEO会把99%的时间花在和副总裁沟通上,而他可能有50%的时间在和工程师交流。所以如果团队规模小且高效,那么工程师和代码就是最可信的信息源。他们掌握第一手的真相。马斯克要直接和工程师交流,以了解实际情况,讨论如何改进。

所以我想说,他与团队联系紧密,而不是遥不可及,这一点非常独特。

此外,他在公司内部行使权力的方式也不同寻常。比如如果他与工程师交谈,了解到一些阻碍项目进展的问题。比如工程师说,“我没有足够的GPU来运行程序”,他会记在心里。如果他两次听到类似的抱怨,他就会说:“好,这是个问题。那现在的时间表是什么?什么时候能解决?”

如果得不到满意的答复,他会说,“我要和GPU集群的负责人谈谈”,然后有人就会打电话给那个负责人,他会直截了当地说:“现在就把集群容量翻一倍。从明天开始每天向我汇报进展,直到集群规模扩大一倍。”

对方可能会推脱说还要经过采购流程,需要6个月时间之类的。这时马斯克就会皱起眉头,说:“好,我要和黄仁勋谈谈。”然后他就会直接铲除项目障碍。

所以我认为大家并没有真正意识到他是如何深度参与各项工作,扫清障碍,施加影响力的。

老实说,离开这样的环境去一家普通公司,你真的会想念这些独特的地方。

  

  ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/516087.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【面试八股总结】进程(一)

参考资料 :小林Coding、阿秀、代码随想录 一、什么是进程? 1. 基本概念 进程是具有独立功能的程序在一个数据集合上运行的过程,是系统进行资源分配和调度的一个独立单位。 2. 进程控制块 系统通过进程控制块PCB描述进程的进本情况…

leetcode代码记录(打家劫舍 II

目录 1. 题目:2. 我的代码:小结: 1. 题目: 一个专业的小偷,计划偷窃一个环形街道上沿街的房屋,每间房内都藏有一定的现金。这个地方所有的房屋都 围成一圈 ,这意味着第一个房屋和最后一个房屋是…

基于小程序实现的校园二手物品交易系统

作者主页:Java码库 主营内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 技术选型 【后端】:Java 【框架】:spring…

openlayers 入门教程(九):overlay 篇

还是大剑师兰特:曾是美国某知名大学计算机专业研究生,现为航空航海领域高级前端工程师;CSDN知名博主,GIS领域优质创作者,深耕openlayers、leaflet、mapbox、cesium,canvas,webgl,ech…

vulhub中Apache Solr RemoteStreaming 文件读取与SSRF漏洞复现

Apache Solr 是一个开源的搜索服务器。在Apache Solr未开启认证的情况下,攻击者可直接构造特定请求开启特定配置,并最终造成SSRF或任意文件读取。 访问http://your-ip:8983即可查看Apache Solr后台 1.访问http://your-ip:8983/solr/admin/cores?indexI…

Windows10安装CloudCompare(图文安装)

CloudCompare是一个3D点云(和三角网格)处理软件。它最初被设计用于在两个密集的3D点云(例如用激光扫描仪获取的点云)之间或点云和三角形网格之间进行比较。它依赖于专用于此任务的特定八叉树结构。 之后,它已经扩展到一…

使用 CloudDM 操作 PostgrgSQL 数据库

CloudDM 简介 CloudDM 是 ClouGence 公司推出的一款一站式数据库管理工具,使用它可以方便地访问和管理 MySQL、Oracle、PostgreSQL、阿里云 RDS、Greenplum、TiDB、Redis、StarRocks、Doris、SelectDB、SQL SERVER、ClickHouse、OceanBase 、PolarDB-X 、IBM Db2 等…

LearnOpenGL_part1

创建窗口 - LearnOpenGL CN (learnopengl-cn.github.io) 最原始的黑框框&#xff1a; #include <glad/glad.h> #include <GLFW/glfw3.h> #include <iostream> int main() {glfwInit();//初始化GLFWglfwWindowHint(GLFW_CONTEXT_VERSION_MAJOR, 3);//配置G…

【JavaScript 漫游】【052】Proxy

文章简介 本篇文章为【JavaScript 漫游】专栏的第 052 篇文章&#xff0c;记录了 ES6 规范中 Proxy 的知识点。 概述 Proxy 用于修改某些操作的默认行为&#xff0c;等同于在语言层面做出修改&#xff0c;所以属于一种“元编程”&#xff08;meta programming&#xff09;&a…

C/C++程序的(编译,链接)翻译与运行

目录 前言&#xff1a; 1.程序环境 2.翻译环境 3.预处理&#xff08;预编译&#xff09; 4.编译 5.汇编 6.链接 7.运行环境 总结&#xff1a; 前言&#xff1a; 本篇来解释c/c程序的翻译环境与运行环境中的过程&#xff0c;不同的编程语言的翻译环境类似&#xff0c;…

LeetCode-114. 二叉树展开为链表【栈 树 深度优先搜索 链表 二叉树】

LeetCode-114. 二叉树展开为链表【栈 树 深度优先搜索 链表 二叉树】 题目描述&#xff1a;解题思路一&#xff1a;前序遍历&#xff0c;迭代&#xff0c;递归解题思路二&#xff1a;寻找前驱节点解题思路三&#xff1a;0 题目描述&#xff1a; 给你二叉树的根结点 root &…

scoped原理及使用

一、什么是scoped&#xff0c;为什么要用 在vue文件中的style标签上&#xff0c;有一个特殊的属性&#xff1a;scoped。 当一个style标签拥有scoped属性时&#xff0c;它的CSS样式就只能作用于当前的组件&#xff0c;通过该属性&#xff0c;可以使得组件之间的样式不互相污染。…

synchronized到底锁住的是谁?

我们使用synchronized关键字是用来实现线程同步的&#xff0c;当多个线程同时去争抢同一个资源的时候在资源上边加一个synchronized关键字&#xff0c;能够使得线程排队去完成操作。 synchronized到底锁定的是什么资源&#xff1f; 修饰方法非静态方法 &#xff0c;锁定的是方…

LeetCode 1379.找出克隆二叉树中的相同节点:二叉树遍历

【LetMeFly】1379.找出克隆二叉树中的相同节点&#xff1a;二叉树遍历 力扣题目链接&#xff1a;https://leetcode.cn/problems/find-a-corresponding-node-of-a-binary-tree-in-a-clone-of-that-tree/ 给你两棵二叉树&#xff0c;原始树 original 和克隆树 cloned&#xff0…

SpringMvc工作流程

用户通过浏览器发送请求到前端控制器DispatcherServlet。前端控制器直接将请求转给处理器映射器HandlerMapping。处理器映射器HandlerMapping会根据请求&#xff0c;找到负责处理该请求的处理器&#xff0c;并将其封装为处理器执行链HandlerExecutionChina后返回给前端控制器Di…

Linux初学(十四)LampLnmp

一、简介 LAMP和LNMP是两种常见的web服务器组合。具体如下&#xff1a; LAMP&#xff1a;LAMP代表的是Linux&#xff08;操作系统&#xff09; Apache&#xff08;HTTP服务器&#xff09; MySQL&#xff08;数据库&#xff09; PHP&#xff08;编程语言&#xff09;。这个组合被…

好用的Android Studio插件管理器

1.使用阿里云的通义灵码方便快速开发 1.1下载插件File->plugin->marketplace 搜索 Tongyilingma然后安装重启登录阿里云&#xff0c;确认 1.2 使用方法 输入信息描述 比如 //写一段冒泡排序然后换行&#xff0c;输入public/private/protected方法会自动生成联想代码…

Ubuntu18.04+2070s+TF2.x环境,单卡训练PointNet++实战

Ubuntu18.042070sTF2.x环境&#xff0c;单卡训练PointNet实战 1. 编译tf_ops文件夹下的三个动态库2. 修改Python版本、TF版本不一致带来的差异3. 下载训练数据4. 模型训练 1. 编译tf_ops文件夹下的三个动态库 该文件夹下定义了一些pointnet模型中需要使用的cuda核函数&#xf…

elsint报错Delete `␍`eslintprettier/prettier

一&#xff0c;原因 这篇博客写得很清楚&#xff1a;解决VSCode Delete ␍eslint(prettier/prettier)错误_vscode 删除cr-CSDN博客 还有这篇文章&#xff0c;解决办法很详细&#xff1a;滑动验证页面 二&#xff0c;解决办法 根目录下新建.prettierrc.js文件 module.exports…

Linux-程序地址空间

目录 1. 程序地址空间分布 2. 两个问题 3. 虚拟地址和物理地址 4. 页表 5. 解决问题 6. 为什么要有地址空间 1. 程序地址空间分布 测试一下&#xff1a; #include<stdio.h> #include<stdlib.h> #include<unistd.h> #include<sys/types.h>int ga…