👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!
1. MiniMax 创始人闫俊杰:我选的技术路线是上限最高的,几乎没有退路,选的算力方式也激进
MiniMax 官网 → https://www.minimaxi.com
频道:晚点LatePost | ⋙ 阅读原文
推荐指数 ⭐⭐⭐⭐⭐
🔔 话题关键词
-
AGI:① 如何判断是否真正信仰 AGI;② 如何判断 AGI 真的到来了;③ MiniMax 核心信仰;④ 组织创新;⑤ 公司文化。
-
技术:① MoE 是一场技术豪赌;② Scaling Law 与中国大模型破局;③ 长文本能力 VS 多模态能力;④ GPU 不买只租;⑤ 技术团队的管理心得。
-
产品:① MiniMax 是国内第一家AI 2C公司;② 大模型创业公司必须技术和产品同时做;③ ChatGPT、Sora与AI原生应用特质。
🔔 补充一些前置信息
-
MiniMax 成立于 2021 年 12 月,是中国大模型创业公司中做产品最早、最多,投入也最大的一家,我们所熟知的 Glow、星野、海螺 AI 都来自这家公司。
-
MiniMax 近期刚完成 B 轮融资,成为了中国估值最高的大模型公司之一。
-
创始人 闫俊杰 今年35岁,担任过商汤副总裁、研究院副院长和智慧城市事业群 CTO。更早前,他在中科院和清华大学研究计算机视觉。
-
闫俊杰太低调了,从未公开露面,没有接受过任何采访。低调的 MiniMax 和沉默的闫俊杰在这篇访谈里锋芒毕露。或许,有些赞誉和目光,其实本该属于 MiniMax 👑
🔔 AGI 信仰
-
判断一位人工智能创业者是否真正的 AGI 信仰,就看这个人创业是在 ChatGPT 发布 (2022年11月30日) 之前还是之后。MiniMax 创立于 2021 底,那时 AGI 在中国还是一个巨大的非共识。
-
当大家认为 AI 不是 AI的时候,AGI大概就到来了。就像我们今天觉得「抖音就是抖音」,不会觉得它是一个基于推荐系统的内容分发软件。
-
大成的公司都做了组织创新,让它们能持续做出越来越强的东西。MiniMax 要做一个成长型组织,聚拢基本素质足够优秀的人一起突破,弥补缺乏顶级 LLM 天才的短板。(大模型领域贡献前20,甚至前 50 的人,没有一个人在中国公司工作)
-
自己疯狂的融钱让别人都会融不到钱,这是不对的。靠融资是打不死其他人的。拐点只可能来自于技术、产品或者是商业化效率的领先。
-
公司文化:第一是不走捷径;第二个是 User-in-the-Loop;第三是技术驱动。
-
MiniMax 核心信仰:Intelligence with everyone。用最好的技术服务每一个人,与用户一起迭代成长,以及看到比想象得更快的技术进步速度。
🔔 技术路径
-
MoE 是一场技术豪赌。2023年夏天开始研发,2024年1月正式推出国内第一个 MoE 大模型。期间经历了两次失败。
-
当时放了 80 % 以上的算力和研发资源做 MoE,而且没有 Plan B。一是因为在计算资源有限的情况下,只有 MoE 能训练完当时的数据;二是因为传统 dense 模型生成 token 的成本太高,延时太严重。
-
大模型还没热起来时,MiniMax 曾以相对便宜的价格找字节火山引擎租了大量 GPU 算力,获取了弹药;但 MiniMax 又不购买任何 GPU,闫俊杰认为持有资产只会使动作变形。
-
现在有三个共识:Scaling Laws,同样精度的模型成本随着时间大幅下降,数据质量提升的重要性。并由此可以推出来大模型创业公司的决策方向。
-
Scaling Laws 第一是提供了一个方法论:即可以通过更小规模的实验来预测更大实验的结果。第二是它能让数据、算力、芯片、算法、产品等多个环节有相对一致的预期。
-
为什么在中国一定要做几倍的 Scaling Laws?因为算力不充足时,必须优化一个几倍的 Scaling Laws 去达到相似效果。Anthropic 用更短时间做出了类似 GPT-4 的 Claude-3,证明这个方法是可行的。
-
好的大模型应该默认支持长文本。长文本依赖线性attention技术,其计算复杂度优势在80~100万 token 时才特别明显。所以,长文本解决的是 100 万以上的量级。
-
MiniMax 在产品中更强调多模态能力,是因为多模态可以显著吸引到更多用户。在产品里加上图片和语音,就可以明显看到渗透率的变化。
-
2024 年,中国公司会做出类似 GPT-4 的东西,并且不止一家。但更应该思考的是再往后该怎么办。
🔔 产品洞察
- MiniMax 是国内第一家提出AI 2C公司。这背后的思考是,只有做出足够产品化、能服务大众的AI技术和产品,才可以给社会带来足够高的反馈。而且 AGI 要靠公司和用户一起做出来。
- 中国的大模型创业公司,必须同时思考技术和产品。只有具备足够好的产品能力,才能承接和转化取得的技术进展,否则会落得一场空。只有具备对模型足够强的掌控力,才能够解决深层次的问题并控制产品成本。
-
技术和产品的发展都是渐进式的。中国很多公司成功的产品是第二个或更后面,比如米哈游、美团、字节、理想。
-
现阶段产品价值的核心,还是模型性能和算法能力。几乎所有大的产品能力提升,都来自模型本身的进步。
-
ChatGPT DAU 大约 3000 万且很难再增加。因此可以得出,在目前的技术阶段,一个偏简单 AGI 产品的上限基本如此。
-
移动互联网时代的超级产品,是挖到一个用户痛点。而当前AI 原生的超级产品,是释放突破性的技术进步。未来用户量最大的 AI 产品,可能会是信息的交换和处理类型的。
2. Meta 创始人 Mark Zuckerberg:Meta 如何逐步转向AGI,做开源真的压力山大,未来的技术发展重点
LlaMa 3 官网 → https://llama.meta.com/llama3
英文视频 → https://www.youtube.com/watch?v=bc6uFV9CJGg
英文播客 → https://www.dwarkeshpatel.com/p/mark-zuckerberg
B站双语字幕:https://www.bilibili.com/video/BV1Fm41127dy
点击阅读 ⋙ 中文翻译文字版
🔔 话题关键词
-
LlaMa 3 更多信息:① 8B表现与 LlaMa 2持平;② 405B 测试成绩很好;③ 发布规划 (多模态,语言,长上下文);④ Meta AI发展规划;⑥ 已有创作者生态与 Agent 结合。
-
LlaMa 4 及之后的系列:① 优化架构,提升性能,但很难具体预测;② 开源策略调整;③ 可能的发展瓶颈。
-
未来的技术方向:多模态、3D (元宇宙)、情感理解、智能推理、合成数据、分布式训练。
-
GPU:① 2020年大量买入 H100 芯片的原因;② 目前的数据中心规模;③ 未来会用自家芯片进行训练。
-
编程:① 能显著提升大模型推理能力;② 可能是未来发展方向;③ 是为了提升人类整体效率而非取代程序员。
-
Scaling Law:① 是真好用;② 未来可能会面临“训练投入-性能提升”性价比的选择。
-
Meta 是否信仰AGI:① 十年前设立 FAIR 是为了用AI驱动业务进步;② ChatGPT 和 Diffusion 模型带来了巨大的震撼并开始转型;③ 坚信AI只是未来一项基础设置。
-
其他:锐评 Google 不够专注 (keep the main thing the main thing)。
🔔 补充一些前置信息
-
我们所熟知的 Facebook、Instagram、WhatsApp、Reels 等产品,都是 Meta 旗下的。
-
Meta 近期最重要的新闻,就是发布了 LlaMa 3 系列开源模型,目前已经开放 8B 和 70B 两个版本。小扎接受访谈也是在站台造势。
-
这期访谈里,Mark Zuckerberg (扎克 · 伯格) 很少见的地公开谈论了 AI 诸多热门议题,以及 Meta 接下来的 AI 发展战略和关键技术方向。难得的是,说得还挺清楚。
-
小扎这长篇幅、大段落的表达,真的是绝了。
🔔 LlaMa 3 更多信息
-
LlaMa 3 - 8B (80亿参数) 版本,在功能上与 LlaMa 2 (70B,700亿参数) 相媲美。LlaMa 3 版本的确实现了巨大的性能提升。
-
今年晚些时候推出 405B (4050亿参数) 版本,预计 MMLU 得分能到85。
-
Meta AI整合了谷歌和必应的实时知识,并增加了全新的创作功能,后续将集成到 Facebook、Messenger 等应用中。
-
Meta 有着庞大的社交网络,创作者数量高达2亿,后续会尝试通过AI技术增强他们与社区的互动效率。
🔔 LlaMa 4 及之后
-
尽管LlaMa 3已经取得了进步,但模型架构仍有优化的空间。
-
Meta将根据模型能力的变化和潜在风险,权衡是否继续开源未来的 LlaMa 模型。 (有不开源的可能
🔔 技术方向
-
多模态:融合文本、图像、视频等提升交互体验,此外对元宇宙中的 3D 技术特别关注。
-
情感理解:特别关注AI在情感理解方面的发展,认为这是实现自然人机交互的关键。
-
智能推理:推理能力将提升其执行复杂任务的能力,预计智能推理将深刻改变几乎所有产品形态。
-
合成数据:即使在训练后期,模型仍展现出了强大的学习能力,合成数据的生成可能成为提升模型性能的关键。
-
分布式训练:有助于解决未来大型模型训练的挑战。
🔔 发展瓶颈
16.当前各家公司 GPU 紧缺的现状,正在得到改善。
-
当前许多数据中心的规模在50兆瓦到100兆瓦之间,大型的可能会达到150兆瓦。 但是建设更大规模的数据中心,能源成为了主要限制因素,目前还没有人能够建造出千兆瓦特规模的单一训练集群。
-
建立大型新发电厂或数据中心,需要提前数年规划并应对复杂的审批流程。因此,分布式训练可能是未来大模型的训练方式,一位内可以减轻对单一地点大量GPU的需求。
🔔 GPU
-
2020年为了应对 (模仿) TikTok,实现推荐算法,购入了大量 H100 芯片,没想到误打误撞成为了大模型能迅速赶超的基础。
-
2024年底 Meta计划拥有 35 万个GPU,分为两个集群,主要用于训练大型模型。也正在推动使用自家定制芯片进行模型训练,预计会先从推理任务开始,逐步过渡到更复杂的模型训练。
🔔 编程能力
- Meta通过编程训练显著提升了大模型的推理能力。所以,虽然目前 WhatsApp、Facebook 或 Instagram 上用户不太关注编程问题,但未来 App 增加了编程相关页面或功能,也不必感到惊讶。
🔔 Scaling Law
-
Scaling Law (规模法则) 在当前阶段非常有效,并且预计在未来一段时间内将持续有效。LlaMa 4将继续利用Scaling Law,通过增加模型大小来提升性能。
-
随着模型规模的增加,未来可能会面临“训练投入-性能提升”性价比的权衡,这也将影响未来的训练和开发策略。
🔔 AGI 信仰
-
ChatGPT 和 Diffusion 模型的问世给 Meta带来极大的震撼,并将 AI 从业务辅助部门提升为公司核心战略。
-
从更长的时间维度来看,人工智能只是一项非常基础性的技术,类似于计算机的出现。它更大的价值是催生一系列全新的应用,并深刻改变人们的工作方式。但是没有人能准确预测这个未来。
3. Notion 创始人 Ivan Zhao:在LLM来临时快速转身奔跑,畅想AI时代的知识管理的新可能
Notion AI 官网 → https://www.notion.so/product/ai
英文视频 → https://www.youtube.com/watch?v=HW5Yeqn9eV4
B站双语字幕视频:https://www.bilibili.com/video/BV13w4m1f7R5/
频道:No Priors | ⋙ 点击阅读中文翻译文字版
🔔 话题关键词
-
Notion AI 发展愿景:① 让用户像搭乐高一样,在平台上用模块来搭建个性化的应用;② 大模型提供了新方式来组合&驱动平台上已有的各种模块。
-
知识管理与RAG:① RAG会彻底改变知识管理的方式;② 未来知识管理的场景畅想;③ Work Agent 与 Norion AI 的结合场景。
-
技术发展的本质 Trade Off。
-
AI 让 SaaS 进入新一轮 Bundling:① 天下分久必合;② 聚焦自己的优势领域,比如软件界面,UI、UX等。
-
Notion 独特的公司和组织文化。
🔔 补充一些前置信息
-
Notion 是生产力工具领域 AI 策略最为激进的一家公司。在 ChatGPT 推出 2 个月后,Notion 就宣布推出Notion AI,将 GenAI 的体验直接融入到产品,成为这一领域绝对的先行者。
-
Notion AI 上线 1 个月后,据称带来了 1000 万美元的 ARR,上线 2 个月后用户突破 400 万。成绩非常亮眼。
-
似乎并不常见到 Ivan 接受采访。没想到这么年轻,这么坚定,这么真诚。
🔔 内容要点
-
Notion 不仅是一个生产力工具,更是一个应用构建平台。Notion 的愿景是构建出各种各样的底层 blocks (文本编辑器、关系型数据库、表格、评论等),让用户在平台上搭建出更具个性化、符合实际需求的定制化应用。就像使用积木灵活搭建乐高一样。
-
AI 对于 Notion 是一个特别好的机会。得益于团队在过去5年的努力,Notion 一直构建和完善这些「积木块」,而AI大模型作为新引擎,提供了全新的组合和驱动能力,改变人类与计算机的交互模式。
-
RAG (Retrieval-Augmented Generation) 将彻底改变知识管理的方式,减少信息组织工作的繁琐性。
-
Ivan 对知识管理的未来畅想:① 用户只要简单地将信息丢到 Notion 中,就可以通过各种方式进行检索并很快得到答案 —— 这就是 Notion Q&A 要做的事情;② 有新 idea 时,只需要拍照或简单文字并扔进 Notion,它既可以帮助组织/管理这些信息,并在未来需要时调取它们。
-
Work Agent 也是需要重视的发展方向。新产品 Notion Calendar 就是这个方向的研所,借助AI管理会议和日程,通过语言模型来优化时间安排和信息检索。
-
应用场景描述:敲定会议时,Notion Calendar自动帮助调整日程时间安排。
-
技术的本质在于做出权衡 (trade off),即在不同的需求和限制之间寻找平衡点。3% 理念 (3 Percent Approach) 的核心思想是,在现有设计的基础上只做出不超过 3% 的改变,就可以使产品看起来既熟悉又新颖。
-
随着语言模型的出现,SaaS 行业正在进入一个信息和功能整合的新时代,类似于历史上「久分必合」的发展规律。
-
Notion只专注在自己的优势领域,即软件界面、用户体验 (UI/UX),不会涉足“back office”业务,如数据存储和垂直场景整合。
- Notion 的设计决策相对集中,注重产品的整体性和一致性,类似于苹果公司,因此设计风格一直被外界称赞。团队内设计师 80% 具备编程能力,因此能够在设计和工程之间做出良好的平衡。
4. Mistral AI 创始人 Arthur Mensch:身在欧洲放眼全球,顶级天才的入场姿势和技术预判
Mistral 官网 → https://mistral.ai
点击阅读 ⋙ 中文翻译文字版
英文视频 → https://www.youtube.com/watch?v=sQpeIuymJZ8
英文播客 → https://blog.eladgil.com/p/discussion-w-arthur-mensch-ceo-of
B站双语字幕视频:https://www.bilibili.com/video/BV1VH4y1W7F5
🔔 话题关键词
-
创业与组织:① 创业契机与切入点选择;② 4-5人团队规模的组织方式;③ 欧洲的巴黎-伦敦AI走廊;④ 未来全球大模型的区域化生态。
-
开源与闭源:① 为什么选择开源;② 未来一段时间的发布计划。
-
关键技术判断:① 提升模型规模;② 提高推理能力;③ Agent (代理) 能力;④ 上下文窗口。
-
商业化发展:① 目标用户选择;② 与微软 Azure 的合作;③ 企业三种常见的使用案例;④ 企业常见的顾虑。
🔔 补充一些前置信息
-
Mistral AI是一家专注于构建基础模型的公司,也是开源模型领域的领导者。Mistral在成立之初仅有6人,在尚未有产品推出时就凭7页PPT拿下8亿人民币种子轮融资,被法国媒体誉为“欧洲版OpenAI”。
-
3月21日,在 Figma 的组织之下,硅谷投资人 Elad Gil 与法国AI创业公司 Mistral CEO Arthur Mensch 进行了一场炉边谈话。
-
Arthur Mensch 是非常典型的聪明人,入场时机、业务判断、技术选型、甚至营销方式,都非常地准确和有效。而且,他每次采访的内容输出都挺亮眼。
🔔 创业与组织
-
基于在 DeepMind 和 Meta 的经验,Arthur Mensch 和 Timothée 抓住了 ChatGPT 带来的机遇,创立了 Mistral。他们专注于文本到文本的生成模型,这一技术是构建通用虚拟助理的关键
-
Mistral 组建了由 4-5 人组成的小团队,专注于核心任务,如数据和预训练。这种组织模式和团队的勤奋工作使得公司能在四个月内,从零开始,利用 500 个 GPU 成功训练出 7B 模型。
-
伦敦的 DeepMind 等公司吸引了全球人才,而 DeepMind 和 Google 在巴黎的办公室,加上法国及其他欧盟国家的教育体系,为欧洲 AI 公司的发展提供了人才和科研基础。
🔔 开源与闭源
-
Mistral 采用开源策略,发布了 7B 参数模型,确立了其在 AI 领域的领先地位,并为构建广泛的应用平台打下了基础。
-
公司计划推出新的开源模型,包括通用型和垂直领域型,同时引入创新的微调功能,以提升模型性能和满足多样化的应用需求。
🔔 关键技术判断
-
Mistral 计划在未来一年左右推出规模更大、更先进的模型,以充分利用新增的计算资源。
-
为了提升推理能力,Mistral 专注于在更大的数据集上训练更大型的模型,并尝试通过外部循环等方式减少对人工注释的依赖。
-
公司正在开发通过函数调用来增强的代理模型,以优化状态存储和管理,特别是在对话记忆等任务中。
-
Mistral 认识到扩大上下文窗口对于提升模型性能的重要性,并正在寻找技术解决方案以持续优化这一特性,尽管这带来了处理大尺寸数据的挑战。
🔔 商业化发展
-
Mistral 首先聚焦于金融服务行业,随后扩展到更广泛的企业客户群体,包括数字化转型中的公司和独立开发者。
-
与微软和 Azure 的合作使 Mistral 迅速获得了 1000 多家企业客户,展示了企业对云服务的依赖和云平台合作在加速 AI 技术市场渗透中的作用。
-
企业在采用 AI 技术时,主要关注提升开发者生产力、改进知识管理工具和通过自动化提升客户服务质量。
-
企业在将 AI 模型投入生产前持谨慎态度,面临的挑战包括评估模型效能、可靠性,以及缺乏持续集成和自动化验证的工具。
5. Perplexity 创始人 Aravind Srinivas:懵懵懂懂闯进决赛圈,初生牛犊硬刚 Google 不带怕的(心虚
Perplexity 官网 → https://www.perplexity.ai
英文视频 → https://www.youtube.com/watch?v=e5utruJd6Gk
B站双语字幕视频:https://www.bilibili.com/video/BV1fD421K7hu/
中文翻译文字版 → https://baoyu.io/translations/transcript/meet-aravind-from-india-who-quit-openai-to-disrupt-google-conversation-with-marina-mogilko
🔔 话题关键词
- 拉投资:cold mail
- 找联创:正好他们在看机会
- 现状:团队规模、公司文化、用户数据、关键指标
- 后续:新产品&新功能
- Google,Google,Google
- 成为一家可靠的初创公司的五个要点
🔔 补充一些前置信息
-
Perplexity 是一家AI搜索公司,也是全世界第一家做 AI+搜索 应用的公司,发布后取得了迅猛的增长。
-
又融到钱了,B1轮融资 6270 万美金,估值达到10.4亿美元,由 Daniel Gross 领投。除此以外,NVIDIA、Jeff Bezos、Andrej Karpathy、Dylan Field、Elad Gil、Nat Friedman、IVP、NEA等跟投。
-
不过这场访谈有点 emmm 搞笑,Aravind Srinivas 似乎是一不小心就成功了,而他们好像还没做好准备 🤣
🔔 对谈内容要点
-
目前团队30 人左右;远程协作;周一三五上班 (周二和周四通常也会到公司);上午9点上班,下午6点左右离开。
-
每天有超过 300 万次的查询,有将近 1000 万的月活用户,有几万付费用户,现在还没盈利 (因为要支付 GPT-3.5 和 GPT-4 的高额账单)。
-
最关注的3个KPI:每天的查询次数,用户留存,用户增长。
-
Perplexity 支持多种语言,最高频使用的是英语,其次是德语、法语等。Perplexity 的优势之一,是可以把搜索的相关信息,以用户查询使用的语言进行回复。
-
拉投资是通过 cold email (冷邮件),然后收到邮件的投资人表示,嗯!愿意投资!(Steve Jobs 说的对啊,大部分的阻力在于你以为别人不会回应 😂
-
找到 Dennis 和 Johnny 两位联创,是 Johnny 正好在看创业公司的机会,而 Dennis 和 Johnny 曾经是 Quora 时期的同事。我问他们愿不愿意来,他们说愿意。
-
公司的激励政策其实一般,是员工们相信未来愿景,也愿意接受较低的工资。
-
我们这群人关心搜索也热爱搜索,我们正在重走 Google 当时成功过的那条路,然后在半路上干掉 Google。
-
如果 Google 明天推出同样的搜索会怎样?不会的,搜索业务是 Google 现金流,变更不会轻易发生。
-
成为一家可靠的初创公司的五个要点:准确性,可靠性,速度,愉悦的用户体验和用户界面,产品个性化。
◉ 点击 👀日报&周刊合集 ,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!
◉ > 前往 🎡ShowMeAI ,获取结构化成长路径和全套资料库,用知识加速每一次技术进步!