原本平静的5月,从14日凌晨OpenAI发布GPT-4o开始热闹起来。
一天之后,谷歌在一年一度的开发者大会上发布智能助理项目Astra和轻量化多模态模型Gemini 1.5 Flash。
同一天,字节升级了AI助手“豆包”和应用开发平台“扣子”,并发布豆包大模型家族,将API费用降价99%掀起国内大模型价格战。
在接下来的一周,5月17日,腾讯公开了其智能助手App“元宝”和智能体创作平台“元器”;5月22日,百川智能发布了新一代大模型Baichuan 4,同时推出了首款AI助手“百小应”;5月22日,微软在Build大会上发布了使用GPT-4o的桌面智能助理Copilot PC和对应的开发平台Copilot Studio,同时推出了Phi-3系列的多个多模态小模型(SLM),标志着其在PC时代的Windows和互联网时代的Azure云的成功后,向人工智能转型的决心。
这不禁让人想起去年3月14日GPT-4发布后,一个月内各种大模型扎堆发布,从而揭开了“百模大战”的序幕。
相比2023年,进入2024年后,各家企业虽然仍然在大模型上持续投入,但逐渐将重心从模型转向了应用。
从OpenAI最近一年的公开行为可以看出这一趋势。
2023年3月OpenAI将GPT-3.5升级到了GPT-4,这之后在谷歌、Claude和国内一众企业追赶GPT-4的过程中,无论是不是遇到了技术瓶颈,OpenAI似乎放缓了GPT-5的发布节奏,而是相继推出了GPT-4V和GPT-4o两个版本。
通过加入视觉和语音模态,在模型现有基础能力的条件下为应用提供支持。GPT-4o模型展现出的多模态实时交互能力,确实让我们对智能助理应用有了更多想象。
近期发布的大模型应用大致可分为两类。
一类是智能体,如豆包和元宝。基本沿用了ChatGPT的形式,但在对话界面的基础上增加了搜索等工具调用和角色设定等功能。虽然暂未支持任务规划等复杂功能,因为具备了工具调用来自动执行任务的能力,我们仍然可以将这些应用归为智能体的雏形。
另一类是智能体平台,如扣子和元器。主要沿用了GPT Builder的形式,可以通过更灵活的知识库、插件API等设置无代码/低代码开发定制化的智能体,同时增加了可视化工作流界面和将智能体发布到飞书/微信等功能。
智能体已成为业界所共识的现阶段大模型应用的主要载体。
在整个行业开始商业化应用探索的背景下,我们看到了从“百模”到“千体”的变化。这里的“千体”除了豆包、元宝这种标准化智能体,还包括基于扣子、元器这些智能体平台上构建的成千上万的定制化智能体。
百度将于5月30日举办移动生态大会,大会主题就是“让智能体人人可用”, 据说也会聚焦智能体和相关生态。即便目前智能体能实际落地的场景有限,但不得不让人感慨这种从模型到应用的速度。
就好像去年才开始大规模建设发电厂(大模型)和电网(云、API),今年就能体验到一些具有多种功能的电器(智能体)了。而且,如果这些标准化的电器不能满足需求,你还可以自己动手设计,迅速打造一款专属的定制化电器。
1
竞争格局:新入口之争
本文只讨论虚拟空间的智能体。
智能体AI原生的特点使其有机会在中短期内成为现有软件层之前新的入口,在长期甚至有可能替代现有的软件层。
从C端看,智能体在大模型基本的对话能力基础上增加了插件工具调用等功能。这让它可以胜任自然语言界面下的个人助理,统一处理用户需求,然后调用其他应用层软件和服务,即成为离用户更近的统一入口。
从B端看,现有大模型的服务主要是通过云计算和API提供通用智力。智能体通过在这之上叠加业务工作流和领域知识,可以将通用智力转化为企业可以使用的生产力,即成为离业务更近的入口。
以下从C端和B端分类总结了部分目前与智能体相关的模型和应用。
C端智能体的定位是个人助理,自然交互是基本要求,个性化是提升体验的关键。B端智能体的定位是数字员工,自动化是基本要求,专业化是提高效率的关键。
不过很多智能体平台目前没有明确区分C端和B端,例如扣子、智谱AI开放平台和Dify,它们一方面配合C端智能助理的开发,同时也适用于一些B端应用场景。表中B端列出的仅是明确表示面向B端市场的智能体平台。
与C端相比,B端智能体平台需要提供更丰富的插件选项和更灵活的工作流设计功能。此外,B端智能体平台通常还需要集成数据标注、模型微调等功能,以更好地满足企业对模型垂直能力的需求。
智能体应用作为互联网应用的延伸,其带来的新入口往往建立在互联网现有入口的基础上。
结合大模型应用生态,C端入口主要包括硬件(如iPhone)/ OS(如Windows)、平台级应用(如微信)、杀手级应用(如抖音)/垂直场景(如情感陪伴),B端入口主要包括云服务平台(如阿里云)、软件框架(如飞桨)、企业平台软件(如飞书)/垂直场景(如销售)。
根据掌握的入口资源和大模型技术,我们对比了四类公司。
(1)互联网大厂:如BAT、字节、华为。其在互联网时代已经积累了丰富的入口资源,并具备充足资本和人才优势,能够迅速跟进大模型技术。
(2)大模型创业公司:如智谱、月之暗面、MiniMax。这类企业拥有大模型技术先发优势,是近两年资本的宠儿,能够提供模型能力输出服务,但一般缺少应用场景和入口资源。
(3)有技术基因的行业领先企业:如小米、出门问问、云知声。这些公司已有较为成熟的产品或依托某优势领域作为入口,没有all in大模型研发,虽然有些也自研大模型但主要支持自家产品。
(4)智能体平台公司:如Dify.ai、澜码科技。这类公司聚焦大模型应用层,致力于提供低代码开发平台,帮助用户定制专属智能体。它们轻量级运营、不自研大模型,最近也吸引了资本市场的关注。
1.大模型技术 vs. 现有入口
各家公司在智能体方面的动作跟现有入口的情况密切相关。
在互联网大厂中,阿里前期以阿里云为基础,已经构建了相对完善的大模型开发生态。现阶段,阿里利用钉钉等企业服务平台,重点发展B端的智能体应用。
百度作为国内最早发布大模型的巨头,很早就在大模型、智能体和智能体平台方面布局。凭借其在C端和B端都有的入口,百度似乎不急于决定将重点放在哪一边,也可能是两边都想要。
华为在早期对盘古大模型进行了大量投入,但之后似乎将精力更多放在硬件和云计算生态上,在智能体应用方面没有显著的动作。
腾讯和字节虽然在B端和C端也都掌握着丰富的入口资源,但显得更为谨慎,前期只采取了一种观望的态度。直到最近,才开始逐步推出各种智能体产品。相比起来,字节一出手就显得非常激进,抽调核心骨干组成新部门flow,在B端/C端、国内/海外同时发力。
行业领先企业在硬件终端和垂直领域的入口同样值得关注。GPT-4的发布无疑提升了人们对自然语言界面的期待。现有的有屏硬件终端,如手机、PC、新能源汽车,将自然成为C端智能助理的重要载体。谷歌开发者大会上展示的Astra在谷歌眼镜上的应用,也预示着各种AI原生的穿戴设备将进一步拓展智能助理的应用场景。
B端智能体的发展则需要结合具体的业务场景,对垂直领域有深入了解和客户积累的企业有机会依托智能体升级原有服务,实现更专业和高效的解决方案。
一边有技术,一边有入口。这很好解释了掌握大模型和智能体技术的创业公司与拥有入口资源的大厂/行业领先企业之间的合作。例如,OpenAI已经将GPT-4o接入微软的Copilot PC,并传闻将与苹果合作,在iOS 18中引入新模型以升级Siri的对话体验。智谱AI与联想和Intel合作,将GLM-4模型与新一代Intel芯片和联想PC适配,支持最新推出的AI PC。Regie.ai将其智能体平台集成到销售行业领先企业Salesforce和HubSpot的系统中,以增强其销售自动化功能。
2.巨头 vs. 其他企业
巨头所到之处,寸草不生。
互联网大厂既有技术,又有入口。其他企业想做智能体应用,应该如何突围?可以发现,大厂目前在智能体方面的真正用户主要集中在C端,仅有的明确面向B端的智能体应用也是建立在其已有的企业平台入口上。
B端智能体应用对专业化的要求,决定了智能体设计和开发必须深入业务工作流,大厂显然没有精力在每个业务场景深耕。所以,其他企业的优势在于利用其已经成熟的产品和客户基础,以及在垂直领域对业务场景的深刻理解。
最近大厂之间展开的大模型价格战,不会从根本上影响B端的竞争格局。在目前模型能力有限的情况下,决定客户付费意愿的主要因素是性能而不是价格。尤其当第一梯队的大模型能力接近时,无论是B端调用API,还是C端的Chatbot,都是对大模型基础能力的直接应用。即使通过引流和降价获客,也很难保证用户的忠诚度,恰恰需要在大模型之外包装智能体应用层来提高粘性。
比如,B端用户关注的是应用能否带来生产力提升,能否真正解决实际问题,这需要将领域知识和业务理解编码到专业化的应用设计中;而C端用户对应用的迁移成本敏感,需要通过用户行为数据的累积效应,提升个性化体验和对已有产品的依赖性。无论是哪种情况,都需要在推出智能体应用产品的基础上,快速建立数据飞轮,并将其沉淀到产品迭代和模型能力上,从而建立起技术和市场壁垒。
从更长的时间看,随着模型能力提升、智能体开发生态完善以及用户习惯的培养,搭建定制化智能体应用的门槛会越来越低。统一的模式是:大模型基础能力+用户个性化需求/企业专业化业务流=定制化智能体。
大厂提供算力和应用入口,大厂和大模型企业提供大模型基础能力,个性化和专业化的需求和数据则来源于用户自己。这意味着大模型到应用之间的软件开发层会变得非常薄,传统App和企业软件开发商的价值会不断降低。
软件开发者可谓是悲喜交加。喜的是:近期调用大模型API的成本下降,以及未来AI替代知识工作者的潜力将极大增加软件市场的规模。悲的是:在还没有找到TPF和PMF之前无法真正享受模型降价红利,以及这些未来增加的软件市场可能与自己关系不大。
短期看,当模型能力不够强、智能体生态不够完善时,资本和入口资源暂时无法转变为决定性优势。新技术的早期用户会尝试现成的不同智能体进行体验,并最终选择那些真正懂自己、能解决实际问题的产品。
软件开发者通过优化智能体应用层,可以提供更加个性化和专业化的解决方案,从而获得一定的独立入口机会。然而,从长期看,如果传统软件公司的数据、技术和市场壁垒不够坚固,相比大厂提供的包含数据标注、模型微调、智能体开发甚至业务入口的一站式解决方案,它们很可能在模型能力提升和开发生态完善的过程中被迭代掉。从这个角度看,结合硬件并深耕垂直场景的产品可能更有机会。
打不过就加入。摆在软件开发企业面前还有一条路,也是巨头们期望看到的(有意设计的)。当成为独立入口的机会越来越小,成为巨头大模型和智能体生态中的一部分,专注于开发差异化功能的智能体插件或依附于平台的垂直智能体,甚至只是提供搭建智能体的领域知识和为RAG服务的高质量内容,会是一种现实的选择。
纺织机的出现降低了纺织技能的稀缺性,导致很多有经验的传统纺织者失业,但同时也催生了大量会操作纺织机的新式纺织工人。我们常常用工业革命的例子来指导大模型背景下个体知识工作者如何适应和选择。在智能体应用的背景下,随着大模型能力的提升和智能体开发生态的完善,连接需求和定制化产品的开发能力的价值也会逐渐下降。传统纺织者和新式纺织工人的例子也许对今天的软件开发者也有一些借鉴意义。
2
*商业模式:*
*从“信息流”到“行动流”*
以OpenAI为例,目前C端和B端的主要商业模式分别是会员付费和API调用。从国内市场看,C端用户还没有形成付费习惯,短期内更容易落地的还是B端应用。但从长期看,C端市场相较B端有更大的潜力和发展空间。
不过,仅凭目前的会员模式无法撑起这种潜力,而最常见的广告商业模式在智能体领域也似乎行不通。上一代AI公司并没有2C的经验,也没有现成的商业模式可以借鉴。
传统广告模式是信息流广告。无论是报纸、电视等传统媒介,还是门户网络、搜索引擎、推荐系统等互联网平台,信息的分发都是中心化的——广告内容被嵌入并随信息流一并呈现给用户。然而,随着智能体成为新的入口,每个用户接触到的信息都经过其智能助理的个性化筛选与重组,实现了信息分发的去中心化。
也就是说,直接"看"信息的是智能体,而不是用户。这正是谷歌等搜索引擎巨头的焦虑所在。
我们看一下搜索新贵Perplexity AI的解决方案。它通过将客户赞助的内容以相关问题的形式推荐给用户,实现了一种在间接信息流中展示广告的方式。当然,用户可以通过付费订阅来取消这类广告。谷歌在5月15日的开发者大会上也推出了名为AI Overviews的新搜索引擎,其对于商业模式的解法是只有付费用户才能享受这种高级的AI搜索功能。
从AI原生的角度出发,在信息去中心化、人人都通过智能体助理与各类服务统一交互的情况下,传统主要基于信息流的广告模式也需要重新思考。
相比传统AI的工具定位以及Chatbot的问答功能,智能体的特点在于它可以模拟人类的感知、认知、决策直至行动的完整流程。
想象一个帮你订外卖的智能体助理,它能够理解你的用餐需求,帮你浏览周围的餐馆选择,然后自动下单。这无疑是选择恐惧症患者的福音。
如果将感知、认知、决策归为广义的信息流,智能体则将其延伸到了行动流。用户可以不关注智能体与信息流交互的具体过程,而只看最后的行动。
这为智能体时代的广告模式带来了新的可能:从基于信息流转向基于行动流。
在智能体根据用户需求输出行动时,一种情况是向行动中选择的服务提供方收取佣金,另一种情况是提前优先推荐和选择广告商的服务。比如,当用户提出与健康相关的需求时,智能体可以提供个性化的健康建议、健身计划和饮食指导,同时在顺利完成任务、符合用户偏好的前提下,推荐广告商相关的健身机构和餐馆。
此外,可以在与用户的动态交互行为中展示广告。例如,当用户向智能体咨询购物建议时,智能体可以提出几种选择,并解释每种选择的优缺点,其中广告商的产品可以获得优先展示的机会。这种动态交互不仅增加了广告的曝光率,还通过提升用户参与度进一步明确了用户需求。
在同等能力模型的规模不断缩小的同时,端上芯片的算力也在持续提升,这使得云端协同的终端智能体解决方案成为可能。终端智能可以在保护用户隐私的前提下,更好地提供个性化服务。这也扩大了智能体能够解决的问题边界,对用户的实际行为产生更多影响。因此,基于行动流的智能体广告能够更接近用户的决策环节,与实际的购买行为紧密相连,实现更高的广告转化率,并容易形成完整的交易闭环。
那B端的AI原生商业模式是什么?未来,智能体的发展会催生很多“超级个体”。他们通过定制适配自己行为习惯的多个智能体助理,协同完成复杂的企业级任务,成为“大C”。同时,也会有更多的工作室型企业出现,几个人配合大量数字员工提供专业化服务,成为“小B”。当智能体同时服务于个人生活和专业工作,C端和B端的界限将逐渐模糊,推动商业模式和社会形态的根本变革。
3
技术挑战:
“雕花”还是“筑基”?
1.短期:提示词框架设计
在现有模型能力的情况下,智能体框架设计需要结合对需求的理解,进行启发式设计,以弥补模型能力的不足。通过对智能体的目标和在不同场景下的用户需求、行为模式进行分析,设计启发式规则和提示词结构,以引导智能体的行为。例如,在客服应用中,通过分析常见问题和高频交互模式,设计相应的提示和响应规则。
然而,启发式的框架设计难以适应不断变化的环境和用户需求。根据从手工设计到数据驱动学习的发展规律,进行提示词结构和智能体框架学习和优化是可能的解决思路。
通过在运行过程中收集反馈,积累用户与智能体的交互数据,可以动态调整提示词,优化模块化结构设计。通过结合启发式设计和数据驱动优化,智能体可以在复杂多变的环境中提供更加灵活和智能的服务,为用户带来更好的体验和价值。
2.中期:智能体生态建设
目前的智能体平台,通过可视化工作流和低代码设计已经有不错的交互体验。但要将智能转化为生产力,真正解决用户生活和工作中的需求,还需要逐步完善一个丰富和标准化的智能体插件生态。
关于丰富性,需要深入理解和提炼各个场景中的高频元需求,并将解决方案封装成通用的工具和插件,使得用户可以根据需求快速组合和定制智能体的功能。例如,在客户服务场景中,高频需求包括自动回复常见问题、情感分析和实时翻译等。
关于标准化,需要制定统一的插件格式、API接口等技术规范,并保证与不同大模型的兼容性。这与目前RAG中向量库的标准化问题类似。标准化有助于不同智能体和插件之间的互操作性,使得开发者能够更轻松地创建和集成新的工具和功能,保证平台的可扩展性和插件生态的良性发展。
3.长期:大模型能力提升
智能体的应用体验最终将依赖大模型本身能力的提升。
首先是长上下文推理能力的提升。目前的智能体在处理具有复杂工作流的任务时,难以保持对长上下文的注意力,导致任务规划和调用工具的过程中无法始终保持与用户目标的一致。
一方面,可以在训练时引导模型进行系统二的分步推理思考,更好地利用训练数据,从而在推理时无需依赖复杂的提示词设计。另一方面,大模型的预训练目标是对序列数据补全,微调数据则是问题-答案对,并没有针对任务规划和工具调用任务进行特定训练。因此,可以通过人类标注规划和行动数据、模仿人类行为学习以及与环境交互反馈等方式提升模型的这些能力。
第二是经验沉淀。基于大模型的智能体目前在试错和从错误中学习的能力是不够的。相比基于强化学习的智能体,虽然大语言模型的通用知识使其具备了一定的任务泛化能力,但现有的类似Reflexion的经验沉淀机制只能保存在长期记忆中。
RAG形式的记忆检索无法保证经验的有效利用。需要借鉴强化学习相关方法,将这些经验沉淀到提示词框架中,作为常驻的短期记忆,或者整合到模型参数中,成为大模型本身的能力。此外,自然语言的歧义和模糊性也在一定程度上影响了经验学习的高效性和稳定性,需要一种相对统一的表示方法来保证智能体的经验沉淀和持续学习。
第三是可信与对齐的增强。由于加入了记忆、执行、规划等环节,面向智能体的可信与对齐有新的技术问题需要解决。在对抗鲁棒性方面,不仅要关注模型本身的抗攻击能力,还要考虑记忆载体、工具集、规划过程等的安全性。
比如,智能体工具和插件需要经过严格的安全审查,以防止恶意工具的注入或工具本身被攻击。在处理幻觉问题上,不仅要解决感知和认知阶段的幻觉,还要防止这些幻觉在决策和行动阶段传播并产生新的幻觉。比如,智能体在制定和执行决策时,可能会因为之前的幻觉而导致错误的行动。这需要在决策和行动之前引入验证和校正机制,确保决策和行动的准确性和可靠性。
[结束语] 电影《奥本海默》中,奥本海默前往普林斯顿向爱因斯坦询问链式反应是否会毁灭世界。同为原子能的“盗火者”,爱因斯坦奠基了核裂变理论,打开了潘多拉魔盒,而奥本海默将理论转化为现实,释放了原子弹这头洪水猛兽。作为智能的“盗火者”,Hinton奠基了深度学习理论,他的学生IIya则训练出了GPT。相同的是理论和实践的结合;不同的是,原子能是宇宙的馈赠,智能则是人类自己海量数据积累和压缩后的结果。
这是科学的胜利,更是工程的胜利。杨植麟说:“实现AGI需要结合研究、工程、产品和商业的新组织形式。”
IIya在释放出GPT这头巨龙后,意识到其不断进化带来的潜在危险,试图找到控制和驯服它的方法。然而,打开的潘多拉魔盒再难关上。Ilya出走后的OpenAI看起来要在商业化的道路上一往无前。或许,e/acc才是带领我们走向AGI的真正途径。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。