“ 提供情绪价值是大模型下一步要走的路,这条路会逐渐开阔 ”
整理 | 梦婕
编辑 | 云舒
出品|极新
2023年11月28日上午,在极新AIGC行业峰会现场,智谱AI总裁郑叔亮围绕国内外大模型发展现状与未来方向做了一场主题为《大模型的发展趋势与思考》的演讲。
大模型的创业有价值,有未来,但大模型创业的具体的发展在哪?郑叔亮回望智谱AI的发展历史,细致入微地向我们分析了大模型的基本架构,以此来论证国内外大模型发展的差距,最后推理出未来大模型发展的缺口在哪里。他是技术出身,从构建大模型的系统范式的科学角度分享所见所闻,踏实落地、生动形象。
郑叔亮,智谱 AI 副总裁,聆心智能联合创始人,负责聆心智能团队的研发和管理,包括CharacterGLM的研发,以及C端产品和B端业务
郑叔亮重点提到以下几点:
“大模型也好,人工智能技术也好,更多的是为我们人类交付效率价值和情绪价值。”
“我们还不敢说我们超过,或者哪怕只是逼近GPT-4。”
“在语言大模型的训练与研发上我们进一步的发力。”
“提供情绪价值是大模型下一步要走的路,这条路会逐渐开阔,非常值得期待。”
以下内容为郑叔亮演讲原文,经极新整理分为4个模块,希望能为大家带来一定的收获。
01
洞察需求
“大模型也好,人工智能技术也好,更多的是为我们人类交付效率价值和情绪价值。”
各位嘉宾上午好,今天非常高兴在极新的会议上与诸位嘉宾分享一下智谱的心得和成果。我先开门见山地表明一下整个演讲的基本用意与立意。大家都知道我是做技术的,所以我就用一个非常抽象的架构图来呈现一下现在的大模型技术体系与价值观。我们整个大模型的三层基本架构,经过了非常高度的抽象,涵盖了目前大模型领域当中很多从业者、创业公司或者大厂。
以文本生成、文生图或者文生视频技术为基础,加上视觉理解和逻辑推理的基本能力。生成、理解、推理实际上是现在大模型技术最为核心的三个层面的底层能力,以此作为大模型能力的核心中枢,构建所谓的工具层系统,包括检索的增强、 prompt 的工程等等,包括智能 agent 的一些技术。
基于此,我们构建了应用平台的基础,比如最近比较火热的GPT,发布了 GPT-4的应用平台,在上面有各种满足效率的工具做数据洞察,或者满足人类柔性需求的应用,包括一些社交陪伴的应用。
简单的总结一下,现在的人类与未来即将诞生的通用人工智能的陪伴者,所一同构建起来的一种新型的人工智能,是人类协作共存的一种新型模式。这里面大模型也好,人工智能技术也好,更多的是为我们人类交付效率价值和情绪价值。
放眼全球来看,大模型技术的基本阵营是国外具有代表性、引领性的一系列公司。首先它们是天花板的存在,比如以天花板意义存在的OpenAI、微软联手打造的通用人工智能最前沿的技术水平体系。另外还有cloud 这样对标 GPT 的机器人技术公司,还有 Meta AI、Facebook、 Google AI等面向通用人工智能的一系列超大公司。
还有两家稍微小一点的创业公司,但现在的估值也很高,包括Inflection AI,还有 Capture 提供的机器人和人工智能技术,不同于前几家提供效率工具,这两家更多地是提供情绪价值的工具,实际上是情绪支持、陪伴或者角色扮演这样一系列的能力。
02
正视差距
“我们还不敢说超过,或者哪怕只是逼近GPT-4。”
现在国内熟知的大模型企业,像百度、讯飞、阿里、华为,以及智谱、百川、MiniMax 等等,都是头部大模型厂商。如果讲整个大模型的趋势,必须要说 OpenAI ,虽然国内大模型产品号称在某些榜单上超越了OpenAI的GPT-3.5,甚至于GPT-4 的水平,但从业者都不敢说超过,哪怕逼近GPT 4。
那我们先看一下 OpenAI 的技术,分析一下差距在哪里。今年伊始,微软对OpenAI 的GPT-4的新系统做了一系列测评,最引人注目的就是全新的视觉理解能力,包括图片、图表、公式等等全方位的理解,以及代码生成、代码执行和代码理解的能力。这些能力实际上是从两个维度进一步加强大模型技术的门槛。
大家都知道,传统的语言大模型解决的都是语言层面的问题,就是通过模型流畅地生成符合人类语法规范的自然语言内容,但仅有这样一个功能是不够的,还需要理解人类创造的各种东西的能力,视觉就是这样一种重要的能力。通过视觉,我们的模型才能够从根本层面上深入到人类生产生活的各个方面中。
而对于代码执行能力,实际上能够通过大语言模型很好地驱动人类正在创造的各种各样的软件、硬件、机器等等,也就是说它能代替人类的手、代替人类的眼睛,这进一步地提升了大语言模型的能力。
当然 OpenAI 的野心不止于此,它又创建了自己的 GPT-4平台,在这个平台上,应用的创造者可以开箱即用式地调用OpenAI,尤其是 GPT-4 里面的核心能力,比如快速地创建所需要的一些应用。因此很多应用的创业者,尤其是中间层的创业者就面临了极大的挑战,就是他们创建的工具能够非常轻易的把idea快速变成产品原型,能够极大地缩短大模型技术 PMF 的周期,所以这是一个非常具有颠覆性的一个创举。
03
回归自身
“在语言大模型的训练与研发上我们进一步的发力。”
那接下来就要说说智谱AI,智谱实际上从2020 年之前就开始做大模型的研发, 2020 年时开始蓄力,到 2021 年时发布了第一款 Glm 10b 的模型,是当时国内第一个开源的百亿级大语言模型,到了 2022 年,发布了第一个千亿级别的 GLM 大模型。去年的 9 、10月份,清华和智谱一起联合发布了开源的版本。到了今年,在大模型语言模型的训练与研发上我们进一步发力,比如 ChatGLM 系列。ChatGLM 是基于 GLM 的基座,做了非常精细化的指令的微调,使得它的能力可以对标OpenAI 的GPT 3.5 的水平。
紧接着在年终,我们发布了ChatGLM 二代模型,现在 ChatGLM 模型已经升级到三代,以此为基础还有一系列的衍生品,包括 Web GLM、 Cog VLM、Visual GLM。CogVLM实际上是文生图的模型,而Visual GLM实际上是图像理解的模型,通过它我们可以很好地理解图片的特性。
Cog video 是最新开源的文生视频模型,当然现在还不能完美地应用于产业界,但我们还在进一步地努力,让它的性能足够强大。
CharacterGLM是一个角色化的大语言模型,更多是为场景与应用交付情绪价值的模型,因为它的作用就是模拟人类的行为、感情、表达的能力,通过角色扮演、共情、心理陪伴、心理支持等一系列能力,为我们的用户交付情绪价值。
现在的大语言模型实际上还远远没有达到成熟阶段,不只是国外的顶级产品,国内的系统也是同样的情况,都需要我们通过对语言模型本身特性的深刻理解,再加上一系列的辅助工程化技术,使得它能够成为一个整体。
现在很多的大语言模型都会构建这样的系统范式,通过这种范式可以应用到不同的场景中,满足我们的需求。第一个范式是对话空间的管理,因为大语言模型的 prompt 上下文空间是有限的,所以需要通过一系列的技术手段,有效地利用空间,这就不妨会有一些小的模型来辅助大模型,进行相应的协作,包括知识记忆检索增强、人格引擎。
第二种范式是多模型协作模式,百亿级参数模型或者数百亿级参数模型不能很好地满足通用业务场景,这时我们会引入一些模型作为支持的后端,比如说我们的开车 GML 来做拟人化的服务,再比如说我们的 ChatGLM 模型来做认知层面的能力支持。
我们做前端的一系列模型,然后引导用户去使用不同的模型,形成一种多模型之间的协作,完成相对完整的业务模式。这里特别强调内容安全的大模型,在我国社会环境下,这一点非常重要。
第三种范式是基于大模型的智能agent的技术,它几乎融合了所有围绕大、中、小模型各种层面的能力。这包括几方面,一方面是感知层面的能力,不论是视觉、听觉还是各种其他的能力,通过这种方式去采集外部的信号,然后进一步收归到大语言模型,它担任了完成认知决策的角色,通过感知和认知的协作,进一步得出我们下一步要驱动的机器软件或是具身智能去完成人类的目标。
这样的蓝图是通向通用人工智能的非常重要的路径。目前整个技术体系还不是那么完善,更多的还留存在一些虚拟空间,并没有大规模地应用在生产生活中。我们展望一下,未来智能 agent的技术必将深入到千行百业。对智谱AI来说,今年可以作为我们商业化的元年,我们已经逐步地去布局、覆盖十几个领域。这些行业里面,不同的客户,不同的场景,在使用大模型的时候会有不同的态度,还有不同的使用方法。
这就是八仙过海,各显神通,然后仁者见仁,智者见智的使用的模式,但是我们期待在明年或者后年会有越来越多的场景,越来越多的客户,他们真正地可以开始使用大模型。
04
展望未来
“提供情绪价值是大模型下一步要走的路,这条路会逐渐开阔,非常值得期待。”
最后,我们谈一下趋势,智能 agent 未来的很重要的功能——提供情绪价值。为我们的用户、场景、广大老百姓,去传递、创造情绪价值的能力变得越来越重要,比如拟人型的大模型、多模态大模型的能力提升,把它们结合在一起,就能够产生所谓的情感能力,这种能力可以渗透到生活的方方面面。
每天伴随大家的各种各样的应用,比如社交类的应用、游戏娱乐、文化娱乐、文娱创造等等,这些行业对人类来讲是必不可少的,它提供了非常丰富的精神价值和情绪健康。所以,提供情绪价值是大模型下一步要走的路,这条路会逐渐开阔,非常值得期待。
技术的突破肯定不是一朝一夕,生态的共同繁荣也需要靠大家的团结一心,中国的大模型任重而道远。今天不仅仅是从技术上去对标海外,而且从基础设施上也要完成突破。