过去,开发者用代码来改变世界,未来,自然语言将成为通用的编程语言。大模型是如何成功的?有哪些应用?现在如何入局?一个全知全能的大模型能适配一切吗?在这个 AI 时代,什么样的工具才能被称为最好用的工具?这些问题,是身处技术浪潮中的我们所关心的现实问题。
从机器学习到深度学习的飞跃
人工智能其实是一个非常广泛的概念,指的是能够模仿人类行为的一种计算机程序,我们现在所看到的人工智能,只是其中的一个子集,称为“机器学习”,实际上就是我们的一个计算机程序或是软件,能够基于现有数据的持续学习,做出预测和自主调整。我们现在常用的很多社交软件,如抖音、小红书,它们的推送算法都是我们可以接触到的机器学习人工智能。
机器学习的广泛应用,为企业的生产经营带来了很大的变化。以物流行业为例,如果要投递120个包裹,应该如何设计路线?就算不考虑其他因素,派发120个包裹的可能路线数量也将是个天文数字。机器学习的出现,可以通过对历史记录的分析和学习,对数据的不确定性进行建模,做出预测或决策,并根据情况变化自主进行调整。按照机器学习推荐的线路,派送120个包裹的里程仅为104英里,比司机自行决策的路线134英里节省了30%的路程。有知名物流企业在2003年就应用了这套系统进行数字化转型,通过机器学习的人工智能,企业每年节省3-4亿美元的成本,这是人工智能为企业运营带来降本增效的一个非常直观的体验。
时至今日,这套算法已经非常成熟了,它不仅应用于与路径规划相关的各类企业,包括外卖、餐饮、快递、网约车,我们生活中所有的平台化商业模式,实际上都是通过高效的算法撮合,进行需求和供给的匹配。
但是以机器学习为主的人工智能,它最大的局限是需要依赖于结构化的数据,即数字。但我们的大千世界并不仅仅是由结构化数据组成,图片、语音、甚至味觉、嗅觉,如何从这些更为丰富的信息种类,形成人工智能的理解,就变成了一个挑战。这也就在机器学习中诞生了一个更为细化的子集,深度学习。
深度学习的诞生与发展
1989年,法国计算机科学科学家杨立昆(Yann LeCun)开发出世界上首个深度学习技术——卷积神经网络算法LeNet。直到现在,这项卷积神经网络深度学习技术仍然是我们AI大模型的理论基础。但其实,这项技术直到1998年,才有了第一个成功的商业化应用,且仅仅应用于识别支票上的数字。为什么当时它并没有引起关注呢?每一项技术的商业化成功需要一系列的配套。在人工智能领域最基本的三要素有:算法、算力和数据,技术性能就是算法,配套资产就是算力和数据。而之所以卷积神经网络未能普及,就是因为算力和数据在当时相当匮乏。
(右为杨立昆)
直到2006年,当时的科学家已经意识到,要发展大模型,计算机算力需要突破,且不能再单纯依靠主流的CPU计算芯片,英伟达敏锐地发现了这一趋势,推出了可编程可拓展的GPU,这让算力开始有所突破。但缺乏训练数据仍然是人工智能发展最大的瓶颈。华裔计算机科学家李飞飞同样关注到了这个问题,她认为,深度学习只有算法和算力,没有数据,就好比巧妇难为无米之炊。因此,她提出建立一个10亿张图片的数据库ImageNet。起初,受限于当时的技术条件及庞大的工作量,这个想法无异于天方夜谭。但她通过和亚马逊的众包平台合作,在网上雇佣到了来自167个国家的5万人,为这10亿张备选图片筛选、排序、打标签。到2009年,ImageNet数据库就包含了1500万张标注好的照片,涵盖了20000多种物品。ImageNet数据库无论在质量还是数量上,在科学界都是空前的。最重要的是,李飞飞把ImageNet这个如此庞大的图片数据库免费开放使用。这就意味着,全球所有致力于计算机视觉识别的团队,都能从这个题库里面提取数据和试题,来训练测试自家算法的准确率,直到今天,ImageNet仍是全球AI产学界较为知名的大型视觉数据库之一。
不仅如此,从2010年开始,ImageNet还举办了视觉识别比赛,其中,2012年比赛的冠军AlexNet在图片识别上达到了极高的成功率,真正为深度学习技术带来了巨大的突破,成为当代卷积神经网络算法的鼻祖。**一旦技术路径确定、配套资产成熟,技术就会有突飞猛进的发展,距离商业化成功也就更近一步。**在今天,无论是零售业门店客流分析、仓库监测等视觉识别场景,抑或是物流企业包裹和违规操作的自助监测等依靠的仍然是这种视觉识别技术。
总而言之,ImageNet对于深度学习的意义除了让卷积神经网络成为当代AI的奠基性技术,带来视觉识别的应用发展,也促使了数据标识产业的诞生,催生了一系列的技术创新与独角兽企业。所以不难看出,深度学习技术最后的成功,来自于数据的突破。可以说,深度学习的人工智能,始于算法,兴于算力,成于数据。
当机器开始“思考”:从AlphaGO到AlphaFold
(某企业2012年7月的网站截图)
一家看上去不甚靠谱的人工智能初创公司,仅有的一页网站上没有产品,没有商业计划,登录页面将其业务描述为模拟、电子商务和游戏构建学习算法,主页上只有创始团队的联系方式,而其主要的创始人,仅仅是一个刚刚毕业且没有计算机背景的神经科学博士。如果你是一位投资者,会在2010年或2014年投这样一家海外的AI企业吗?
单凭这些信息,不少人会对这家企业嗤之以鼻,但事实上,这家企业便是日后在AI领域鼎鼎有名的DeepMind。2011年,马斯克在英国以天使投资人的身份投资了该企业,在他的撮合下,谷歌于2014年以6.6亿美元收购DeepMind,而当时的DeepMind只有12个员工,还没有赚钱,只是在用深度学习玩游戏和下棋。两年后(2016年),DeepMind便推出了以4:1的成绩打败世界顶级围棋选手李世石的人工智能算法AlphaGo。马斯克之后颇为自豪地说,AlphaGo的压倒性胜利是跨时代的,而赛前人们普遍预测,人工智能距离顶级围棋选手至少还有5至10年的距离。
2018年,基于AlphaGo的AlphaFold开始应用在蛋白质结构解析领域。在其后的两年,AlphaFold就完成了58%的人类蛋白质结构预测,这样的速度和规模无疑是惊人的,因为在之前的五十年中,生物学家用实验的方法仅解析出17%的人类蛋白质结构,使用的冷冻电镜成本还十分高昂,每台设备的价格在600万美元左右。今天,AlphaFold 已经预测了超100万个物种,超过2.14亿个蛋白质结构,几乎覆盖了地球上所有的已知蛋白质。而它的解析成本,大概是一辆丰田凯美瑞的价钱。
深度学习中的注意力机制
我们所说的大模型,是指大语言模型。事实上,卷积神经网络深度学习是没有办法处理语言的,语言不仅是我们对于客观现实的反射,更是人类自主意识的表达,这里面有高度的不确定性。而我们对于语言的理解,很多时候需要情境。特别是在中文的语境中,比如“能穿多少穿多少”这句话在冬天和夏天就是完全不一样的理解,再比如,“中国谁也赢不了”,这句话在足球和乒乓球领域,又是完全不一样的理解。
如何让自然语言处理变得更“聪明”?在某种程度上,这和企业管理有着异曲同工之妙。企业中最稀缺的是什么?是领导者的注意力。1998年,奥卡西奥的一篇文章《企业的注意力机制》提出,公司行为是决策者注意力分配的结果,决策者做什么取决于他们当下所关注的问题和答案。无独有偶,20年后,谷歌团队发表的一篇文章,《注意力就是你所需要的》也成为了现在ChatGPT和所有大模型的关键底层技术。这两篇文章都不约而同地提到了“注意力”,大语言模型通过注意力机制,捕捉到文章的重点、关键词,对重点的关键词进行联想,进行最大概率的填空。从结构性数据到非结构性数据,从一般的图片图像再到我们最难以理解的人类自然语言,技术就这样一步步地突破。
注意力机制的提出,让人工智能具有了识别和输出自然语言的能力,消除了中英文自然语言处理差异,也消除了图像、文本、视频、代码等数据性质的差别,无需数据标记让计算效率大幅提高,也成为了暴力运算的算法基础。但它也存在一定的局限,计算机语言分为两种,一种是形式语言能力,另一种是功能语言能力。形式语言能力指的是我们平时语言中的字面意义,功能语言能力则是我们所想表达的思想,需要对语义进行理解而不仅是单纯的关联。大模型对语言的理解仅存在于形式语言能力的层面,因此,大模型是否能取代人的工作?其实很多时候还是不行的。就目前来说,大模型可以适用于合规或现有惯例的表达和传递,比如年初爆火的Sora,就是按照规则规律,去执行生成视频的操作;近年发展迅猛的机器人产业,就是通过大模型,将自然语言翻译为驱动机器人的程序指令。
最后,在生成式AI下中国企业有哪些机遇呢?大致有四个方面,首先是芯片上游的辅助产品,比如解决GPU能耗问题,液冷风冷技术等;其次是研发可以替代GPU的AI芯片技术,比如ASIC和FPGA,但这需要大量的前期投入,且需要绑定特定的大模型算法;第三,注意力机制的互补技术,这同样需要非常强的科研基础,投资和退出路径规划;最后,可以开发下游降本增效的短平快应用,替代人力。人工智能的真正潜力,可能在现在还无法真正的预估。AI原生辅助技术和配套资产的开发,在将来具有更广阔的价值创造潜力。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。