带你了解AI大模型的前世今生

过去,开发者用代码来改变世界,未来,自然语言将成为通用的编程语言。大模型是如何成功的?有哪些应用?现在如何入局?一个全知全能的大模型能适配一切吗?在这个 AI 时代,什么样的工具才能被称为最好用的工具?这些问题,是身处技术浪潮中的我们所关心的现实问题。

从机器学习到深度学习的飞跃

人工智能其实是一个非常广泛的概念,指的是能够模仿人类行为的一种计算机程序,我们现在所看到的人工智能,只是其中的一个子集,称为“机器学习”,实际上就是我们的一个计算机程序或是软件,能够基于现有数据的持续学习,做出预测和自主调整。我们现在常用的很多社交软件,如抖音、小红书,它们的推送算法都是我们可以接触到的机器学习人工智能。

机器学习的广泛应用,为企业的生产经营带来了很大的变化。以物流行业为例,如果要投递120个包裹,应该如何设计路线?就算不考虑其他因素,派发120个包裹的可能路线数量也将是个天文数字。机器学习的出现,可以通过对历史记录的分析和学习,对数据的不确定性进行建模,做出预测或决策,并根据情况变化自主进行调整。按照机器学习推荐的线路,派送120个包裹的里程仅为104英里,比司机自行决策的路线134英里节省了30%的路程。有知名物流企业在2003年就应用了这套系统进行数字化转型,通过机器学习的人工智能,企业每年节省3-4亿美元的成本,这是人工智能为企业运营带来降本增效的一个非常直观的体验。

时至今日,这套算法已经非常成熟了,它不仅应用于与路径规划相关的各类企业,包括外卖、餐饮、快递、网约车,我们生活中所有的平台化商业模式,实际上都是通过高效的算法撮合,进行需求和供给的匹配。

图片

但是以机器学习为主的人工智能,它最大的局限是需要依赖于结构化的数据,即数字。但我们的大千世界并不仅仅是由结构化数据组成,图片、语音、甚至味觉、嗅觉,如何从这些更为丰富的信息种类,形成人工智能的理解,就变成了一个挑战。这也就在机器学习中诞生了一个更为细化的子集,深度学习。

深度学习的诞生与发展

1989年,法国计算机科学科学家杨立昆(Yann LeCun)开发出世界上首个深度学习技术——卷积神经网络算法LeNet。直到现在,这项卷积神经网络深度学习技术仍然是我们AI大模型的理论基础。但其实,这项技术直到1998年,才有了第一个成功的商业化应用,且仅仅应用于识别支票上的数字。为什么当时它并没有引起关注呢?每一项技术的商业化成功需要一系列的配套。在人工智能领域最基本的三要素有:算法、算力和数据,技术性能就是算法,配套资产就是算力和数据。而之所以卷积神经网络未能普及,就是因为算力和数据在当时相当匮乏。

在这里插入图片描述

(右为杨立昆)

直到2006年,当时的科学家已经意识到,要发展大模型,计算机算力需要突破,且不能再单纯依靠主流的CPU计算芯片,英伟达敏锐地发现了这一趋势,推出了可编程可拓展的GPU,这让算力开始有所突破。但缺乏训练数据仍然是人工智能发展最大的瓶颈。华裔计算机科学家李飞飞同样关注到了这个问题,她认为,深度学习只有算法和算力,没有数据,就好比巧妇难为无米之炊。因此,她提出建立一个10亿张图片的数据库ImageNet。起初,受限于当时的技术条件及庞大的工作量,这个想法无异于天方夜谭。但她通过和亚马逊的众包平台合作,在网上雇佣到了来自167个国家的5万人,为这10亿张备选图片筛选、排序、打标签。到2009年,ImageNet数据库就包含了1500万张标注好的照片,涵盖了20000多种物品。ImageNet数据库无论在质量还是数量上,在科学界都是空前的。最重要的是,李飞飞把ImageNet这个如此庞大的图片数据库免费开放使用。这就意味着,全球所有致力于计算机视觉识别的团队,都能从这个题库里面提取数据和试题,来训练测试自家算法的准确率,直到今天,ImageNet仍是全球AI产学界较为知名的大型视觉数据库之一。

不仅如此,从2010年开始,ImageNet还举办了视觉识别比赛,其中,2012年比赛的冠军AlexNet在图片识别上达到了极高的成功率,真正为深度学习技术带来了巨大的突破,成为当代卷积神经网络算法的鼻祖。**一旦技术路径确定、配套资产成熟,技术就会有突飞猛进的发展,距离商业化成功也就更近一步。**在今天,无论是零售业门店客流分析、仓库监测等视觉识别场景,抑或是物流企业包裹和违规操作的自助监测等依靠的仍然是这种视觉识别技术。

在这里插入图片描述

总而言之,ImageNet对于深度学习的意义除了让卷积神经网络成为当代AI的奠基性技术,带来视觉识别的应用发展,也促使了数据标识产业的诞生,催生了一系列的技术创新与独角兽企业。所以不难看出,深度学习技术最后的成功,来自于数据的突破。可以说,深度学习的人工智能,始于算法,兴于算力,成于数据

当机器开始“思考”:从AlphaGO到AlphaFold

在这里插入图片描述

(某企业2012年7月的网站截图)

一家看上去不甚靠谱的人工智能初创公司,仅有的一页网站上没有产品,没有商业计划,登录页面将其业务描述为模拟、电子商务和游戏构建学习算法,主页上只有创始团队的联系方式,而其主要的创始人,仅仅是一个刚刚毕业且没有计算机背景的神经科学博士。如果你是一位投资者,会在2010年或2014年投这样一家海外的AI企业吗?

单凭这些信息,不少人会对这家企业嗤之以鼻,但事实上,这家企业便是日后在AI领域鼎鼎有名的DeepMind。2011年,马斯克在英国以天使投资人的身份投资了该企业,在他的撮合下,谷歌于2014年以6.6亿美元收购DeepMind,而当时的DeepMind只有12个员工,还没有赚钱,只是在用深度学习玩游戏和下棋。两年后(2016年),DeepMind便推出了以4:1的成绩打败世界顶级围棋选手李世石的人工智能算法AlphaGo。马斯克之后颇为自豪地说,AlphaGo的压倒性胜利是跨时代的,而赛前人们普遍预测,人工智能距离顶级围棋选手至少还有5至10年的距离。

在这里插入图片描述

2018年,基于AlphaGo的AlphaFold开始应用在蛋白质结构解析领域。在其后的两年,AlphaFold就完成了58%的人类蛋白质结构预测,这样的速度和规模无疑是惊人的,因为在之前的五十年中,生物学家用实验的方法仅解析出17%的人类蛋白质结构,使用的冷冻电镜成本还十分高昂,每台设备的价格在600万美元左右。今天,AlphaFold 已经预测了超100万个物种,超过2.14亿个蛋白质结构,几乎覆盖了地球上所有的已知蛋白质。而它的解析成本,大概是一辆丰田凯美瑞的价钱。

深度学习中的注意力机制

我们所说的大模型,是指大语言模型。事实上,卷积神经网络深度学习是没有办法处理语言的,语言不仅是我们对于客观现实的反射,更是人类自主意识的表达,这里面有高度的不确定性。而我们对于语言的理解,很多时候需要情境。特别是在中文的语境中,比如“能穿多少穿多少”这句话在冬天和夏天就是完全不一样的理解,再比如,“中国谁也赢不了”,这句话在足球和乒乓球领域,又是完全不一样的理解。

如何让自然语言处理变得更“聪明”?在某种程度上,这和企业管理有着异曲同工之妙。企业中最稀缺的是什么?是领导者的注意力。1998年,奥卡西奥的一篇文章《企业的注意力机制》提出,公司行为是决策者注意力分配的结果,决策者做什么取决于他们当下所关注的问题和答案。无独有偶,20年后,谷歌团队发表的一篇文章,《注意力就是你所需要的》也成为了现在ChatGPT和所有大模型的关键底层技术。这两篇文章都不约而同地提到了“注意力”,大语言模型通过注意力机制,捕捉到文章的重点、关键词,对重点的关键词进行联想,进行最大概率的填空。从结构性数据到非结构性数据,从一般的图片图像再到我们最难以理解的人类自然语言,技术就这样一步步地突破。

在这里插入图片描述

注意力机制的提出,让人工智能具有了识别和输出自然语言的能力,消除了中英文自然语言处理差异,也消除了图像、文本、视频、代码等数据性质的差别,无需数据标记让计算效率大幅提高,也成为了暴力运算的算法基础。但它也存在一定的局限,计算机语言分为两种,一种是形式语言能力,另一种是功能语言能力。形式语言能力指的是我们平时语言中的字面意义,功能语言能力则是我们所想表达的思想,需要对语义进行理解而不仅是单纯的关联。大模型对语言的理解仅存在于形式语言能力的层面,因此,大模型是否能取代人的工作?其实很多时候还是不行的。就目前来说,大模型可以适用于合规或现有惯例的表达和传递,比如年初爆火的Sora,就是按照规则规律,去执行生成视频的操作;近年发展迅猛的机器人产业,就是通过大模型,将自然语言翻译为驱动机器人的程序指令。

最后,在生成式AI下中国企业有哪些机遇呢?大致有四个方面,首先是芯片上游的辅助产品,比如解决GPU能耗问题,液冷风冷技术等;其次是研发可以替代GPU的AI芯片技术,比如ASIC和FPGA,但这需要大量的前期投入,且需要绑定特定的大模型算法;第三,注意力机制的互补技术,这同样需要非常强的科研基础,投资和退出路径规划;最后,可以开发下游降本增效的短平快应用,替代人力。人工智能的真正潜力,可能在现在还无法真正的预估。AI原生辅助技术和配套资产的开发,在将来具有更广阔的价值创造潜力。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/628834.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

请收好,这份思科备考攻略很细节

对于网络工程师来说,思科认证无疑是一块金字招牌。它不仅代表着专业技能,更是职业发展的加速器。 今天我们不聊选思科认证还是华为认证,只能说是各有各的好,如果你已经选择了思科认证,那么这份备考攻略将为你提供一些实…

JavaScript异步编程——11-异常处理方案【万字长文,感谢支持】

异常处理方案 在JS开发中,处理异常包括两步:先抛出异常,然后捕获异常。 为什么要做异常处理 异常处理非常重要,至少有以下几个原因: 防止程序报错甚至停止运行:当代码执行过程中发生错误或异常时&#x…

国网1376.1主站与采集终端通信协议和国网1376.2集中器本地通信模块接口协议报文解析工具

本文分享一个国网1376.1主站与采集终端通信协议的报文解析工具,同时本报文解析软件也支持国网1376.2集中器本地通信模块接口协议的报文解析。 下载链接: https://pan.baidu.com/s/1ngbBG-yL8ucRWLDflqzEnQ 提取码: y1de 主界面如下图所示: 同时本软件自…

继承,多态,封装以及对象的打印

前言: 我们都知道Java是一种面向对象的编程语言,面向对象语言的三大特性就是继承,多态,封装,而这些特性正好的Java基础的一个主体内容。在学到这之前,我们肯定已经学习过了类和对象,所以这部分…

关于FIFO Generator IP和XPM_FIFO在涉及位宽转换上的区别

在Xilinx FPGA中,要实现FIFO的功能时,大部分时候会使用两种方法: FIFO Generator IP核XPM_FIFO原语 FIFO Generator IP核的优点是有图形化界面,配置参数非常直观;缺点是参数一旦固定,想要更改的化就只能重…

幻兽帕鲁Palworld服务器手动部署

目录 帕鲁官方文档手动安装steamcmd通过steamcmd安装帕鲁后端客户端连接附录:PalServer.sh的启动项附录:配置文件 帕鲁官方文档 https://tech.palworldgame.com/ 手动安装steamcmd 创建steam用户 sudo useradd -m steam sudo passwd steam下载steamc…

迭代的难题:敏捷团队每次都有未完成的工作,如何破解?

各位是否遇到过类似的情况:每次迭代结束后,团队都有未完成的任务,很少有完成迭代全部的工作,相反,总是将上期未完成的任务重新挪到本期计划会中,重新规划。敏捷的核心之一是“快速迭代,及时反馈…

ssm基于BS的项目监管系统+jsp论文

系统简介 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上…

Unity 2021 升级至团结引擎

UnityWebRequest 报错 InvalidOperationException: Insecure connection not allowed 解决方法 不兼容jdk 8 需要安装 JDK11 64bit 必须JDK 11,高版本也不行 安卓环境hub 未给我安装完全。 Data\PlaybackEngines\AndroidPlayer 并没有NDK,SDK。但是 HUB 显示已经…

IT行业的现状和未来发展趋势:技术创新、市场需求、人才培养、政策法规和社会影响

🎩 欢迎来到技术探索的奇幻世界👨‍💻 📜 个人主页:一伦明悦-CSDN博客 ✍🏻 作者简介: C软件开发、Python机器学习爱好者 🗣️ 互动与支持:💬评论 &…

【大数据】计算引擎MapReduce

目录 1.概述 1.1.前言 1.2.大数据要怎么计算? 1.3.什么是MapReduce? 2.架构 3.工作流程 4.shuffle 4.1.map过程 4.2.reduce过程 1.概述 1.1.前言 本文是作者大数据系列专栏的其中一篇,专栏地址: https://blog.csdn.ne…

Java | 增强for底层工作机制

✍🏼作者:周棋洛,bilidown开发者。 ♉星座:金牛座 🏠主页:我的个人网站 🌐关键:Java 增强for 工作机制 目录 引言增强for循环语法增强for工作机制探究简单总结1.对于实现了Iterable接…

zip压缩unzip解压缩、gzip和gunzip解压缩、tar压缩和解压缩

一、tar压缩和解压缩 tar [选项] 打包文件名 源文件或目录 选项含义-c创建新的归档文件-x从归档文件中提取文件-v显示详细信息-f指定归档文件的名称-z通过gzip进行压缩或解压缩-j通过bzip2进行压缩或解压缩-J通过xz进行压缩或解压缩-p保留原始文件的权限和属性–excludePATTE…

Spring AI项目Open AI对话接口开发指导

文章目录 创建Spring AI项目配置项目pom、application文件controller接口开发接口测试 创建Spring AI项目 打开IDEA创建一个新的spring boot项目,填写项目名称和位置,类型选择maven,组、工件、软件包名称可以自定义,JDK选择17即可…

CC工具箱使用指南:【界线导出Excel(一横)】

一、简介 群友定制工具。 这个工具的目的是将面要素的边界线的属性导出Excel。 给定的Excel模板如下: 结果需要输出每一段界一的起点、终点的坐标,这里以度分秒的方法表达。 每段界线的方位角以及方向,方向按16位方位角描述: …

决策规划仿真平台的搭建

以下内容笔记据来自于b站up主忠厚老实的老王,视频;链接如下: 自动驾驶决策规划算法第二章第一节 决策规划仿真平台搭建_哔哩哔哩_bilibili 使用到的软件有matlab、prescan、carsim以及visual stadio。 我电脑上软件的版本是matlab2022a&am…

华为Pura独立?或将成立全新子品牌

近日,华为官方公布了P系列将正式升级为“Pura”系列的消息,并且有可能演变成为一个全新的子品牌。多年以来,P系列一直以影像功能与颇具时尚感的设计而闻名。而这次品牌升级似乎并不局限于智能手机,经营范围似乎覆盖了手表、珠宝等…

PG 检查点管理与Oracle的比较

之前介绍过,在任何数据库中,一条DML操作执行都需要在内存中执行,但当操作越来越多,总有时候内存会写满,这时候就需要把内存中的块写入到磁盘,释放内存,保存数据。 写入到磁盘这一步,…

小米15曝光?可能会要稍微涨价

也许是感受到了智能机市场的逐渐复苏,最近各大手机品牌发售新品的速度明显加快了。从4月份的Redmi、一加,再到5月份一大堆vivo、OPPO新机型的发布。而近日,有关小米14即将发售的消息也是悄咪咪的放了出来。 去年发售的小米14可以说是狠狠地让…

Hadoop Java API操作 及读取序列化文件(04-05-06)

针对于04-05-06班级整合。 1.创建java项目 2.修改pom.xml文件 添加依赖 <dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.1.4</version></dependenc…