大白话讲解AI大模型

大白话讲解大模型

    • 大模型的发展
        • 重要大模型发展时间线
    • 大模型的简单原理-训练
    • ⼤模型是如何训练并应⽤到场景中的?
      • 如果训练私有化模型

模型:model
语料库:用于训练模型的数据


大模型的发展

详细信息来源:DataLearner

2022年11月底,ChatGPT横空出世,全球都被这样一个“好像”有智能的产品吸引。随后,工业界、科研机构开始疯狂投入大模型。在2023年,这个被称为大模型元年的年份,有很多令人瞩目的AI产品与模型发布。

ChatGPT最主要的贡献是证明了大力出奇迹的可能性。在证明了这个理论之后,各种AI的发展得以快速推进。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

重要大模型发展时间线

二月份

  • LLaMA:第一个开源的重要大模型,它推动了整个行业的发展,并且促使我国出现了各种各样的大模型。
  • MOSS:复旦开源的大模型,效果一般。
  • ControlNet:在图片的局部重绘方面地位非常高,能够保持图片的一致性(风格或人物形象)。

三月份

  • Alpaca:重要的里程碑,首次将大模型微调的概念传递给大众,使用简单的方法对LLaMA进行了微调,奠定了微调的基础。
  • 其他重要模型:如ChatGLM、GPT-4、文心一言等。AutoGPT是第一个提出Agent概念的模型,能够自动完成任务,如创建网站等。
  • MidjourneyV5:图片生成的里程碑。

四月份

  • Stable Diffusion XL 1.0:图片生成领域的代表性工作,完全开源。
  • Vicuna 13B:学习大模型微调的开源代码首选,详细说明了transformer模型的搭建。

五月份

  • QLoRA:微调的一种方式。

六月份

  • Runway Gen2:使用AI生成电影的开端。

七月份

  • Llama 2Claude 2新鲜出炉。

八月份

  • 没有特别的模型发布。

九月份

  • Mistral 7B:英文开源大模型,之前的大部分模型都是基于Llama的。

十月份

  • 没有特别的模型发布。

十一月份

  • GPTs:较为失败的模型。
  • Yi-34B:中文开源大模型,效果较好,许多公司选择它。
  • 国内开源大模型:如ChatGLM3=Yi-34B>百川。
  • Pika:生成视频,当时很火。

十二月份

  • Mixtral 8×7B MoE:MoE模型,嵌入了8个Mixtral模型,共同决策的方法论。
  • Phi-2:用更小的模型完成大模型的任务。

大模型的简单原理-训练

简单来说大模型:就是大力出奇迹,就是把一堆数据灌进去,它就形成了你的大脑
在这里插入图片描述

大模型的原理可以简化为“数据灌输形成智能”。目前最常用的模型是transformer神经网络,2017年提出,解决了seq2seq的问题并适用于更复杂的场景。OpenAI验证了“大力出奇迹”的理论。)

当我们问一句话的时候,通过模型进行处理,最后输出结果。首先要考虑的上,当我们肉眼看到我们问的问题的时候我们是能理解它的意思的,那么怎么让机器去理解它的意思就是一个问题。

在12年开始就有人研究这个事情,提出词向量(world wect)使用向量去存储,输入的每句话都可以对应在向量上,我们可以根据向量的加速度比较两句话的意思是否相近,可以在向量空间里表示出来。我们的文字通过transformer能让模型理解我们说的是什么意思。

基于transformer打造的模型例如ChatGpt、文心一言、1000b、2000b等只是区别于他们的大小和transformer每层的参数不一样、层数可能会更多等等宏观的设计上。

我们一般用autoregressive的方式去训练transformer,假设我们现在训练的是“我上一段token”这一句话。那么我们假设“上一段“是一个token,这一段token进入transformer之后,希望他能预测下一个单词—token。假设我先给模型的是上一段t,那么我希望模型预测出来接下来的语句是oken。有点像高中初中的完形填空。最后学出来的模型就是大模型。

在这里就有一个问题为什么这样训练出来的模型就是大模型呢?

举例:我们学习英文一般都是主谓宾宾补等等,但是现在还有一种方式就是我们根本不看这些而是去阅读大量的书籍或者看美剧等等,看的多了说的多了读的多了,当其他人用英文给你聊天的时候你自然而然的就知道他下面要接什么,这就是语感。

假设我们现在有已经训练好的模型了

那么假设我现在输入给大模型“大模型简单”,那么大模型会根据这几个字往后面跟什么给我做一个补充。它背后会有一个分布,就是下一个词的概率,例如 吗?-70%概率,死了-20%概率等等词,并且所有单子概率加在一起等于1,所以它是具备随机性的。然后还有一个标准比如遇到一个句号停止生成,或者到达某个标准停止生成。例如限制它的token等等。

因为我们获取结果的方式上在分布里去采样,如果我们想发散率小一点那么我们只需要取前面概率大的,如果我们想发散率高一点那么我们可以取概率小的。所以我们可以在文字生成的时候可以对大模型进行控制也就是gpt等AIP中的参数

⼤模型是如何训练并应⽤到场景中的?

大模型的构造和应用那个环节上最重要的(加粗)

1、数据

2、模型数据(transformer)

3、模型训练(大模型微调 deepspeed对齐)标准化,以后会有一些软件可以直接可视化训练不需要技术

4、benchmark(评测标准用来评测模型训练的好坏)

5、moeory内存(让大模型根据PDF、数据库、企业的数据回答一些问题)

6、搜索技术(在向量数据库中搜索一些相似的,还有一些query优化等等)

7、RAG

如果解决企业中遇到的一些问题

  1. 基于现有模型(如GPT-4、通义千问)—缺点:大模型越狱可能会胡言乱语
    • App通过prompt去限制访问GPT4
    • App通过prompt先去向量数据库中做查询然后跟prompt合并,在请求GPT4
    • Agent 就是让大模型可以按照我们任务的描述一步步生成我们想要的东西最后合并
  2. 训练私有模型

如果训练私有化模型

假设我们现在要构建一个保险领域的大模型–从0开始

  1. 预训练(Pre-training)

    1. model Design:
      • 确定模型的规模(Size)
      • 设计模型的结构,包括层数和每层的架构(architecture)
      • 构建词库,尤其是保险领域的术语
      • 决定模型是中文模型还是英文模型
    2. 确认应用场景
      • 明确模型需要具备的能力
      • 目标是垂直领域(保险领域),而非通用领域
      • 设定目标:使模型在保险领域的表现超越或达到GPT的水平
    3. 设计评测标准(Benchmark Design):
      1. 设计评测标准,用于确保和验证模型的能力
    4. 数据设计
      • 什么样的数据能够满足模型的应用场景呢(学什么的数据)
        1. 中文占多数
        2. 英文少量
        3. 数据量(语料库处理完之后剩下大概 1T token—> 1000b token —>1w亿的token)
          1. 为了抽取这些token我们要大概多少数据Row->Token
          2. 100G -->理想情况能抽取10B token
          3. 数据配比 都是玄学必须实战
            1. 重要数据比例最大 但是占用到底上多少需要测试
            2. 垂直数据和通用数据之间的数据配比 (一般通用比垂直稍微多一点点)
            3. 数据源配比
      • 金融领域的数据 vertical
      • 保险领域的数据 vertical
      • 通用领域的数据 --通用的知识 general vertical
      • 举例:通用数据奠定了基本能力(本科),专业领域数据奠定了入职前的的能力(硕士),然后才能开始工作 ---->gap
    5. 数据清洗
      • 重复数据要干掉
      • 符号等等
    6. 语料库最后转行为 100B Token
    7. 模型预训练
      • 使用100B Token进行模型学习,得到基础能力模型(Pre-trained model)
      • 例如,ChatGLM-7B-Base是一个预训练模型
      • 预训练需要至少200-300张GPU卡
      • 初步训练后的模型能进行基本对话,但效果有限
      • 相当于一个刚出学校的大学生什么都会,但是有不太会,产出不了一些价值
  2. 微调FineTune LLM-Base(底座 预训练模型) LLM-Chat(微调过的模型)

    1. 金融本科生(PreTrain) + 能力(跟客户的沟通能力,保险常见问题回答)FineTranel----->产出价值 (保险领域智能客服)
    2. FineTranel最主要要了解从PreTrain到保险领域智能客服 到底需要哪些东西
      1. 沟通
        1. General 沟通 —> 收集大量对话
        2. Vertical 沟通 ----->保险领域对话
      2. 常见问题回答 ---->常见问题解决方案
      3. 将上面的对话–业务场景相关 等等多样化数据 将不同场景都要覆盖到 Diverse数据做成Date<input,output>
      4. 将Date进行数据清理 然后进行训练
      5. 使用LoRA的方式用最少的数据出最大的成功进行训练,不影响第一次训练
      6. instruction following能力 能按照用户的要求完成一些任务
    3. 模型的推理inference
  3. 对齐Alignment (培养规范人才) ->human preference

    1. 微调完毕后,模型可能仍会产生不符合预期的输出。

      1. Hallucination(幻觉):模型生成虚假或不相关的内容。

      2. Safety(安全性):确保模型不会生成有害或不适当的内容。

    2. 需要通过对齐技术(如SFT,Supervised Fine-Tuning,即监督微调)进一步训练模型,使其能够按照预期解决问题。

    3. 使用强化学习技术(如PPO,Proximal Policy Optimization)DPO进行对齐,确保模型按规范处理问题。

    4. PreTrain(本科未毕业)---->SFT(Superxxxxxx)培训具备能力解决实际问题---->Alignment具备了能力但是不按规范办事

  4. 得到一个最终的通用金融Model

  5. 开发

    1. 将公司的专属文档切分为trunk,然后存在一个向量数据库,为我们的大模型进行服务
      1. 产品文档
      2. 规范文档
      3. 造价
      4. 等等
  6. 应用

推荐资料

GitHub - HqWu-HITCS/Awesome-Chinese-LLM: 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/791062.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JVM相关知识点汇总

JDK,JRE以及JVM的关系 我们的编译器到底干了什么事? 仅仅是将我们的 .java 文件转换成了 .class 文件,实际上就是文件格式的转换,对等信息转换。 类加载机制是什么? > **所谓类加载机制就是** > ``` > 虚拟机把Class文件加载到内存 > 并对数据进行校验,转换…

web安全及内网安全知识

本文来源无问社区&#xff08;wwlib.cn&#xff09;更多详细内容可前往观看http://www.wwlib.cn/index.php/artread/artid/7506.html Web安全 1、sql注入 Web程序中对于用户提交的参数未做过滤直接拼接到SQL语句中执行&#xff0c;导致参数中的特殊字符破坏了SQL语句原有逻…

qt 用数据画一个图,并表示出来

1.概要 想用数据绘制一个画面&#xff0c;看有相机到播放的本质是啥。 要点 // 创建一个QImage对象&#xff0c;指定图像的宽度、高度和格式 QImage image(width, height, QImage::Format_Grayscale8); // 将像素数据复制到QImage对象中 memcpy(image.bits(), pixelD…

【Linux网络】IP协议{初识/报头/分片/网段划分/子网掩码/私网公网IP/认识网络世界/路由表}

文章目录 1.入门了解2.认识报头3.认识网段4.路由跳转相关指令路由 该文诸多理解参考文章&#xff1a;好文&#xff01; 1.入门了解 用户需求&#xff1a;将我的数据可靠的跨网络从A主机送到B主机 传输层TCP&#xff1a;由各种方法&#xff08;流量控制/超时重传/滑动窗口/拥塞…

PTC可复位保险丝 vs 传统型保险丝:全面对比分析

PTC可复位保险丝&#xff0c;又称为自恢复保险丝、自恢复熔断器或PPTC保险丝&#xff0c;是一种电子保护器件。它利用材料的正温度系数效应&#xff0c;即电阻值随温度升高而显著增加的特性&#xff0c;来实现电路保护。 当电路正常工作时&#xff0c;PTC保险丝呈现低阻态&…

最新浪子授权系统网站源码 全开源免授权版本

最新浪子授权系统网站源码 全开源免授权版本 此版本没有任何授权我已经去除授权&#xff0c;随意二开无任何加密。 更新日志 1.修复不能下载 2.修复不能更新 3.修复不能删除用户 4.修复不能删除授权 5.增加代理后台管理 6.重写授权读取文件 7.修复已经知道漏洞 源码下…

2-30 基于matlab的神经网路下身份证号码识别算法

基于matlab的神经网路下身份证号码识别算法&#xff0c;二值化、膨胀处理、边界区域划分、身份证字符分割&#xff0c;字符识别算法&#xff0c;输出识别结果。并保存识别结果。程序已调通&#xff0c;可直接运行。 2-30 神经网络 身份证识别 图像处理 - 小红书 (xiaohongshu.c…

jdk中自带的并发类

1、seamplore 信号量 countDownLaunch&#xff1a;等待所有线程都完成&#xff0c;主线程在执行 CyclicBarrirer 内存屏障 exchanger 线程之间交换数据 phaser 阶段协同器 阻塞队列

【高中数学/对数函数】比较a=ln2/2,b=ln5/5的大小

【问题】 比较aln2/2,bln5/5的大小 【解答】 a-bln2/2-ln5/5(5*ln2-2*ln5)/10(ln2^5-ln5^2)/10(ln32-ln25)/10>0 所以a>b 【图像】 如果绘出函数ylnx/x的图像&#xff0c;再标记出a,b的位置&#xff0c;则绘出图像如下&#xff1a; 由上图可以看出&#xff0c;a,b两…

数据库数据恢复—SQL Server数据库由于存放空间不足报错的数据恢复案例

SQL Server数据库数据恢复环境&#xff1a; 某品牌服务器存储中有两组raid5磁盘阵列。操作系统层面跑着SQL Server数据库&#xff0c;SQL Server数据库存放在D盘分区中。 SQL Server数据库故障&#xff1a; 存放SQL Server数据库的D盘分区容量不足&#xff0c;管理员在E盘中生…

2025最新付费进群系统源码 修复版

2025最新付费进群系统 修复一堆bug 修复分销无法添加 易支付只能在文件里更改等等问题 源码下载&#xff1a;https://download.csdn.net/download/m0_66047725/89515782 更多资源下载&#xff1a;关注我。

Qt基础控件总结—多页面切换(QStackWidget类、QTabBar类和QTabWidget类)

QStackedWidget 类 QStackedWidget 类是在 QStackedLayout 之上构造的一个便利的部件,其使用方法与步骤和 QStackedLayout 是一样的。QStackedWidget 类的成员函数与 QStackedLayout 类也基本上是一致的,使用该类就和使用 QStackedLayout 一样。 使用该类可以参考QStackedL…

初阶数据结构—排序

第一章&#xff1a;排序的概念及其运用 1.1 排序的概念 排序&#xff1a;所谓排序&#xff0c;就是使一串记录&#xff0c;按照其中的某个或某些关键字的大小&#xff0c;递增或递减的排列起来的操作。 稳定性&#xff1a;假定在待排序的记录序列中&#xff0c;存在多个具有…

攻防世界 Web_python_template_injection(flask模版注入)

学习文章&#xff1a;https://www.freebuf.com/column/187845.html https://blog.csdn.net/weixin_54515836/article/details/113778233 flask的渲染方法有render_template和render_template_string两种。 render_template()是用来渲染一个指定的文件的。使用如下 return re…

Spring Web MVC入门(1)(建立连接)

一.什么是Spring Web MVC? Spring Web MVC是基于ServletAPI构建的原始Web框架,从一开始就包含在Spring框架中.它的正式名称"Spring Web MVC"来自其源模块的名称(Spring-webmvc),但它通常被称为"Spring MVC". 二.MVC的定义 MVC是Model View Controller的缩…

康谋分享 | 自动驾驶联合仿真——功能模型接口FMI(三)

在之前的两篇文章中&#xff08;文末往期回顾中可查看&#xff09;&#xff0c;我们主要介绍了功能模型接口FMI的主要组成部分和一些使用场景&#xff0c;今天就以康谋自动驾驶仿真软件aiSim为例&#xff0c;来展示一下如何建立一个FMU并实现基于UDP和FMI联合仿真&#xff08;c…

【数智化CIO展】鲁泰建材CIO张兵:全力投入,发现需求,是数智化转型的第一步...

张兵 本文由鲁泰建材CIO张兵投递并参与由数据猿联合上海大数据联盟共同推出的《2024中国数智化转型升级优秀CIO》榜单/奖项评选。丨推荐企业&#xff1a;数睿数据 大数据产业创新服务媒体 ——聚焦数据 改变商业 随着全球经济的持续发展和科技的不断进步&#xff0c;数字化转型…

基于JavaSpringBoot+Vue+uniapp微信小程序校园宿舍管理系统设计与实现(论文7000字参考+源码+LW+部署讲解)

博主介绍&#xff1a;硕士研究生&#xff0c;专注于信息化技术领域开发与管理&#xff0c;会使用java、标准c/c等开发语言&#xff0c;以及毕业项目实战✌ 从事基于java BS架构、CS架构、c/c 编程工作近16年&#xff0c;拥有近12年的管理工作经验&#xff0c;拥有较丰富的技术架…

【STM32学习】stm32cubemx基础配置,点亮/闪烁一个LED灯

1、cubemx开始 打开cubemx&#xff0c;在help栏中&#xff0c;点击&#xff0c;选择安装你所需要的stm32芯片版本&#xff0c; 打开后&#xff0c;选择你所配置的芯片型号&#xff0c;如我配置的是stm32f4系列&#xff0c;勾选&#xff0c;点击Install。 安装好后&#xff0c;…

E. Beautiful Array(cf954div3)

题意&#xff1a;给定一个数组&#xff0c;可以先对数组进行任意排序&#xff0c;每次操作可以选择一个ai&#xff0c;将它变成aik&#xff0c; 想让这个数组变成一个美丽数组&#xff08;回文数组&#xff09;&#xff0c;求最少操作次数 分析&#xff1a; 先找出相同的数字…