李宏毅【生成式AI导论 2024】第6讲 大型语言模型修炼_第一阶段_ 自我学习累积实力

背景知识:机器怎么学会做文字接龙

详见:https://blog.csdn.net/qq_26557761/article/details/136986922?spm=1001.2014.3001.5501

在语言模型的修炼中,我们需要训练资料来找出数十亿个未知参数,这个过程叫做训练或学习。找到参数后,我们可以使用函数来进行文字接龙,拿这组参数来使用叫做测试或者是叫做推论。

img

语言模型学习的三个阶段虽然训练资料不同,但都是在学习文字接龙,所有阶段做的事情是一样的。

机器学习中找参数的挑战

在机器学习中,寻找合适的参数是一个挑战。参数优化过程被称为最佳化,需要设定超参数来确定优化方法。训练过程具有随机性,有时可能会失败,导致得到的参数不符合训练资料。此时,需要换一组超参数再试一次。由于训练可能需要大量的算力,因此需要足够的计算资源来支持参数优化过程。

(1)最佳化与超参数

img

机器学习就可以帮我们根据训练资料找出符合这个训练资料的参数。这个找参数的过程又叫做最佳化,它的英文是optimization。你可以把最佳化想成是一部机器。这部机器使用前需要设定一些参数。设定这个机器的参数叫做超参数,它的英文是hyper parameter。那你设定这些超参数以后,你就决定了最佳化的方法。

把最佳化的方法固定下来之后,你把这一些训练资料丢到这个机器里面。这个机器经过一番运作以后,我就产生参数,就产生你要的结果。

但是这个训练的过程不是每一次都会成功,训练是有随机性的。有时候训练可能会失败,也就是你按下了这个机器的启动钮之后,把训练资料丢进去,经过一番运算得出来的参数结果不是你要的。所谓不是你要的意思就是说这些参数没有符合训练资料的内容。

那如果遇到这种状况,如果遇到这个训练失败,得到的这个参数没有符合训练资料的时候怎么办呢?通常常见的做法就是换一组超参数再上一次掉。当然这些超参数对于训练结果的影响还是有一些蠡路可循,但是中间的过程非常的复杂,你很难搞清楚说为什么这种超参就会给你这个结果。

所以这就是为什么大家常常说这个训练模型就需要算力,这个算力就是用在最佳化的过程,尤其是用在假设你的训练是有可能失败的,你需要换多组超参数不断的尝试,最后才可以找到一个你要的结果。那你就需要这个时候你就需要大量的算力。

可能常常听到有人说做这个机器学习或做深度学习就是调参数。这个调参数指的并不是这里我们要找的参数,这边调参数指的是这调超参数,这边找出了根据训练资料找出来的参数是自动找到的。这些参数可能有上亿个,所以你也不可能用人的力量找出来。但是超参数还是需要能设定的。所以在一做这个最佳化的过程的时候,你要去先调整这个超参数,调整成你要的样子,再把这个最佳化的过程跑下去,期待你可以。然后就开始祈祷说你最后跑出来的结果是你要的那这个超参数往往你很难设一次就得到你要的结果是需要调的。所以你才会常常听到有人说做深度学习,做机器学习就是调参数。则调参数指的是调超参数。

(2)训练成功,但测试失败(过拟合)

然而这不是找参数唯一的挑战,你还可能遇到另外一个状况,这个状况是训练成功,但是测试失败。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/498538.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Pt】马灯贴图绘制过程 02-制作锈迹

目录 一、边缘磨损效果 二、刮痕效果 三、边缘磨损与刮痕的混合 四、锈迹效果 本篇效果: 一、边缘磨损效果 将智能材质“Iron Forge Old” 拖入图层 打开“Iron Forge Old” 文件夹,选中“Sharpen”(锐化),增大“…

fpga 通过axi master读写PS侧DDR的仿真和上板测试

FPGA和ARM数据交互是ZYNQ系统中非常重要的内容。PS提供了供FPGA读写的AXI-HP接口用于两者的高速通信和数据交互。一般的,我们会采用AXI DMA的方式去传输数据,DMA代码基本是是C编写,对于FPGA开发者来说不利于维护和debug。本文提供一种手写AXI…

《思考,快与慢》揭示了决策过程中直觉反应与理性分析的关系 - 三余书屋 3ysw.net

思考,快与慢 你好,今天我们要分享的是《思考,快与慢》。作者是丹尼尔卡尼曼,2002年诺贝尔经济学奖获得者。他开辟了经济学中的一个新分支——行为经济学。在《思考,快与慢》这部作品中,他深入探讨了行为经…

JVM篇详细分析

JVM总体图 程序计数器: 线程私有的,每个线程一份,内部保存字节码的行号,用于记录正在执行字节码指令的地址。(可通过javap -v XX.class命令查看) java堆: 线程共享的区域,用来保存对…

搭建企业微信知识库,这些注意事项你必须知道

| 企业微信知识库是什么? 简单来说,企业微信知识库就是一个集中存储、管理和分享企业内部信息的置于企业微信中的系统。你可以把它想象成一个超级大的“资料库”,里面装满了公司的各种知识、文档、流程、经验等等。这个“资料库”不仅方便员工…

劳保鞋厂家与您聊聊:从事电力行业工作人员穿什么功能的劳保鞋

电力行业属于危险系数较高的行业,工作人员在工作中面临电力的潜在危险,如电击、高温、机械伤害、高空作业等风险。这就要有专业的安全设备,才能尽可能的保护电力工作人员的安全,真真正正起到防范的作用。因此,穿着合适…

学习或复习电路的game推荐:nandgame(NAND与非门游戏)、Turing_Complete(图灵完备)、logisim工具

https://www.nandgame.com/ 免费 https://store.steampowered.com/app/1444480/Turing_Complete/ 收费,70元。据说可以导出 Verilog ! logisim及其衍生版本 都需要安装java环境。 http://www.cburch.com/logisim/ 是原版, 下载页面&#…

Java的静态代理与jdk动态代理

代理 我们经常利用代理进行解耦以及控制对实际对象的访问等工作。例如,我们可以通过代理对方法的调用进行更精细的控制(例如加上日志、权限控制等),而无需修改实际对象的代码。代理的作用是无侵入式的给代码增加功能。有些事情是…

【分布式】——CAPBASE理论

CAP&BASE理论 ⭐⭐⭐⭐⭐⭐ Github主页👉https://github.com/A-BigTree 笔记链接👉https://github.com/A-BigTree/tree-learning-notes ⭐⭐⭐⭐⭐⭐ Spring专栏👉https://blog.csdn.net/weixin_53580595/category_12279588.html Sprin…

物联网实战--入门篇之(一)物联网概述

目录 一、前言 二、知识梳理 三、项目体验 四、项目分解 一、前言 近几年很多学校开设了物联网专业,但是确却地讲,物联网属于一个领域,包含了很多的专业或者说技能树,例如计算机、电子设计、传感器、单片机、网…

C++万物起源:类与对象(二)

一、类的6个默认成员函数 如果一个类中什么成员都没有,简称为空类。 空类中真的什么都没有吗? 并不是,任何类在什么都不写时,编译器会自动生成以下6个默认成员 函数。 默认成员函数:用户没有显式实现,…

DataX-Oracle新增writeMode支持update

目录 前言 第一步下载源码 第二步修改源码 1、Oraclewriter 2、WriterUtil 2.1、修改getWriteTemplate方法 2.2、新增onMergeIntoDoString与getStrings方法 3、CommonRdbmsWriter 3.1、修改startWriteWithConnection 3.2、修改doBatchInsert 3.3、修改fillPreparedStatem…

红酒:红酒分类与消费者教育的重要性

在红酒的世界里,品种繁多,口感各异。对于消费者而言,了解红酒的分类以及接受相关的消费者教育至关重要。云仓酒庄雷盛红酒作为业界的持续发展者,深知这一点,致力于为消费者提供品质的教育内容,帮助他们更好…

Verilog语法之case语句学习

case分支语句是一种实现多路分支控制的分支语句。与使用if-else条件分支语句相比,采用case分支语句来实现多路控制会变得更加的方便直观。 case分支语句通常用于对微处理器指令译码功能的描述以及对有限状态机的描述。Case分支语句有“case”、“casez”、“casex”…

MybatisPlus学习总结

MybatisPlus.xmind 一、MybatisPlus快速入门 1.基本介绍 官网: 简介 | MyBatis-Plus MyBatis Plus是一个基于MyBatis的增强工具,它简化了MyBatis的使用,提供了一系列的增强功能,使开发更加方便快捷。 MyBatis Plus的主要特点包括&#xff…

3月23日笔记

广播域与泛洪范围是相同的 广播:在同一个泛洪范围内,强迫交换机泛洪(主动) 泛洪(被动) ARP的工作原理:ARP先通过广播发送请求包,所有收到该广播包的设备都会将其中的源IP和源MAC相…

《Vision mamba》论文笔记

原文出处: [2401.09417] Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model (arxiv.org) 原文笔记: What: Vision Mamba: Efficient Visual Representation Learning with Bidirectional St…

【Python】#2 基本数据类型

文章目录 一、数字类型1. 整数类型2. 浮点数类型tips&#xff1a;为什么浮点数计算的小数部分经常“错误”&#xff1f;如 为什么0.10.20.3在计算机中不为真 3. 复数形式<classcomplex>4. 数字类型的操作符与部分函数tips: 数字类型的类型提升tips:Python中除法 基本数据…

电商控价的效果有哪些

品牌在做价格治理时&#xff0c;肯定是不再希望线上平台出现低价、窜货链接&#xff0c;但现实却难如品牌所愿&#xff0c;有几个难以实现的原因&#xff0c;首先&#xff0c;电商平台链接上架下架是很容易的&#xff0c;此刻将链接治理下架&#xff0c;下一刻店铺可能又会再上…

《QT实用小工具·二》图片文字转base64编码

1、概述 源码放在文章末尾 base64编码转换类 图片转base64字符串。base64字符串转图片。字符转base64字符串。base64字符串转字符。后期增加数据压缩。Qt6对base64编码转换进行了重写效率提升至少200%。 下面是demo演示&#xff1a; 项目部分代码如下所示&#xff1a; #ifn…