huggingface 笔记:PretrainModel

1 from_pretrained

  • 从预训练模型配置中实例化一个 PyTorch 预训练模型
  • 默认情况下,模型使用 model.eval() 设置为评估模式(Dropout 模块被禁用)
    • 要训练模型,应该首先使用 model.train() 将其设置回训练模式

1.1 主要参数

pretrained_model_name_or_path

需要加载的模型,可以是:

  • 一个字符串,huggingface.co 上一个模型库中的预训练模型ID。
  • 一个目录路径,包含使用 save_pretrained() 保存的模型权重,例如 ./my_model_directory/
from_tf

(bool, 可选,默认为 False) -

从 TensorFlow 检查点保存文件中加载模型权重

force_download

(bool, 可选,默认为 False) -

是否强制(重新)下载模型权重和配置文件,覆盖已存在的缓存版本

local_files_only(bool, 可选,默认为 False) - 是否只查看本地文件(即,不尝试下载模型)

1.1.1 大模型推理相关主要参数

torch_dtype

(str 或 torch.dtype, 可选) — 覆盖默认的 torch.dtype,并在特定的数据类型下加载模型

  • torch.float16 或 torch.bfloat16 或 torch.float:在指定的数据类型下加载
  • "auto" - 将尝试使用模型的 config.json 文件中的 torch_dtype 条目。如果没有找到此条目,则检查checkpoint中第一个浮点类型的权重的数据类型,并使用该数据类型加载模型。
device_map
  • 指定每个子模块应该去的设备的映射
quantization_config

huggingface 笔记:AutoTokenizer,AutoClass-CSDN博客

一个量化配置参数字典

1.2 举例

from transformers import LlamaModel

m=LlamaModel.from_pretrained('meta-llama/Meta-Llama-3-8B')
m

2 can_generate

  • 该模型是否能够使用 .generate() 方法生成序列。
  • 该函数返回一个布尔值,指示该模型是否支持使用 .generate() 方法来生成序列。
  • 这通常用于判断某个模型是否具备生成文本的能力,例如语言模型或文本到文本的转换模型。
m.can_generate()
#False

3 get_input_embeddings

返回模型的输入嵌入,即将词汇映射到隐藏状态的 PyTorch 模块

m.get_input_embeddings()
#Embedding(128256, 4096)

get_memory_footprint

获取模型的内存占用(以字节为单位)

m.get_memory_footprint()
#30019706880

get_output_embeddings

返回模型的输出嵌入,即将隐藏状态映射到词汇的 PyTorch 模块

init_weights

初始化权重

7 resize_token_embeddings

resize_token_embeddings(new_num_tokens)
  • 嵌入矩阵中的新令牌数量。
    • 增加大小将在末尾添加新初始化的向量。
    • 减少大小将从末尾移除向量。
    • 如果未提供或为 None,则只返回指向模型的输入令牌 torch.nn.Embedding 模块的指针,不进行任何操作。

8 set_input_embeddings

set_input_embeddings(value: nn.Module)

自定义模型的输入嵌入层,通过提供一个新的 nn.Module 来替换默认的输入嵌入

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/641763.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python 渗透测试:Redis 数据库 弱密码测试.(6379端口)

什么是 Redis 数据库 Redis (Remote Dictionary Server) 是一个开源的、内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。它支持多种类型的数据结构,如字符串(strings)、哈希(hashes)、列表(lists)、集合(sets)、有序集合(sorted sets)等&#xff0…

抖音运营_如何做出优质的短视频

目录 一 短视频内容的构成 1 图像 2 字幕 3 声音 4 特效 5 描述 6 评论 二 短视频的热门类型 1 颜值圈粉类 2 知识教学类 3 幽默搞笑类 4 商品展示类 5 才艺技能类 6 评论解说类 三 热门短视频的特征 1 产生共鸣 2 正能量 3 紧跟热点话题 4 富有创意 四 短视…

Android 项目中自定义多个 RadioButton 并排一列选择效果实现

文章目录 1、静态版实现1.1、实现要求1.2、实现步骤1.3、代码实现1.4、代码实现说明1.5、结论 2、项目版实现(动态)1、先看效果图2、main的布局文件3、定义RadioButton的属性4、最后在代码中生成我想要的东东5、说明 3、后续优化方向 1、静态版实现 1.1、实现要求 我们需要在…

Java:图书管理系统

目录 一.book 1.在book包中的Book 类用来定义和引用书的名字,作者,价格,类型等。 2.在book包中的第二个类是BookList是用来构建书架,和书架上的初始书本, 二、ioperations 1.AddOperation (增加图书) 2.BorrowOp…

港湾周评|京东图书遭抵制不赢不输

《港湾商业观察》李镭 临近618前夕,数十家出版社抵制京东的消息引发全民关注。一定程上,本就生意冷门或不太赚钱的图书市场,随着这次群起抵制行动,更像是一场行业的反击。 不过,平台有平台的销售策略,毕竟…

特殊变量笔记2

案例需求 在demo4.sh中循环打印输出所有输入参数, 体验$*与$的区别 实现步骤 编辑demo4.sh脚本文件 # 增加命令: 实现直接输出所有输入后参数 # 增加命令: 使用循环打印输出所有输入参数演示 编辑demo4.sh文件 直接输出所有输入参数, 与循环方式输出所有输入参数(使用双引…

工厂生产管理系统

为应对一些国内验厂,如大疆等,他们需要客户有自己的生产管理系统的,但实际很多公司是没有引入ERP这类的系统的,从而想开发一套简单的生产管理系统。 参考了网上一个比较古老的StorageMange项目,此项目用到DevExpress的…

体量小但增速快,国内OTA平台与国际巨头差在哪?

5月3日,Booking、Expedia等国际OTA平台相继发布2024年第一季度财报。5月21日,携程发布2024年第一季度财报。至此,国内外主要OTA平台一季度成绩单均已披露。 受益于全球旅游市场复苏,三家OTA平台一季度营收同比均正向增长。增长之…

码蹄集部分题目(2024OJ赛16期;单调栈集训+差分集训)

&#x1f9c0;&#x1f9c0;&#x1f9c0;单调栈集训 &#x1f96a;单调栈 单调递增栈伪代码&#xff1a; stack<int> st; for(遍历数组) {while(栈不为空&&栈顶元素大于当前元素)//单调递减栈就是把后方判断条件变为小于等于即可{栈顶元素出栈;//同时进行其他…

Linux系统下Mysql忘记密码怎么解决

一、对Mysql配置文件进行设置 1、找到/etc/mysql/my.cnf路径下&#xff0c;用Vi命令编辑my.cnf配置文件&#xff0c;命令如下&#xff1a; # 以管理员身份登录 sudo su # 输入管理员密码 # 登录成功后&#xff0c;找到Mysql的配置文件-->Mysql配置文件默认在此 cd /etc/my…

M功能-支付平台(三)

target&#xff1a;离开柬埔寨倒计时-221day 前言 今天周六&#xff0c;但是在柬埔寨还是工作日&#xff0c;想着国内的朋友开始休周末就羡慕呀&#xff0c;记不清在这边过了多少个周六了&#xff0c;多到我已经习惯了。而且今天技术部还停电了&#xff0c;真的是热的受不了呀…

Autodesk 3ds Max下载,3ds MAX 2024三维建模渲染软件安装包下载安装

3ds MAX中文版&#xff0c;其强大的功能和灵活的操作为广大用户提供了无限的创意空间&#xff0c;使得高质量动画、最新游戏、设计效果等领域的制作需求得以完美满足。 ​ 作为一款三维建模软件&#xff0c;3ds MAX中文版具备极高的建模精度和渲染质量。它支持多种建模方式&am…

cocos 通过 electron 打包成 exe 文件,实现通信问题

cocos 通过 electron 打包成 exe 文件&#xff0c;实现通信问题 首先&#xff0c;我使用的 cocos 版本是 2.4.12&#xff0c;遇到一个问题&#xff0c;是啥子呢&#xff0c;就是我要把用 cocos 开发出来的项目打包成一个 exe 可执行程序&#xff0c;使用的是 electron &#xf…

向传音手机学习产品市场定位与产品需求定义

2024 年第一季度全球智能手机发货量同比增长 11%&#xff0c;排在第一名的是三星&#xff0c;占比 21%&#xff0c;苹果占比 17% 排在第二位&#xff0c;小米 14%排在第三名&#xff0c;传音手机10% 排在第四位&#xff0c;OPPO为 9% 排在第五名。 「非洲之王」传音手机表现十…

Vulhub——adminer

文章目录 一、CVE-2021-21311&#xff08;SSRF&#xff09;二、CVE-2021-43008&#xff08;远程文件读取&#xff09; 一、CVE-2021-21311&#xff08;SSRF&#xff09; Adminer是一个PHP编写的开源数据库管理工具&#xff0c;支持MySQL、MariaDB、PostgreSQL、SQLite、MS SQL…

基本IO接口

引入 基本输入接口 示例1 示例2&#xff1a;有数据保持能力的外设 #RD端由in指令控制&#xff1a;将数据由端口传输到CPU内存中 #CS244信号由译码电路实现 示例3&#xff1a; a)图中由于输出端口6有连接到端口1&#xff0c;当开关与端点1闭合时期间&#xff0c;仍能维持3端口…

3D 生成重建013-ProlificDreamer将SDS拓展到VSD算法进行高质量的3D生成

3D 生成重建013-ProlificDreamer将SDS拓展到VSD算法进行高质量的3D生成 文章目录 0论文工作1论文方法2效果 0论文工作 **分数蒸馏采样&#xff08;SDS&#xff09;**通过提取预先训练好的大规模文本到图像扩散模型&#xff0c;在文本到3d生成方面显示出了巨大的前景&#xff0…

软考-程序员 知识点与部分真题梳理

软考-程序员 知识点与部分真题梳理 参照《程序员教程》第五版划分类别&#xff1b; 持续更新中… 计算机系统基础知识 如何理解和处理浮点数的加减法运算 在计算机科学中&#xff0c;处理浮点数的表示和运算是基础且关键的&#xff0c;尤其是在进行科学计算、图形处理和数据分…

Autodesk 3DS Max v2025 解锁版安装教程 (3D 建模软件)

前言 Autodesk 3ds Max 是一款功能强大的 3D 建模和动画解决方案&#xff0c;游戏开发人员、视觉效果艺术家和平面设计师使用它来创建庞大的世界、令人惊叹的场景和引人入胜的虚拟现实 (VR) 体验。 Autodesk 3DS MAX是业界使用最广泛的3D建模和动画软件程序之一&#xff0c;它…

泪目!网络连接中断的原因,终于找到了!

朋友们&#xff0c;出大事了&#xff01; 不知道多少朋友玩过 DNF 这个游戏&#xff0c;这个我从小学玩到大学的 “破” 游戏&#xff0c;昨天竟然出手游了&#xff01; 我都忘了自己曾几何时预约过这个手游通知&#xff0c;昨天给我发了条通知信息说游戏已开服。 老玩家直接…