transformers Trainer自定义optimizer和scheduler

article2024/12/28 17:01:37/文章来源:https://blog.csdn.net/weixin_44902962/article/details/135367949

1.需求

我自定义了一个evaluate方法，想在每一轮训练过后都执行一次。如果只是在TrainingArguments里设置warmup_steps=100，那么每轮都会重置学习率，也就是每一轮开始的时候都会按照warmup刚开始的学习率进行训练，这就很头疼。

2.解决方案

在Trainer里设置optimizers参数，它需要输入一个optimizer和scheduler的tuple，在官方文档里是这样写的：

所以我们自己设定一个optimizer和scheduler传入即可正常运行

optimizer=transformers.AdamW(model.parameters(),lr=learning_rate)
linear_scheduler = torch.optim.lr_scheduler.LinearLR(optimizer, total_iters=100)
trainer = transformers.Trainer(
    model=model,
    args=train_args,
    optimizers=(optimizer,linear_scheduler),
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    data_collator=data_collator,
)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/288083.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

Android App从备案到上架全过程

不知道大家注意没有，最近几年来，新的移动App想要上架是会非常困难的，并且对于个人开发者和小企业几乎是难如登天，各种备案和审核。但是到底有多难，或许只有上架过的才会有所体会。首先是目前各大应用市场陆续推出新的声明，各种备案截止日期到12月就要到最后期限责令整改…

MT8766安卓核心板规格参数_MTK8766核心板模块方案定制

MT8766安卓核心板：高性能、稳定可靠、集成度高的一体化解决方案 MT8766安卓核心板采用联发科MTK8766四核4G模块方案，是一款高度集成的安卓一体板。四核芯片架构，主频可达到2.0GHz，支持国内4G全网通。12nm制程工艺，支持…

全国计算机等级考试| 二级Python | 真题及解析(6)

全国计算机等级考试二级Python真题及解析(8)图文一、选择题 1．python中表达式4**3=( )。 A．12 B．1 C．64 D．7 2．在Python中，通过（）函数查看字符的编码。 …

学生公寓安全用电管理系统应用案例

摘要：安全用电是学校公寓用电管理的首要任务，这就需要对一些恶性负载进行识别和控制，同时为了减少电工和后期管理人员的成本，引进了安全用电管理系统。本文在在描述了安全用电管理系统的工作原理和利用智能电表可实现的功能后,阐明…

B端产品经理学习-B端产品系统调研的工具

系统性调研目标的工具系统性调研的目标相对于背景调研，系统行调研是对公司可控因素（公司内部）和直接作用力（消费者、竞争者）进行的调研。系统性调研需要输出结论，为达成产品或公司的战略目标而制定行动的…

Dockerfile与DockerCompose

Docker的Image结构是怎样的？ 镜像是将应用程序及其需要的系统函数库、环境、配置、依赖打包而成。镜像结构入口（ Entrypoint ） 镜像运行入口，一般是程序启动的脚本和参数层（ Layer ） 在BaseImage基…

Spring-IOC综述

文章迁移自语雀。怎么查看spring的文档 ioc综述说到spring的ioc,其实就是控制反转,为啥需要控制反转呢,其实是为了功能的增强,如果不用spring, 我们直接使用工厂方法,静态工厂方法, 都是是可以获取到对象的,但是如果需求变了,我们在类的生成时,添加了很多信息,使用工厂就不…

认真学SQL——MySQL入门之DQL多表查询

多表查询本质: 把多个表通过主外键关联关系连接(join)合并成一个大表,再去查询知识点： 外键 foreign key 外键概念: 在从表(多方)创建一个字段，引用主表(一方)的主键,对应的这个字段就是外键。外键特点： 1:从表外键的值是对主表主键…

ubuntu安装vim报Package vim has no installation candidate

解决办法: sudo apt-get update sudo apt-get upgrade 然后再安装vim即可 sudo apt install vim fr:hunkxu

Java基础-----Date类（二）

文章目录 1. LocalDate:获取本地日期2. 单独获取日期时间类中的每个值3. 使用给定值修改日期4. 设置日期和时间的偏移量5. Instant类6. DateTimeFormatter格式化和解析6.1 将LocalDate转换成字符串String格式6.2 将时间戳转换成字符串String格式6.3 将字符串解析成日期6.4 将字…

爬虫与反爬-localStorage指纹（某易某盾滑块指纹检测）（Hook案例）

概述：本文将用于了解爬虫中localStorage的检测原理以及讲述一个用于检测localStorage的反爬虫案例，最后对该参数进行Hook断点定位目录： 一、LocalStorage 二、爬虫中localStorage的案例（以某盾滑块为例） 三、如何…

安装beego

执行安装命令 go get github.com/astaxie/beego 报错换一条执行命令 go install github.com/beego/bee/v2latest 查看是否执行成功 bee version cd 到项目目录上，创建项目 bee new 项目名称成功！

无人机低空视角：针对人群密集场景的检测、跟踪和计数技术

无人机低空视角：针对人群密集场景的检测、跟踪和计数技术 DroneCrowdPaper简介数据集ECCV2020挑战DroneCrowd（完整版） DroneCrowd Paper 无人机在人群中的检测、跟踪和计数：基准研究。简介本文提出了一种时空多尺度注意力网络…

关于标准那些事——第六篇四象之“朱雀”（要素的表述）

两仪生四象——东方青龙（木）、西方白虎（金）、南方朱雀（火）、北方玄武（水） 分别对应标准编写之四象——层次的编写、要素的编写、要素的表述、格式的编排。今天来分享一下要素的表…

使用Matplotlib模拟绘制北京上海气温变化折线图

02 模拟北京上海气温变化折线图通过本练习，可以掌握如何在一个坐标系中展示多个折线图，以及如何修改折线图的颜色和样式，以及如何设置和显示图例。在一个坐标系中绘制两条折线要在一个坐标系中绘制两条这些，我们只需要进行两…

Vue：脚手架Vue-CLI的使用

一、环境准备 vue脚手架（vue-CLI）的使用是基于nodejs环境下的。你可以简单理解为，Java项目需要再jvm虚拟机上才能编译运行 nodejs的作用就是将vue文件编译成html、css、js代码文件。如何安装nodejs 参考：https://blog.csdn.net…

25道RabbitMQ面试题含答案（很全）

点击下载《25道RabbitMQ面试题含答案（很全）》 1. 什么是RabbitMQ RabbitMQ是一个开源的消息队列系统，它使用AMQP（高级消息队列协议）标准。RabbitMQ的主要目标是提供可靠的消息传递，确保消息的可靠性和顺序…

git使用(完整流程)

1. 新建仓库 1.右击 git bash 后输入 git init (仓库为:当前目录) git init name (仓库为:name文件夹) git clone https://github.com/Winnie996/calculate.git //https2.工作区域工作目录 3. 添加提交 git add . //工作区添加至暂存区 git commit -m "注释内容&q…

包围盒体积-体积计算

文章目录环境：1.1 包围盒法介绍：2.1 python代码3.1 可视化4.1 体积Calculation 环境： Open3D 1.1 包围盒法介绍： 求解离散点最优包围空间常用的凸包算法： AABB OOB 2.1 python代码 conda activete deeplabv3plus(…

UnityRenderStreaming使用记录（一）

UnityRenderStreaming 地址https://github.com/Unity-Technologies/UnityRenderStreaming 一、客户端相关 1、unity工程添加Package 2、WebRTC选Version 3.0.0-pre.6，升级会报错导入Samples 3、打开Broadcast场景二、服务器相关这里使用github上的源码&…