大模型日报|今日必读的3篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.只需半天,训练一个15亿参数小模型

德州大学奥斯汀分校团队研究了一种基于现有大型基础语言模型开发小型基础语言模型的简单方法的有效性:首先从大型语言模型中继承几个 transformer 块,然后在大型模型的原始预训练数据的极小子集(0.1%)上训练这个较小的模型。

他们将这一简单方法称为 Inheritune,并首次演示了如何使用 1B token(以及具有 3B 参数的大型语言模型的起始几层)构建具有 1.5B 参数的小型基础语言模型;他们使用单张 A6000 GPU 完成了这一工作,耗时不到半天。

在 9 个不同的评估数据集以及 MMLU 基准测试中,所得到的模型与公开的 1B-2B 大小的基础模型相比性能相当,其中一些模型使用了 50-1000 倍的 token 进行训练。

他们在一个略有不同的环境中研究了 Inheritune,即利用较大的语言模型及其完整的预训练数据集来训练较小的语言模型。他们展示了利用 GPT2-medium(3.55 亿)和 GPT2-large(7.7 亿)的部分层训练的较小语言模型,在具有 9B token 的 OpenWebText 数据集上从头开始训练时,在相同的训练步骤数下,可以有效地与较大语言模型的估值损失相媲美。

论文链接:
https://arxiv.org/abs/2404.08634
GitHub 地址:
https://github.com/sanyalsunny111/LLM-Inheritune

2.探究视觉基础模型的 3D 意识

当前的视觉基础模型不仅可以泛化到任意图像从而完成训练任务,而且它们的中间表征对于检测和分割等其他视觉任务也很有用处。既然这些模型可以对物体进行 2D 分类、划分和定位,那么它们是否也能表示物体的 3D 结构?

在这项工作中,来自密歇根大学和 Google Research 的研究团队,分析了视觉基础模型的 3D 意识。他们认为,3D 意识意味着表征(1)编码场景的 3D 结构,(2)在不同视图中对表面进行一致的表示。他们使用特定任务探针和零样本推理程序对冻结特征进行了一系列实验,揭示了当前模型的几个局限性。

论文链接:
https://arxiv.org/abs/2404.08636
GitHub 链接:
https://github.com/Cornell-RL/drpo

3.针对 RLHF 的数据集重置策略优

基于人类反馈的强化学习(RLHF)是微调生成模型的一种流行范式,已经产生了 GPT-4 和 Claude3 Opus 等强大的模型。这种框架通常包括两个步骤:从离线偏好数据集学习奖励模型,然后运行在线 RL 来优化学习到的奖励模型。

在这项工作中,来自康奈尔大学、普林斯顿大学和 Microsoft Research 的研究团队,利用重置思想提出了一种具有可证明保证的新型 RLHF 算法。受离线偏好数据集提供信息性状态(即标注者偏好的数据)这一事实的启发,他们提出的新算法——数据集重置策略优化(DR-PO)——通过数据集重置将现有的离线偏好数据集集成到在线策略训练程序中:它直接将策略优化器重置为离线数据集中的状态,而不总是从初始状态分布开始。

从理论上讲,该研究证明 DR-PO 在有限样本复杂度的一般函数近似条件下,其学习性能至少与离线数据集所涵盖的任何策略一样好。在实验中,他们证明了在 TL;DR 总结和 Anthropic Helpful Harmful 数据集上,在 GPT4 胜率指标下,DR-PO 的生成效果优于近端策略优化(PPO)和方向偏好优化(DPO)。

论文链接:
https://arxiv.org/abs/2404.08495
GitHub 地址:
https://github.com/Cornell-RL/drpo

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/545592.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何在Linux系统部署Joplin笔记并结合内网穿透实现无公网IP远程访问

文章目录 1. 安装Docker2. 自建Joplin服务器3. 搭建Joplin Sever4. 安装cpolar内网穿透5. 创建远程连接的固定公网地址 Joplin 是一个开源的笔记工具,拥有 Windows/macOS/Linux/iOS/Android/Terminal 版本的客户端。多端同步功能是笔记工具最重要的功能,…

使用jsbarcode+qrcodejs2:实现一维码+二维码的显示——基础积累

最近在写打印的功能,就是PC端页面通过调用vue-printnb插件来实现打印功能。 vue插件——vue-print-nb 实现打印功能:http://t.csdnimg.cn/NWrPc 在打印的内容当中,有一维码二维码,展示效果如下: 一维码的使用——…

DC-5渗透测试复现

DC-5渗透测试复现 目的: 获取最高权限以及5个flag 过程: 信息打点-文件包含漏洞-弹shell- scren-4.0.5提权 环境: 攻击机:kali(192.168.85.136) 靶机:DC_3(192.168.85.134) 复现: 一.信息收集 nma…

【已测 非网上加密版】全新UI彩虹站长在线工具箱系统源码下载 全开源版本

支持高达72种站长工具、开发工具、娱乐工具等功能。本地调用API、自带免费API接口,是一个多功能性工具程序支持后台管理、上传插件、添加增减删功能。 环境要求 * PHP > 7.3 * MySQL > 5.6 * fileinfo扩展 * 使用Redis缓存需安装Redis扩展 部署 * 下载源代码 …

【QT学习】6.控件进阶,C与C++的强制类型转换,自定义控件,qt制作一个简易播放器

1.C与C的强制类型转换 2.自定义控件 要求:制作一个登录页面 1.使用控件拖拽一个页面出来 使用水平布局,垂直布局,网格布局 2.建立自定义控件 1.为项目添加自定义的类 自己写一个控件 2. (1)创建一个Group Box容器 &a…

[观成科技] 加密C2框架Merlin流量分析

一、工具介绍 Merlin是一款支持多种协议的后渗透测试工具。与CS相比,由于该工具使用go语言进行开发(go语言支持跨平台编译),使得Merlin具备了跨平台的优势。该工具传输数据使用了JWE(JSON Web Encryption)…

OSI七层网络攻击行为及防范手段

2020年3月3日,360安全大脑披露美国中央情报局攻击组织(APT-C-39)对我国大型互联网公司、政府部门及相关企业进行长达11年的网络攻击渗透,该组织所使用的网络武器和CIA“Vault7”项目中的网络武器完全吻合。如今随着互联网技术的蓬…

企业吉祥物如何通过全身动作捕捉设备化身虚拟主持人亮相直播发布会?

全身动作捕捉设备已经是各大产业领域耳熟能详的词汇,尤其在虚拟主持人等新型业务的兴起,全身动作捕捉设备可以赋能虚拟主持人亮相于企业直播发布会等现场,那企业吉祥物又该如何通过全身动作捕捉设备化身虚拟主持人亮相直播发布会呢&#xff1…

cdn加速与ssl加速

cdn CDN的全称是Content Delivery Network,即内容分发网络。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。 简单的来说,就是把原服务器上数据复制到其他服务器上,用户访…

计算方法实验5:对鸢尾花数据集进行主成分分析(PCA)并可视化

任务 iris数据集包含150条数据,从iris.txt读取,每条数据有4个属性值和一个标签(标签取值为0,1,2)。要求对这150个4维数据进行PCA,可视化展示这些数据在前两个主方向上的分布,其中不…

云卓LS-01喊话器说明书-新版中文

一: 概述 LS-01 无人机喊话器适用于搭载无人机进行交通管制、现场指挥、应急救援、人群疏导、防疫宣传、景区安防、鱼塘巡视、林业防控等场景。产品具有喊话、警报、播放多媒体文件等多种功能。喊话器外壳采用尼龙加纤材质,具有抗、抗震、轻便灵活、外观新颖、质量稳…

贝叶斯公式中的先验概率、后验概率、似然概率

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和技术。关…

VectorMap论文阅读

1. 摘要 自动驾驶系统需要对周围环境具有很好的理解,包括动态物体和静态高精度语义地图。现有方法通过离线手动标注来解决语义构图问题,这些方法存在严重的可扩展性问题。最近的基于学习的方法产生稠密的分割预测结果,这些预测不包含单个地图…

总结|性能优化思路及常用工具及手段

性能优化是降低成本的手段之一,每年大促前业务平台都会组织核心链路上的应用做性能优化,一方面提升系统性能,另外一方面对腐化的代码进行清理。现结合业务平台性能优化的经验,探讨一下性能优化的思路及常用工具及手段。性能优化本…

关于下载EsayOCR模型总是连接中断报错

关于下载EsayOCR模型总是连接中断报错 因为网络问题,自动下载总是失败报错,所以只好去网上手动下载训练好的模型。 以下是一些模型的下载地址:text detection model (CRAFT) chinese (traditional) model chinese (simplified) model jap…

TCP报文与三次握手四次断开、TCP最大连接数与文件打开数限制、keepalive、tcpdump、wireshark抓包分析工具

TCP报文 tcp详解、tcp与udp对比等 TCP:传输控制协议 UDP:用户数据报协议 源端口和目的端口字段:各占 2 字节(16位)。端口是运输层与应用层的服务接口。运输层的复用和分用功能都要通过端口才能实现。 序列号:在建立…

linux学习:进程(新建+运行某文件+退出处理函数+等待)

目录 api 创建新进程 注意 运行某文件 例子 注意 例子,等待进程 进程是由进程控制块、程序段、数据段三部分组成 进程有都有一个父进程,除了init,父进程可以创建子进程 每个进程都有一个PID,可以用ps来查看,等…

目标检测应用场景—数据集【NO.30】织物缺陷图像目标检测数据集

写在前面:数据集对应应用场景,不同的应用场景有不同的检测难点以及对应改进方法,本系列整理汇总领域内的数据集,方便大家下载数据集,若无法下载可关注后私信领取。关注免费领取整理好的数据集资料!今天分享…

2024第十五届蓝桥杯 JAVA B组

目录 前言:试题 A: 报数游戏试题 B: 类斐波那契循环数试题C:分布式队列 前言: 没参加这次蓝桥杯算法赛,十四届蓝桥杯被狂虐,对算法又爱又恨,爱我会做的题,痛恨我连题都读不懂的题😭,十四届填空只…

Linux基础(持续更新~)

常见的Linux目录 1、“/”:根目录 2、“/root”:root 用户的家目录 3、“/home/username ”:普通用户的家目录 4、“/etc”:配置文件目录(类似于Windows的注册表) 5、“/bin ”:命令目录 …