大模型日报|4 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.ChatGLM 技术报告:从 GLM-130B 到 GLM-4 AII Tools

GLM 技术团队介绍了 ChatGLM,这是一个不断发展的大语言模型系列。本报告主要关注 GLM-4 语言系列,包括 GLM-4、GLM-4-Air 和 GLM-4-9B。它们代表了 GLM 技术团队推出的前沿模型,这些模型是在吸取了前三代 ChatGLM 的所有经验和教训的基础上训练出来的。迄今为止,GLM-4 模型已在 10 万亿个 token(主要是中文和英文)以及 24 种语言的小型语料库上进行了预训练,并主要针对中文和英文的用法进行了对齐。高质量的对齐是通过多阶段的后训练过程实现的,其中包括监督微调和从人类反馈中学习。

评估结果表明,GLM-4 在 MMLU、GSM8K、MATH、BBH、GPQA 和 HumanEval 等通用指标方面与 GPT-4 非常接近,甚至优于 GPT-4;在指令跟随方面接近 GPT-4-Turbo(以 IFEval 衡量);在长上下文任务方面比肩 GPT-4 Turbo (128K) 和 Claude 3;在中文对齐方面优于 GPT-4(以 AlignBench 衡量)。

GLM-4 All Tools 模型经过进一步对齐,能够理解用户意图,并自主决定何时以及使用哪种工具(包括网络浏览器、Python 解释器、文本到图像模型以及用户自定义函数)来有效完成复杂任务。在实际应用中,GLM-4 All Tools 在通过网页浏览访问在线信息和使用 Python 解释器解决数学问题等任务中的表现超过了 GPT-4 All Tools。

GLM 技术团队开源了一系列模型,包括 ChatGLM-6B(1、2、3 代)、GLM-4-9B(128K、1M)、GLM-4V-9B、WebGLM 和 CodeGeeX,仅在 2023 年就在 Hugging Face 上吸引了超过 1000 万次下载。

论文链接:
https://arxiv.org/abs/2406.12793
GitHub 地址:
https://github.com/THUDM
Hugging Face 地址:
https://huggingface.co/THUDM

2.BPO:与行为 LLM 相近的在线偏好优化

根据偏好直接对齐(DAP)已经成为一种很有前途的范式,它可以根据预先收集的离线偏好数据集,将大语言模型(LLM)与人类的需求对齐。

最近的研究表明,现有的离线 DAP 方法可以直接受益于在线训练样本。然而,来自加州大学圣塔巴巴拉分校和卡内基梅隆大学的研究团队强调有必要开发特定的在线 DAP 算法,从而充分利用在线训练的优势。

具体来说,他们认为学习到的 LLM 应与收集训练样本的行为 LLM 保持一致。为此,他们提出了与行为 LLM 相近的在线偏好优化(BPO),强调了为 LLM 对齐构建适当信任区域的重要性。

他们进行了广泛的实验,通过将他们的方法与各种 DAP 方法整合,验证了它的有效性和适用性,结果发现,在使用相同数量的偏好数据进行训练时,他们的方法在各种任务中都取得了显著的性能提升。即使只引入了一个额外的数据收集阶段,他们的在线 BPO 在 TL;DR 和 Anthropic Helpfulness 两项任务中的胜率也分别从 72.0% 和 82.2% 提高到了 80.2%和 89.1%。

论文链接:
https://arxiv.org/abs/2406.12168
GitHub 链接:
https://www.jenmusic.ai/research#DreamStyler

3.JEN-1 DreamStyler:通过参数微调定制音乐概念学习

目前,文生音乐大模型已经取得了重大进展,这有助于根据所提供的文本提示创作出高质量和多样化的音乐作品。然而,输入文本提示可能无法准确捕捉用户需求,尤其是当目标是生成体现从指定参考集合中提取的特定概念的音乐时。

来自 Futureverse 的研究团队提出了一种定制文生音乐的新方法,它可以从两分钟的参考音乐中捕捉概念,并生成符合概念的新音乐。他们通过使用参考音乐微调预训练的文生音乐模型来实现这一目标。

然而,直接微调所有参数会导致过拟合问题。为此,他们提出了一种关键参数微调方法,使模型在吸收新概念的同时保留其原有的生成能力。此外,在对预训练模型提出了多个概念时,他们还发现了潜在的概念冲突。他们提出了一种概念增强策略来区分多个概念,使微调模型能够同时生成包含单个或多个概念的音乐。在定性和定量评估中,他们提出的 Jen1-DreamStyler 均优于几种基线。

论文链接:
https://arxiv.org/abs/2406.12292

4.DeepSeek-AI 推出开源 MoE 代码语言模型 DeepSeek-Coder-V2

来自 DeepSeek-AI 的研究团队提出了一种开源的专家混合(MoE)代码语言模型 DeepSeek-Coder-V2,在代码特定任务中实现了与 GPT4-Turbo 相当的性能。具体来说,DeepSeek-Coder-V2 是在 DeepSeek-V2 的中间检查点基础上进一步预训练的,额外增加了 6 万亿个 token。通过这种持续的预训练,DeepSeek-Coder-V2 大幅增强了 DeepSeek-V2 的编码和数学推理能力,同时在通用语言任务中保持了相当的性能。

与 DeepSeek-Coder-33B 相比,DeepSeek-Coder-V2 在代码相关任务的各个方面,以及推理和一般能力方面都有显著提高。此外,DeepSeek-Coder-V2 支持的编程语言从 86 种增加到 338 种,上下文长度从 16K 增加到 128K。在标准基准评估中,DeepSeek-Coder-V2 在编码和数学基准测试中的表现优于 GPT4-Turbo、Claude 3 Opus 和 Gemini 1.5 Pro 等闭源模型。

论文链接:
https://arxiv.org/abs/2406.11931
GitHub 网址:
https://github.com/deepseek-ai/DeepSeek-Coder-V2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/726459.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【中霖教育怎么样】二建审核是考前审核还是考后审核?

在二级建造师的报名过程中,考生需经过严格的资格审核,有些地区分为考前审核,该审核分为考前和考后两个阶段。 考前审核: 在考试前,对每位考生的报名条件进行审查,只有符合规定条件的申请者才可参加二级建…

2004年下半年软件设计师【下午题】试题及答案

文章目录 2004年下半年软件设计师下午题--试题2004年下半年软件设计师下午题--答案2004年下半年软件设计师下午题–试题

Flutter TIM 项目配置

目录 1. 设计说明 2. 参考资料索引 Flutter SDK 服务端 Rest API 腾讯后台 其他 3. TIM 整体架构 第一部分:APP 端 第二部分:腾讯服务器 第三部分:三方服务 第四部分:你自己的服务器 4. TIM SDK 集成 TUIK 含 UI 集成…

Windows清理C盘的4类方法【新手小白专用】

一、系统清理法 1.磁盘清理 【Win R】启动命令提示符,输入【cleanmgr】,选择打开C盘,勾选要清理的文件 一般大的文件是【临时文件和下载的程序文件】 2.存储清理(1) 打开【设置】-【系统】-【存储】-【配置存储感知或立即运行…

第11章 测试代码

第11章 测试代码 11.1 测试函数11.1.1 单元测试和测试用例11.1.2 可通过的测试11.1.3 未通过的测试11.1.4 测试未通过时怎么办11.1.5 添加新测试 11.2 测试类11.2.1 各种断言方法11.2.2 一个要测试的类11.2.3 测试 AnonymousSurvey 类11.2.4 11.1 测试函数 11.1.1 单元测试和测…

34、shell数组+正则表达式

0、课前补充 jiafa () { result$(echo " $1 $2 " | bc ) print "%.2f\n" "$result" } ##保留小数点两位 薄弱加强点 a$(df -h | awk NR>1 {print $5} | tr -d %) echo "$a"一、数组 1.1、定义 数组的定义&am…

朝阳医院2018年销售数据 数据分析与可视化

代码及数据集下载传送门 数据分析与可视化-朝阳医院2018销售数据-ipynbcsv 实践内容 以朝阳医院2018年销售数据为例,目的是了解朝阳医院在2018年里的销售情况,这就需要知道几个业务指标,本次的分析目标是从销售数据中分析出以下业务指标&am…

避雷!紧急停止投稿,毕业神刊Aging危险了,被数据库“On Hold“!

本周投稿推荐 SSCI • 中科院2区,6.0-7.0(录用友好) EI • 各领域沾边均可(2天录用) CNKI • 7天录用-检索(急录友好) SCI&EI • 4区生物医学类,0.5-1.0(录用…

2004年上半年软件设计师【下午题】试题及答案

文章目录 2004年上半年软件设计师下午题--试题2004年上半年软件设计师下午题--答案2004年上半年软件设计师下午题–试题

部署RAC到单实例ADG(11G)

服务器信息 主库RAC环境信息 主库RAC基本环境 节点1 节点2 OS centos 7.9 centos 7.9 数据库版本 11.2.0.4 11.2.0.4 规格 1C4G 1C4G 主机名 racdb01 racdb02 public ip 192.168.40.135 192.168.40.145 vip 192.168.40.13 192.168.40.14 private ip 192…

netcore 生成验证码

安装依赖 Install-Package Lazy.Captcha.Core 注册服务 builder.Services.AddCaptcha(); 自定义注册服务 // 注册服务的时候增加配置 services.AddCaptcha(Configuration, option > {option.CaptchaType CaptchaType.WORD; // 验证码类型option.CodeLength 6; // 验证…

广州化工厂可燃气体报警器检定检验:安全生产新举措显成效

随着科技的不断发展,可燃气体报警器的检定检验技术也在不断进步。 广州的一些化工厂开始采用先进的智能检测系统和数据分析技术,对报警器的性能进行更加精准和全面的评估。 这些新技术不仅能够提高检定检验的效率和准确性,还能够为化工厂的…

Python测试框架--Allure

严格意义上讲 Allure 不算是测试框架,但是它是生成漂亮测试报告的开源工具,搭配 Pytest 测试框架食用更搭。 也就是说 Allure 是在 Pytest 执行完生成的测试数据的基础上,对测试数据进行处理统计,生成格式统一、美观的测试报告。 …

Java中OOP的概念及示例

Java中OOP的概念及示例 在本指南中,您将学习Java中的OOP概念。面向对象编程系统(OOP)是一种基于“对象”的编程概念。面向对象编程的主要目的是提高程序的可读性、灵活性和可维护性。 面向对象编程将数据及其行为集中在一个称为对象的实体中…

反射机制详解

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏:Java从入门到精通 ✨特色专栏&#xff…

XSS+CSRF组合拳

目录 简介 如何进行实战 进入后台创建一个新用户进行接口分析 构造注入代码 寻找XSS漏洞并注入 小结 简介 (案例中将使用cms靶场来进行演示) 在实战中CSRF利用条件十分苛刻,因为我们需要让受害者点击我们的恶意请求不是一件容易的事情…

企业为什么要进行数据资产管理工作:价值与案例剖析

在数字化浪潮席卷全球的今天,数据已经成为企业不可或缺的重要资产。数据资产管理,作为确保数据资产价值得以最大化利用的关键环节,正逐渐成为企业战略规划中的核心议题。本文将深入剖析企业进行数据资产管理工作的必要性,并结合实…

[YOLOv10:注意力机制的轻量化创新,MLCA在目标检测中的卓越表现]

本文改进:一种轻量级的Mixed Local Channel Attention (MLCA)模块,该模块考虑通道信息和空间信息,并结合局部信息和全局信息以提高网络的表达效果。 1.YOLOv10介绍 论文:[https://arxiv.org/pdf/2405.14458] 代码: https://gitcode.com/THU-MIG/yolov10?utm_source=csdn…

Visual Studio2022+cuda环境配置及代码调试

环境配置 下载并安装CUDA Toolkit 打开Visual Studio,新建项目。如下图所示,已经包含CUDA编程选项 代码调试 1、打开cu文件的属性页,按下图所示,将Host中的Generate Host Debug Information设置为“是" 2、不可勾选Nsight…