今日arXiv最热大模型论文:清华大学发布,ChatGML又添新功能,集成“自我批评”,提升数学能力

引言:数学问题解决在大语言模型中的挑战

在当今的人工智能领域,大语言模型(Large Language Models,LLMs)已经在理解和生成人类语言方面取得了显著的进展。这些模型在文本摘要、问答、角色扮演对话等多种语言任务上展现出了惊人的能力。然而,当这些模型被应用于需要数学推理的复杂问题时,它们的表现往往不尽如人意。尽管开发了许多策略和数据集来增强LLMs在数学方面的能力,但在实际部署的LLM系统中同时保持和提升语言和数学能力仍然是一个显著的挑战。

GPT-3.5研究测试: https://hujiaoai.cn

GPT-4研究测试: https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4): https://hiclaude3.com

传统的通过人类反馈进行强化学习(Reinforcement Learning from Human Feedback,RLHF)方法主要是通过反映人类偏好的奖励模型来增强文本生成的质量。虽然这种方法提升了生成文本的质量,但它通常忽视了解决数学问题所必需的准确性和逻辑连贯性,导致在数学推理任务上的表现出现所谓的“对齐税”(alignment tax)。与此相反,旨在增强LLMs数学能力的尝试通常涉及到监督式微调(Supervised Fine-tuning,SFT),这不可避免地会降低它们在语言多样性上的表现,为LLM系统的实际应用带来了困境。

本文介绍了一种新颖的方法,旨在提升LLMs在语言和数学技能上的能力,而不会牺牲其中的任何一个。我们的策略与传统的RLHF方法不同,它包含了从LLM自身派生出的数学批判模型(Math-Critique model),该模型用于评估其数学输出。这种自我批判机制使模型能够从专门针对数学内容的AI生成反馈中学习。

论文标题:
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

论文链接:
https://arxiv.org/pdf/2404.02893.pdf

自我批判管道(Self-Critique Pipeline)的介绍

在优化大语言模型(LLMs)的过程中,研究者们面临着一个显著的挑战:如何在不牺牲语言理解能力的前提下,提升模型在数学问题解决方面的性能。传统的强化学习方法虽然能够提高文本生成的质量,但往往忽视了解决数学问题所需的准确性和逻辑一致性。为了解决这一问题,本文介绍了一种新颖的自我批判管道(Self-Critique Pipeline),旨在同时提升LLMs的数学和语言能力。

我们的自我批评管道能够同时提高语言和数学能力。

自我批判管道包括两个主要阶段

1. 拒绝性微调(Rejective Fine-tuning, RFT):在此阶段,采用拒绝采样技术,即淘汰不符合Math-Critique标准的响应,而将其余响应进一步微调。这一阶段的目标是提高模型在数学回答方面的准确性和一致性,同时确保所选答案的多样性。

2. 直接偏好优化(Direct Preference Optimization, DPO):在RFT的基础上,通过直接从正确和错误答案对中学习,进一步提炼通过Math-Critique的答案,重点解决上一阶段中最具挑战性的问题。

自我批判管道的引入,不仅提升了LLMs在数学问题解决方面的性能,而且还改善了其语言能力。通过在ChatGLM3-32B模型上的一系列实验,结果表明,该管道显著增强了LLMs的数学问题解决能力,并在MATHUSEREVAL等数据集上取得了优于规模更大两倍的LLMs的性能。

ChatGLM-Math的自我评价管道

Math-Critique模型的设计与实现

Math-Critique模型的设计灵感来源于利用大模型进行评估的工作。该方法通过对模型生成的数学回答进行评分,包括解释性分析和1到10之间的分数输出,与传统的奖励模型相比,Math-Critique利用语言模型的上下文能力,通过整合参考答案,实现更准确的判断。

在Math-Critique的指导下,回答被分类为完全错误、部分正确的方法但结果错误、准确的结论但方法部分有缺陷和完全正确四个类别。这些类别与1-2、3-5、6-8和9-10的评分范围相对应。

Math-Critique的实现包括以下步骤:

  • 从训练数据中筛选出包含数学问题及其参考答案和模型响应的数据集,主要来源于从初中到大学级别的考试题目。

  • 使用CritiqueLLM和ORM对数据集进行注释,选择代表最好和最差评分极端的注释,并直接用这些伪标签进行训练,共生成了10k条注释数据。

  • 对于中间范围的分数结果,选择一部分进行手动注释,分为四个类别,然后将这些结果映射到10分制上。同时,从训练数据集中划分出一个测试集,并采用相同的四类别注释方法,生成了5k条训练数据和800条测试数据。

Math-Critique模型的训练过程中,基于ChatGLM3-32B作为初始的Math-Critique基础模型,每次迭代后,通过SFT或Critique RFT精炼的当前模型将作为基础。使用的学习率为3e-6,批量大小为128,适用于6B和32B规模的模型。

自我批判管道中,Math-Critique模型的数据构建仅涉及少量的手动注释。这批注释是一次性的努力,因为只需要这批注释数据作为其余迭代的引导。之后,所有剩余步骤都可以通过推理和自动模型过滤来完成。

MATHUSEREVAL数据集的创建

在创建MATHUSEREVAL数据集的过程中,研究团队采取了一系列步骤以确保数据集能够准确评估大语言模型(LLMs)在解决实际数学问题方面的能力。

MATHUSEREVAL数据集的特点是包含了一系列多样化的问题,这些问题不仅仅局限于学术练习,还扩展到了实际应用场景,更好地反映了用户的需求,与传统的学术数学数据集相比,它提供了一个更高标准的实际数学推理能力评估。

1. 数据集来源

数据集的主要来源包括公开数据集的训练集和公开可用的中学及大学考试题。研究团队从GSM8k和MATH训练集中挑选了所有提示作为英文数据的问题集,并使用原始数据集中的回答作为标准答案。对于公开可用的中学和大学考试题,研究者使用了考试试卷提供的答案格式作为通用答案,无需进一步处理。

2. 数据集分类

基于收集到的数据分布,研究团队将测试集分为两个主要类别:基础数学和高级数学,并进一步细分为八个子类别。由于计算应用类问题难度较低,且与之前公开数据集的范围较为一致,因此在此类别中选择的问题较少。所有问题都以开放式格式提出,可能的答案包括单个数字、多个数字或数学表达式。

3. 评估方法

研究团队提供了两种评估方法:GPT-4-1106——Preview评估和Math-Critique评估。前者采用alignbench的评估方法,以提供更准确、公平和可访问的评估方式;后者则采用与上述Math-Critique相同的使用方式。同样,研究团队也将报告两种类型的分数:平均分和硬分割分。

实验结果与分析

在实验中,研究团队使用了ChatGLM3-32B-SFT-2312版本作为基线模型。RFT阶段在所有数学数据集上都显著提高了性能。相比之下,DPO阶段的改进集中在开放式数学问题上,包括MATHUSEREVAL、匈牙利考试和通用的AlignBench。

尽管研究者们在MT-bench上的改进不显著,但考虑到超过90%的训练数据是中文,研究者们认为保持平衡本质上表明我们的方法保留了原始的英文通用或多轮能力。

与专有模型相比,特别是OpenAI的GPT系列,GLM-4在特定领域展示了竞争性或更优越的性能。例如,GPT-4-1106-Preview在大多数任务中表现最佳,包括在中英文基准测试中的最高分,突显了其在各种数学问题解决环境中的有效性。

然而,GLM-4在Ape210k和AlignBench基准测试中超越了它,表明了在数学推理和跨语言泛化方面的特定优势。

1. 数据组成的影响

研究团队选择了相对较强的Metamath训练集作为基线。在应用Critique-RFT之后,发现仅使用学术数据集构建RFT数据在面向现实生活场景的MATHUSEREVAL和学术测试集上的性能不如在整合了现实生活场景数据之后的结果。

此外,引入英文数据显著提高了英文数据集的性能,而不会对中文能力产生实质性影响。

2. 对一般能力的影响

考虑到目标不是开发一个专门的数学模型来攀登排行榜,而是一个具有强大数学能力的通用模型,研究者们使用Alignbench测试了结果,这是一个中文通用开放式问答数据集。结果表明,模型在中文语言能力方面超过了不包含专门数学数据的类似基线模型的训练成果。此外,与其他开源中文数学/通用模型相比,它的表现也非常出色。

在英文通用能力方面,使用MT-Bench作为测试集。考虑到超过90%的训练数据是中文,MT-Bench上的结果在训练过程中基本保持不变,表明英文语言能力没有受到显著影响。

3. Math-Critique的有效性

在手动注释过程中,收集了800个问题的测试集,所有这些问题都根据答案和程序的正确性进行了手动标记,从而形成了一个四类测试;Math-Critique的输出结果根据指令的要求映射到这四个类别。

研究者们通过实证实验验证了Math-Critique本身的有效性。设置了两种评估方法:直接评分判断正确/错误结果的准确性和判断我们定义的四个类别的准确性。从中国初高中考试题和MATHUSEREVAL中提取了测试集,并由专家注释正确判断。

结果表明,Math-Critique-32B模型在判断准确性和与人类注释相比的相关系数方面显著超过了GPT-3.5-Turbo,并且基本与GPT-4-0613持平。

4. 超出分布测试

遵循Grok-1的方法,为了测试超出分布数据集的性能,选择了匈牙利国家期末考试。这是一个没有训练集的33个考试问题的测试集,其优势在于它允许评估模型在完全OOD环境中的数学能力。

使用人类专家评估,研究者们发现在32B模型规模下,RFT模型得分为57,而DPO模型得分为73。然而,需要注意的是,由于模型的主要语言是中文,如果模型用中文正确回答,通常会给予评分。研究者们计划在未来的模型中解决这个问题。

模型在数学问题解决中的错误案例分析

在数学问题解决的实际应用中,大语言模型(LLMs)虽然在语言理解方面表现出色,但在数学问题的准确性和逻辑一致性方面仍存在挑战。这些挑战通常归因于模型在训练过程中的对齐税(alignment tax),即在数学推理任务上应用常规的文本生成增强方法时,可能会导致性能的不一致。

讨论与未来工作

本研究提出了自我批评(Self-Critique)管道,旨在提高LLMs的数学问题解决能力,同时保持其语言能力。通过自我生成的反馈,我们的方法在不需要外部监督模型和手动注释的情况下,显著提高了LLMs在MATHUSEREVAL等数据集上的数学问题解决能力。

1. 未来工作方向

  • 图形思维和绘图能力:目前的模型在处理需要绘图的问题上存在不足,未来可以探索集成多模态输入和输出组件的方法。

  • 精确计算能力:模型在处理多位小数的乘法、除法或指数运算时可能会出现高达5%的偏差。未来的工作可以考虑使用外部工具进行计算或直接使用带有代码解释器的代码。

  • 模型的通用能力:目标是开发一个具有强大数学能力的通用模型,而不仅仅是为了领先排行榜。未来的研究可以继续探索如何在增强特定能力的同时保持模型的通用性。

2. 结论

本研究证明了自我批评方法在提高LLMs数学问题解决能力方面的有效性,并在多个数据集上取得了优于现有开源和专有模型的结果。该方法已经在GLM-4的开发过程中应用,以提高其数学能力,并在MATHUSEREVAL等数据集上取得了最佳结果。未来将继续探索和改进这些方法,以进一步提高模型在实际应用中的表现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/540490.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

组合模式:构建树形对象结构的设计艺术

在软件开发中,组合模式是一种结构型设计模式,用于表示对象的部分-整体层次结构。通过使单个对象和组合对象具有相同的接口,这种模式允许客户端以统一的方式处理单个对象和组合对象。本文将详细介绍组合模式的定义、实现、应用场景以及优缺点。…

一些知识点小细节

当遇到的问题有关逆序输出,可以转换一下思想,就是使用for循环的时候,i的初始化是从数组或者是字符串的最后一个,然后注意设置循环结束的条件,最重要的是不要忘记i--;而不是I; 注意:当要逆序输出…

弱口令入侵FE企业管理平台【附口令】

漏洞描述 飞企互联-FE企业运营管理平台 druid路径弱口令,攻击者可能通过尝试弱口令,非法进入系统,恶意操作或者收集信息进一步攻击利用。 漏洞复现 1、Fofa app"飞企互联-FE企业运营管理平台"2、零零信安 (html_banner360浏览…

android studio 网络请求okhttp3、okgo

一、在build.gradle文件里添加 implementation com.squareup.okhttp3:okhttp:4.9.0 implementation com.squareup.okhttp3:okhttp:3.12.0 implementation com.squareup.okio:okio:1.17.4 implementation com.lzy.net:okgo:3.0.4 implementation com.alibaba:fastjson:1.2.57 i…

蓝桥杯【第15届省赛】Python B组

这题目难度对比历届是相当炸裂的简单了…… A:穿越时空之门 【问题描述】 随着 2024 年的钟声回荡,传说中的时空之门再次敞开。这扇门是一条神秘的通道,它连接着二进制和四进制两个不同的数码领域,等待着勇者们的探索。 在二进制…

# Nacos 服务发现-快速入门-创建服务消费者模块,使用 feign 调用 服务生产者

Nacos 服务发现-快速入门-创建服务消费者模块,使用 feign 调用 服务生产者 1、 新增 quickstart_consumer 子工程(子模块), 创建子模块:--> 右键 nacos_discovery 父工程 --> Modules --> Maven --> G…

小剧场短剧剧集收费短剧小程序APP

1. 内容展现 付费、免费、任务解锁:用户可以通过付费直接观看短剧,也可以通过完成平台任务(如签到、分享等)获得免费观看的机会。这种灵活的解锁方式既满足了用户的多种需求,也促进了平台的活跃度。主流展现形式&…

MyBatis核心配置文件介绍使用

文章目录 一、environments二、properties三、typeAliases四、mappers五、创建核心配置文件模板&映射文件模板核心配置文件模板映射文件模板 六、总结 一、environments 核心配置文件中的标签必须按照固定的顺序: properties?,settings?,typeAliases?,typeH…

vue 百度地图 使用 vue-baidu-map 进行当前位置定位和范围展示

vue 百度地图 使用 vue-baidu-map 进行当前位置定位和范围展示(考勤打卡) 一、创建百度地图账号,获取秘钥二、 引入插件1、安装vue-baidu-map2、在main.js中引入 三、 简单使用 最近写项目的时候,做到了考勤打卡的模块内容&#x…

c++ 中文转拼音的封装, char 类型 不支持 中文 已解决

在日常业务中&#xff0c;需要进行中文转拼音的检索。已便实现对应的 模糊搜索。 使用方法 std::string res "我是中国人";char* result new char[res.length() 1];for (int i 0; i < res.length(); i){result[i] res[i];}result[res.length()] \0;std::str…

【C++类和对象】上篇

&#x1f49e;&#x1f49e; 前言 hello hello~ &#xff0c;这里是大耳朵土土垚~&#x1f496;&#x1f496; &#xff0c;欢迎大家点赞&#x1f973;&#x1f973;关注&#x1f4a5;&#x1f4a5;收藏&#x1f339;&#x1f339;&#x1f339; &#x1f4a5;个人主页&#x…

Xilinx Zynq UltraScale+ MPSoC无人机控制器

官方术语是无人驾驶飞行器&#xff08;UAV&#xff09;&#xff0c;这显然有点拗口&#xff0c;所以我们更喜欢说无人机。在过去的几十年里&#xff0c;无人机技术有了巨大的进步。我们为一个客户开发了一个无人机的飞行和视频控制器。 客户挑战 客户需要一种混合FPGA/CPU硬件&…

idea keymap用eclipse的相关快捷键

idea快捷键用eclipse的方式 CtrlShiftR 搜索文件 shiftshift 全部文件/类搜索 CtrlH 全局搜索 CtrlO 快速打开Outline大纲视图 ctrle 查看recent窗口文件 ctrlt 快速进入接口的实现类 ctrlshiftf 格式化代码 altshiftr 变量或函数的重命名 ctrlshifto 移除无用的头文…

MySQL基础知识——MySQL日志

一条查询语句的执行过程一般是经过连接器、 分析器、 优化器、 执行器等功能模块&#xff0c; 最后到达存储引擎。 那么&#xff0c; 一条更新语句的执行流程又是怎样的呢&#xff1f; 下面我们从一个表的一条更新语句进行具体介绍&#xff1a; 假设这个表有一个主键ID和一个…

MySQL:MySQL的查询(上)

文章目录 MySQL的增加单行数据插入多行数据插入插入否则更新替换 MySQL的查询select列where语句 本篇开始总结的是MySQL当中的基本查询语句 对于数据库的查询&#xff0c;无非大致就是增删查改&#xff0c;因此对于这些内容进行一一解释&#xff1a; MySQL的增加 单行数据插…

Redis中的集群(九)

集群 消息 集群中的各个节点通过发送和接收消息(message)来进行通信&#xff0c;我们称发送消息的节点为发送者(sender),接收消息 的节点成为接收者&#xff0c;如图所示。节点发送的消息主要有以下五种: 1.MEET消息:当发送者接到客户端发送的CLUSTER MEET命令时&#xff0c…

二叉树练习day.8

235.二叉搜索树的最近公共祖先 链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 题目描述&#xff1a; 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为&#xff1a;“对于有根树 T 的两个节点 p、q&#xff0c;最近公共…

一起找bug之购物

如果不是购物车满了&#xff0c;大概都不会发现这个 bug 淘宝 APP 修复了购物车满的情况下&#xff0c;往里面添加新商品时&#xff0c;会把一个老商品移入收藏夹&#xff0c; 但是如果这个老商品是已失效状态&#xff0c;就无法自动移入收藏夹&#xff0c;而且会一直在购物车…

AI禁区徘徊监测识别摄像机

AI禁区徘徊监测识别摄像机是一种基于人工智能技术的智能监控设备&#xff0c;用于监测禁止进入或逗留的区域。这种摄像机通过高清摄像头实时捕捉场景图像&#xff0c;利用AI算法对人员徘徊行为进行识别和监测&#xff0c;有助于提高安全防范水平&#xff0c;减少潜在的安全风险…

【DL水记】循环神经网络RNN的前世今生,Transformer的崛起,Mamba模型

文章目录 RNN网络简介传统RNN网络结构RNN的分类 长-短期记忆网络 (LSTM)GRU网络横空出世的Transformer网络Self-AttentionVisionTransformer Mamba模型Reference: RNN网络简介 “当人类接触新事物时&#xff0c;他们不会从头开始思考。就像你在阅读这篇文章时&#xff0c;你会根…