算法新篇章:AI如何在数学领域超越人类

人工智能咨询培训老师叶梓 转载标明出处

尽管大模型在很多领域表现出色,比如理解自然语言和生成文本,但它们在解决一些复杂的推理任务时,比如数学问题、编程挑战或者医疗诊断,还是显得有些力不从心。最近,一个来自中国人民大学高瓴人工智能学院的研究团队提出了一种新的方法,旨在提升这些大模型的推理能力。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

方法

数学领域的挑战: 大模型在处理数学问题时,需要的不仅仅是记忆力,更重要的是推理能力。这篇论文就提出了一个奖励引导的树搜索框架,专门用来帮助大模型在数学问题上表现得更出色。

框架的三大法宝:

  • 策略模型(Policy Model):这个模型负责生成新的推理步骤,就像是在解题过程中的每一步思考。
  • 奖励模型(Reward Model):这个模型会给策略模型的行动提供反馈,指导它往正确的方向走。
  • 搜索算法(Search Algorithm):这个算法负责构建整个搜索树,帮助策略模型找到正确的答案。

流程是这样的:

  1. 初始化(Initialization):从策略模型和奖励模型的初始状态开始。
  2. 迭代训练(Iterative Training):这两个模型会互相学习,互相进步。
  3. 树搜索(Tree Search):通过选择、扩展、模拟和反向传播四个步骤来探索问题的解。

策略模型的训练过程:

  • 指令调整(Instruction Tuning):为了让策略模型适应推理格式,需要用一些格式化的数据来训练它。
  • 偏好优化(Preference Optimization):通过奖励模型的反馈,策略模型会不断优化自己的偏好。

奖励模型的训练:

  • 关键设计考虑(Key Design Considerations):奖励模型可以是区分式的,也可以是生成式的;可以是基于结果的,也可以是基于过程的;可以是排名为基础的,也可以是评分为基础的。
  • 数据构建(Training Data Construction):为了训练奖励模型,需要从策略模型生成的内容中挑选出高质量的训练实例。
  • 训练过程(Training Process):奖励模型会通过一个特定的提示模板来学习如何评估解决方案的正确性。

搜索算法的优化:

  • 自我一致性增强(Self-consistency Enhancement):在树搜索过程中,会用到大量的样本来估计节点的价值,这些样本可以用来提高奖励评估的准确性。
  • 工具操作(Tool Manipulation):为了确保计算结果的准确性,还集成了一个计算器工具,用来一步步验证计算结果。

Figure 1 提供了本研究中实现的推理框架的概览。展示了从初始化(包括策略模型和奖励模型的初始设置)到树搜索(包括扩展、模拟、评分和反向传播)的整个流程。

通过这种方法,大模型在解决数学问题时就像是有了一张藏宝图,能够更有效地找到正确答案。这种方法不仅提高了大模型的推理能力,还让它在面对复杂问题时更加从容不迫。

实验

这些实验在四个挑战性的数学基准测试集上进行:MATH-OAI、GSM-Hard、OlympiadBench 和 College Math。这些测试集的测试样本数量分别是500、1319、675和2818。为了节省测试时间,研究者们从后三个基准测试集中随机抽取了500个样本进行评估。

使用的模型:他们选择了LLaMA-3.1-8B-Instruct作为策略模型和奖励模型的基础模型,因为这个模型在这些基准测试中表现出色,且不会达到性能饱和。

评估工具:对于每个基准测试,研究者们使用了与之前研究相同的评估工具,并报告了所有测试问题上不同方法的平均性能。

评估设置
  • 测试集大小:MATH-OAI有500个测试样本,而其他三个基准测试集则分别随机抽取了500个样本进行评估。
  • 基础模型:LLaMA-3.1-8B-Instruct被选为基础模型,因为它在这些基准测试中展现出了优秀的整体能力。

研究者们比较了四种基于同一基础模型的方法:零样本CoT(CoT)、由奖励模型选择的最佳N(BoN,N=100),以及他们的树搜索推理框架(T-Search)。结果显示,T-Search在所有方法中表现最佳,相较于基线提升了46.9%、7.3%、91.6%和31.4%。

Table 1 展示了不同方法在四个基准测试上的性能比较。"baseline"指的是没有进一步训练的原始聊天模型的CoT推理方法,而"w/ CoT"则是在特定训练后实施的方法。

  • CoT:58.3%的准确率,比基线提升了21.0%。
  • BoN:69.0%的准确率,比基线提升了43.2%。
  • T-Search:70.8%的准确率,比基线提升了46.9%。

这些结果表明,他们的框架有效地增强了大模型在复杂数学任务上的推理能力。

研究者们检查了策略模型和奖励模型在多轮迭代训练过程中的性能如何演变。他们进行了两次迭代,并在Table 2中展示了结果。奖励基础的选择方法在改进奖励和策略模型的性能方面优于随机选择,这表明奖励模型的反馈不仅促进了自身的活跃学习,还帮助了策略模型的偏好优化。

研究者们专注于检验策略模型训练的效果。他们采用了三个评估指标:准确率(直接生成正确解决测试问题的比率)、maj@10(在十个生成的解决方案中通过多数票正确解决测试问题的比率)和pass@10(在十个生成的解决方案中正确解决测试问题的回忆率)。

Table 3 展示了使用不同合成模型进行阅读格式适应时策略模型在四个基准测试上的性能。结果显示,由强大的模型生成的数据显著提升了性能,而由领域特定的模型生成的数据与通用模型相比并没有显著差异。

Figure 2 展示了使用不同数量的训练数据进行推理格式适应时策略模型在四个基准测试上的性能。使用更多的合成数据总体上增强了策略模型的推理性能,但随着训练数据量的增加,性能提升变得不那么显著。

Figure 3 展示了使用他们的训练方法优化前后的自我一致性(SC)结果。结果表明,他们的训练方法通过改进底层策略模型显著增强了SC性能。

研究者们还对奖励模型的不同训练策略的影响进行了详细分析。

Table 4 展示了不同的模型适应策略的效果。领域适应和格式适应都有助于提高模型的性能,尤其是领域适应在数学问题解决中更为有效。

Table 5 和 Table 6 展示了数据清洗和选择策略的效果。结果显示,去除重复响应和选择高分样本对于构建高质量数据集至关重要。

Table 7 和 Table 8 展示了不同目标函数和不同基础模型对奖励模型性能的影响。生成式奖励模型优于区分式奖励模型,且增加模型大小可以提高评估能力。

研究者们进一步分析了搜索算法的不同设计对性能的影响。

Figure 4 (a) 展示了不同搜索算法的性能比较。MCTSG通过考虑所有叶节点作为候选节点,实现了最高的准确率。Figure 4 (b) 展示了预扩展对模型性能的影响。结果表明,预扩展可以提高准确性,并且在计算成本和搜索效率之间实现了最佳平衡。

论文链接:https://arxiv.org/abs/2411.11694

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/923602.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MTK主板_安卓主板方案_MTK联发科主板定制开发

联发科(MTK)主板以其强大的性能和多样化的功能而受到广泛关注。该平台包括多个型号,例如MT6761、MT8766、MT6762、MT6765、MT8768和MT8788等,均配置了四核或八核64位处理器,主频可高达2.0GHz。采用先进的12nm工艺,搭载Android 11.…

windows安全中心,永久卸载工具分享

使用方法 2024Goby红队版工具分享,附2024年漏洞POC下载 下载链接: https://pan.quark.cn/s/4fc2712a2afc一路回车,选项Y即可 耐心等待几秒种,自动重启 此时打开windows安全中心,已经完全不能使用了,响应…

css—轮播图实现

一、背景 最近和朋友在一起讨论的时候,我们提出了这样的一个提问,难道轮播图的效果只能通过js来实现吗?经过我们的一系列的争论,发现了这是可以通过纯css来实现这一效果的,CSS轮播图也是一种常见的网页展示方式&#x…

使用Python和Pybind11调用C++程序(CMake编译)

目录 一、前言二、安装 pybind11三、编写C示例代码四、结合Pybind11和CMake编译C工程五、Python调用动态库六、参考 一、前言 跨语言调用能对不同计算机语言进行互补,本博客主要介绍如何实现Python调用C语言编写的函数。 实验环境: Linux gnuPython3.10…

设计模式之 责任链模式

责任链模式(Chain of Responsibility Pattern)是一种行为型设计模式,旨在将多个处理对象通过链式结构连接起来,形成一条处理请求的链条。每个处理对象都有机会处理请求,或者将请求传递给链中的下一个对象。这样&#x…

EXTI配置流程 含中断延时消抖点亮小灯

如图可知,配置流程分成以下一个部分 ①使能GPIO时钟 __HAL_RCC_GPIOA_CLK_ENABLE();// 打开时钟 ②初始化利用 HAL_GPIO_Init 一步到位,可以初始化外设GPIO的一切 4个参数 (引脚 Pull 这里选择的模式是从下面这几个里面选 速度&#x…

Scrapy图解工作流程-cnblog

1.1 介绍部分: 文字提到常用的Web框架有Django和Flask,接下来将学习一个全球范围内流行的爬虫框架Scrapy。 1.2 内容部分: Scrapy的概念、作用和工作流程 Scrapy的入门使用 Scrapy构造并发送请求 Scrapy模拟登陆 Scrapy管道的使用 Scrapy中…

string类部分(C++)

目录 1. string类 1.1 auto和范围for auto关键词: 范围for: 1.2 string类的常用接口说明 a)string类对象的常见构造 b) string类对象的容量操作 size与length: capacity: empty: clear: reserve: 1.reserve&am…

实现一个可配置的TCP设备模拟器,支持交互和解析配置

前言 诸位在做IOT开发的时候是否有遇到一个问题,那就是模拟一个设备来联调测试,虽然说现在的物联网通信主要是用mqtt通信,但还是有很多设备使用TCP这种协议交互,例如充电桩,还有一些工业设备,TCP这类报文交…

Redis主从架构

Redis(Remote Dictionary Server)是一个开源的、高性能的键值对存储系统,广泛应用于缓存、消息队列、实时分析等场景。为了提高系统的可用性、可靠性和读写性能,Redis提供了主从复制(Master-Slave Replication&#xf…

Java项目实战II基于微信小程序的校运会管理系统(开发文档+数据库+源码)

目录 一、前言 二、技术介绍 三、系统实现 四、核心代码 五、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导 一、前言 在充满活力与激情的校园生活中,校运会不仅是…

软件团队的共担责任

问责制被认为是个人与其社会系统之间的纽带,它创造了一种将个人与其行为和绩效联系起来的身份关系。在入门系列的第一篇文章《超越工具和流程:成功软件开发团队的策略》中,我们介绍了问责制的概念,并提出了以下定义: …

学习日记_20241126_聚类方法(谱聚类Spectral Clustering)

前言 提醒: 文章内容为方便作者自己后日复习与查阅而进行的书写与发布,其中引用内容都会使用链接表明出处(如有侵权问题,请及时联系)。 其中内容多为一次书写,缺少检查与订正,如有问题或其他拓展…

如何使用Jest测试你的React组件

在本文中,我们将了解如何使用Jest(Facebook 维护的一个测试框架)来测试我们的React组件。我们将首先了解如何在纯 JavaScript 函数上使用 Jest,然后再了解它提供的一些开箱即用的功能,这些功能专门用于使测试 React 应…

硬菜!高精度!BO-Transformer贝叶斯优化编码器多特征分类预测/故障诊断

硬菜!高精度!BO-Transformer贝叶斯优化编码器多特征分类预测/故障诊断 目录 硬菜!高精度!BO-Transformer贝叶斯优化编码器多特征分类预测/故障诊断效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现BO-Transform…

仿真学习 | Abaqus版本差异详解:哪版更适合你的仿真作业?

​ 引言 在上一篇文章《仿真学习 | Fluent版本迭代一览及选择指南》中,我们深入探讨了Fluent的不同版本以及如何根据自身需求选择最合适的版本。今天,我们将把视线聚焦于Abaqus——另一款在工程仿真领域中备受推崇的软件。 在有限元分析领域,…

NLP论文速读(剑桥大学出品)|分解和利用专家模型中的偏好进行改进视觉模型的可信度

论文速读|Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs 论文信息: 简介: 本文探讨的背景是多模态大型语言模型(MLLMs),这类模型通过结合视觉特征和文本空间来增强语…

IntelliJ IDEA 中,自动导包功能

在 IntelliJ IDEA 中,自动导包功能可以极大地提高开发效率,减少手动导入包所带来的繁琐和错误。以下是如何在 IntelliJ IDEA 中设置和使用自动导包功能的详细步骤: 一、设置自动导包 打开 IntelliJ IDEA: 启动 IntelliJ IDEA 并打…

红外小目标检测

目录 背景概述算法原理演示效果核心逻辑 使用方式基础镜像配置环境直接运行 参考文献 文章声明,非广告,仅个人体验。 背景 红外图像在许多领域中都有所应用。例如军事领域中,经常需要通过红外成像设备对远距离的目标进行侦察和监视&#xff…

hive的存储格式

1) 四种存储格式 hive的存储格式分为两大类:一类纯文本文件,一类是二进制文件存储。 Hive支持的存储数据的格式主要有:TEXTFILE、SEQUENCEFILE、ORC、PARQUET 第一类:纯文本文件存储 textfile: 纯文本文件存储格式…