人工智能咨询培训老师叶梓 转载标明出处
尽管大模型在很多领域表现出色,比如理解自然语言和生成文本,但它们在解决一些复杂的推理任务时,比如数学问题、编程挑战或者医疗诊断,还是显得有些力不从心。最近,一个来自中国人民大学高瓴人工智能学院的研究团队提出了一种新的方法,旨在提升这些大模型的推理能力。
想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
方法
数学领域的挑战: 大模型在处理数学问题时,需要的不仅仅是记忆力,更重要的是推理能力。这篇论文就提出了一个奖励引导的树搜索框架,专门用来帮助大模型在数学问题上表现得更出色。
框架的三大法宝:
- 策略模型(Policy Model):这个模型负责生成新的推理步骤,就像是在解题过程中的每一步思考。
- 奖励模型(Reward Model):这个模型会给策略模型的行动提供反馈,指导它往正确的方向走。
- 搜索算法(Search Algorithm):这个算法负责构建整个搜索树,帮助策略模型找到正确的答案。
流程是这样的:
- 初始化(Initialization):从策略模型和奖励模型的初始状态开始。
- 迭代训练(Iterative Training):这两个模型会互相学习,互相进步。
- 树搜索(Tree Search):通过选择、扩展、模拟和反向传播四个步骤来探索问题的解。
策略模型的训练过程:
- 指令调整(Instruction Tuning):为了让策略模型适应推理格式,需要用一些格式化的数据来训练它。
- 偏好优化(Preference Optimization):通过奖励模型的反馈,策略模型会不断优化自己的偏好。
奖励模型的训练:
- 关键设计考虑(Key Design Considerations):奖励模型可以是区分式的,也可以是生成式的;可以是基于结果的,也可以是基于过程的;可以是排名为基础的,也可以是评分为基础的。
- 数据构建(Training Data Construction):为了训练奖励模型,需要从策略模型生成的内容中挑选出高质量的训练实例。
- 训练过程(Training Process):奖励模型会通过一个特定的提示模板来学习如何评估解决方案的正确性。
搜索算法的优化:
- 自我一致性增强(Self-consistency Enhancement):在树搜索过程中,会用到大量的样本来估计节点的价值,这些样本可以用来提高奖励评估的准确性。
- 工具操作(Tool Manipulation):为了确保计算结果的准确性,还集成了一个计算器工具,用来一步步验证计算结果。
Figure 1 提供了本研究中实现的推理框架的概览。展示了从初始化(包括策略模型和奖励模型的初始设置)到树搜索(包括扩展、模拟、评分和反向传播)的整个流程。
通过这种方法,大模型在解决数学问题时就像是有了一张藏宝图,能够更有效地找到正确答案。这种方法不仅提高了大模型的推理能力,还让它在面对复杂问题时更加从容不迫。
实验
这些实验在四个挑战性的数学基准测试集上进行:MATH-OAI、GSM-Hard、OlympiadBench 和 College Math。这些测试集的测试样本数量分别是500、1319、675和2818。为了节省测试时间,研究者们从后三个基准测试集中随机抽取了500个样本进行评估。
使用的模型:他们选择了LLaMA-3.1-8B-Instruct作为策略模型和奖励模型的基础模型,因为这个模型在这些基准测试中表现出色,且不会达到性能饱和。
评估工具:对于每个基准测试,研究者们使用了与之前研究相同的评估工具,并报告了所有测试问题上不同方法的平均性能。
评估设置
- 测试集大小:MATH-OAI有500个测试样本,而其他三个基准测试集则分别随机抽取了500个样本进行评估。
- 基础模型:LLaMA-3.1-8B-Instruct被选为基础模型,因为它在这些基准测试中展现出了优秀的整体能力。
研究者们比较了四种基于同一基础模型的方法:零样本CoT(CoT)、由奖励模型选择的最佳N(BoN,N=100),以及他们的树搜索推理框架(T-Search)。结果显示,T-Search在所有方法中表现最佳,相较于基线提升了46.9%、7.3%、91.6%和31.4%。
Table 1 展示了不同方法在四个基准测试上的性能比较。"baseline"指的是没有进一步训练的原始聊天模型的CoT推理方法,而"w/ CoT"则是在特定训练后实施的方法。
- CoT:58.3%的准确率,比基线提升了21.0%。
- BoN:69.0%的准确率,比基线提升了43.2%。
- T-Search:70.8%的准确率,比基线提升了46.9%。
这些结果表明,他们的框架有效地增强了大模型在复杂数学任务上的推理能力。
研究者们检查了策略模型和奖励模型在多轮迭代训练过程中的性能如何演变。他们进行了两次迭代,并在Table 2中展示了结果。奖励基础的选择方法在改进奖励和策略模型的性能方面优于随机选择,这表明奖励模型的反馈不仅促进了自身的活跃学习,还帮助了策略模型的偏好优化。
研究者们专注于检验策略模型训练的效果。他们采用了三个评估指标:准确率(直接生成正确解决测试问题的比率)、maj@10(在十个生成的解决方案中通过多数票正确解决测试问题的比率)和pass@10(在十个生成的解决方案中正确解决测试问题的回忆率)。
Table 3 展示了使用不同合成模型进行阅读格式适应时策略模型在四个基准测试上的性能。结果显示,由强大的模型生成的数据显著提升了性能,而由领域特定的模型生成的数据与通用模型相比并没有显著差异。
Figure 2 展示了使用不同数量的训练数据进行推理格式适应时策略模型在四个基准测试上的性能。使用更多的合成数据总体上增强了策略模型的推理性能,但随着训练数据量的增加,性能提升变得不那么显著。
Figure 3 展示了使用他们的训练方法优化前后的自我一致性(SC)结果。结果表明,他们的训练方法通过改进底层策略模型显著增强了SC性能。
研究者们还对奖励模型的不同训练策略的影响进行了详细分析。
Table 4 展示了不同的模型适应策略的效果。领域适应和格式适应都有助于提高模型的性能,尤其是领域适应在数学问题解决中更为有效。
Table 5 和 Table 6 展示了数据清洗和选择策略的效果。结果显示,去除重复响应和选择高分样本对于构建高质量数据集至关重要。
Table 7 和 Table 8 展示了不同目标函数和不同基础模型对奖励模型性能的影响。生成式奖励模型优于区分式奖励模型,且增加模型大小可以提高评估能力。
研究者们进一步分析了搜索算法的不同设计对性能的影响。
Figure 4 (a) 展示了不同搜索算法的性能比较。MCTSG通过考虑所有叶节点作为候选节点,实现了最高的准确率。Figure 4 (b) 展示了预扩展对模型性能的影响。结果表明,预扩展可以提高准确性,并且在计算成本和搜索效率之间实现了最佳平衡。
论文链接:https://arxiv.org/abs/2411.11694