大型语言模型（LLM）中的自适应推理预算管理：基于约束策略优化的解决方案

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

大型语言模型（LLMs）在复杂推理任务上展现出惊人的能力，尤其是在数学问题求解和代码生成方面。然而，这些模型仍面临重大挑战：虽然延长推理链可以提高问题解决能力，但往往导致不必要的冗长推理，即便是简单问题也会生成过长的解答。这种“统一长度”的推理方式不仅降低了计算效率，还削弱了其在实际应用中的实用性，使得计算成本和资源消耗大幅上升。

目前，提升LLMs推理能力的方法层出不穷，其中“思维链”（Chain-of-Thought, CoT）是基础技术之一，它通过将推理拆分为多个离散步骤来提升模型解题能力。在此基础上，研究人员进一步发展出了更复杂的推理策略，例如增加推理步骤的扩展CoT、自我反思机制、多轮推理以及多智能体辩论系统。近年来，一些模型（如OpenAI-o1和DeepSeek-R1）主打超长推理链，以提升复杂任务的解答能力。然而，这类模型无论面对何种问题，都倾向于生成冗长的推理路径，导致计算资源浪费，并增加了碳排放，对实际应用造成阻碍。

为了破解这一难题，Meta AI与伊利诺伊大学芝加哥分校的研究团队提出了一种创新方法，致力于让模型能根据查询的复杂度自动调整推理长度。相比于以往依赖启发式方法优化token利用率的策略，该研究从强化学习（RL）的角度切入，不直接建模响应长度，而是采用一种“分组方法”，通过对不同类型的回答进行分类，构建覆盖整个响应空间的高效推理框架，同时确保推理效率。

该方法采用序列级符号系统，将复杂的状态转移概率和中间奖励简化处理，把每个响应视为完整单元。系统架构将回答划分为两大类：标准长度的CoT推理，以及需要额外计算成本的扩展推理。模型采用双层优化框架，在凸多面体约束下分配计算资源，确保推理链的长度控制在合理范围内。此外，该算法通过迭代优化，上层问题采用梯度更新求解，而下层优化则在每次迭代中直接计算。

实验结果表明，该方法在多个任务上的表现均取得显著提升。监督微调（SFT）方法的SVSFT与ASV-SFT-1虽然提升了pass@1指标，但推理资源消耗相应增加。值得注意的是，ASV-IuB-q+在50%和75%参数设定下，推理效率提升显著，分别减少4.14%和5.74%的计算开销，同时性能与当前最优的RL自我修正方法SCoRe相匹配。此外，实验还揭示了基于提示（prompting）和SFT方法在绝对提升和效率优化上的局限性，进一步表明RL方法在自我修正方面的潜力更大。

研究团队还提出了IBPO（约束策略优化框架），通过加权监督微调更新机制来优化推理过程。该方法基于CGPO框架，在每次迭代中通过整数线性规划计算最优权重，实现动态推理预算分配，并在数学推理任务上展现出卓越的资源管理能力。尽管计算资源限制仍然是一个挑战，但该框架可通过多步采样积累缓解这一问题。未来，该方法的应用范围有望进一步扩展，研究人员计划在更多LLM任务中测试其可行性，并扩大实验规模，以探索其在不同场景下的潜在价值。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/967514.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！