每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
大型语言模型(LLMs)在复杂推理任务上展现出惊人的能力,尤其是在数学问题求解和代码生成方面。然而,这些模型仍面临重大挑战:虽然延长推理链可以提高问题解决能力,但往往导致不必要的冗长推理,即便是简单问题也会生成过长的解答。这种“统一长度”的推理方式不仅降低了计算效率,还削弱了其在实际应用中的实用性,使得计算成本和资源消耗大幅上升。
目前,提升LLMs推理能力的方法层出不穷,其中“思维链”(Chain-of-Thought, CoT)是基础技术之一,它通过将推理拆分为多个离散步骤来提升模型解题能力。在此基础上,研究人员进一步发展出了更复杂的推理策略,例如增加推理步骤的扩展CoT、自我反思机制、多轮推理以及多智能体辩论系统。近年来,一些模型(如OpenAI-o1和DeepSeek-R1)主打超长推理链,以提升复杂任务的解答能力。然而,这类模型无论面对何种问题,都倾向于生成冗长的推理路径,导致计算资源浪费,并增加了碳排放,对实际应用造成阻碍。
为了破解这一难题,Meta AI与伊利诺伊大学芝加哥分校的研究团队提出了一种创新方法,致力于让模型能根据查询的复杂度自动调整推理长度。相比于以往依赖启发式方法优化token利用率的策略,该研究从强化学习(RL)的角度切入,不直接建模响应长度,而是采用一种“分组方法”,通过对不同类型的回答进行分类,构建覆盖整个响应空间的高效推理框架,同时确保推理效率。
该方法采用序列级符号系统,将复杂的状态转移概率和中间奖励简化处理,把每个响应视为完整单元。系统架构将回答划分为两大类:标准长度的CoT推理,以及需要额外计算成本的扩展推理。模型采用双层优化框架,在凸多面体约束下分配计算资源,确保推理链的长度控制在合理范围内。此外,该算法通过迭代优化,上层问题采用梯度更新求解,而下层优化则在每次迭代中直接计算。
实验结果表明,该方法在多个任务上的表现均取得显著提升。监督微调(SFT)方法的SVSFT与ASV-SFT-1虽然提升了pass@1指标,但推理资源消耗相应增加。值得注意的是,ASV-IuB-q+在50%和75%参数设定下,推理效率提升显著,分别减少4.14%和5.74%的计算开销,同时性能与当前最优的RL自我修正方法SCoRe相匹配。此外,实验还揭示了基于提示(prompting)和SFT方法在绝对提升和效率优化上的局限性,进一步表明RL方法在自我修正方面的潜力更大。
研究团队还提出了IBPO(约束策略优化框架),通过加权监督微调更新机制来优化推理过程。该方法基于CGPO框架,在每次迭代中通过整数线性规划计算最优权重,实现动态推理预算分配,并在数学推理任务上展现出卓越的资源管理能力。尽管计算资源限制仍然是一个挑战,但该框架可通过多步采样积累缓解这一问题。未来,该方法的应用范围有望进一步扩展,研究人员计划在更多LLM任务中测试其可行性,并扩大实验规模,以探索其在不同场景下的潜在价值。