一、为什么需要 DeepSolution?
1.1 复杂工程设计的挑战
在现代工程领域,设计一个满足多重复杂约束的解决方案是至关重要的。举个例子,假设我们需要设计一个在年降雨量 3000 毫米、膨胀土条件和频繁地震活动区域的安全高效医院建设方案。这种任务通常需要专家查阅大量专业知识,耗费大量时间和人力资源。就像你在做一道复杂的数学题,不仅要考虑每个步骤的正确性,还要确保最终答案符合所有条件。这种多重约束的设计任务,往往需要跨学科的知识和反复的验证,才能确保方案的可行性和安全性。
1.2 现有技术的不足
现有的检索增强生成(Retrieval-Augmented Generation, RAG)技术主要关注长文本问答或多跳问答任务,这些任务的答案通常是知识段落或实体片段。然而,复杂工程方案设计任务涉及多重现实约束,需要生成完整且可行的解决方案,现有技术在这方面表现不佳。举个例子,现有的 RAG 技术可能只能回答“地震对建筑的影响是什么?”,但它无法生成一个完整的医院建设方案,考虑所有复杂的环境和地质条件。因此,现有的技术在处理复杂工程设计任务时,显得力不从心。
1.3 深度解决方案的诞生
为了填补这一技术空白,中科院和通义实验室提出了深度解决方案(DeepSolution),通过树状探索(Tree-based Exploration)和双点思维(Bi-point Thinking)机制,生成可靠的工程解决方案。这一技术不仅提升了自动化水平,还显著提高了解决方案的可靠性。就像在解一道复杂的数学题时,不仅需要一步步推导,还需要不断验证每一步的正确性。深度解决方案通过树状结构,探索多种可能的改进方向,并通过双点思维机制,在设计和审查之间交替进行,逐步优化解决方案,确保其满足所有约束条件。
二、 DeepSolution技术解析
2.1 树状探索机制(Tree-based Exploration)
深度解决方案采用了一种树状探索机制,这种机制的核心思想是将每个分支视为不同的改进方向。想象一下,这就像你在解决一个复杂的数学问题时,尝试了多种不同的解题思路,每个思路都是一个分支。通过这种方式,系统能够灵活地从次优解逐步优化到可靠解。
举个例子,假设需要设计一个高效的医院建设方案,树状探索机制会帮助系统从多个角度(如建筑结构、材料选择、抗震设计等)进行探索,最终找到一个最优解。
2.2 双点思维机制(Bi-point Thinking)
在工程需求中,往往存在多重现实约束,比如预算、时间、技术限制等。系统生成的解决方案无法保证一开始就满足所有约束。因此,深度解决方案引入了双点思维机制。简单来说,双点思维机制就像是在设计过程中不断进行“设计-审查”的交替。比如,系统先设计一个初步的医院建设方案,然后审查这个方案是否满足抗震要求;如果不满足,再回到设计阶段进行调整。通过这种交替过程,系统逐步提高生成方案的完整性和可靠性。
2.3 节点评估与剪枝
为了在推理效率和性能之间取得平衡,深度解决方案采用了节点评估与剪枝技术。这就像你在做决策时,会评估每个选项的可行性,然后放弃那些不太可能成功的选项。具体来说,系统会对树状结构中的每个节点进行评估,判断其是否值得继续探索。如果某个节点的评估结果不理想,系统就会对其进行剪枝,确保推理过程沿着最有希望的解决方案和最有帮助的审查意见进行。例如,在多个医院建设方案中,系统会评估每个方案的可行性,并优先保留那些最有可能满足所有约束的方案。
2.4 开源地址
深度解决方案已经开源,可以在以下地址获取代码和详细文档:DeepSolution GitHub。
三、深度解决方案的应用评估
3.1 实验设置
在 Solution Bench 基准上对深度解决方案的性能进行了评估。这个基准测试了系统在处理复杂工程问题时的能力,特别是生成完整且可行的解决方案的能力。比较了几种不同的方法,包括深度推理模型、单轮 RAG(Retrieval-Augmented Generation,检索增强生成)方法、多轮迭代 RAG 方法以及我们提出的深度解决方案。通过这些对比,能够全面了解各种方法在复杂工程问题上的表现。
3.2 整体结果
-
• 一方面,未使用RAG(检索增强生成)的深度推理模型在SolutionBench的所有八个领域中表现均不佳。例如,GLMZero-Preview在航空航天领域的分析得分仅为42.3。
-
• 另一方面,基于RAG的方法虽然表现有所提升,但仍处于相对较低的水平。例如,Naive-RAG在采矿工程领域的技术得分仅为40.1,而Self-RAG在环境工程领域的技术得分仅为63.6。
SolutionRAG在基准测试的所有八个领域中均达到了SOTA(当前最优)性能,相比基线方法有显著提升。例如,在采矿领域,SolutionRAG的技术得分比Naive-RAG提高了10.4,比Self-RAG提高了8.9。这些实验结果证实,SolutionRAG能够有效处理各种实际工程场景中的复杂方案设计任务
3.3 消融实验
由于树状探索和双点思维是SolutionRAG中的两个关键机制,进行了两项消融实验,结果如上表所示。其中,“w/o tree structure”表示每个节点仅生成一个子节点,形成单链推理模式,而“w/o bi-point thinking”表示树结构不包含审查环节,所有节点均为解决方案,形成单点思维推理模式。可以得出以下两个主要结论:
-
1. 树状探索和双点思维均具有积极作用 :移除任一机制都会导致性能显著下降,这表明这两种机制确实是解决复杂工程方案设计任务的核心。
-
2. 树状探索和双点思维的重要性相当 :移除这两种机制后,整体性能下降程度相似,表明它们在SolutionRAG中具有同等重要性。
3.4 详细分析
为了进一步验证SolutionRAG的有效性,进行了一些详细分析,包括树生长过程中的性能变化以及SolutionRAG中节点评估的有效性。
-
1. 树生长过程中的性能变化 :为了检验在SolutionRAG推理过程中,随着树深度的增加,解决方案是否确实得到改进,对树的第一层、第三层和第五层的解决方案进行了评分。实验结果如上图所示,性能从浅层到深层逐渐提升,这证明SolutionRAG确实能够在推理过程深入时改进解决方案。
-
1. 节点评估的有效性 :为了检验用于修剪树的节点评估机制是否有效,比较了保留节点和修剪节点的解决方案得分。结果如上图所示,保留节点的解决方案得分显著高于修剪节点,这证明节点评估是一种有效的判断和修剪机制。
四、未来工作
在复杂工程方案设计领域,未来的研究方向将聚焦于利用强化学习(Reinforcement Learning, RL)来训练大语言模型(Large Language Models, LLMs),以开发更强大的设计系统。通过强化学习,模型可以在与环境的交互中不断优化其决策能力,从而生成更加可靠和高效的工程方案。例如,在设计一个抗震建筑方案时,模型可以通过多次迭代和反馈,逐步改进其设计,确保方案满足所有安全标准。
此外,未来研究还将进一步探索树状结构的宽度和深度等超参数。树状结构的宽度决定了每个节点可以生成多少个子节点,而深度则控制了树的层数。通过调整这些超参数,可以优化系统的推理效率和性能。例如,在设计一个复杂的交通系统时,增加树的宽度可以让模型探索更多的设计方案,而增加树的深度则可以让模型在更细粒度的层面上进行优化。
通过深度解决方案(DeepSolution),为复杂工程方案设计提供了一种全新的技术路径。这一技术不仅能够显著提高设计的自动化水平,还能确保方案的可靠性和可行性。期待这一技术在未来能够广泛应用于实际工程场景中,例如城市规划、能源系统设计等领域,为人类社会的生产力提升做出更大贡献。
来源 | 大语言模型论文综述