GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

大模型执行图推理任务,我们是希望大模型仅仅给出结果,还是在给出准确答案的同时,输出详细的推理过程?

先来看GPT-4的表现:

给出了一个非常简短且错误的答案(判断该图中没有环),这可能是由于模型在处理长输入时的局限性,或者是对图的复杂结构理解错误所致。这显示了大型模型在适应图论问题时面临的挑战。

相比之下,港科大团队开发的GraphWiz不仅给出了正确的答案,还提供了一条清晰且详细的推理路径。

图片

GraphWiz 的设计目的是提升目前开源的大型模型在解决各种图推理任务时的能力:

通过对大型模型进行针对性的微调,处理不同复杂度的图推理任务,并同时输出明确而连贯的推理路径。

对于人类来说,要在这样规模的图中检测环是极具挑战性的。通常,人类需要借助外部工具或花费大量时间来完成这一任务,因为仅仅依靠脑力计算是不切实际的。

这突显了GraphWiz在空间推理和记忆保持方面的能力。它表明,该模型已经有效地吸收了图论的基本原理,并能够自主地在大规模且复杂的图结构中进行导航和推理。GraphWiz在处理复杂图问题方面的能力,证明了其在实际应用中的巨大潜力。

总的来说,本篇文章的主要贡献如下:

  • 创建了GraphInstruct,一个大规模的数据集,用于训练语言模型处理图任务,并提供清晰推理路径,提高可解释性。
  • 推出了GraphWiz,一个开源的大型语言模型,擅长通过明确推理解决各种图问题,性能优于GPT-4。
  • 研究了训练数据量和DPO框架下采样策略等对模型性能的影响,并探索了GraphWiz跨任务迁移的能力,为后续模型优化和性能提升提供指导。

图推理任务介绍

在本研究中,团队精心挑选了九种不同计算复杂度层次的图问题,涵盖了研究的广度和深度,包括:

  • 四个线性复杂度任务:连通性和环检测、二分图检验、拓扑排序
  • 三个多项式复杂度任务:最短路径、最大三角形和、最大流;
  • 以及两个NP完全任务:哈密尔顿路径和子图匹配。

图片

通过选择这九个图问题,团队的工作从简单到复杂、可解到难解的问题上进行了全面的图论探索。这种多样化的选择不仅有助于团队理论上理解图算法,而且还能解决广泛的实际应用问题。

GraphInstruct数据集构建

图片

GraphInstruct的构建包括以下几个关键步骤:

**图问题生成。**为了打造一个多样而具挑战性的图问题库以供模型训练与测试之用,团队通过编程辅助的方法,为每一种预设的任务生成随机图问题。团队为每一个任务设计了独特的模板,以捕捉图的特有属性,例如图是有向还是无向,边是否有权重等。随机图的生成团队采用了Erdős-Rényi(ER)模型。

**显式推理路径生成。**GraphInstruct为每一个图问题对都配备了一条显式推理路径。考虑到手动标注这些图任务的推理路径既复杂又耗时,团队选择利用GPT-4来生成初步的推理路径。

**数据增强与拒绝采样。**由于观察到GPT-4在许多图任务上的表现欠佳,比如在初始数据集中的最大流任务上自由不足100个样本是正确的,团队采用了拒绝采样策略来增广数据集,以包含更多样的推理路径。

**挑选多样化的推理路径。**这个步骤需要在准确度和多样性之间找到平衡。为此,团队采用了一系列精细化策略,这些策略分为基于字符串和基于语义的方法,用以筛选出不同的生成推理路径。

GraphWiz训练

图片

基于GraphInstruct,团队训练了GraphWiz,旨在优化当前大模型解决图问题并给出显式推理路径的能力。GraphWiz的训练方法是一个创新的两阶段过程:

混合任务指令调优(Mixed-Task Instruction Tuning):在第一阶段,团队专注于提升模型解释和解决各种图问题的能力。通过这种方法,GraphWiz学习处理包括理解问题、识别图的属性、应用图算法等在内的多个子任务。

直接偏好优化对齐(Direct Preference Optimization Alignment ):第二阶段,团队通过训练模型区分更有效与不太有效的问题解决路径来进一步锐化模型的推理能力。DPO对齐使模型能够识别和生成更理想的推理路径,从而提高解决问题的效率和准确性。

GraphWiz性能评测

团队对GraphWiz进行评估,旨在回答以下关键问题:

  • Q1: GraphWiz在不同复杂度的图问题上的表现如何,特别是与目前最强大的闭源模型GPT-4相比如何?
  • Q2: 训练数据量的变化对GraphWiz的性能有什么影响?
  • Q3: GraphWiz 对不同图问题的迁移能力如何?
  • Q4: 图中节点数量的变化会如何影响GraphWiz的性能?此外,它能有效处理的最复杂的图是多大的?
  • Q5: 超参数ß如何影响模型性能?

图片

从上表中可以看出,团队的模型在各种开源模型上展示出了卓越的结果,显著超过了GPT-4的性能。这一点在从简单到困难类别的各种任务中都保持一致。DPO进一步提高了模型平均性能。然而,DPO可能对特定任务有不利影响。这表明,虽然DPO通常有助于改善模型推理,但可能需要进一步调整,以避免对某些问题类型产生负面影响。

图片

根据上表,团队观察到随着训练语料库的增加,两个模型都有效果的提升,比如GraphWiz (Mistral-7B)的平均准确率从1:1比率的46.56%上升到1:5比率的53.75%。这表明更多的多样化推理路径通常有利于模型解决图推理问题的整体性能。

团队可以注意到在某些任务上,如三角形和汉密尔顿路径问题,准确性并没有显著提高,甚至随着数据量的增加而略有下降。例如,GraphWiz (Mistral-7B) 在三角和问题上在1:1比率下的准确性为47.00%,然后在1:5比率下降至38.75%。这可能表明了过拟合现象,即模型开始记住训练数据中的模式,这些模式并不适用于未见过的数据。

总之,虽然增加数据量和推理路径的多样性通常可以导致更好的模型性能,但在某些复杂任务中存在潜在的过拟合迹象,这强调了需要仔细设计模型训练,并对不同的图问题任务进行验证,以确保广泛的泛化能力。

图片

为了探索GraphWiz在不同图任务中的迁移能力,团队建立了一个额外的模型变体:GraphWiz-High。这个模型仅在两个高复杂度(NP-完全)图任务上进行训练:汉密尔顿路径和子图匹配。为了研究其迁移能力,团队进行了两个比较实验:

**高复杂度任务比较。**团队首先将GraphWiz-High与常规的GraphWiz在高复杂度任务上进行比较。上图(a)表明GraphWiz的表现更好,验证了混合任务训练的有效性。这个结果也表明模型能够将从其他任务学到的知识转移到特定的高复杂度任务上。

**零样本迁移能力。**团队进一步测试GraphWiz-High在从未训练过的低和中复杂度任务上的零样本迁移能力。如上图 (b) 所示,GraphWiz-High与Mistral-Base相比有显著的性能提升。即使与ChatGPT相比,团队的模型也能保持相当的性能。考虑到ChatGPT和GraphWiz-High之间在参数数量上的巨大差异,这表明团队的模型具有值得称赞的跨任务泛化能力,展示了实际应用的重大潜力。

图片

为了解答关于模型性能如何随着不同图大小变化的问题,以及确定模型能够有效解决的最大图大小,团队在上图展示了GraphWiz在表现最佳任务(a)环检测和最差任务(b)最短路径上的性能。

从图中,团队得出以下结论:

GraphWiz和GPT-4在图的大小增加时都表现出性能的下降。然而,团队的模型在大多数时候当图大小上一致时优于GPT-4,这表明了对图结构更强大的理解和处理能力。

团队观察到在最短路径上,随着节点数的增加,性能显著下降。这种下降很可能可以归因于两个主要因素:该任务要求高推理和记忆能力,因为更高时间复杂性,以及强大的计算技巧,这可能对模型的容量构成额外挑战。实际上,团队发现两种模型主要依赖枚举来得出解决方案。因此,随着图大小的增加,所需的枚举推理呈指数级增长,导致当节点数超过60后,准确率显著下降,之后几乎不再有准确性。

这些观察表明,尽管GraphWiz在处理与图相关的任务方面明显优于GPT-4,但存在一个复杂度的阈值——特别是在需要超出简单推理的计算的任务中——即使是最先进的模型的性能也开始显著下降。

图片

最后,团队还探究了参数ß对模型效果的影响。团队观察到,较高的 ß似乎在一定程度上有利于困难任务的性能,但这并非严格的线性关系,并且在不同的模型大小之间也不一致。这表明,仔细调整 ß 对于在不同难度任务之间取得最佳平衡,提高模型的整体准确性是必要的。

更多样例

团队还展示了更多不同任务上GraphWiz的推理样例。

连通性任务:

图片

汉密尔顿路径任务:

图片

最短路径任务:

图片

子图匹配任务:

图片

论文链接:https://arxiv.org/abs/2402.16029
项目主页:https://graph-wiz.github.io/

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/707853.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

53.Python-web框架-Django开始第一个应用的多语言

针对上一篇的功能&#xff0c;本次仅对页面做了多语言&#xff0c;大家可以看看效果。 51.Python-web框架-Django开始第一个应用的增删改查-CSDN博客 目录 部门列表 新增部门 编辑部门 部门列表 源码 <!DOCTYPE html> {% load static %} {% load i18n %} <html …

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 团队派遣(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 🍓OJ题目截图 📎在线评测链接 团队派遣(100分) 🌍 评测功能需要订阅专栏…

集成学习 #数据挖掘 #Python

集成学习是一种机器学习方法&#xff0c;它通过结合多个模型的预测结果来提高整体性能和稳定性。这种方法的主要思想是“集合智慧”&#xff0c;通过将多个模型&#xff08;比如决策树、随机森林、梯度提升机等&#xff09;的预测集成起来&#xff0c;可以减少单个模型的过拟合…

如何发挥物联网电能表的优势

发挥物联网电能表的优势&#xff0c;对于提升电力系统的智能化水平、优化电力资源配置、提高用电效率以及促进环保发展等方面都具有重要意义。 一、实时监测与数据分析 物联网电能表的核心优势在于其能够实时监测电力使用情况&#xff0c;并通过无线网络将数据传输到云平台。…

【云岚到家】-day03-2-门户缓存实现实战

【云岚到家】-day03-2-门户缓存实现实战 5 缓存实现5.2 定时任务更新缓存5.2.1 分布式调度平台5.2.1.1 jdk提供的Timer定时器5.2.1.2 使用第三方Quartz方式5.2.1.3 使用分布式调度平台XXL-JOB 5.2.2 XXL-JOB5.2.2.1 介绍5.2.2.2 部署调度中心5.2.2.3 执行器 5.2.2 定义缓存更新…

laravel版本≥ 8.1

laravel10 php ≥ 8.1 且 ≤ 8.3&#xff1f; 8.1 < php < 8.3PHP版本要求在 8.1 到 8.3 之间&#xff0c;包括这两个版本。具体来说&#xff1a;"≥ 8.1" 表示 PHP 的版本至少是 8.1&#xff0c;也就是说 8.1 及以上的版本都可以。 "≤ 8.3" 表示 P…

2024年【广东省安全员A证第四批(主要负责人)】找解析及广东省安全员A证第四批(主要负责人)模拟考试题库

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 广东省安全员A证第四批&#xff08;主要负责人&#xff09;找解析根据新广东省安全员A证第四批&#xff08;主要负责人&#xff09;考试大纲要求&#xff0c;安全生产模拟考试一点通将广东省安全员A证第四批&#xff…

光储充一体化,开启绿色出行新篇章

一、追光逐梦&#xff0c;绿色能源点亮未来 在蔚蓝的天空下&#xff0c;光伏发电板如同一片片金色的叶子&#xff0c;静静地捕捉着太阳的光芒。它们不仅为大地带来光明&#xff0c;更是绿色出行的强大后盾。光储充一体化充电站&#xff0c;以光伏为源&#xff0c;储能为桥&…

CV预测:快速使用LeNet-5卷积神经网络

AI预测相关目录 AI预测流程&#xff0c;包括ETL、算法策略、算法模型、模型评估、可视化等相关内容 最好有基础的python算法预测经验 EEMD策略及踩坑VMD-CNN-LSTM时序预测对双向LSTM等模型添加自注意力机制K折叠交叉验证optuna超参数优化框架多任务学习-模型融合策略Transform…

Vue 3深度探索:自定义渲染器与服务端渲染

title: Vue 3深度探索&#xff1a;自定义渲染器与服务端渲染 date: 2024/6/14 updated: 2024/6/14 author: cmdragon excerpt: 这篇文章介绍了如何在Vue框架中实现自定义渲染器以增强组件功能&#xff0c;探讨了虚拟DOM的工作原理&#xff0c;以及如何通过SSR和服务端预取数…

【并发编程系列一】并发编年史:线程的双刃剑——从优势到风险的全面解析

文章目录 并发简史&#x1f5a5;️初期探索&#xff08;20世纪50-60年代&#xff09;并发理论基础&#xff08;1965年以后&#xff09;并行计算的兴起&#xff08;1970年代至1980年代&#xff09;现代并发技术&#xff08;1990年代至今&#xff09; 线程的优势&#x1f60d;发挥…

体验亚马逊AIGC——Amazon Bedrock

前言 随着人工智能技术的不断发展&#xff0c;我们已经进入了一个全新的时代&#xff0c;即AI驱动的时代。在这个时代&#xff0c;人工智能已经逐渐成为我们生活中不可或缺的一部分&#xff0c;它可以帮助我们更好地处理各种复杂的问题&#xff0c;提高我们的工作效率&#xff…

单调队列——Acwing.154滑动窗口

单调队列 定义 单调队列是一个限制只能队尾插入&#xff0c;但是可以两端删除的双端队列。单调队列存储的元素值&#xff0c;是从队首到队尾单调递增或单调递减的。 运用情况 滑动窗口最大值&#xff1a;给定一个整数数组和一个窗口大小&#xff0c;计算窗口内的最大值。任…

vscode 连接 GitHub

文章目录 连接 GitHub一、通过 SSH 连接 github二、通过 HTTPS 连接 github 连接 GitHub 在 vscode 中首次使用 git push 命令时会要求输入 github 账户的 username 和 password&#xff0c;这种基本身份验证在 2021.8.13 以前还是可以的&#xff0c;之后的话&#xff0c;就会…

逆向分析-Ollydbg动态跟踪Ransomware.exe恶意锁机程序

1.认识Ollydbg Ollydbg是一个新的动态追踪工具&#xff0c;将IDA与SoftICE结合起来的思想&#xff0c;Ring 3级调试器&#xff0c;非常容易上手&#xff0c;己代替SoftICE成为当今最为流行的调试解密工具了。同时还支持插件扩展功能&#xff0c;是目前最强大的调试工具。 Oll…

Python开源项目周排行 2024年第9周

#2024年第9周2024年6月3日1buku强大的浏览器书签管理工具。这是一款开源的书签命令行管理工具&#xff0c;它轻量、隐私安全且易于使用&#xff0c;支持从主流浏览器导入书签、自动获取书签信息、跨平台同步和强大的搜索功能。2flagsmith轻松管理功能开关和配置的平台。这是一个…

MJ绘画设计基础——如何玩转midjourney?

抽卡的时候经常有一个问题&#xff0c;就是整张图都还不错&#xff0c;但是某些地方有些小问题&#xff0c;比如说手很奇怪&#xff0c;比如下面这个图&#xff0c;哪都挺好看&#xff0c;就是左手有点问题。 这时候就可以局部重绘来拯救一下 第一次生成的图 点击图片下方的V…

DFS序 欧拉序

【算法分析】 ● DFS 序DFS 序表示从根结点开始对树进行 DFS 所得的结点遍历顺序。 易得上图的 DFS 序为&#xff1a;1&#xff0c;2&#xff0c;3&#xff0c;4&#xff0c;5&#xff0c;6&#xff0c;7&#xff0c;8&#xff0c;9。可见&#xff0c;通过 DFS 序&#xff0c;可…

Nginx+Tomcat负载均衡、动静分离群集方案

一、Tomcat简介 在现代 Web 服务架构中&#xff0c;Tomcat 和 Nginx 是两个至关重要的组件&#xff0c;负责处理用户请求并实现高性能的服务。本篇博客将深入探讨这些技术的原理和部署配置方法。 最初是由Sun的软件构架师詹姆斯邓肯戴维森开发。安装Tomcat后&#xff0c;安装…