干货 | 大模型在图数据分析、推荐系统和生物科学中的综合应用

点击蓝字

2e234e4ae66a9795f395ee152e746d3c.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

图机器学习、推荐系统与大语言模型的融合正成为新的前沿热点。图机器学习通过利用图结构数据,能够有效地捕捉和分析复杂关系和模式。同时,推荐系统正逐步成为我们日常生活的一部分,通过分析用户行为和偏好来提供个性化的内容推荐。当大语言模型与图机器学习、推荐系统结合时,它们能够提供更加深入、准确的洞察,从而在各种应用中提供更加丰富和个性化的用户体验,这为智能化技术的应用开拓了新的视角和可能性。

2023年12月26日,AI TIME “Global AI Lab”系列活动邀请了香港大学数据智能实验室,五位学者分享了他们在大模型领域的最新研究成果和深刻洞见。他们分别从不同的角度和领域出发,不仅涵盖了理论层面的深入探讨,也提出了实用的解决方案,为大模型的发展提供了重要见解和方法论。

01

黄超

Exploring the Power of Large Language Models (LLMs) for Graph Learning

黄超老师首先介绍了图学习的基本知识,图是描述和分析具有关系或交互的实体的通用语言,它专注于分析和处理图形结构的数据。图学习作为一种强大的数据分析工具,在多个领域中发挥着重要作用。在社交网络分析中,它帮助揭示用户间的关系和影响力模式;在推荐系统中,通过理解用户和物品间的复杂互动,能够提高推荐的准确性和个性化;在交通和物流领域,它也被用于优化路线规划和交通流量预测;在学术网络中,它可以帮助建模研究者与科研成果之间的连接关系;在生物信息学领域,图学习用于分析蛋白质网络和基因表达数据,促进新药发现和疾病机理研究;在知识图谱和自然语言处理中,它助力于构建更丰富、更准确的语义关系,推进智能问答和搜索系统的发展。

随后,黄老师分析了图学习面临的一些挑战和解决方案,比如,如何使模型在数据稀疏的条件下更好地学习到图的表征、让模型具有更好地泛化能力、弱化图结构中的“噪音”对模型的影响。黄老师指出,自监督学习为这些问题提供了一种有效的学习范式,它能够高效学习图的深层次表征,提升模型在未知数据上的泛化能力,并有效减弱噪音的影响。这种学习方式在处理未标注的大规模图数据时特别有价值,不仅提高了数据利用效率,还增加了模型的灵活性和适应性,甚至能够探索和揭示图中未知的结构和模式,为科学研究和实际应用提供新的洞察和知识。

最后,他还带领大家探索了大型语言模型(LLMs)在图学习领域的应用潜力,分析了大语言模型在理解和生成复杂语言结构方面的能力,展示了这些模型如何被应用于图学习,尤其是在提取和理解图结构数据中的语言信息方面的创新做法。

02

夏良昊

Towards Large Model for Graphs

夏良昊首先深入探讨了大型机器学习模型在处理图数据方面的独特优势和应用前景。他详细阐述了如何利用大模型处理复杂的图结构数据,特别是在社交网络分析、知识图谱构建以及推荐系统中的应用。随后,他为我们综述了大图模型的相关工作,包括Pretrained GNNs系列的GraphMAE、GraphPrompt,LLM for Graphs系列的GraphGPT、GraphLLM,LLM-enhanced GNNs系列的SimTeG、ENG,Graph Foundation Models系列的OFA、Ultra等。

他通过具体的案例工作,说明大图模型研究的挑战,比如在应用预训练的图神经网络(GNNs)处理图数据时,如何有效迁移和调整在大规模数据集上预训练的模型,以适应特定的图结构数据和任务。对于大型语言模型(LLM)在图数据中的应用,难点在于如何有效融合图结构的特性和语言模型的语义理解能力,特别是在处理图中复杂的节点和边关系时。在LLM增强的图神经网络中,挑战在于两种模型间的协同和优化,确保模型能够有效结合GNN的结构理解和LLM的语义处理能力,同时处理好模型的复杂性和计算效率问题。而引入Graph Foundation Models,这些挑战进一步扩展到如何构建一个通用、高效且可扩展的图模型框架,使得该框架能够适应各种类型的图数据和多样化的图任务。对于这些挑战,要求在模型架构、训练策略、数据表示和跨领域泛化能力上进行创新,以优化模型的性能和适应性。

03

杨雨豪

Large Languages Models for Sturctured Data in BioChem

大语言模型展现出强大的零样本和人类指令的跟随能力,吸引了众多研究者去探索,当结构化数据及图结构,与LLM相结合会产生怎样奇妙的化学反应?杨雨豪围绕该问题带领观众探索了如何利用LLM去处理复杂的生物化学中的图数据,包括分子的结构、蛋白质的序列和一些生物化学中的知识图谱等。

他首先分析了使用大语言模型来助力生物化学中图数据的原因,主要有三点:该领域药物的发现和预测是耗时耗力的,大语言模型可以加速该过程;整合LLM中知识库中的多样信息从而做出更加全面和准确的预测决策;利用LLM支持相关领域研究者的创新和合作从而促进更好的科学发现。其次他介绍了该领域目前取得的一些进展及LLM在分子任务等结构化数据上的应用,包括分子属性的预测、分子的结构描述、利用自然语言描述的分子生成、蛋白子的描述、蛋白质的反向折叠、蛋白质的性质预测等。最后,他也指出该领域面对的一些挑战和问题,如目前做分子结构数据化的工作并未自然地被嵌入到LLM中、目前关注生成的任务还处于初期,一些更具挑战性的任务还有待探索、迫切需要一个关注特定领域任务的基座模型等。

04

汤嘉斌

GraphGPT: Graph Instruction Tuning for Large Language Models

图神经网络 (GNN) 通过图节点之间的递归信息交换和聚合实现了先进的图结构理解。为了提高模型的鲁棒性,自监督学习 (SSL) 已成为数据增强的一种有前途的方法。然而,现有的生成预训练图嵌入的方法通常依赖于对特定下游任务标签进行微调,这限制了它们在标记数据稀缺或不可用的情况下的可用性。

聚集上述问题,汤嘉斌对在具有挑战性的零样本学习场景中推进图模型的泛化能力进行研究。在报告中,他介绍了一种将 LLM 与图结构知识与图指令调整范式对齐的框架——GraphGPT。该框架通过利用一种简单而有效的图-文本对齐的方式,使得LLM能够理解和解释图的结构组件,加强了其在不同下游任务中的适应性,在不同的零样本图学习场景中验证了该框架的有效性与泛化性。

05

任旭滨

Enhancing Recommender Systems with Large Language Models

目前,学术界正在研究如何有效地将大语言模型的能力运用到图结构任务上,随着近年来图神经网络的发展,以及图网络在推荐系统领域的运用,图上的链路预测实际就等价于推荐系统的任务。任旭滨围绕该问题带领观众从两个方向(分别是基于LLM进行图数据增强以及图网络与LLM对齐)了解如何基于LLM来增强推荐系统的性能。

首先介绍的第一份工作是LLMRec(https://github.com/HKUDS/LLMRec)。在推荐算法所用到的传统图结构数据中,不但可能缺乏有效的节点特征数据,同时也会存在有噪音边。该算法首先引入了多模态的数据集来增强节点特征,并且利用LLM的文本理解能力通过推理用户商品的画像进行进一步的特征优化。此外,该算法通过利用LLM来对从图上采样的训练数据进行了增广,其基于语言模型的理解能力提供有效且高质量的训练数据以优化模型的训练。通过在真实世界多模态数据集上的实验以及消融实验,该工作有效地证明了其所提出的方法以及其中组件的有效性。

其次介绍的第二份工作是RLMRec(https://github.com/HKUDS/RLMRec)。该工作通过设计了一套高效且无偏的用户(商品)画像的生成策略,来对推荐图上的节点提供了丰富的文本描述,体现了其交互的偏好。而后利用互信息最大化的思想,从理论上有效地将协同过滤的特征表示和文本描述的特征表示进行对齐。具体实践时,本文提出了对比式对齐和生成式对齐,通过在真实世界的数据集上进行验证,两种方法分别在不同的任务场景上体现出了优势,例如对比式对齐的方式更加适用于推荐性能的优化,生成式对齐的方式更加适用于对推荐算法的预训练,均有不错的性能。

提醒

点击“阅读原文”跳转到00:00:01

可以查看回放哦!

往期精彩文章推荐

673fb3fa2403cee06952a18643ccbb76.png

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1600多位海内外讲者,举办了逾600场活动,超700万人次观看。

ab4c9589e6466e3eade0696c4c2d15f0.png

我知道你

在看

~

eb4528035de22834140d64a38374d386.gif

点击 阅读原文 查看回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/359600.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

5G_RACH(一)

什么是RACH RACH 代表 Random Access Channel。这是开机时UE发给eNB的第一条消息。 为什么选择RACH ?(RACH 的功能是什么? 当你第一次听到RACH或RACH Process这个词时,你脑海中浮现的第一个问题是“为什么是RACH?”…

前端Web开发

安装flask框架 pip install flask 导入flask模块 from flask import Flask 【可能遇到的问题】 出现了如下警告: WARNING: You are using pip version 21.2.4; however, version 22.0.4 is available.You should consider upgrading via the D:\Python\python…

EPSON RC 机器人-第一个程序

创建项目 有机械人且用USB线连接好。可以USB。没有真机的选择 C4 Sample 可以运行程序。 否刚会提示【不能连接到控制器,未安装USB驱动器】 代码 按F5打开运行窗口 再点【开始】 点 【是】,查看运行结果

GMS测试BTSfail-CVE-2022-20451

描述: 项目需要过GMS兼容性测试,BTS这块我们环境没有,送检之后出现了一个BTS的Alert,这个是必须要解决的。下面的warning可以不考虑。 这个是patch问题,根据代理提供的pdf文件找到一个id:为A-235098883的补丁&#xf…

C#,德兰诺依数(Dealnnoy Number)的算法与源代码

1 Dealnnoy Number 德兰诺依数,德兰诺伊数 德兰诺依数是以法国军官、业余数学家亨利德兰诺依(Henry Dealnnoy)的名字命名。 Henry Dealnnoy 在组合数学中,德兰诺依数描述了从(0,0)到(m,n)的格路问题中, 只允许按照(0…

TensorFlow2实战-系列教程14:Resnet实战1

🧡💛💚TensorFlow2实战-系列教程 总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Jupyter Notebook中进行 本篇文章配套的代码资源已经上传 1、残差连接 深度学习中出现了随着网络的堆叠效果下降的现象,Resnet使用残…

BTC交易数据是什么样子的

如何储存 交易数据是用字节的形式存储在区块链中,但是我们分析和处理的时候一般使用16进制。另外BTC的数据都是通过小端模式存储的。 16进制:计算机的世界只有2进制,但是为了节省空间已经增加可读性,BTC使用了16进制的形式来保存数…

蓝桥杯 第 1 场 小白入门赛

目录 1.蘑菇炸弹 2.构造数字 3.小蓝的金牌梦 4.合并石子加强版 5.简单的LIS问题 6.期望次数 1.蘑菇炸弹 我们直接依照题目 在中间位置的数进行模拟即可 void solve(){cin>>n;vector<int> a(n1);for(int i1;i<n;i) cin>>a[i];int ans0;for(int i2;i…

氢气泄漏检测仪使用方法:守护安全,从细节开始

随着科技的发展&#xff0c;我们的生活和工作环境中充满了各种潜在的危险。其中&#xff0c;氢气作为一种清洁能源&#xff0c;其使用日益广泛&#xff0c;但同时也带来了泄漏的风险。为了确保我们的安全&#xff0c;了解并正确使用氢气泄漏检测仪至关重要。下面将详细介绍氢气…

Optimism的挑战期

1. 引言 前序博客&#xff1a; Optimism的Fault proof 用户将资产从OP主网转移到以太坊主网时需要等待一周的时间。这段时间称为挑战期&#xff0c;有助于保护 OP 主网上存储的资产。 而OP测试网的挑战期仅为60秒&#xff0c;以简化开发过程。 2. OP与L1数据交互 L1&#xf…

STM32学习笔记二——STM32时钟源时钟树

目录 STM32芯片内部系统架构详细讲解&#xff1a; 1.芯片内部混乱电信号解决方案&#xff1a; 2.时钟树&#xff1a; 1.内部RC振荡器与外部晶振的选择 2. STM32 时钟源 3.STM32中几个与时钟相关的概念 4.时钟输出的使能及其流程 5.时钟设置的基本流程 时钟源——单片机…

上海亚商投顾:创业板指失守1600点 全市场超5000只个股下跌

上海亚商投顾前言&#xff1a;无惧大盘涨跌&#xff0c;解密龙虎榜资金&#xff0c;跟踪一线游资和机构资金动向&#xff0c;识别短期热点和强势个股。 一.市场情绪 沪指昨日低开低走&#xff0c;深成指跌超2%&#xff0c;创业板指失守1600点&#xff0c;续创年内新低。脑机接…

C语言KR圣经笔记 6.6 表查询 6.7 typedef

6.6 表查询 为了说明结构体的更多方面&#xff0c;本节我们来写一个表查询功能包的内部代码。在宏处理器或编译器的符号表管理例程中&#xff0c;这个代码是很典型的。例如&#xff0c;考虑 #define 语句&#xff0c;当遇到如下行 #define IN 1 时&#xff0c;名称 IN 与其对…

n-皇后-dfs

import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.IOException; import java.io.OutputStreamWriter; import java.util.Scanner;public class Main {static int n,N 20; //这里只会用到2 * n - 1的格子,开大点保险static char[][] g new c…

Makefile编译原理 makefile中的include关键字

一.makefile中的include关键字 类似C语言中的include 将其他文件的内容原封不动的搬入当前文件 make对include关键字的处理方式&#xff1a; 在当前目录搜索或指定目录搜索目标文件 搜索成功&#xff1a;将文件内容搬入当前makefile中 搜索失败&#xff1a;产生警告&…

聚观早报 | 360 AI搜索App上线;岚图汽车与京东达成合作

聚观早报每日整理最值得关注的行业重点事件&#xff0c;帮助大家及时了解最新行业动态&#xff0c;每日读报&#xff0c;就读聚观365资讯简报。 整理丨Cutie 1月30日消息 360 AI搜索App上线 岚图汽车与京东达成合作 三星电子在硅谷新设实验室 小米平板7系列参数曝光 Spa…

大创项目推荐 题目:基于深度学习的中文对话问答机器人

文章目录 0 简介1 项目架构2 项目的主要过程2.1 数据清洗、预处理2.2 分桶2.3 训练 3 项目的整体结构4 重要的API4.1 LSTM cells部分&#xff1a;4.2 损失函数&#xff1a;4.3 搭建seq2seq框架&#xff1a;4.4 测试部分&#xff1a;4.5 评价NLP测试效果&#xff1a;4.6 梯度截断…

代码随想录算法刷题训练营day20

代码随想录算法刷题训练营day20&#xff1a;LeetCode(654)最大二叉树、LeetCode(617)合并二叉树、LeetCode(700)二叉搜索树中的搜索、LeetCode(700)二叉搜索树中的搜索、LeetCode(98)验证二叉搜索 LeetCode(654)最大二叉树 题目 代码 import java.util.Arrays;/*** Definit…

MATLAB有限元应用-四边形八节点梁受力弯曲

MATLAB在处理平面有限元问题和梁弯曲问题上有很强的能力,主要体现在以下几个方面: 建模与网格划分 MATLAB内置了方便的图形界面工具(pdetoolbox等),可以快速对几何模型进行二维三维网格划分,生成有限元分析需要的网格。 求解器 MATLAB内置了多种求解偏微分方程的有限元求解器…

大模型重塑车载语音交互:赛道巨头如何引领新周期?

车载语音交互赛道正进入新一轮竞争周期。 高工智能汽车注意到&#xff0c;传统车载语音交互赛道当前基本已进入成熟期&#xff0c;主要为任务型助手&#xff0c;包括从单轮对话到多轮对话&#xff0c;单音区到多音区&#xff0c;从单一的导航、多媒体娱乐等座舱功能扩展智能驾…