FinDKG: 用于检测金融市场全球趋势的动态知识图谱与大型语言模型

“FinDKG: Dynamic Knowledge Graphs with Large Language Models for Detecting Global Trends in Financial Markets”

论文地址:https://arxiv.org/pdf/2407.10909

摘要

动态知识图(DKG)能够表示对象间随时间变化的关系,适用于从复杂且非结构化的数据中抽取信息。在金融领域,DKG可以用来根据金融新闻识别投资趋势。本文介绍了一个名为集成上下文知识图生成器(ICKG)的开源微调大型语言模型,它能创建金融新闻报道的动态知识图谱FinDKG。我们还开发了一种基于注意力机制的图神经网络架构KGTransformer,用于解析这些FinDKG。实验结果显示,在基准数据集和FinDKG上的链接预测任务中,KGTransformer展现了优秀的性能,并且在主题投资策略上,其表现超越了现有的主题交易所交易基金(ETF)。

简介

知识图谱(KG)由实体、它们之间的关系以及这些关系所构成的事实组成,其基础构建块是三元组(主体, 关系, 客体)。动态知识图谱(DKG)则在传统KG的基础上增加了时间元素,使得事件可以被描述为四元组(主体_i, 关系_i, 客体_i, 时间戳_i),从而能够表示随时间变化的关系。动态知识图谱的学习过程涉及利用图神经网络(GNN)来捕捉KG的结构特性及其随时间的变化模式。本文提出了一种名为KGTransformer的新模型,它是一种结合了注意力机制的GNN,能够考虑元实体信息,以提高链接预测的效果。此外,还开发了一个称为集成上下文知识图生成器(ICKG)的工具,该工具利用大型语言模型(LLM)从文本数据中抽取实体和它们之间的关系,并形成带有时间信息的事件四元组。通过ICKG,我们创建了一个开源的金融领域动态知识图谱数据集FinDKG,旨在支持主题投资分析。

01相关工作

图表示学习:

图表示学习利用图神经网络(GNNs)来获取图结构的紧凑表示,从而改善节点分类、边预测和图分类等任务的表现。在知识图谱(KGs)中,这些技术有助于信息检索、问答系统和个性化推荐。

金融知识图谱:

动态金融知识图谱能够捕捉金融体系内复杂的、随时间演变的关系,并应用于诸如欺诈检测和股价预测等领域。然而,传统的静态GNN模型在处理动态变化的金融网络时遇到了困难,因为它们未能充分考虑时间维度上的数据变化。

金融中的大语言模型(LLMs):

大型语言模型(LLMs)在金融应用中取得了显著成就,例如在情感分析和股票市场趋势预测方面。不过,这类模型也带来了可解释性和计算资源消耗的问题。为了解决这些问题,一些开源替代方案如Meta推出的LLaMA以及Mistral AI开发的LLM提供了更加高效的选择。

02集成上下文知识图谱生成器(ICKG)

目标:

我们设计了一条自动化且易于扩展的流水线,旨在从非结构化的数据源(如文本资料)中抽取时间维度的知识图谱。此过程采用大型语言模型(LLM)来构建知识图谱,并通过监督式微调进行个性化定制。为此,我们开发了集成上下文知识图谱生成器(ICKG),该工具基于GPT-4 API进行了优化,以提高知识图谱创建任务的效率。

微调流程:

为了构建微调的数据集,我们选取了5000篇开源的金融新闻文章作为素材,每篇文章依次被送入GPT-4模型中,从中抽取出三元组并对实体进行分类。随后,我们对这些提取结果进行了严格的数据质量控制,只保留那些完全符合指令要求并且每篇文章至少产生5个四元组的输出。利用这些经过筛选的四元组,我们对开源的Mistral 7B模型进行了微调,整个过程大约需要10小时,在8个配备40GB内存的A100 GPU上运行完成。

在流程图示例中,我们可以看到输入的是新闻文章、预定义的实体类别和它们之间的关系,而输出则是构成知识图谱的五元组表示。

FinDKG数据集

本文贡献了一个开源的金融动态知识图谱数据集FinDKG,该数据集是利用集成上下文知识图生成器(ICKG)与大型语言模型(LLM)构建的。FinDKG收录了大约40万篇来自《华尔街日报》的金融新闻文章,涵盖了1999年至2023年的内容,并剔除了不相关的经济和金融话题。通过ICKG,我们提取出了包含实体、实体类别以及关系类型的五元组,其中关系类型限定为15种与金融新闻密切关联的类别。为了处理实体的歧义问题,我们采用了Sentence-BERT进行实体消歧。

FinDKG 2023年1月的快照体现了美中地缘政治的紧张态势、高通胀的压力以及COVID-19疫情对金融市场的影响。这个数据集被设计用于评估我们提出的动态知识图谱学习方法的有效性。

03基于KGTransformers的图学习

动态知识图谱学习专注于捕捉观测数据中的结构信息和时间特性,其核心目标是预测未来的事实。关键任务是链接预测:即在给定源实体、两者间的关系以及未来某一时间点的情况下,预测最有可能的目标实体。目的是为每个三元组构建一个排名函数,以评估对应的四元组发生的概率。本文介绍了一种新的KGTransformer模型,用于学习这些排名函数。

知识图谱Transformer

KGTransformer是一种利用注意力机制的图神经网络(GNN),旨在创建实体的低维表示,即图嵌入。此模型在传统GNN架构的基础上进行了扩展,通过引入元实体和增强版的图注意力机制,加强了不同实体类别之间的联系。每一层KGTransformer生成的嵌入表示为 (ℓ),它是一个大小为R × ℓ的矩阵,经过多层处理后,最终输出的嵌入表示为 ( ),其尺寸为R × 。

在每一层中,模型通过聚合操作来生成潜在特征,并使用多头机制来整合来自不同关注点的信息。更新实体表示时,模型结合了消息传递向量与计算出的注意力分数,通过一个聚合公式来进行,同时确保每个节点的更新权重是归一化的。注意力分数是通过softmax函数计算得出的,以保证所有注意力权重的总和等于1。这一过程使得KGTransformer能够有效地捕捉到实体间的复杂关系并用于后续的任务。

每个注意力分数 ℎ( , , ) 是通过整合元实体信息来获得的,这里假设有一个函数 :E→CE,它能将实体映射到相应的实体类型。

举例来说,OpenAI(作为一家公司)和 ChatGPT(作为一个产品)之间的关系可以表示为 (OpenAI)=公司,以及 (ChatGPT)=产品。在这个框架中,元实体信息是通过一个张量 ℎ∈R|CE|×|R|×|CE|融入模型的,其中|CE|代表实体类型的数量,|R|表示关系类型的数量。这一方法类似于处理异构图的方式,通过这种方式,模型能够考虑不同类型的实体及其相互间的关系。

KGTransformer 的注意力分数公式为:

键和查询向量是通过前一层的潜在特征,经由可训练矩阵 Pℎ 和 Rℎ 变换后得到的。消息向量则是通过对前一层的嵌入 Y(ℓ−1) 进行线性投影来生成的,这一过程使用了特定的公式:

DKGs的时间演化更新

本节探讨了如何在EvoKG框架内融合时间演变的知识图谱(DKG)表示,这涉及到时间嵌入和结构嵌入的结合。我们定义了在离散时间点t观察到的动态知识图谱 G_t =(E, R, F_t),并关注事实集 F_t 随时间的变化。为了处理每个时间点上的图 G_t,我们使用KGTransformer独立地生成其表示,并通过递归神经网络(RNN)来建模这些时间点上的变化,从而产生时间嵌入 V_t。

对于关系的时间嵌入 V_t^{\sim},我们也采用RNN进行建模,它基于在各个时间点出现的关系的平均值。至于结构嵌入 U_t,我们同样是利用KGTransformer和RNN来创建,以捕捉给定图在不同时间点上的条件概率分布。同样地,结构嵌入 U_t^{\sim} 也是通过对各时间点上关系的平均化处理获得,并且也通过RNN进行建模,以反映随时间演化的结构特征。

动态知识图谱学习

本文介绍了一种动态知识图(DKG)学习方法,该方法基于概率框架,并融合了KGTransformer以捕捉时间变化的特征。我们的目的是找到最优化的模型参数,以便准确地描述观察到的动态图G 的演变过程。为此,我们将概率分布分解成两部分:一部分是 ( , , |G −1),它反映了图结构随时间的变化;另一部分是 ( | , , ,G −1),它管理着时间上的演变规律。

为了近似表示 p(s, r, o|G_t) 的概率,我们引入了随时间变化的结构嵌入 ,t 和 ˜ , 。同时,我们定义了一个全局嵌入 ,它整合了所有实体的嵌入信息,用以评估条件概率。在实体和关系两个层面上进行的概率建模,则是通过多层感知机(MLP)来实现参数化的。对于时间动态的建模,我们采用的是 M 个对数正态分布的混合模型。

模型参数的学习是通过一个接收来自KGTransformer的时间嵌入的多层感知机(MLP)完成的。为了推断出这些参数,我们使用了一个复合损失函数来进行最小化,这个损失函数还特别考虑到了调整关系对称性的影响。

04实验和应用

为了测试KGTransformer在链接预测任务上的性能,我们选择了流行的基准数据集以及新构建的FinDKG数据集进行评估。我们将检验由ICKG LLM生成的FinDKG在金融新闻文章中识别投资趋势的能力,并通过分析图中心性指标来评估其效果。此外,我们还将探索FinDKG在主题投资领域的潜在应用。

真实世界DKGs的链路预测

为了评估KGTransformer模型在链接预测任务上的表现,我们采用了MRR(平均倒数排名)和Hits@n(例如Hits@3和Hits@10)作为主要性能指标。MRR是通过计算所有查询的真实链接排名的倒数平均值来衡量的,即 MRR = Σ (1/rank_q) / |Q|,其中rank_q表示每个查询中真实链接的位置。而Hits@n则用来度量真实链接出现在前n个预测结果中的频率。为了防止过拟合,我们在验证集上应用了早停策略。

作为对比,我们选择了几个基线模型进行比较,包括静态图模型R-GCN、时间图模型RE-Net和EvoKG,以及一个不包含元关系信息的KGTransformer版本。所有模型均在同一计算环境中进行了训练和评估,并使用了三种不同的随机种子以确保结果的可靠性。最终报告的结果为多次实验的平均值,显示出较低的变异性。

我们使用的评估数据集包括ICEWS、YAGO、WIKI等经典数据集,以及新引入的FinDKG数据集。特别地,FinDKG数据集包含了元实体信息,这使得KGTransformer在此数据集上的优势更加突出。

实验结果表明,静态方法如R-GCN在处理时间敏感的任务时表现欠佳,这突显了时间特征对于动态知识图谱的重要性。KGTransformer在YAGO和WIKI数据集上的性能超过了其他竞争对手,但在ICEWS14数据集上并未展现出显著的改进。相比之下,在FinDKG数据集上,KGTransformer的表现尤为突出,通过整合实体类型信息,其MRR和Hits@3、Hits@10等指标相较于其他模型提升了大约10%。当移除实体类别信息(即“KGTransformer w/o node types”版本)时,模型的性能接近于时间基线模型,这证明了引入实体类型信息对提升模型效果的重要性。

金融新闻中的趋势识别

FinDKG被用来动态监控全球金融网络,并评估ICKG LLM在从金融新闻中提取信息方面的能力。每个星期天,我们会创建一个包含过去一个月所有事件四元组的月度快照知识图谱。为了量化实体的重要性,我们使用了四种中心性指标:度中心性、介数中心性、特征向量中心性和PageRank,并对这些指标进行了一年期的 -score标准化处理。

以全球COVID-19疫情为例,我们分析了这些中心性指标与新闻头条报道之间的关系。研究发现,中心性指标能够有效地捕捉到疫情期间的关键时刻,反映了这些时间点在金融网络中的重要性。通过这种方式,我们可以更好地理解重大事件如何影响金融市场的结构和动态。

基于FinDKG的主题投资

主题投资策略聚焦于那些可能在未来对行业和经济产生重大影响的特定趋势。本文中,我们利用FinDKG和KGTransformer来评估公司在人工智能(AI)领域的曝光度。每个季度末,我们通过KGTransformer模型进行在线学习,以预测哪些股票可能会受到AI的影响,并据此构建一个名为FinDKG-AI的主题投资组合。这个投资组合每个月都会根据预测的影响概率进行再平衡,确保所有持仓的权重总和为100%。

在回测中,与EvoKG模型相比,FinDKG-AI投资组合展现出了最优的表现,不仅年化收益最高,而且夏普比率也优于现有的AI ETF和其他EvoKG策略。值得注意的是,FinDKG-AI组合表现的提升恰好与OpenAI发布的ChatGPT时间点相一致,这表明该模型能够有效地捕捉到市场对于重要技术进展的反应。

05总结

本文在动态知识图谱(DKGs)和大型语言模型(LLMs)的金融应用方面提出了三项重要贡献。

首先,我们研究了通过微调开源LLMs来生成知识图谱的效果,并引入了一种名为集成上下文知识图谱生成器(ICKG)的LLM。该模型被用来从金融新闻文章中构建了一个开源数据集FinDKG。

其次,我们提出了一种新的架构KGTransformer,它结合了分层图Transformer(HGT)和EvoKG的优点,通过整合元实体信息来增强学习过程。实验结果显示,KGTransformer在两个标准基准数据集上的链接预测性能得到了提升,在FinDKG上的表现更是提高了超过10%。

最后,ICKG LLM不仅限于金融领域,其通用性已经在相关文献中得到了体现。为了促进进一步的研究和应用,我们在GitHub上提供了相关的代码,并创建了一个指定网址的在线门户,用于访问FinDKG的可视化工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/949744.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Robot---奇思妙想轮足机器人

1 背景 传统机器人有足式、轮式、履带式三种移动方式,每种移动方式都有各自的优缺点。轮式机器人依靠车轮在地面上移动,能源利用率高、移动速度快,但是仅以轮子与地面接触,缺乏越障能力和对复杂地形的适应能力,尤其面对…

高效工作流:用Mermaid绘制你的专属流程图;如何在Vue3中导入mermaid绘制流程图

目录 高效工作流:用Mermaid绘制你的专属流程图 一、流程图的使用场景 1.1、流程图flowChart 1.2、使用场景 二、如何使用mermaid画出优雅的流程图 2.1、流程图添加图名 2.2、定义图类型与方向 2.3、节点形状定义 2.3.1、规定语法 2.3.2、不同节点案例 2.…

.NET框架用C#实现PDF转HTML

HTML作为一种开放标准的网页标记语言,具有跨平台、易于浏览和搜索引擎友好的特性,使得内容能够在多种设备上轻松访问并优化了在线分享与互动。通过将PDF文件转换为HTML格式,我们可以更方便地在浏览器中展示PDF文档内容,同时也更容…

Tableau数据可视化与仪表盘搭建-可视化原则及BI仪表盘搭建

目录 可视化原则 BI仪表盘搭建 仪表盘搭建原则 明确仪表盘主题 仪表盘主题拆解 开发设计工作表 经营情况总览:突出显示的文字 经营数据详情:表格 每日营收数据:多轴折线图 每日流量数据:双轴组合图 新老客占比&#xf…

AIA - APLIC之三(附APLIC处理流程图)

本文属于《 RISC-V指令集基础系列教程》之一,欢迎查看其它文章。 1 APLIC复位 APLIC复位后,其所有状态都变得有效且一致,但以下情况除外: 每个中断域的domaincfg寄存器(spec第 4.5.1 节);可能是machine-level interrupt domain的MSI地址配置寄存器(spec第4.5.3 和4.5…

unity学习5:创建一个自己的3D项目

目录 1 在unity里创建1个3D项目 1.1 关于选择universal 3d,built-in render pipeline的区别 1.2 创建1个universal 3d项目 2 打开3D项目 2.1 准备操作面板:操作界面 layout,可以随意更换 2.2 先收集资源:打开 window的 AssetStore 下载…

AI赋能跨境电商:魔珐科技3D数字人破解出海痛点

跨境出海进入狂飙时代,AI应用正在深度渗透并重塑着跨境电商产业链的每一个环节,迎来了发展的高光时刻。生成式AI时代的大幕拉开,AI工具快速迭代,为跨境电商行业的突破与飞跃带来了无限可能性。 由于跨境电商业务自身特性鲜明&…

我用Ai学Android Jetpack Compose之Text

这篇开始学习各种UI元素,答案来自 通义千问,通义千问没法生成图片,图片是我补充的。 下述代码只要复制到第一个工程,做一些import操作,一般import androidx.compose包里的东西,即可看到预览效果。完整工程代…

HashMap总结使用+原理+面试

文章目录 1.Hashmap的基本使用创建hashmap对象。遍历hashmap统计字母出现的次数用来投票计算返回JSON数据 2.hashmap源码阅读put源码阅读 3. HashMap 面试题目hashmap实现的原理什么时候数组需要进行扩容hashmap怎么确定把数据放到那个节点的哪个位置。为什么用 n - 1 与运算&a…

JS中函数基础知识之查漏补缺(写给小白的学习笔记)

函数 函数是ECMAScript中 最有意思的部分之一, 主要是因为函数实际上是对象.-- 每个函数 都是Function类型的实例,Function也有属性和方法. 因为函数是对象,所以函数名就是指向函数对象的指针. 常用的定义函数的语法: ①函数声明 ②函数表达式 ③箭头函数 function sum (n…

Skyeye 云 VUE 版本 v3.15.3 发布,涉及 ERP、OA、财务等

Skyeye 云智能制造,采用 Springboot winUI 的低代码平台、移动端采用 UNI-APP。包含 30 多个应用模块、50 多种电子流程,CRM、PM、ERP、MES、ADM、EHR、笔记、知识库、项目、门店、商城、财务、多班次考勤、薪资、招聘、云售后、论坛、公告、问卷、报表…

LInux单机安装Redis

1. 安装gee工具包 由于Redis是基于c语言编写的所以安装的时候需要先安装gee以及gcc的依赖,yum云用不了可以看一下这个 linux 替换yum源镜像_更换yum镜像源-CSDN博客 yum install -y gcc tcl 2. 添加redis的压缩包 3. 上传到Linux 上传到 /usr/local/src 目录、这个目录一般用于…

热备份路由HSRP及配置案例

✍作者:柒烨带你飞 💪格言:生活的情况越艰难,我越感到自己更坚强;我这个人走得很慢,但我从不后退。 📜系列专栏:网路安全入门系列 目录 一,HSRP的相关概念二,…

java开发springoot

阅读理解 命令之间空一行:表示前面的是配置 红色背景:表示待验证蓝色背景:表示常用或推荐绿色背景:注意/推荐 json 转 对象 import com.fasterxml.jackson.databind.ObjectMapper; public DebangResp convertJsonToObject(Stri…

gesp(C++一级)(17)洛谷:B4062:[GESP202412 一级] 温度转换

gesp(C一级)(17)洛谷:B4062:[GESP202412 一级] 温度转换 题目描述 小杨最近学习了开尔文温度、摄氏温度和华氏温度的转换。令符号 K K K 表开尔文温度,符号 C C C 表摄氏温度,符号 F F F 表华氏温度&am…

windows ping ssh

问题解决1:局域网内,为啥别人ping不到我的IP 问题解决2:ssh连接windows10拒绝连接 第一步:ssh使用的22端口,首先确认windows10的22端口是否开启。 –开启步骤 1.控制面板–>Windws Defender 防火墙–>高级设置…

《Rust权威指南》学习笔记(二)

枚举enum 1.枚举的定义和使用如下图所示: 定义时还可以给枚举的成员指定数据类型,例如:enum IpAddr{V4(u8, u8, u8, u8),V6(String),}。枚举的变体都位于标识符的命名空间下,使用::进行分隔。 2.一个特殊的枚举Option&#xff0…

科研绘图系列:R语言单细胞数据常见的可视化图形

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载导入数据数据预处理图1图2图3图4图5图6系统信息参考介绍 单细胞数据常见的可视化图形 因为本教程是单细胞数据,因此运行本画图脚本需要电脑的内存最少32Gb 加载…

打造三甲医院人工智能矩阵新引擎(二):医学影像大模型篇--“火眼金睛”TransUNet

一、引言 1.1 研究背景与意义 在现代医疗领域,医学影像作为疾病诊断与治疗的关键依据,发挥着不可替代的作用。从传统的X射线、CT(计算机断层扫描)到MRI(磁共振成像)等先进技术,医学影像能够直观呈现人体内部结构,为医生提供丰富的诊断信息,涵盖疾病识别、病灶定位、…

IP查询于访问控制保护你我安全

IP地址查询 查询方法: 命令行工具: ①在Windows系统中,我们可以使用命令提示符(WINR)查询IP地址,在弹窗中输入“ipconfig”命令查看本地网络适配器的IP地址等配置信息; ②在Linux系统中&…