AI投资分析:用于股票评级的大型语言模型(LLMs)

“AI in Investment Analysis: LLMs for Equity Stock Ratings”

论文地址:https://arxiv.org/pdf/2411.00856

摘要

投资分析作为金融服务领域的重要组成部分,LLMs(大型语言模型)为股票评级带来了改进的潜力。传统的股票评级方式主要依靠分析师的判断,但这种方式遇到了数据量过大、文档不统一以及市场响应延迟的问题。

本研究探索了通过LLMs来增强股票评级的准确性和一致性,并测试了不同类型数据的效果。我们使用了从2022年1月至2024年6月期间收集的多个数据集,发现基于LLMs的方法在预测未来收益方面比传统方法表现更佳。结合财务基本面信息可以提高评级的准确性,而新闻资讯有助于改善短期预测,不过采用情感评分代替详细的新闻总结,可以在不影响效果的前提下降低token消耗。此外,在某些情境下,排除新闻数据能减少偏差,从而进一步提升性能。研究结果表明,LLMs能够高效处理大量多模态金融数据,提供一个既一致又精确的股票评级系统。

简介

投资分析构成了金融服务领域的核心,金融分析师通过审查财务数据和发布股票评级来辅助投资者做出决策并洞察市场趋势。股票评级是对公司未来表现的预测性评估,这对市场的认知有着重要影响。

近年来,深度学习技术与大型语言模型(LLMs)的发展大大增强了金融分析的效率和精度,这些工具能够解析海量非结构化信息,从而优化股票评级流程。LLMs在股票评级预测中的优势体现在:它们可以高效地处理复杂的数据集、根据需求生成预测结果,并融合多个数据来源以降低偏差。

本研究采用GPT-4-32k模型,探讨了LLMs如何应用于股票评级预测,同时确保不会发生信息泄露,展示了其在预估未来收益方面的卓越性能。

01相关工作

大模型在金融领域应用

LLM(大型语言模型)技术在金融行业中得到了广泛应用,涵盖了情感分析、内容摘要生成以及复杂的问答系统。研究表明,LLM在诸如股票预测、风险管理及量化交易等任务中展现出了卓越的能力。通过利用多样化的数据集和分阶段的应用方法,LLM提高了预测结果的透明度和可解释性。

例如,GPT模型通过分析新闻标题的情感得分来预测股市回报,其表现超越了传统的预测模型。它将财务新闻报道、公司基本面信息、股价变动以及宏观经济因素结合起来,以提供更精准的股票预测。此外,采用Chain-of-Thought提示和In-Context Learning技术,LLM能够生成有效的交易信号,并优化投资策略。在风险评估方面,LLM整合了财报数据、市场动态和新闻资讯,提供了深入的财务风险分析。

在量化交易的研究中,引入记忆模块和知识库增强了模型的自适应性和学习能力。LLM驱动的自主交易代理则通过分层记忆结构和知识库不断自我改进,从而更好地应对市场的变化。这些应用展示了LLM技术在金融领域中的潜力和灵活性。

分析师股票评级

股票分析师发布的评级预测旨在评估股票的未来表现,通常在公司发布季度财报、举行电话会议或发生重大事件之后。这些评级一般分为五个级别:强力买入/买入、增持、持有、减持、强力卖出/卖出。各金融机构可能采用不同的评级体系,有的基于风险调整后的表现,有的则是综合多个研究机构的评分结果。

分析师在进行评级时,会考量有关公司表现的各种定性和定量信息,为投资者提供决策支持。他们使用的数据来源广泛,包括但不限于基本面和技术分析、企业及行业的最新新闻报道、市场整体和特定行业的表现情况等。通过综合这些因素,分析师能够为投资者提供一个关于股票预期走势的专业意见。

股票评级的重要性

股票评级作为预示未来股票表现的关键指标,是投资者制定投资策略的重要参考。研究显示,股票评级对市场有着明显的影响,投资者往往会依据评级来调整其投资组合。一项针对20年间S&P500指数交易数据的研究发现,所开发的分类器在预测股价变动方面达到了很高的准确率,其中股票评级是一个关键的输入特征。

在G7国家进行的研究表明,分析师推荐意见的更新通常会引起股价的显著反应,这种现象在美国市场尤为突出。分析师推荐的变化往往伴随着股票波动性的增加和盈利预测的大幅调整。此外,在波兰市场的研究中也观察到,遵循分析师推荐的投资策略能够带来显著的超额回报。这些发现强调了分析师评级在影响市场动态和投资决策中的重要作用。

02方法

大型语言模型(LLMs)可用于解析金融数据并生成股票评级,这些模型能够处理海量信息、识别复杂的模式,并快速适应新的数据环境。它们可以高效地整合多种数据来源,提供深入的见解,这是传统方法难以企及的。LLMs可以获取与人类分析师相同的信息输入,如财务基本面数据、股价变化、新闻摘要以及情感分析等。

为了评估LLMs在投资分析领域的适用性,需要探讨哪些技术和信息能够进一步提升其性能。通过这种方式,可以确保LLMs不仅能够辅助决策,还能为投资者提供更加精准和有价值的洞察。

提示结构

采用GPT-4-32k模型,该模型具备32,000个token的上下文窗口,并且训练数据更新至2021年9月,以避免任何信息泄露。通过精心设计的系统提示,使LLM能够担当金融分析师的角色,并提供一个清晰的功能框架。明确股票评级的等级和术语,并详细描述财务基本面信息。

为了促进LLM的推理能力,我们使用Chain-of-Thought和少量示例(few-shot)提示方法,并给出输出实例作为指导。公司特定的输入数据将以结构化格式呈现,其中文本信息位于前面,而数值型数据则以表格形式展示。最后,实施基本的CoVE(验证链)流程来保证预测日期的准确性。

问题建模

为了评估这些评级的准确性,通常会分析在评级发布之后的股票市场表现,并考察不同评级类别的公司回报情况。具体来说,计算公司的实际回报𝑅 𝑐 (𝑡, 𝑝)以及相对于行业的回报 𝑅 𝑐 , 𝑠 (𝑡, 𝑝),并将公司的回报分配到五个分位数中。通过对比各分位数中的公司回报与相应的评级,可以判断评级的正确性。为此,我们定义一个指标函数,用于量化评估每个评级的准确程度。

公司评级 𝑐 (𝑡, 𝑝) 预测未来 𝑝 个月的表现,评级值为 {-2, -1, 0, 1, 2},分别代表强卖、适度卖、持有、适度买、强买。

03实验

数据

研究对象为2022年1月至2024年6月期间美国标准普尔500指数(S&P 500)的成分股。

分析师股票评级

在此期间,我们收集了126家公司的45,000条分析师评级记录,这些评级主要分为:维持现有评级(75.90%)、重申先前评级(7.25%)、下调评级(6.27%)、上调评级(5.68%)以及首次启动评级(4.89%)。前五大评级机构——摩根士丹利、巴克莱、富国银行、花旗和RBC资本,贡献了总评级量的31.61%。数据集包含了评级机构名称、评级发布日期及具体内容,但未包含目标日期和目标价格信息。

财经新闻摘要

我们搜集了S&P 500成分股的相关新闻报道,并运用命名实体识别(NER)技术剔除无关内容。平均而言,每月每只股票有39.63篇相关新闻文章,涉及约187,000个字符、40,000个单词,包含74.70个URL链接,同时有34.40篇新闻缺失。我们利用GPT-4-32k模型生成了公司和行业的新闻摘要,突出显示关键事件和发展趋势,并设计了两种用户提示方式以优化输出。此外,我们还通过GPT-4-32k对新闻摘要进行了情感分析,评分范围设定在-5至5之间,分别针对公司和行业制定了不同的评分模板。

股价和技术指标

我们收集了S&P 500成分股每日的收盘价,并计算了一系列技术指标,包括当前市场价格、52周的价格区间、90天的历史波动率以及过去1个月、3个月和12个月的表现。

财务基本面

我们从2022年1月至2024年3月期间,使用finagg API聚合了各公司提交给美国证券交易委员会(SEC)的季度财务报告(10-Q和10-K文件)。对于每个预测时点,我们考虑了过去四个季度的财务数据,这些报告详细列出了资产负债表、损益表和现金流量表的信息。

实验设置

我们使用GPT-4-32k模型进行了一项实验,旨在为2022年1月至2024年6月期间的S&P 500指数成分股生成股票评级。每个月初,针对每家公司预测其未来1个月、3个月、6个月、12个月和18个月的股票表现,评级选项涵盖强卖、适度卖、持有、适度买和强买。该实验覆盖了大约五个时间范围、30个起始日期以及500家不同的公司,目的是评估模型在不同时间段内的预测准确性。

为了评估模型的表现,我们采用了五种不同的方法:

1. Vanilla:作为基线方法,仅提供公司的历史数据,包括过去1个月、3个月和12个月的收益、当前股价、52周的价格区间及90天的波动率,总共13个数据点。

2. News:在此基础上添加新闻数据,增强Vanilla方法。此方法除了技术指标外,还提供上一个月内关于公司和行业的新闻摘要,LLM需要评估这些新闻的情感倾向(正面、负面、中性或混合),并在技术指标之前给出新闻摘要,以提升预测性能。

3. Sentiment:与Vanilla方法相似,但加入了预计算的公司和行业新闻情感分数(评分范围为-5至5),用以指导LLM的预测过程。

4. Fundamentals:在Vanilla提示的基础上增加季度财务基本面数据,如资产负债表、损益表和现金流量表中的详细指标描述,要求LLM分析这些额 外的数据点以做出预测。

5. Fundamentals + Sentiment:结合了基本面和情感分析的方法,在提供季度财务数据的同时,也加入情感分数,使LLM能够综合考虑基本面信息和市场情绪来进行推荐。

通过这五种方法,我们希望探索不同类型的数据如何影响LLM对股票评级的预测能力,并确定哪种组合能提供最准确的预测结果。

评估

为了评估分析师评级的准确性,我们采用了一种方法,该方法基于未来1、3、6、12和18个月的收益表现来衡量,这包括了相对于整个市场以及特定行业的收益情况。一个评级被认为是准确的,当实际取得的未来收益位置(以分位数表示)与分析师给出的评级等级相符时。例如,如果一家公司被给予“强烈推荐购买”的评级,但其在接下来的6个月内收益位于较低的分位,则说明这个评级明显不准确。

为了量化这种准确性,我们使用平均绝对误差(MAE),这是一种适用于顺序分类的方法,它会考虑到市场相对收益和行业相对收益。MAE对预测值偏离真实值的程度进行惩罚,而不仅仅是计算错误的数量。此外,我们还计算了一个复合误差,即3、6和12个月期间市场相对收益MAE的平均值,用以综合评价分析师的预测能力。这里的分析师评级来源于华尔街的真实数据,并且我们将这些评级与通过大型语言模型(LLM)做出的预测进行了对比分析。

04结果

我们分析了每月的市场相对MAE和行业相对MAE数据。

传统分析师 vs 大模型

分析师给出的买入评级比例超过了95%,而卖出评级则不足5%。在预测准确性方面,大模型方法的平均绝对误差(MAE)为1.447,低于分析师预测的1.570,表明LLM的预测更为准确。然而,大模型方法的标准差为0.745,高于分析师的0.637,这反映出其预测的一致性相对较差。对于行业回报,MAE和标准差的趋势与上述情况相同。

随着前瞻期的延长,分析师预测的误差逐渐减少,在18个月的时间段上表现略好;相比之下,大模型实验的误差则随时间增加。

新闻:总结 vs 情绪

在新闻总结实验中,Return MAE(平均绝对误差)为1.491,标准差为0.738,这一表现优于其他实验方法。相比之下,新闻情绪实验的Return MAE略高,为1.496,标准差为0.752,未能显著提升预测性能。值得注意的是,无论是包含新闻摘要还是仅包含情感评分的方法,两者的表现相似,均未超过大模型实验的结果。

Sector Relative Return MAE的趋势与Return MAE一致。新闻情绪分析在1个月的时间段内表现出色,这可能是因为它提供了更清晰的公司近期表现信息,有助于提高短期预测的准确性。

基本面 vs 基本面+情绪

在基本面加情绪的实验中,Return MAE(平均绝对误差)为1.417,显示出最准确的预测性能;而仅使用基本面数据的实验,其Return MAE为1.421,标准差为0.732,表明其预测具有一致性。这两个实验在3个月、6个月和12个月的时间段内表现尤为出色,尤其是在短期内,结合基本面数据和情绪评分的方法证明是有效的。然而,在18个月的长期预测中,基本面加情绪实验的MAE有所升高,这可能暗示了长期内信号之间存在冲突。

与大模型实验和分析师预测相比,这两个模型均表现出更好的性能,突显了财务基本面信息的重要性。此外,通过包含公司和行业的感情分析而不依赖新闻摘要数据,不仅提高了预测的准确性,还减少了模型的复杂性和潜在的噪音干扰。

结果总结

大型语言模型(LLM)在短期预测中表现出色,但随着预测时间的延长,其误差逐渐增加。新闻相关的实验,特别是那些使用新闻摘要的实验,在短期内展现了最佳的表现,这主要是由于新闻对市场的即时影响所致。新闻情感分析实验与新闻摘要实验的表现相近,表明单纯的情感分析并未显著提升预测性能。

结合财务基本面数据的实验,以及将基本面与情绪分析相结合的实验,在中期预测中表现良好。相比之下,分析师的预测在长期预测中则显得更为准确,这可能归因于分析师对市场长期趋势的深入理解和判断。

新闻的功效

通过计算Spearman相关系数并生成热图,我们分析了新闻摘要和新闻情感对预测结果的影响。在新闻实验中,LLM对公司和行业的新闻摘要进行评分,随后基于这些评分预测股票评级。而在情感实验中,则使用情感评分来替代新闻摘要进行推理。

我们发现,新闻摘要在不同月份之间存在一定的相关性,特别是在接近评级发布时期的相关性更为显著。这表明新闻摘要中的信息在特定时间段内对预测具有重要影响。通过这种方式,我们可以更好地理解新闻内容及其情感倾向如何影响LLM的预测性能。

LLM生成的评级与其之前的预测存在关联,使用新闻数据使得模型倾向于给出更积极的评级。LLM评级与新闻摘要的情感评分之间表现出强烈的正相关性,即正面情感往往会引导出更为有利的评级。这种情感影响导致了评级分布中积极评级的比例增加,从而在一定程度上降低了评级的准确性。

挑战和限制

研究的评估方法依赖于固定时间段内的前向收益和收益分位数,这种方法可能会受到市场条件的影响。评估的准确性还可能受到市场情绪、公司新闻和经济指标等定性因素的左右。由于缺乏具体的评级目标日期,导致不同评估的时间跨度不一致。此外,评估过程中未充分考虑分析师在评级时所依赖的重要因素,如对未来表现的预测、财务报告和投资者情绪等。模型也未经过测试来验证其处理大量信息的能力,而这是分析师在做出评估时通常需要审查的内容。

05总结

本研究旨在探索大型语言模型(LLMs)在股票评级预测中的潜力。通过整合多种信息来源,如基本财务数据、技术分析指标、财经新闻摘要、新闻情感分析以及财务基本面信息,我们评估了LLMs在此任务中的表现,并分析了不同数据源对预测效果的影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/949575.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于CLIP和DINOv2实现图像相似性方面的比较

概述 在人工智能领域,CLIP和DINOv2是计算机视觉领域的两大巨头。CLIP彻底改变了图像理解,而DINOv2为自监督学习带来了新的方法。 在本文中,我们将踏上一段旅程,揭示定义CLIP和DINOv2的优势和微妙之处。我们的目标是发现这些模型…

【学习笔记】数据结构(十)

内部排序 文章目录 内部排序10.1 概述10.2 插入排序10.2.1 直接插入排序10.2.2 其他插入排序10.2.2.1 折半插入排序(Binary Insertion Sort)10.2.2.2 2-路插入排序(Two-Way Insertion Sort)10.2.2.3 表插入排序(Table Insertion Sort&#xf…

Unity学习笔记(七)使用状态机重构角色攻击

前言 本文为Udemy课程The Ultimate Guide to Creating an RPG Game in Unity学习笔记 攻击状态重构 首先我们重构攻击状态的动画 之前的动画,我们是使用状态(isAttacking)攻击次数(comboCounter)完成动画的过渡,这样虽然能完成功能,但是如…

Ubuntu20.04中安装ns-3.36及遇到的问题

一、安装虚拟机:VMware 17.5 参考教程:VMware17Pro虚拟机安装教程(超详细)-CSDN博客 博主:七维大脑 遇到的问题: Q1:安装ubuntu系统时,页面看不到”继续“选项,无法进行下一步 A&#xff…

iOS 逆向学习 - iOS Architecture Cocoa Touch Layer

iOS 逆向学习 - iOS Architecture Cocoa Touch Layer 一、Cocoa Touch Layer 简介二、Cocoa Touch Layer 的核心功能1. UIKit2. Event Handling(事件处理)3. Multitasking(多任务处理)4. Push Notifications(推送通知&…

人大金仓实现主键自增.

使用数据库中自带的参数类型 serial 类型(相当于创建一个INT列), 或者bigserial(相当于创建一个BIGINT列. 示例sql: CREATE TABLE ord(id SERIAL,ord_no INT NOT NULL,ord_name VARCHAR(32),CONSTRAINT "ord_PKEY" PRIMARY KEY ("id"));插入时指定自增值…

React Router 向路由组件传state参数浏览器回退历史页面显示效果问题

昨天在看尚硅谷张天禹老师讲的 React教程p90,老师讲到 React路由的 replace模式和push模式,老师的演示效果与自己本地操作不太一样。 老师的效果:点击查看消息1,消息2,消息3 再点回退,可以依次查看到 消息…

selenium无法定位元素的几种解决方案

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 1、frame/iframe表单嵌套 WebDriver只能在一个页面上对元素识别与定位,对于frame/iframe表单内嵌的页面元素无法直接定位。 解决方法: d…

SSM-Spring-IOC/DI注解开发

目录 IOC/DI注解开发 1 注解开发定义bean 2 纯注解开发模式 步骤 Bean的作用范围 Bean生命周期 3 注解开发依赖注入 Autowired 注解实现按照名称注入 简单数据类型注入 注解读取properties配置文件 4 IOC/DI 注解开发管理第三方bean 4.1 步骤(以管理第三…

深入探讨 Android 中的 AlarmManager:定时任务调度及优化实践

引言 在 Android 开发中,AlarmManager 是一个非常重要的系统服务,用于设置定时任务或者周期性任务。无论是设置一个闹钟,还是定时进行数据同步,AlarmManager 都是不可或缺的工具之一。然而,随着 Android 系统的不断演…

接口开发完后,个人对于接下来接口优化的一些思考

优化点 入参的合法性和长度范围&#xff0c;必填项的检查验证 因为没有入参&#xff0c;所以不需要考虑。 批量思想解决N1问题 // 假设要查询100个订单及其对应的用户信息 List<Order> orders orderMapper.selectList(new QueryWrapper<>().last("limit …

Redis内存碎片

什么是内存碎片? 你可以将内存碎片简单地理解为那些不可用的空闲内存。 举个例子&#xff1a;操作系统为你分配了 32 字节的连续内存空间&#xff0c;而你存储数据实际只需要使用 24 字节内存空间&#xff0c;那这多余出来的 8 字节内存空间如果后续没办法再被分配存储其他数…

小程序租赁系统开发的优势与应用前景分析

内容概要 小程序租赁系统是一种新兴的数字化解决方案&#xff0c;旨在为用户提供更加便捷与高效的租赁服务。它通常包括一系列功能&#xff0c;如在线浏览、即时预定、支付功能以及用户反馈机制。这些系统在使用上极为友好&#xff0c;让用户能够轻松选择所需的商品或服务&…

25年1月更新。Windows 上搭建 Python 开发环境:PyCharm 安装全攻略(文中有安装包不用官网下载)

python环境没有安装的可以点击这里先安装好python环境&#xff0c;python环境安装教程 安装 PyCharm IDE 获取 PyCharm PyCharm 提供两种主要版本——社区版&#xff08;免费&#xff09;和专业版&#xff08;付费&#xff09;。对于初学者和个人开发者而言&#xff0c;社区…

RedisTemplate执行lua脚本及Lua 脚本语言详解

使用RedisTemplate执行lua脚本 在开发中&#xff0c;我们经常需要与Redis数据库进行交互&#xff0c;而Redis是一个基于内存的高性能键值存储数据库&#xff0c;它支持多种数据结构&#xff0c;并提供了丰富的命令接口。在某些情况下&#xff0c;我们可能需要执行一些复杂的逻…

基于Python 的宠物管理系统(源码+部署)

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

stm32第一次烧录或者上电运行卡死问题分析

问题描述 单片机烧录代码&#xff08;刚上电&#xff09;无法立即运行&#xff0c;必须要复位一次或多次才能运行&#xff1b;跟踪调试会进入HardFault_Handler中断。 问题分析 烧录配置如下图&#xff0c;首先排除配置问题那么该问题就比较让人头大了&#xff0c;理论上&am…

ESP32-C3 AT WiFi AP 启 TCP Server 被动接收模式 + BLE 共存

TCP 被动接收模式&#xff0c;每次发的数据会先存到缓冲区&#xff0c;参见&#xff1a;ATCIPRECVTYPE 指令说明。 即每包数据不会实时报告 IPD 接收情况&#xff0c;如果需要查询缓冲区的数据&#xff0c;先用 ATCIPRECVLEN? 指令查询被动接收模式下套接字数据的长度 。获取…

【LeetCode Hot100 二分查找】搜索插入位置、搜索二维矩阵、搜索旋转排序数组、寻找两个正序数组的中位数

二分查找 搜索插入位置搜索二维矩阵在排序数组中查找元素的第一个和最后一个位置寻找旋转排序数组中的最小值搜索旋转排序数组寻找两个正序数组的中位数&#xff08;hard&#xff09; 搜索插入位置 给定一个排序数组和一个目标值&#xff0c;在数组中找到目标值&#xff0c;并…

ChatGPT 主流模型GPT-4/GPT-4o mini的参数规模是多大?

微软论文又把 OpenAI 的机密泄露了&#xff1f;&#xff1f;在论文中明晃晃写着&#xff1a; o1-preview 约 300B&#xff1b;o1-mini 约 100BGPT-4o 约 200B&#xff1b;GPT-4o-mini 约 8BClaude 3.5 Sonnet 2024-10-22 版本约 175B微软自己的 Phi-3-7B&#xff0c;这个不用约…