ChatGPT在解读历史股票收益预测中的外推和错误校准

论文地址:https://arxiv.org/pdf/2408.16707
原本地址:https://mp.weixin.qq.com/s/gL8ZTnpS0xJy7Qc73QEaGw

摘要

本文研究了大型语言模型(LLM)如何解释历史股票回报,并将其预测与众包股票排名平台的估计进行了比较。虽然股票回报表现出短期逆转,但LLM的预测过于外推,对近期表现的权重过高,与人类的预测类似。相对于历史和未来的实现回报,LLM的预测显得乐观。当提示80%置信区间的预测时,LLM的反应比调查证据更好地校准,但对异常值持悲观态度,导致预测分布偏倚。研究结果表明,法学硕士在预测预期回报时表现出普遍的行为偏差,但在衡量风险方面比人类做得更好。

简介

生成性人工智能(AI)在交通、医学和经济等领域展现出巨大潜力,尤其在金融决策中,通过客观分析大量信息提升投资者、分析师和审计师的表现。大型语言模型(LLMs)可能嵌入有害的社会偏见,模仿人类决策时也可能包含认知偏差,如过度外推和过于乐观的预测。本研究评估ChatGPT-4在提供历史回报数据时是否表现出行为偏差,特别是对短期回报的过度外推。

研究发现,投资者对资产未来回报的预期与近期回报呈正相关,且对最近回报的权重最大。ChatGPT在预测股票排名时,表现出与人类相似的依赖历史数据的方式,且其预测结果与人类的预测存在显著相关性。尽管存在短期回报反转的现象,ChatGPT的外推仍然是反生产性的,导致其排名与未来表现呈负相关。

人类在处理收益时对负收益的重视程度高于正收益,负面表现对预期的影响更持久;而GPT-4则更重视近期正收益,且对远期负收益的处理与人类相似。GPT-4在分析价格图表时,仍然依赖于过去的收益数据进行预测。

在对S&P500的市场回报预测中,GPT-4和Claude模型的情绪特征高度相关(0.78),表明相似的人类行为在其响应中体现。LLM的预期收益预测普遍高于历史实际收益,GPT-4的预期收益为2.2%,显著高于历史均值1.4%和实际收益1.15%。GPT-4的80%置信区间预测准确率为76.9%,低于历史10%和90%分位数的简单预测,但其误差程度低于CFO调查结果。GPT-4在低预期和高预期预测中均表现出悲观倾向,低预期显著低于历史10%分位数,高预期也低于历史90%分位数。

LLM的股票回报预测与历史百分位数回归,发现90th百分位数的加载最大,显示出过度乐观的预测倾向。低预测和高预测均显著加载对应百分位数,但高预测对高百分位数的敏感性低,显示出对分布尾部的悲观预期。LLM的预测表现出历史回报的过度外推,尽管风险评估优于人类,但在预期表现上过于乐观,尾部分布略显悲观,导致预测分布相较历史数据呈正偏态。研究表明LLM在金融决策中可能重现人类行为,但对数字数据的解读并不完全理性,需关注潜在偏见。

数据收集:投资者和LLM股票收益预测

**数据来源。**人类股票预测数据来自Forcerank平台,参与者每周对十只股票进行排名,预测下周的回报表现。

**样本信息。**包含1,283个周赛,涉及200个独特股票代码,使用每只股票在第t周的平均得分作为投资者共识预期的代理。

**预测方法。**分析基于过去12周的滞后股票回报,使用GPT-4生成相应的排名和信心度,输出格式为JSON。

**避免偏差。**通过匿名化提示,确保不包含未来结果,防止前瞻性偏差。

**市场表现预测。**使用AAII投资者情绪调查数据,测量市场的牛市、熊市和中性预期。

**LLM市场预测。**提供S&P 500指数的月度回报数据,询问未来六个月市场方向及信心度,输出格式为JSON。

大型语言模型(LLMs)能够解读图像和数值数据,并预测股票表现。使用蜡烛图展示10只股票的每日价格数据,颜色区分涨跌。提交图像查询给ChatGPT-4,要求对未来一周的股票收益进行排名,输出格式为JSON。研究LLMs如何预测未来收益分布,参考CFO调查。通过随机选择100个月的股票数据,分析历史收益并生成下月收益预测。统计样本包含1283个Forcerank比赛,12807个股票观察,200只独特股票。调查显示,市场情绪偏向乐观,ChatGPT情绪评分为0.37。

大型语言模型期望形成

大型语言模型(LLM)通过深度学习模拟人脑,利用数十亿神经元和海量文本数据发现模式,形成“黑箱”特性。LLM在数值任务上表现出意外的能力,依赖统计学习识别数字关系和逻辑推理,但可能导致错误响应。训练数据中的人类讨论可能引入行为偏见,影响LLM的数值反应。研究者使用自编码器分析LLM神经元的激活模式,揭示其学习的特征。本研究关注LLM如何解读历史股票收益的时机和幅度,并探讨低(10%)和高(90%)预测是否代表不同的特征。

历史回归时间-外推

研究人类与LLM(大型语言模型)在历史回报时间解读上的表现预测。首先,模拟Forcerank竞赛环境,要求GPT-4预测十只股票的相对表现。其次,分析耶鲁金融中心和美国个人投资者协会的市场表现调查,时间范围从一个月到一年。重点在于LLM是否以类似人类的方式从近期回报中进行外推。

绩效等级分析

研究分析了滞后收益对预测和实际收益表现的影响,使用回归模型。人类预测未来表现受过去收益强烈影响,过去12周的收益系数普遍为正且显著,近期收益的系数高于远期收益。ChatGPT-4的预测显示对最近收益的过度依赖,前一周的系数是两周前的10倍,且系数随时间递减。人类的R平方值(3.4%)显著低于ChatGPT(35.2%),因人类有更多信息可用。结果表明,过去收益在预测未来表现中对人类和LLM的影响相似。

人类和GPT-4的排名显著相关,且在控制滞后收益后关系依然存在,表明两者对收益的依赖超出线性外推模型的捕捉。短期收益反转现象与人类和GPT-4的预期相反,周收益呈现短期反转,滞后期的负系数显著。提供更多数据(24周滞后收益)并未显著减少对近期收益的重视。人类对收益的反应存在不对称性,负收益的反应更强,且滞后效应持续较长时间。GPT-4对近期正收益的外推更强,但对远期负收益的反应与人类相似,显示出更对称的反应模式。在Forcerank比赛中,历史表现排名的外推显示出短期反转,GPT-4的表现排名主要集中在最近的表现。使用价格图表进行预测时,滞后收益系数的大小较小,但仍显示出随时间递减的趋势。

LLM(如GPT4)在处理非结构化图像数据时也表现出从过去收益中外推的倾向。线性回归结果显示人类与LLM的表现排名与近期收益之间存在明显的衰减模式。参数回归模型假设过去收益的权重呈指数衰减,λ1为整体效应,λ2为相对权重,λ1越高、λ2越低,外推程度越高。GPT4的水平系数λ1大于人类,表明其对过去收益的反应更强;而λ2较小,意味着更重视近期收益,外推程度为38.1,远高于人类的12.09。LLM的预测可能会负向预测未来收益,尽管线性外推模型仅解释了38%的GPT4预测变异,可能还有其他非外推因素与收益正相关。

使用Fama-MacBeth回归分析预测与未来股票收益的关系,因变量为个股未来一周的日收益。将LLM和人类预测分解为预测分数和残差,预测分数为回归的拟合值,残差为回归的剩余部分。控制变量包括市值、账面市值比、资产增长、毛利润率、市场贝塔、周换手率及过去一个月的最大日收益。结果显示人类和LLM预测与未来收益呈负相关,尤其是预测分数的负向预测更为显著。训练人类输出可能导致LLM预测未来收益的方向错误。

Forcerank设置分析股票的相对表现,结合GPT-4对市场表现的预期与美国个人投资者调查的证据。人类情绪指标Sentiment𝑖,𝑡反映投资者对未来六个月市场走势的预期,范围为-1到1。ChatGPT的情绪指标基于历史收益,预测未来六个月市场上涨、持平或下跌,分别用1、0、-1表示。回归分析显示,ChatGPT的收益预测对近期收益赋予较大正权重,尤其是第一期滞后收益。使用Claude 3.5 Sonnet模型的市场情绪测量与ChatGPT的结果高度相关,回归系数为0.81,R²为0.603,相关性为0.78。两种模型的滞后收益系数相似,表明ChatGPT的收益外推不仅限于个别股票或特定模型。

历史回报幅度-偏差和错误校准

GPT4的下月股票回报预测平均为2.2%,高于历史均值1.4%和实际回报1.1%,显示出乐观偏差。GPT4预测的回报分布不如历史均值平滑,只有0.45%的预测为负值,表明其训练数据可能倾向于非负预期。GPT4的80%置信区间平均为23.4%,低于历史的25.5%,且76.9%的实际回报落在其置信区间内,低于历史的79.0%。GPT4的低预测显著低于历史10%分位数,而高预测也低于历史90%分位数,显示出对不利结果的保守态度。通过回归分析,探讨了GPT4如何将历史回报特征转化为预测。

预期回报预测的回归分析显示,90百分位的加载量最大,表明回报预测存在正偏差。低和高预测均显著加载对应百分位,同时对另一侧的百分位也有负加载,暗示对分布对称性的假设。高预测对高百分位的敏感度低于低预测对低百分位的敏感度,显示出对分布尾部的悲观态度。低和高预测的不同特征表明训练数据使得模型将高低回报视为不同特征。LLM预测的风险评估优于人类预测,但在预期表现上过于乐观,对分布尾部略显悲观,导致预测的回报分布相较历史数据呈正偏态。

讨论

LLM(大型语言模型)在股票表现预测中存在过度外推、过于乐观的预期收益和尾部预测偏差。完全消除LLM的行为偏差困难,因为这些偏差根植于训练数据中,反映了人类思维的全貌。尽管LLM能识别投资者的行为偏差,但其输出仍可能受数据中偏差的影响。LLM可通过特定数据集进行微调以改善特定领域的表现,但在缺乏良好示例的任务中,偏差仍会显现。LLM在数值和风险评估能力上优于人类,但仍易受认知偏差影响,需谨慎评估其生成的预测。未来研究应关注偏差检测和缓解方法,以确保LLM在金融决策中可靠。

总结

本研究探讨OpenAI的GPT-4在预测股票回报时是否表现出行为偏差,特别是对历史回报数据的反应。实证分析显示,ChatGPT和人类预测在使用历史数据时表现出相似的模式,强调滞后回报,但实际回报则呈现短期反转。LLM的预测与人类的过度外推期望一致,且ChatGPT预测的回报普遍高于历史均值和实际结果。在预测回报分布的尾部时,LLM表现出更悲观的态度,10百分位预测更负面,而90百分位预测低于历史上限,显示出对风险和回报的偏颇解读。研究强调在金融决策中整合AI时需关注LLM生成预测中的潜在偏见,警示不能假设这些模型以完全理性的统计方式解读数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/905219.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

binlog 介绍

公司使用的数据库是 glodendb https://www.zte.com.cn/china/solutions_latest/goldendb.html#idpart01 最近自动化投产对一张 28w 的表进行全表 update、投产前已经是知道这个数据量的、认为没有问题、也没有在测试环境进行测试。 结果投产那天直接报错 这个 transaction_max…

什么是x86架构,什么是arm架构

什么是 x86 架构? x86 架构是一种经典的指令集架构(ISA),最早由英特尔在 1978 年推出,主要用于 PC、服务器等领域。 它是一种复杂指令集计算(CISC)架构,支持大量的复杂指令和操作&…

18.04Ubuntu网络一直connecting的问题

有段时间没登VMware的Ubuntu了,就知道这个Ubuntu一登必有问题。 如果你的网络一直connecting 设置成桥接模式就可以了!

linux离线安装Ollama并完成大模型配置(无网络)

这篇文章主要分享两方面内容: 1)在纯内网环境下如何部署ollama 2)在纯内网环境下如何配置大模型 话不多说直接开始。 ①离线部署ollama 一、通过浏览器访问ollama官方安装脚本,获取脚本内容。复制里面的内容。 在Linux中执行…

Linux笔记---Makefile的简单用法

1. 什么是Makefile Makefile 是一种用于自动化构建和管理项目的工具,特别是在软件开发中非常常见。 它包含了一系列规则(rules)和指令,描述了如何编译和链接源代码文件,以及生成最终的可执行文件或库文件。 简单来说&a…

stm32入门教程--USART外设 超详细!!!

目录 简介 什么是UART? 什么是USART? 简介 USART(Universal Synchron /Asynchronous Receiver /Transmitter)通用同步/异步收发器 1、USART是STM32内部集成的硬件外设,可根据数据寄存器的一个字节数据自动生成数据帧…

启动任务节点时,传入机械臂参数

MoveIt2_tutorial-Examples-Planning Scene ROS API 先启动move_group节点,后启动任务节点 方式1: 直接传入参数文件的地址 from launch import LaunchDescription # 导入启动描述,用于描述启动文件的结构 from launch_ros.actions impor…

规划误差降低27%,碰撞率降低33%Senna: 大规模视觉-语言模型与端到端自动驾驶相结合

Abstract 端到端自动驾驶在大规模数据中展示了强大的规划能力,但在复杂、罕见的场景中仍然因常识有限而表现不佳。相比之下,大型视觉语言模型(LVLMs)在场景理解和推理方面表现出色。前进的方向在于融合两者的优势。以往利用LVLMs…

Charles简单压力测试

1.接口请求次数,并发量,请求延迟时间均可配置 1.1选中需要进行测试的接口,鼠标右键选中【repeat advance】 2.设置并发参数 下面的图中,选择了1个接口,每次迭代中1个接口同时请求,迭代1000次(…

Zookeeper 对于 Kafka 的作用是什么?

大家好,我是锋哥。今天分享关于【Zookeeper 对于 Kafka 的作用是什么?】面试题?希望对大家有帮助; Zookeeper 对于 Kafka 的作用是什么? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 ZooKeeper 在 Kafka…

【机器学习基础】激活函数

激活函数 1. Sigmoid函数2. Tanh(双曲正切)函数3. ReLU函数4. Leaky ReLU函数 1. Sigmoid函数 观察导数图像在我们深度学习里面,导数是为了求参数W和B,W和B是在我们模型model确定之后,找出一组最优的W和B,使…

leetcode-62-不同路径

题解: 1、设dp[i][j]代表到达(i,j)点最多的路径;题目要求机器人每次只能向右或向下走一步,所以到达(i,j)点的最多路径为到达(i-1,j)的最多路径与到达(i,j-1)的最多路径之和。即dp[i][j]dp[i-1][j]dp[i][j-1]。 2、初始化一个M*N的矩阵dp,将…

C++在实际项目中的应用第三节:C++与数据科学

第五章:C在实际项目中的应用 第三节:C与数据科学 1. C在数据分析中的实际应用 数据分析是数据科学的核心部分,主要涉及数据的清洗、转换和建模。C作为一种高性能的编程语言,越来越多地被应用于数据分析领域。以下是 C 在数据分…

Git上传文件至AtomGit

目录 一、GIt大文件存储 Git LFS 二、Git LFS的使用 1.初始化 2.将大型文件放进LFS管理 三、整体流程 首先,你已经创建属于你自己的本地库了。以下一大型文件上传为基础,50mb的文件可以直接上传至 AtomGit上面,不需要多讲。 一、GIt大文…

北京迅为iTOP-LS2K0500开发板快速使用编译环境虚拟机Ubuntu基础操作及设置

迅为iTOP-LS2K0500开发板 迅为iTOP-LS2K0500开发板采用龙芯LS2K0500处理器,基于龙芯自主指令系统(LoongArch)架构,片内集成64位LA264处理器核、32位DDR3控制器、2D GPU、DVO显示接口、两路PClE2.0、两路SATA2.0、四路USB2.0、一路…

ArcGIS005:ArcMap常用操作101-150例动图演示

摘要:本文涵盖了GIS软件操作的多方面内容,包括地图文档的新建、打开、保存及版本兼容性处理;错误与警告的查阅及帮助文档的使用技巧;地图打印比例尺的调整与地图信息的完善;图层操作的撤销与恢复,界面元素的…

设计模式基础概念(行为模式):责任链模式(Chain Of Responsibility)

概述 责任链模式是一种行为设计模式, 允许你将请求沿着处理者链进行发送。 收到请求后, 每个处理者均可对请求进行处理, 或将其传递给链上的下个处理者。 该模式建议你将这些处理者连成一条链。 链上的每个处理者都有一个成员变量来保存对于…

丝氨酸/苏氨酸激酶(STKs):前列腺癌治疗的新兴靶点

引言 前列腺癌(PCa)是男性癌症相关死亡的第五大原因,全球约有140万患者,2020年超37.5万死亡病例。 靶向治疗是潜力巨大的领域,PARP、PSMA、STEAP1、DLL3等是前列腺癌治疗的明星靶点。 除此之外,还有哪些…

目录遍历漏洞

目录遍历 目录 概念漏洞分析 加密型传递参数编码绕过目录限定绕过绕过文件后缀过滤(截断上传原理) 漏洞挖掘 访问图片文件测试时去掉文件名只访问目录路径搜索引擎谷歌关键字 pikachu目录遍历 目录遍历与任意文件下载其实差不多,但是如果目录遍历比如etc/passwd只能看不能下…

autMan奥特曼机器人-内置Redis

autMan内置了redis服务,有的脚本运行需要redis支持 几个注意事项: 启用redis服务后要重启autMan生效,关闭一样的道理。启用redis服务后会增加约200M的内存占用多个autMan的redis服务可以组成集群redis服务