大语言模型在人类层面预测未来的研究与应用

概述

这项研究将探讨语言模型(LM)能否预测未来事件。在这项研究中,将开发一个系统来自动收集信息、生成和汇总预测结果。将从一个竞争性预测平台收集有关问题的数据,以评估 LM 的预测能力。结果表明,LM 可以与具有竞争力的人类预测人员相媲美,甚至超过他们。研究表明,使用 LM 预测未来有可能为组织决策提供有用的信息。
论文地址:https://arxiv.org/pdf/2402.18563.pdf

介绍

预测未来事件在这项研究中非常重要,政府和企业利用对经济和政治趋势的预测为其决策提供依据。传统的预测方法使用统计方法和人工判断,但这些方法都有其局限性。因此,本研究开发了一个使用语言模型 (LM) 进行自动预测的系统。该系统从新闻和其他来源收集信息,并据此做出预测。然后将多个预测结合起来,得出结果。

上图概述了我们的搜索和推理系统。 我们的搜索系统会检索经过总结的新文章并将其输入推理系统,推理系统会提示 LM 进行推理和预测,然后将这些推理和预测汇总为最终预测结果。

相关研究

自动预测系统在支持人类决策方面发挥着重要作用。过去的研究曾试图利用从新闻报道中提取的问题数据集,让机器学习系统与人类预测者进行竞争。最近的研究使用了截至 2022 年的竞赛数据,结果表明,机器学习系统提高了预测的准确性,有些甚至可以与人类预测者相媲美。然而,这样的系统仍然很少见。

此外,最新研究的重点是 2023-2024 年的问题,并致力于提高机器学习系统的准确性。信息检索(IR)对事件预测非常重要,而使用 LM 可以提高问题解答能力。预测的准确性取决于校准,并通过适当的评分规则进行评估。

建议方法

-### 搜索

该系统生成搜索查询,从以前的新闻文章中检索信息,并选择最相关的文章。根据问题生成查询,然后检索文章。文章的相关性由 LM 评估,相关性较低的文章被排除在外。此外,还对文章进行总结,并将最相关的信息呈现给模型。

推论

要求模型对预测问题进行推理,以了解预测的依据并改进预测。要求模型重述或扩展问题、考虑各种可能性、消除薄弱论点并检查偏差。使用基础模型和微调模型,并列举其结果。

建筑群

综合多个模型的预测结果,生成更可靠的最终预测结果。选出最佳的提示和超参数,并将多个预测合并。

上图说明了为自我监督训练生成数据的程序。 在这种方法中,每个问题都会生成多个候选推理-预测对,然后选出比人类综合表现更好的推理-预测对,并对其进行微调。

优化

系统优化包含多种步骤,例如微调推理模型、调整超参数、优化搜索查询、改进推理过程中的总结,甚至引入集合方法。这使得预测更加准确可靠,并提高了系统性能。该系统将搜索和推理相结合,有效利用多个模型的信息来提高预测的准确性。

试验

研究表明,拟议系统在测试集上的表现接近人类的预测。

上表按类别(左)和平台(右)显示了系统评估结果。 对所有采集日期进行平均,优化系统的布赖尔得分达到 0.179(人类预测:0.149),准确率达到 0.715(人类预测:0.770)。因此,与之前的研究和基线模型相比,该系统显示出更优越的结果。此外,还详细分析了该系统的优缺点,为今后的改进提供了启示。

(a) 在提供足够相关文章的情况下,该系统的表现优于其他系统。这表明该系统有能力获取信息并进行适当处理。

(b) 对于人类不确定的问题(预测范围在 0.3 - 0.7 之间),该系统的表现优于人类。换句话说,该系统对不确定信息的预测能力优于人类。不过,在人类非常有把握的问题上,人类的表现要好于该系统。

© 获取日期越早,系统的布赖尔得分越高。这表明系统有能力快速检索并处理最新信息。

研究还表明,该系统在某些条件下进行选择性预测时的表现优于人类。这种选择性方法使该系统得以有效使用。最后,报告了该系统补充人类预测的能力。将该系统的预测与人类预测相结合,可以做出更可靠的预测。这证明了拟议系统作为实用预测工具的潜在价值。

消融

消融涉及三个不同的实验。首先,对 GPT-3.5 进行了微调评估,以表明系统的性能并不仅仅取决于 GPT-4 的能力。结果显示出微小的差异,表明系统性能会受到微调的影响。接下来,为了了解微调的好处,我们仅使用 GPT-4-Preview-1106 模型对系统进行了评估。如果不进行微调,系统性能会略有下降。最后,仅使用 GPT-4-1106-Preview 基础模型对系统进行了评估,但没有进行新闻检索。在这种情况下,系统性能降至基准水平。结果表明,微调和搜索对于提高系统性能非常重要。

结论

在这项研究中,开发出了首个能够在类似人类水平上进行预测的机器学习(ML)系统。它提供了新的搜索机制和微调方法,并提出了生成准确预测和推断的方法。它还发布了五个真实预测竞赛的数据集,为进一步研究奠定了基础。未来展望包括以下几点。

探索迭代自我监测方法:反复微调模型可促进自我完善,提高性能。

使用大型训练数据:使用大型语料库训练 LM 可望提供更好的预测能力。

领域适应性训练:将探索利用领域知识对模型进行微调的方法,以便使模型专门用于特定领域。

使用最新模型:通过使用最新模型并对其进行微调,有望获得更好的性能。

这些举措可能会使基于 LM 的系统在未来提供与具有竞争力的人工预报员一样准确的预报。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/590062.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STL中常见的算法及其应用(一)

总述: 一、常见的遍历算法 1、for_each//遍历容器 函数原型: for_each(iterator beg, iterator end, _func); beg:开始迭代器; end:结束迭代器; _func:函数或者函数对象; 总结:for_each函数在STL中十分重要,需要熟练掌握 示例: std::for_each 是 C++ 标准…

C#语言入门

一、基础知识 1. 程序语言是什么 用于人和计算机进行交流,通过程序语言让计算机能够响应我们发出的指令 2. 开发环境 IDE,集成开发环境。它就是一类用于程序开发的软件,这一类软件一般包括了代码编辑、编译器、调试器、图形用户界面等等工…

基于缓存注解的时间戳令牌防重复提交设计

文章目录 一,概述二,实现过程1、引入pom依赖2、定义缓存管理3、时间戳服务类4、模拟测试接口 三,测试过程1, 模拟批量获取2, 消费令牌 四,源码放送五,优化方向 一,概述 API接口由于…

IDEA 多模块项目报错 Cannot Save Settings 问题

IDEA 多模块项目报错 Cannot Save Settings 问题 Cannot Save Settings: Module "spring_cloud_sentinel_demo" must not contain source root "D:\java_test\Intesij_idea\spring_cloud_sentinel_demo\order_service_rest\src\main\resources"…

一文带你了解MySQL的MySQL的日期函数

🌹作者简介:✌全网粉丝10W,前大厂员工,多篇互联网电商推荐系统专利,现有多家创业公司,致力于建站、运营、SEO、网赚等赛道。也是csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华…

【解决方案】Can‘t exec “locale”: No such file or directory

【解决方案】Cant exec “locale”: No such file or directory 还可能出现的错误: 1. 报错原因: 缺少ldconfig 2. 解决方案: sudo apt-get download libc-bin dpkg -x libc-bin*.deb unpackdir/ sudo cp unpackdir/sbin/ldconfig /sbin/ s…

mysql 数据转excel文件

mysql 数据转excel文件 缘由 为售后拉取数据,用navicat太墨迹了,用python写一个main方法跑一下; 1.抽取共同方法,封装成传入mysql,直接下载成excel; 2.写入所有sql语句,传入参数; 代…

20240502解决ARM32编译器编译quectel-CM时for循环出错的解决

20240502解决ARM32编译器编译quectel-CM时for循环出错的解决 2024/5/2 17:17 缘起:QMIThread.c:2100:9: error: ‘for’ loop initial declarations are only allowed in C99 or C11 mode 1、修改Makefile为ARM32架构: Z:\quectel-CM\Makefile ifneq ($…

Web安全研究(七)

NDSS 2023 开源地址:https://github.com/bfpmeasurementgithub/browser-fingeprint-measurement 霍普金斯大学 文章结构 introbackground threat model measurement methodology step1: traffic analysisstep2: fingerprint analysis dataset attack statisticsbro…

Node.js -- mongoose

文章目录 1. 介绍2. mongoose 连接数据库3. 插入文件4. 字段类型5. 字段值验证6. 文档处理6.1 删除文档6.2 更新文档6.3 读取文档 7. 条件控制8. 个性化读取9. 代码模块化 1. 介绍 Mongoose是一个对象文档模型库,官网http://www.mongoosejs.net/ 方便使用代码操作mo…

【跟马少平老师学AI】-【神经网络是怎么实现的】(七-2)word2vec模型

一句话归纳: 1)CBOW模型: 2c个向量是相加,而不是拼接。 2)CBOW模型中的哈夫曼树: 从root开始,向左为1,向右为0。叶子结点对应词有中的一个词。每个词对应唯一的编码。词编码不等长。…

Debian 12 tomcat 9 catalina 日志信息 中文显示乱码

目录 问题现象 解决办法: 1、设定Debian locale 2、设定catalina.sh utf8字符集 问题现象 Debian 12 linux操作系统中,tomcat 9 catalina 启动日志输出 中文乱码 解决办法: 1、设定Debian locale 先确保系统本身就支持中文的 Debian …

Python 全栈体系【四阶】(三十八)

第五章 深度学习 八、目标检测 3. 目标检测模型 3.2 YOLO 系列 3.2.1 YOLOv1(2016) 3.2.1.1 基本思想 YOLO(You Only Look Once )是继 RCNN,fast-RCNN 和 faster-RCNN 之后,Ross Girshick 针对 DL 目…

【C++】set与map的使用

目录 一、set: 1、set介绍: 2、常用构造: 3、常用修改操作: (1)insert: (2)find (3)erase: 4、其他操作: &#…

【linuxC语言】守护进程

文章目录 前言一、守护进程的介绍二、开启守护进程总结 前言 在Linux系统中,守护进程是在后台运行的进程,通常以服务的形式提供某种功能,如网络服务、系统监控等。守护进程的特点是在启动时脱离终端并且在后台运行,它们通常不与用…

docker系列9:容器卷挂载(下)

传送门 docker系列1:docker安装 docker系列2:阿里云镜像加速器 docker系列3:docker镜像基本命令 docker系列4:docker容器基本命令 docker系列5:docker安装nginx docker系列6:docker安装redis docker系…

Vue Cli脚手架—安装Nodejs和Vue Cli

一,Vue Cli 文档地址: https://cli.vuejs.org/zh/ 二,.环境配置,搭建项目 1.安装node.js 2.下载 node.js10.16.3 地址: https://nodejs.org/en/blog/release/v10.16.3/ 3.安装 node.js10.16.3 , 直接下一步即可, 安装到 d:\program\nodejs…

iOS 创建依赖其他开源库的开源库

参考文章(感激各位大神前路的明灯) 参考文章一 参考项目 整体流程 流程简介 1)使用pod命令行创建本地项目和git仓库并回答终端里的四个问题 2)编辑podspec文件 3)将需要开源的代码添加到Development Pods文件夹中&am…

Python量化炒股的获取数据函数—get_fundamentals_continuously()

Python量化炒股的获取数据函数—get_fundamentals_continuously() get_fundamentals()函数只能用于查询某一交易日的股票财务数据信息,如果要查询多个交易日的股票财务数据信息,就要使用get_fundamentals_continuously()函数,语法格式如下&a…

[方法] Unity 实现仿《原神》第三人称跟随相机 v1.0

参考网址:【Unity中文课堂】RPG战斗系统Plus 在Unity游戏引擎中,实现类似《原神》的第三人称跟随相机并非易事,但幸运的是,Unity为我们提供了强大的工具集,其中Cinemachine插件便是实现这一目标的重要工具。Cinemachi…