探索GPT-4V在学术领域的应用——无需编程即可阅读和理解科学论文

1. 概述

论文地址:https://arxiv.org/pdf/2312.05468.pdf
随着人工智能潜力的不断扩大,人工智能(AI)在化学领域的应用也在迅速发展。特别是大规模语言模型的出现,极大地扩展了人工智能在化学研究中的作用。由于这些模型具有支持化学研究中各种任务的超强能力,并且能够轻松地使用自然语言进行 "编程 "或 “教学”,因此备受关注。现在,大规模语言模型已从纯文本发展到多模态,可处理多种信息,成为应用广泛的强大而有用的人工智能助手。

GPT-4V 是这一演变的先驱。V "代表了它的视觉能力,它理解视觉和文本信息的能力远远超过了传统模型,能够从科学文献的图表中发现并分析有价值的数据。GPT-4V 的这一能力意味着,即使没有专业编程知识或计算机视觉技能的研究人员也能使用它,而且研究人员还可以通过定制指令来使用它。

本文展示了 GPT-4V 如何应用于网状化学研究。GPT-4V 能够整合和解释科学论文中的文字和图表数据,极大地提高了关键信息的提取和分析能力,尤其是从图表内容中读取物理特性结果的重要性。这种方法并不局限于网状化学,表明自动文献分析可以扩展到其他科学学科。

GPT-4V 的推出表明,人工智能可以进一步加强其在促进科学创新和发现方面的作用,缩小先进计算工具与前沿化学研究之间的差距。

2. 对 GPT-4V 性能的初步评估

在此,我们通过识别和解释网状化学文献中常见的图表来评估 GPT-4V 的性能。我们尤其关注氮等温线、粉末 X 射线衍射 (PXRD) 图样、热重分析 (TGA) 曲线、核磁共振 (NMR) 和红外光谱以及散点图、柱状图、二维和三维分子结构等各种图表,以了解 GPT-4V 是否能充分解释这些图表。该项目基于以下研究。此外,我们还分析了实验图像,包括合成方案、显微镜和扫描电子显微镜(SEM)图像。下图就是一个例子。

当被要求对每个图表进行详细描述时,GPT-4V 不仅能准确地对图像进行分类,还能深入浅出地讲述具体细节,包括注释、坐标轴范围、颜色编码、符号和线条形状、标签和图例,令人印象深刻。他们还能根据提供的图表说明信息进行推断。这种先进的上下文数据解读和综合分析功能凸显了 GPT-4V 作为强大的人工智能助手在科学文献图像和数据挖掘方面的适用性。

3. 及时设计页面内容标签

本文的目的是测试 GPT-4V 能否自主浏览科学文章、识别特定信息、将其编译成综合数据集并进行分析。本文特别关注显示金属有机框架(MOFs)物理性质的关键图表–氮等温线、粉末 X 射线衍射(PXRD)图、热重分析(TGA)曲线、晶体结构和拓扑图以及其他气体吸附等温线。这些图表对于阐明化合物的重要特性至关重要,如永久孔隙率、结晶度、热稳定性、拓扑结构和对气体的选择性。从这些图表中有效提取信息,并将其整合到大量文献中,对于提高我们对结构-性质关系的理解和加速新化合物的发现具有巨大潜力。

为实现这一目标,我们使用 GPT-4V 设计了针对上述类别的特定提示。这些提示考虑到了由于科学文献中常见的不同图和表并存的情况,一个页面上可能存在多个选项。此外,如果缺少某个类别,GPT-4V 也会明确指出缺少该类别。因此,GPT-4V 共有六个选项。这些提示的开发遵循文本挖掘提示工程的基本原则。下图为其概览。

4. GPT-4V 的性能评估

在这里,GPT-4V 对所选文献的每一页进行成像和分析。具体来说,GPT-4V 将页面图像与专门设计的文本提示相结合,并收集回复,从而自动对内容进行分类,并识别出包含情节的页面,以便进行深入分析。这一过程允许 GPT-4V 遵循特定的回复格式,并根据内容自动标记每一页。

GPT-4V 可准确识别每一页上所需的情节,无论信息的复杂程度如何、展示标注能力。

为了评估 GPT-4V 的分类准确性,我们将其与地面实况数据集进行了比较,地面实况数据集包含由网状化学专家人工审核和标注的 6,240 张图像。结果显示,除 "其他气体吸附等温线 "外,所有类别的准确率都超过 94%,但准确率、召回率和 F1 分数都在 87% 到 99% 之间。该类别的准确率较低,可能是由于提示说明不充分以及红外光谱和核磁共振光谱偶尔出现标记错误,这表明有机会进一步完善提示的针对性。

GPT-4V 的性能在网络接口和应用程序接口中也显示出相似的准确率,再次证明了基础模型的一致性。

这一自动化流程提供了多种操作选项,并能高效地从文献中收集信息。混淆矩阵分析显示了 GPT-4V 在大量文献中识别出氮等温线、PXRD 图样和 TGA 曲线的页数。

此外,许多页面被归类为缺乏感兴趣的情节,这可能有助于研究人员今后简化某些类型文献情节的审查过程。

5. 利用 GPT-4V 解释氮等温线数据

本节将探讨在成功标注页面内容后,如何使用 GPT-4V 对以氮等温线图为特色的页面进行详细解读和分析。对提示策略进行了改进,加入了更多特定语言,指导 GPT-4V 识别氮等温线,并从每个图中提取和报告关键信息。

其中包括图号、化合物名称、表面积和孔体积值、吸附-解吸曲线是否存在滞后现象、等温线的饱和高原以及对图周围边框的估计。

这种方法的关键在于指示 GPT-4V 只使用页面图像上的可用信息,而 "N/A "则表示数据不可用。因此,GPT-4V 通过分析等温线及其相关坐标轴、图例和文本内容,显示出高效提取这些细节的能力,令人印象深刻。

为了确认 GPT-4V 分析的准确性,我们对所选论文中超过 200 页的反应(包括氮等温线)进行了人工审核。特别是在图号、化合物名称和孔隙度分析方面,观察到了很高的准确性。这表明,GPT-4V 在图像处理功能中可能使用了光学字符识别 (OCR) 工具。此外,GPT-4V 对文本的高熟练度似乎对与可直接从图像中读取的文本信息相关的任务产生了积极影响。

然而,对于其他三个描述符,如是否存在滞后、饱和高原和边界框估计,其性能总体上令人满意,从 76.25% 到 84.58%不等。这些任务是更高级、更微妙的挑战,需要对所有图像元素进行全面分析。尽管如此,总体性能还是特别令人印象深刻,而且研究人员可以用自然语言对 GPT-4V 进行简单的指导,这进一步凸显了该技术的强大功能。

6. 加速网状化学数字数据库

在此,我们探讨了使用 GPT-4V 简化网状化合物详细数据库构建的可能性。特别是,我们根据科学界发表的文献中的实验结果,识别出具有独特氮等温线图的网页,并使用 WebPlotDigitizer 等工具仔细提取这些通常为非数字格式的数据。通过这一过程,提取的数据被系统地编译并存储到数据库中。这种方法提供了一个收集氮等温线数据点的实际例子,显示了各种等温线类型和孔隙度特征。

此外,还利用 CoRE MOF 数据库来匹配论文中讨论的化合物的计算结果和实验结果,从而对理论值和实验值进行比较。在这项分析中,将每种化合物的理论值与实验得出的表面积和孔隙率绘制成散点图,从而揭示化合物之间的一般趋势。

比较结果表明,即使是在实验确定的结构基础上,理论预测和实验结果之间也存在差异。这凸显了在选择材料时完全依赖计算结果的风险。

这项研究的启示表明,GPT-4V 不仅适用于网状化学,还适用于广泛的科学学科。娴熟的提示设计对于有效的数据库建设至关重要,而 DSPy 等创新工具的引入则有可能进一步改进研究过程,加快自然语言处理工具的发展。这一进步有望扩大文献数据挖掘的范围,并进一步增加人工智能工具在科学研究中的应用。

7. 总结

本文展示了GPT-4V 在网状化学领域的文本、图像和数据挖掘方面的作用。它重点介绍了 GPT-4V 使用独特设计的提示处理页面图像的能力,并成功识别和分类了包含所需信息的准确页面。值得注意的是,它表明这种方法可能不仅适用于网状化学,也适用于其他科学领域。

GPT-4V 等大型语言模型可以使用通常使用的自然语言进行 “编程”,消除了编码技术和特殊模型学习识别特定图表和图形的障碍。这种灵活性强调了一个事实,即只需对提示进行简单修改,就可以将分析从 TGA 曲线等转移到水等温线等完全不同的数据类型 。

此外,还建议整合 DSPy 等先进平台,使 GPT-4V 的使用更加有效。预计这将为科学数据挖掘开辟新的可能性,并使人工智能成为开发科学知识过程中更容易获取和使用的工具。这种方法有望大大提高科学研究领域的工作效率,并为从文献中提取更多数据提供机会。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/698199.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue 路由:一级路由,嵌套路由

1、安装路由插件,因为用的是vue2 所以路由版本要和vue2对应上,所有有3 yarn add vue-router3 2、在main.js里引入 import VueRouter from vue-router Vue.use(VueRouter) 3、新建文件夹 router,创建index.js 4、引入路由插件,并且暴露出来这个路由 5、在…

一文入门vim

先来波快问快答。 第一个问题,vim是什么? vim就是一文本编辑器。 第二个问题,我们为什么要使用vim? 好像在终端中可选择使用的文本编辑器也不多(其他有,但是相对而言vim用的比较广泛) 第三…

PNAS | 工作记忆中大脑节律的因果功能图

摘要 工作记忆是一个涉及大脑中多个功能解剖节点的关键认知过程。尽管有大量与工作记忆结构相关的神经影像学证据,但我们对控制整体表现的关键中枢的理解并不完整。因果解释需要在对特定功能解剖节点进行安全、暂时和可控的神经调节后进行认知测试。随着经颅交流电…

适用于 macOS 的最佳免费数据恢复软件

升级到 macOS 后,它可以帮助您从 HDD、SSD、存储卡、USB 闪存驱动器、数码相机或其他存储介质设备中完全恢复已删除、格式化或无法访问的数据。 当 macOS Monterey 用户寻找数据恢复解决方案时,免费数据恢复软件始终是一个不错的选择。实际上&#xff0…

通过引用得到变量的值

编写程序: 运行结果: 程序分析: a的值开始为10,b是a的引用,它的值当然也应该是10,当a的值变为100(a*a的值)时,b的值也随之变为100。在输出a和b的值后,b的值变为20,显然a的…

30 张Java 的思维导图,全面梳理构建 Java 的知识体系分享

小编这几天在网上收集了 30 张大佬制作的 Java 知识点总结的思维导图,整理成了这篇文章分享给大家,帮助大家梳理构建 Java 的知识体系。 这份思维导图包含从Java的简介、主要特性、发展历史到语法、数据类型、修饰符、运算符、类、数组、框架、面向对象…

Faster-RCNN基本思想和网络结构

简单来说,Faster RCNN RPN Fast RCNN RPN 是指 Region Proposal Network,建议区域生成网络。 Faster RCNN 中用 RPN 来代替了 Fast RCNN 中的SS算法。 算法流程: (1)将图像输入CNN网络得到相应的特征图。 &#x…

如何评估pcdn调度算法的优化效果(壹)

评估PCDN(Peer-assisted Content Delivery Network,对等网络内容分发网络)调度算法的优化效果是一个综合且系统的过程,涉及多个维度的考量。以下是一些建议的步骤和考量因素,以便全面评估优化效果: 一&…

WT32-ETH01作为TCP Server进行通讯

目录 模块简介WT32-ETH01作为TCP Server设置W5500作为TCP Client设置连接并进行通讯总结 模块简介 WT32-ETH01网关主要功能特点: 采用双核Xtensa⑧32-bit LX6 MCU.集成SPI flash 32Mbit\ SRAM 520KB 支持TCP Server. TCP Client, UDP Server. UDP Client工作模式 支持串口、wi…

探索乡村振兴新模式:发挥科技创新在乡村振兴中的引领作用,构建智慧农业体系,助力美丽乡村建设

随着科技的不断进步,乡村振兴工作正迎来前所未有的发展机遇。科技创新作为推动社会发展的重要力量,在乡村振兴中发挥着越来越重要的引领作用。本文旨在探讨如何发挥科技创新在乡村振兴中的引领作用,通过构建智慧农业体系,助力美丽…

【MySQL】(基础篇六) —— 过滤数据

过滤数据 本文将讲授如何使用SELECT语句的WHERE子句指定搜索条件。 WHERE子句 数据库表一般包含大量的数据,很少需要检索表中所有行。通常只会根据特定操作或需要提取表数据的子集。只检索所需数据需要指定搜索条件(search criteria)&…

IIR和FIR两种滤波器有什么区别?

概念的区分 IIR(Infinite Impulse Response,无限脉冲响应)和FIR(Finite Impulse Response,有限脉冲响应)滤波器是两种常见的数字信号处理滤波器类型,它们在结构、性能和用途上有显著区别&#…

大数据快速使用Kerberos认证集群

一、创建安全集群并登录其Manager 创建安全集群,开启“Kerberos认证“参数开关,并配置“密码“、“确认密码“参数。该密码用于登录Manager,请妥善保管。 登录MRS管理控制台页面。 单击“集群列表“,在“现有集群“列表&#xf…

【web性能】什么是图层?图层创建的条件?

CSS图层 浏览器在渲染一个页面时,会将页面分为很多个图层,图层有大有小,每个图层上有一个或多个节点。在渲染DOM的时候,浏览器所做的工作实际上是: 获取DOM后分割为多个图层;对每个图层的节点计算样式结果…

thinkphp6.0版本下子查询sql处理

目录 一:背景 二:查询实例 三:总结 一:背景 我们在实际业务的开发过程中,经常会碰到这样的场景,查询某些部门的客户信息,查询下过订单的客户信息。这里查询客户信息实际上就用到了子查询&…

打造智慧校园信息系统,提升学校科技实力

在如今数字化的时代,打造智慧校园信息系统已成为提升学校科技实力的关键。随着科技的迅猛发展,学校需要跟上时代步伐,利用先进技术建设一个高效、智能的信息系统,为学生、教师和管理人员提供更好的学习和工作环境。 智慧校园信息系…

专家解读 | NIST网络安全框架(3):层级配置

NIST CSF在核心部分提供了六个类别的关键功能和子功能,并围绕CSF的使用提供了层级(Tier)和配置(Profile)两种工具,使不同组织和用户更方便有效地使用CSF,本文将深入探讨CSF层级和配置的主要内容…

01、Linux网络设置

目录 1.1 查看及测试网络 1.1.1 查看网络配置 1、查看网络接口地址 2、查看主机状态 3、查看路由表条目 4、查看网络连接qing 1.1.2 测试网络连接 1.测试网络连接 2.跟踪数据包的路由路径 3.测试DNS域名解析 1.2 设置网络地址参数 1.2.1 使用网络配置命令 1.修改网卡…

干货 | 2024元宇宙技术融合与新质生产力的创新实践(免费下载)

【1】关注本公众号,转发当前文章到微信朋友圈 【2】私信发送 【3】获取本方案PDF下载链接,直接下载即可。 如需下载本方案PPT/WORD原格式,请加入微信扫描以下方案驿站知识星球,获取上万份PPT/WORD解决方案!&#xff…

Apple - IOKit Fundamentals

本文翻译整理自:IOKit Fundamentals (Updated: 2014-04-09 https://developer.apple.com/library/archive/documentation/DeviceDrivers/Conceptual/IOKitFundamentals/Introduction/Introduction.html 文章目录 一、I/O Kit 基础知识简介1、谁应该阅读本…