通过提示工程将化学知识整合到大型语言模型中

在当今快速发展的人工智能领域,大型语言模型(LLMs)正成为科学研究的新兴工具。这些模型以其卓越的语言处理能力和零样本推理而闻名,为解决传统科学问题提供了全新的途径。然而,LLMs在特定科学领域的应用面临挑战,主要是因为它们缺乏对复杂科学概念的深入理解。

为了克服这一难题,本文提出了一种创新的“领域知识嵌入的提示工程”方法,旨在通过将特定领域的知识整合到提示(prompts)中,来增强大型语言模型(LLMs)在科学领域特别是化学、生物学和材料科学中的应用性能。这种方法在包括能力、准确性、F1分数和幻觉下降等指标上,超越了传统的提示工程策略。通过针对复杂材料(如MacMillan催化剂、紫杉醇和锂钴氧化物)的案例研究,展示了该方法的有效性,并强调了当LLMs配备特定领域的提示时,它们作为科学发现和创新的强大工具的潜力。

方法

这种方法的核心思想是利用领域专家的知识和推理过程来指导LLMs,使其能够生成更准确、更具相关性的回答。图1展示了“提示工程框架的整个过程”(The Whole Process of Prompt Engineering Framework)。该框架从数据集的构建开始,研究人员首先从化学、生物学和材料科学领域中收集和整理相关的信息,创建了专门针对这些领域的数据集。接着,这些数据被用来形成特定的任务,这些任务旨在评估和提升大型语言模型(LLMs)在特定科学问题上的表现。

数据集构建和答案评估方案

数据集的构建是一个关键步骤,它直接影响了后续评估大型语言模型(LLMs)性能的准确性和可靠性。研究团队采取了一种系统化的方法来选择和构建数据集,以确保它们能够全面覆盖化学工程领域的关键方面。

首先,团队将焦点放在了有机小分子、酶和晶体材料这三个类别上。这些类别不仅在化学工程中具有广泛的应用,而且各自代表了不同的科学规模和复杂性。有机小分子常用于制药开发和作为分子探针,酶在生物催化和治疗干预中扮演着关键角色,而晶体材料则是半导体技术和光伏设备中不可或缺的组成部分。

为了确保数据集的质量和相关性,研究团队从专业的数据库中提取了数据。例如,有机小分子的数据来源于PubChem数据库,这是一个包含大量化学结构和相关属性信息的公共数据库。对于酶,团队从UniProt数据库中提取信息,这是一个提供蛋白质序列和功能信息的数据库,其数据来源于科学文献和计算分析。晶体材料的数据则来自Materials Project数据库,该数据库提供材料属性和晶体结构的信息。

在提取了这些物质的信息后,研究团队设计了一系列问题,这些问题旨在评估LLMs在预测和推理这些物质的物理化学属性、生物过程和结构信息方面的能力。这些问题覆盖了从基本的物理化学属性,如分子公式、熔点、密度、溶解度、分子量,到更复杂的生物过程,如酶的活性位点、底物、产物和生物学途径。

研究团队还考虑了不同任务的输出类型、推理范式和链式思考(CoT)的复杂性,将问题分为不同的组别。例如,一些任务可能只需要通过逻辑推理就能得出数值答案,而另一些任务则可能需要依赖实验数据。一些任务可能需要特定的领域知识来进行文字推理,而其他任务则可能涉及到常见的或不常见的属性检索。

为了评估LLMs的性能,研究者们特别设计了一套综合性能评价体系。这套体系通过多个维度来衡量模型的性能,包括能力(Capability)、准确性(Accuracy)、F1分数(F1 Score)和幻觉下降(Hallucination Drop)。这些指标共同构成了一个多角度的评价框架,旨在深入理解模型在处理科学问题时的实际能力。

能力(Capability):这一指标关注的是模型是否能够对提出的问题给出回答。不同于准确性,能力指标不评价答案的正确性,而是衡量模型对问题的响应能力。如果模型能够针对问题生成一个回答,无论答案的正确与否,该指标都会给予正面评价。这种评价方式有助于识别模型在特定任务上的可行性,即使在答案不完全准确的情况下。

准确性(Accuracy):与能力指标相辅相成,准确性指标衡量的是模型给出的答案与真实答案之间的一致性。在这一指标下,答案越接近真实情况,获得的评分就越高。准确性是评价模型性能的关键因素,因为它直接关系到模型输出的可靠性。

F1分数(F1 Score):F1分数是精度(Precision)和召回率(Recall)的调和平均值,常用于评估分类任务的性能。在这项研究中,F1分数用于评估模型在多项选择题中的表现。一个高的F1分数意味着模型在保持高精确度的同时,也能够覆盖到更多的正确答案,从而在综合评价模型性能时提供了一个平衡的视角。

幻觉下降(Hallucination Drop):这一指标是研究者们为了评估模型产生不准确或“幻觉”回答的倾向而特别引入的。幻觉现象指的是模型在没有足够信息支持的情况下,仍然生成看似合理但实际错误的答案。幻觉下降指标通过计算模型回答的能力与其准确性之间的差异来量化这一现象,从而帮助研究者识别和改进模型在特定任务上可能出现的问题。

图2展示了问题构建和答案评估过程的流程。首先,他们会将模型对于每个问题的回答与真实答案进行比较,然后根据上述指标进行打分。例如,在能力指标的评价中,只要模型给出了回答,无论对错,都会得到一定的分数。而在准确性指标的评价中,答案与真实答案的一致性将直接影响得分。F1分数则需要模型在多项选择题中的表现既要精确又要全面。最后,幻觉下降指标会根据模型在能力与准确性上的表现差异来计算。

科学预测作为LLM问答问题:

科学预测任务的构建和执行是一个精心设计的流程,它充分利用了大型语言模型(LLMs)的先进能力,尤其是它们的零样本(zero-shot)和少样本(few-shot)推理能力。这些能力使得LLMs能够在没有针对特定任务进行过专门训练的情况下,通过理解问题的上下文来生成回答。

研究者们首先将科学问题转化为LLMs可以处理的问答形式。这种形式允许模型通过分析问题的文本描述来识别关键信息,并据此生成答案。例如,一个关于化合物稳定性的问题可能会被构建为:“给定化合物X的属性Y,它是稳定的吗?”这样的格式不仅清晰地指出了问题的核心,也为模型提供了生成答案所需的直接线索。

在提示工程的过程中,研究者们特别关注了提示词的上下文确定。提示词是直接呈现给模型的问题描述,它们的选择和构造对于引导模型生成准确答案至关重要。这个过程可以数学化地表达,即通过确定提示词P的上下文,使得LLMs能够有效地给出答案A。这可以表示为函数f(P, Q),其中Q是原始问题,P是提示,A是模型生成的答案,而f代表LLMs本身。

为了优化提示,研究者们采取了一种系统化的方法来评估不同提示对模型输出的影响。他们的目标是找到能够最大化模型输出与真实答案S一致性的提示。这涉及到一个优化问题,可以通过搜索不同的提示词P来解决。优化的目标是最大化一个评估函数g(f(P, Q), S),该函数衡量模型答案A与真实答案S的一致性。

图3阐述了不同提示工程方法的主流形式。这些方法包括零样本提示(Zero-shot Prompting)、少样本提示(Few-shot Prompting)、专家提示(Expert Prompting)、零样本链式思考(Zero-shot CoT)和少样本链式思考(Few-shot CoT)。在零样本提示中,LLMs被要求直接回答问题,而不提供任何上下文或示例。少样本提示则提供了几个示例,帮助模型理解并复制回答的格式和内容。专家提示通过角色扮演指导,使LLMs能够生成类似专家所写的回答。零样本CoT提示通过加入“让我们逐步思考”的触发句,引导模型进行逐步的推理过程。而少样本CoT提示则进一步提供了解决类似问题的思考链示例,以协助模型执行当前任务。

在实际操作中,研究者们可能会测试多个版本的提示,并评估它们在一组科学问题上的表现。他们可能会使用不同的提示策略,并比较这些策略在能力、准确性、F1分数和幻觉下降等指标上的表现。例如,如果研究者们正在处理一个关于晶体材料带隙的问题,他们可能会设计一个提示,如:“晶体材料的带隙是指...(这里提供带隙的定义和重要性),给定材料Z的电子结构,它的带隙是多少?”这样的提示不仅提供了问题的具体信息,还通过定义和背景信息来引导模型进行推理。

领域知识嵌入的提示工程:

领域知识嵌入的提示工程策略是这项研究的核心创新之一,图4详细描述了领域知识嵌入提示工程的步骤,包括角色扮演、CoT(Chain-of-Thought)示例和领域知识整合。它通过结合多个专家的知识和推理过程来增强大型语言模型(LLMs)的科学推理能力。这一策略的实施涉及以下几个关键步骤:

首先,研究团队汇集了不同领域的专家,这些专家对其专业领域内的知识和常见推理模式有着深刻的理解。这些专家被邀请参与到角色扮演中,他们需要从自己专业的角度出发,提供对特定科学问题的解答。

接着,专家们提供了一系列的CoT(Chain-of-Thought)示例。CoT示例是一种展示问题解决过程的方法,它详细阐述了从识别问题到找到答案的每一个步骤。与传统的零样本CoT方法相比,领域知识嵌入的提示工程策略不仅要求模型进行推理,还要求它们在这个过程中利用专家提供的精确背景知识和准确的人类推理示例。

例如,如果LLMs面临的任务是预测一个有机小分子的溶解度,领域专家可能会提供一个详细的CoT示例,展示如何根据分子的极性、分子间作用力以及分子大小等因素来推理溶解度。这个示例将包括对这些因素如何影响溶解度的详细解释,以及如何将这些因素综合起来得出最终的预测。

在这一过程中,专家的知识和推理示例被嵌入到提示中,形成了一种多专家混合的提示策略。这种策略不仅提供了一个领域的深度知识,还通过多个专家的视角来丰富问题的解决路径。这使得LLMs能够在一个更加丰富和多元的知识背景下进行推理,从而提高了它们生成准确和相关回答的能力。

这种策略还有助于减少LLMs在科学任务中的“幻觉”现象,即模型在缺乏足够信息的情况下生成看似合理但实际上错误的答案。通过提供精确的背景知识和准确的推理示例,领域知识嵌入的提示工程策略引导模型更加贴近人类的科学推理过程。

结果

研究者们对五种不同的提示工程策略进行了评估,包括零样本(Zero-shot)、少样本(Few-shot)、专家(Expert)、零样本链式思考(Zero-shot CoT)以及领域知识嵌入的提示工程方法。这些策略在三个数据集上的表现——有机小分子、酶和晶体材料——被全面比较。结果显示,领域知识嵌入的提示工程方法在多数任务和评价指标上均优于传统方法。

图5 展示了不同提示工程策略在所有任务上的“能力(Capability)”和“准确性(Accuracy)”的总体表现。领域知识嵌入的提示工程方法在这项评估中显示出其独特的优势。由于这种方法结合了专业知识和推理示例,它能在多个任务上都展现出较高的能力和准确性,特别是在那些需要复杂推理和专业知识的领域。这表明,与传统的提示工程方法相比,领域知识嵌入的提示可以显著提高LLMs在科学任务上的性能。

图 7 通过输出类型对提示工程的性能进行了细致的比较分析。这一图表揭示了大型语言模型(LLMs)在不同任务类型上的表现,包括数值逻辑推理、实验数据推理、逻辑文字推理和基于实验数据的文字推理。每种任务类型都对模型的理解和推理能力提出了不同的要求。

领域知识嵌入的提示工程方法在所有任务类型上均显示出其优越性,与传统的提示工程策略相比,它在“能力”、“准确性”、“F1分数”和“幻觉下降”等关键指标上均有显著提升。特别是在需要复杂逻辑推理的任务上,领域知识嵌入的提示能够显著提高LLMs的性能,这表明了将专业知识整合到提示中对于提升模型在科学领域应用的有效性至关重要。

图8显示领域知识嵌入的提示工程方法在各种推理范式中均显示出其有效性,特别是在需要深入领域知识的任务上。例如,在领域知识直接推理任务中,该方法能够帮助LLMs更好地利用其预训练阶段吸收的专业知识,从而生成更准确和可信的答案。

图10 表展示了大型语言模型(LLMs)在处理有机小分子、酶和晶体材料这三种不同材料类别的任务时的性能差异。

对于有机小分子,研究者们发现,随着分子复杂性的增加,即分子重量的增加和元素组成的多样化,LLMs的预测准确性逐渐下降。特别是,当分子重量超过300 g/mol或包含超过五种不同元素时,性能显著下降。

的预测方面,LLMs的准确性与当前对这些酶的研究深度密切相关,而与酶的大小,即氨基酸数量,关系不大。这意味着,如果一个酶在学术界得到了广泛的研究和理解,LLMs预测其属性的准确性就越高。

对于晶体材料,LLMs在预测那些具有较大、更复杂组成以及低对称性晶体结构的材料时准确性降低。然而,属于三斜、立方或六角晶系的晶体结构更可能产生更好的预测结果,这可能是因为这些结构更规则,且在科学文献中的数据更丰富。

图11 在论文中展示了针对 MacMillan 第二代咪唑啉酮催化剂的提示工程案例研究。MacMillan 催化剂因其在有机催化领域的开创性贡献而获得了 2021 年诺贝尔化学奖,这一创新对合成化学和化学工业产生了深远的影响。在这一案例研究中,研究者们利用领域知识嵌入的提示工程方法,旨在评估 LLMs 在整合有关分子复杂细节和预测其潜在应用方面的性能。通过精心设计的提示,LLMs 能够展示其在分析 SMILES 序列和进行基本算术运算方面的熟练程度。LLMs 还能够利用催化剂的机理和示例,准确预测特定底物的催化产物,从而凸显了模型在为化学催化剂的实际应用和工业应用提供信息方面的潜力。

领域知识嵌入的提示工程证明了其在化学、材料科学和生物学等领域的有效性。未来的工作可以探索将该方法扩展到其他科学领域,如物理学、地质学和医学,以及整合外部数据集和特定领域的工具,以进一步提升LLMs的推理能力。

论文链接:https://arxiv.org/pdf/2404.14467

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/656569.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

力扣HOT100 - 1143. 最长公共子序列

解题思路&#xff1a; 动态规划 class Solution {public int longestCommonSubsequence(String text1, String text2) {int m text1.length(), n text2.length();int[][] dp new int[m 1][n 1];for (int i 1; i < m; i) {char c1 text1.charAt(i - 1);for (int j 1…

【算法】位运算算法——两整数之和

题解&#xff1a;两整数之和(位运算算法) 目录 1.题目2.位运算算法3.参考代码4.总结 1.题目 题目链接&#xff1a;LINK 2.位运算算法 这个题目难点就在于不能用、- 那什么能够代替加号呢&#xff1f; 既然数的层面不能用号&#xff0c;那二进制的角度去用号即可。 恰好&a…

JavaScript(ES6)入门

ES6 1、介绍 ECMAScript 6&#xff08;简称ES6&#xff09;是于2015年6月正式发布的JavaScript 语言的标准&#xff0c;正式名为ECMAScript 2015&#xff08;ES2015&#xff09;。它的目标是使得JavaScript语言可以用来编写复杂的大型应用程序&#xff0c;成为企业级开发语言。…

AAAI2024 基于扩散模型 多类别 工业异常检测 DiAD

前言 本文分享一个基于扩散模型的多类别异常检测框架&#xff0c;用于检测工业场景的缺陷检测或异常检测。 设计SG语义引导网络&#xff0c;在重建过程中有效保持输入图像的语义信息&#xff0c;解决了LDM在多类别异常检测中的语义信息丢失问题。高效重建&#xff0c;通过在潜…

mysql实战——Mysql8.0高可用之双主+keepalived

一、介绍 利用keepalived实现Mysql数据库的高可用&#xff0c;KeepalivedMysql双主来实现MYSQL-HA&#xff0c;两台Mysql数据库的数据保持完全一致&#xff0c;实现方法是两台Mysql互为主从关系&#xff0c;通过keepalived配置VIP&#xff0c;实现当其中的一台Mysql数据库宕机…

Wpf 使用 Prism 实战开发Day27

首页汇总和数据动态显示 一.创建首页数据汇总数据接口 汇总&#xff1a;待办事项的总数已完成&#xff1a;待办事项里面有多少条完成的待办完成比例&#xff1a;已完成和汇总之间的比例备忘录&#xff1a;显示备忘录的总数待办事项&#xff1a;显示待办事项未完成的集合备忘录&…

Flask+Vue+MySQL天水麻辣烫管理系统设计与实现(附源码 配置 文档)

背景&#xff1a; 同学找到我期望做一个天水麻辣烫的网页&#xff0c;想复用以前做过的课设&#xff0c;结合他的实际需求&#xff0c;让我们来看看这个系统吧~ 项目功能与使用技术概述&#xff1a; 里面嵌入了6个子系统&#xff0c;其中餐饮系统可以进行餐馆信息添加、修改…

【ARFoundation自学03】平面追踪可视化效果美化

对已检测到的平面默认的渲染效果显得有些生硬和突兀&#xff0c;有时我们需要更加友好、美观的的平面虚拟界面&#xff0c;这时就需要对已检测到的平面定制个性化的可视方案。为达到更好的视觉效果&#xff0c;处理的思路如下。 视觉效果前后对比&#xff01; &#xff08;本节…

Android Compose 七:常用组件 Image

1 基本使用 Image(painter painterResource(id R.drawable.ic_wang_lufei), contentDescription "" ) // 图片Spacer(modifier Modifier.height(20.dp))Image(imageVector ImageVector.vectorResource(id R.drawable.ic_android_black_24dp), contentDescript…

Nature 正刊!瑞典于默奥大学研究团队在研究全球河流和溪流的甲烷排放中取得新进展

甲烷(CH4)是一种强有力的温室气体&#xff0c;自工业革命以来&#xff0c;其在大气中的浓度增加了两倍。有证据表明&#xff0c;全球变暖增加了淡水生态系统的 CH4 排放&#xff0c;为全球气候提供了积极的反馈。然而&#xff0c;对于河流和溪流来说&#xff0c;甲烷排放的控制…

618有什么宠物空气净化器推荐?希喂FreAir Lite宠物空气净化器真实体验

一、宠物空气净化器的必要性 掉毛季又来了&#xff0c;猫咪的毛发满天飞&#xff0c;怎么办&#xff1f;我家里的猫咪一到换毛季就掉满地的毛发&#xff0c;尤其喜欢在家里奔跑打闹&#xff0c;结果整个房间都是毛。为了减少家里空气中的浮毛&#xff0c;你都做过哪些努力呢&a…

电脑出现:excel词典(xllex.dll)文件丢失或损坏的错误提示怎么办?有效的将丢失的xllex.dll修复

当遇到 Excel 提示“词典 (xllex.dll) 文件丢失或损坏”的问题时&#xff0c;通常意味着该动态链接库文件&#xff08;Dynamic Link Library&#xff0c;DLL&#xff09;&#xff0c;它与拼写检查功能相关联的&#xff0c;无法被正确找到或者合适地使用。那么有什么办法可以解决…

空间转录组数据的意义

10X空间转录组Visium学习笔记&#xff08;三&#xff09;跑通Visium全流程记录 | 码农家园 (codenong.com) 这两个的区别是&#xff1a;一个是像素的位置信息&#xff0c;一个是阵列的位置信息

第97天:权限提升-Web 权限权限划分源码后台中间件第三方数据库等

前置知识 具体有哪些权限需要我们了解掌握的 后台权限&#xff0c;网站权限&#xff0c;数据库权限&#xff0c;接口权限&#xff0c;系统权限&#xff0c;域控权限等 以上常见权限获取方法简要归类说明 后台权限&#xff1a;SQL 注入,数据库备份泄露&#xff0c;默认或弱口…

设计模型-系统架构师(三)

1、按照《中华人民共和国著作权法》的权利保护期&#xff0c;署名权和修改权 是永久保护的。 发表权、使用权和获取报酬权 保护期限 作者终生和死后的50年。 2、&#xff08;重要&#xff09;面向对象的分析模型主要由 顶层架构图、用例与用例图和&#xff08;&#xff09;构成…

CTF网络安全大赛简单的web抓包题目:HEADache

题目来源于&#xff1a;bugku 题目难度&#xff1a;简单 题目 描  述: > Wanna learn about some types of headache? > Lets dig right into it! 下面是题目源代码&#xff1a; <!DOCTYPE html> <html> <head><meta charset"utf-8"&…

基于C#开发web网页管理系统模板流程-主界面管理员入库和出库功能完善

前言 紧接上篇->基于C#开发web网页管理系统模板流程-主界面管理员录入和编辑功能完善-CSDN博客 本篇将完善主界面的管理员入库和出库功能&#xff0c;同样的&#xff0c;管理员入库和出库的设计套路适用于动态表的录入和编辑 首先还是介绍一下本项目将要实现的功能 &#xf…

对象解构与迭代器的猫腻?

前言 变量的解构赋值是前端开发中经常用到的一个技巧&#xff0c;比如&#xff1a; // 对象解构 const obj { a: 1, b: 2 }; const { a, b } obj; console.log(a, b)数组解构 const arr [1, 2, 3]; const [a, b] arr; console.log(a, b)工作中我们最经常用的就是类似上面…

【Python安全攻防】【网络安全】一、常见被动信息搜集手段

一、IP查询 原理&#xff1a;通过目标URL查询目标的IP地址。 所需库&#xff1a;socket Python代码示例&#xff1a; import socketip socket.gethostbyname(www.163.com) print(ip)上述代码中&#xff0c;使用gethostbyname函数。该函数位于Python内置的socket库中&#xf…

②单细胞学习-组间及样本细胞比例分析

目录 数据读入 每个样本各细胞比例 两个组间细胞比例 亚组间细胞比例差异分析&#xff08;循环&#xff09; 单个细胞类型亚新间比例差异 ①单细胞学习-数据读取、降维和分群-CSDN博客 比较各个样本间的各类细胞比例或者亚组之间的细胞比例差异 ①数据读入 #各样本细胞…