仅仅通过提示词,GPT-4可以被引导成为多个领域的特定专家


The Power of Prompting:提示的力量,仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

微软研究院发布了一项研究,展示了在仅使用提策略的情况下让GPT 4在医学基准测试中表现得像一个专家。

研究显示,GPT-4在相同的基准测试中超越了专门为医学应用微调的领先模型Med-PaLM 2,并且优势显著。

研究表明,仅通过提示策略就可以有效地从通用基础模型中引发特定领域的专业知识。

以前,要想激发这些能力,需要使用特别策划的数据对语言模型进行微调,以在特定领域中达到最佳性能。

现在仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

Medprompt不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。45a4b74d392f0624cd1ce1c6e59e2395.jpeg研究的方法:Medprompt策略:研究中提出了一种名为“Medpromcpt”的方法,它结合了几种不同的提示策略来引导GPT-4。

Medprompt使用了三种主要技术:动态少量样本选择、自动生成的思维链(Chain of Thought,CoT)和选择重排集成(Choice Shuffle Ensembling)。

Medprompt 方法包括以下几个关键方面:

1、多样化提示:Medprompt 使用了多种不同类型的提示,以提高模型在医学领域问题上的表现。这些提示可能包括问题的不同表述、相关的背景信息、专业术语的解释等。

2、上下文学习:为了让模型更好地理解医学领域的特定上下文,Medprompt 使用了上下文学习技术。这意味着在给定的问题前后添加相关的信息,以帮助模型建立起更加全面的理解。

3、思维链条方法:这种方法鼓励模型在做出回答之前模拟一系列的思考步骤,类似于专业医生在诊断问题时的思维过程。这可以帮助模型更准确地识别关键信息并提出更合理的答案。

4、选择洗牌集成:这是一种提高模型表现的技术,它通过结合多个不同提示生成的回答来提高整体的准确性。通过这种方式,即使某些提示没有产生最佳答案,其他提示可能仍然能够提供有价值的信息。

5、跨数据集应用:Medprompt 被设计为可在多个不同的医学数据集上有效运作,从而增加了其适用性和灵活性。

这一方法的成功展示了利用创新的提示技术可以显著提升基础模型在专业领域的能力,从而为解决复杂问题提供了新的途径。基准测试这些技术被组合应用于不同的数据集,包括MedQA、MedMCQA、PubMedQA和MMLU的多个子集。在一项名为MedQA的研究中,使用Medprompt的GPT-4在没有集成的情况下,仅通过自动生成的CoT提示就比专家制作的CoT提示提高了3.1个百分点。

研究使用了MedQA数据集和MultiMedQA套件中的九个基准数据集来测试GPT-4在医学领域的表现。
通过这些测试,研究人员评估了GPT-4在医学知识方面的表现,并与专门为医学应用微调的模型进行了比较。

23e78bdbe699e98f17d5a7f1ce8fffdc.jpeg


性能评估研究结果显示,使用 Medprompt 的GPT-4

- 在MedQA数据集上的表现首次超过90%
- 在MultiMedQA套件的所有九个基准数据集上取得了最佳报告结果。
- 在MedQA上,与MedPaLM 2相比,GPT-4的错误率降低了27%。

dc7d42561ba94a037d93d3dbeba115d1.jpeg

Medprompt在多项基准测试中表现卓越,不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。

此外,研究也进行了消融研究(Ablation Study),以评估Medprompt各组成部分的贡献度,并发现GPT-4自动生成的CoT、动态少量样本提示和选择重排集成分别对性能的提升有显著贡献。研究的意义
1、展示通用模型的领域专业性:这项研究证明了通用模型如GPT-4能够在没有特定领域微调的情况下,通过提示策略在特定领域(如医学)展现出专家级的能力。
这对于自然语言处理(NLP)领域是一个重要的进步,因为它表明通用模型可以通过适当的提示策略而不是通过昂贵的专门训练来适应特定的应用场景。

2、减少资源和成本:传统上,要使模型在特定领域表现出色,需要对其进行专门的微调,这通常涉及到使用专家标注的数据集和大量的计算资源。通过有效的提示策略,可以减少这种需求,从而为中小型组织提供了使用高级AI技术的可能性。

3、跨领域的应用潜力:研究还表明,这种提示方法在多个领域的专业能力考试中都显示出价值,这意味着其应用潜力不限于单一领域。

官方介绍:https://www.microsoft.com/en-us/research/blog/the-power-of-prompting/论文:https://arxiv.org/abs/2311.16452

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/213318.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

依据小兔鲜项目,总结Javascript数组常用方法

find 在向购物车添加某种规格的商品时,查找购物车列表中是否已经存在该规格的商品 find()方法传入一个回调函数,代表对数组每一项item的校验要求 返回数组中第一个符合条件的元素的值,如果没有则返回undefined const item cartList.value…

【LeetCode热题100】【双指针】盛最多水的容器

给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明:你不能倾斜容器。 示例…

Java架构师技术为业务赋能

目录 1 概论2 天猫的难言之隐3 如何拆解技术难点-三段论4 天猫线的破局之道-双引擎回归测试框架5 架构师的心理游戏-解决问题从转换思维开始6 技术助力业务的两个方向7 阿里新零售部门如何培养技术团队的业务知识8 如何围绕业务特点制定技术发展路线-阿里系和抖音案例9 阿里系业…

Ubuntu20.04安装ROS2

官方参考文章 Ubuntu (Debian) — ROS 2 Documentation: Foxy documentation curl密钥问题 sudo curl -sSL https://raw.githubusercontent.com/ros/rosdistro/master/ros.key -o /usr/share/keyrings/ros-archive-keyring.gpg curl: (7) Failed to connect to raw.githubus…

pytorch 模型量化quantization

pytorch 模型量化quantization 1.workflow1.1 PTQ1.2 QAT 2. demo2.1 构建resnet101_quantization模型2.2 PTQ2.3 QAT 参考文献 pytorch框架提供了三种量化方法,包括: Dynamic QuantizationPost-Training Static Quantization(PTQ&#xff0…

wordpress安装之Linux解压缩安装

本次教程是为了让大家少走弯路,可以更直观的去认识我们不懂的知识面。 首先我们安装解压缩的软件 命令如下: yum install -y unzip 上一篇我们讲到传输文件了 这篇我们把传输过来的压缩包解压并进行安装。follow me! 我们输入命令 unzi…

【数值计算方法(黄明游)】矩阵特征值与特征向量的计算(五):Householder方法【理论到程序】

文章目录 一、Jacobi 旋转法二、Jacobi 过关法三、Householder 方法1. 旋转变换a. 旋转变换的选择b. 旋转变换的顺序 2. Householder矩阵(Householder Matrix)a. H矩阵的定义b. H变换的几何解释c. H变换的应用场景 3. H变换过程详解a. 过程介绍b. 细节解…

全面的.NET微信网页开发之JS-SDK使用步骤、配置信息和接口请求签名生成详解

JSSDK使用步骤 步骤一:绑定安全域名: 先登录微信公众平台进入“公众号设置”的“功能设置”里填写“JS接口安全域名”。 步骤二:引入JS文件: 在需要调用JS接口的页面引入如下JS文件,(支持https):http://…

业务数据治理体系化实施流程学习总结

目录 一、业务数据治理实施流程 步骤 1:发现问题和制定目标 步骤 2:针对问题进行拆解,设计可衡量的指标 步骤 3:制定解决SOP和检查研发标准规范 步骤 4:推广运营,以拿结果为核心目标 步骤 5&#xff…

matlab科学计算

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和技术。关…

ARM架构安装RabbitMQ

1.查看centos内核版本 uname -a uname -r2.安装之前的准备工作 安装RabbitMQ必装Erlang(RabbitMQ官网添加链接描述) 2.1.Erlang简介 Erlang是一种通用的面向并发的编程语言,它由瑞典电信设备制造商爱立信所辖的CS-Lab开发,目的是创造一种可以应对…

【Java基础篇 | 面向对象】—— 聊聊什么是多态(下篇)

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【JavaSE_primary】 本专栏旨在分享学习JavaSE的一点学习心得,欢迎大家在评论区讨论💌 目录 一、动态绑定和静态绑…

C++ string类(2)—成员访问、插入、删除、替换、查找和交换操作

目录 一、成员访问 1、[ ]&at 2、front( )&back( ) 二、插入元素 三、删除元素 四、替换元素 五、查找元素 1、查找第一次出现位置 2 、在指定范围内查找 六、交换字符串 七、c_str 八、rfind&substr 一、成员访问 1、[ ]&at 虽然二者功能一样&…

【微信小程序】上传头像 微信小程序内接小程序客服

这里写目录标题 微信小程序上传头像使用button按钮包裹img 微信小程序内接小程序客服使用button按钮跳转客服 微信小程序上传头像 使用button按钮包裹img 原本思路是只使用image标签再加上chooseImg,但发现使用button标签上传头像这种方法更实用。微信小程序文档上…

栈实现队列,力扣

题目地址: 232. 用栈实现队列 - 力扣(LeetCode) 难度:简单 今天刷栈实现队列,大家有兴趣可以点上看看题目要求,试着做一下。 题目: 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支…

简单句子成分、阅读技巧

四、段落的主旨题:问这一段讲了什么(一般都在段落的第一句话或最后一句话) 词汇题的答案一般都在生词的上一句或者下一句 做题步骤: 1、先标段落 2、看题,划出关键词 3、去原文定位,标注中文意思 4、第一遍…

类和对象——(5)定义对象数组

归纳编程学习的感悟, 记录奋斗路上的点滴, 希望能帮到一样刻苦的你! 如有不足欢迎指正! 共同学习交流! 🌎欢迎各位→点赞 👍 收藏⭐ 留言​📝 芳华没有草稿纸,我们永久不…

异常(C++)

异常 前言一、程序的错误分类二、异常1. 概念2. 捕获异常的关键字和格式3. 异常的使用异常的原则异常再抛出异常说明注意事项 4. 自定义异常体系5. C标准库的异常体系 三、总结 前言 在程序运行时经常碰到一些错误,例如年龄、身高不能为负,除数为0等&…

阿里微服务质量保障系列:性能监控最佳实践

建设一体化性能监控平台 随着互联网技术的不断发展,企业的业务规模和复杂度也在不断增加。为了保证业务的稳定性和可靠性,企业需要对其系统进行全面的性能监控。而一体化性能监控就是一种集成了多种监控工具和技术的综合性监控方案,可以帮助…

PPT设置背景颜色

问题描述:PPT如何设置背景颜色? 问题解决:设计→设置背景格式→颜色→蓝色(最好选择看着比较舒服的颜色)