提示词工程入门-使用文心一言4.0-通义千问-GPT4-Claude3通用提示技巧测试

提示词工程基础🚀

       在了解完了大语模型的基本知识,例如API的使用多轮对话,流式输出,微调,知识向量库等知识之后,接下来需要进一步补足的一个大块就是提示词工程,学习和了解提示词工程除了基本的提示词类型之外,不同的大模型对于提示词工程润色之后的提示词的反应如何,也是比较值得关注的一点,因此本文使用文心一言4.0,通义千问,ChatGPT4, Claude3,四种模型来实验一下各类的提示词


文章目录

  • 提示词工程基础🚀
  • 1.什么是提示词工程
  • 2.提示词要素
  • 3.提示词的通用技巧
    • 3.1 在提示词中明确指令
      • 3.1.1 输入基础和改进之后的提示词模型的输出
      • 3.1.2 结果对比分析
    • 3.2 具体描述输出所要的格式
      • 3.2.1 输入基础和改进之后的提示词模型的输出
      • 3.2.2 结果对比分析
    • 3.3精确描述想要的内容不要概括
      • 3.3.1 输入基础和改进之后的提示词模型的输出
      • 3.3.2 结果对比分析
    • 3.4 以鼓励的方式向大模型提问
      • 3.4.1 输入基础和改进之后的提示词模型的输出
      • 3.4.2 结果对比分析
  • 4.整体结果分析
  • 结束


https://www.promptingguide.ai/zh
在这里插入图片描述
       首先分享一个网站这是我在谷歌上搜索到的,一个非常好的提示词学习网站,不但由简单到难的总结了提示词工程中的各种概念要素和提示词的各类技术,后面还包括了一些工具,笔记,还有一些提示词领域的优秀的论文,并不断的对论文进行更新,根据这个网站的逻辑,这篇文章首先测试一下其中的通用提示词技巧,最如果有什么错误或者不完善的非常欢迎沟通交流。

1.什么是提示词工程


这里先引用上面的提示词指南中对提示词工程的介绍:

提示工程(Prompt Engineering)是一门较新的学科,关注提示词开发和优化,帮助用户将大语言模型(Large Language Model, LLM)用于各场景和研究领域。 掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。

我个人的感觉的话就是针对不同类型的问题然后找出一些通用的提示结构从而让回答的正确率和质量更高。

2.提示词要素


这里我认为提示词指南网站里的解释非常好,我就直接给粘过来,然后补充点自己的理解。
在这里插入图片描述
提示词的四要素:

指令:想要模型执行的特定任务或指令。

上下文:包含外部信息或额外的上下文信息,引导语言模型更好地响应。

输入数据:用户输入的内容或问题。

输出指示:指定输出的类型或格式。

一般来说我们在使用大模型的时候,都是直接输入指令和数据,但是如果能有效的提供上下文和输出格式,则一般而言回答的质量会更高。

3.提示词的通用技巧


3.1 在提示词中明确指令

在这里插入图片描述
明确指令的过程中的要点如下:

  • 使用例如“写入”、“分类”、“总结”、“翻译”、“排序”等明确的提示词
  • 将“###指令###”放在开头

接下来我们分别测试三种

将“hello!”翻译成西班牙语
将以下文本翻译成西班牙语:
文本:“hello!”
### 指令 ###
将以下文本翻译成西班牙语:
文本:“hello!”

为了避免多轮对话的记忆,因此每次实验都新开一个会话


3.1.1 输入基础和改进之后的提示词模型的输出

文心一言

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


通义千问

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


ChatGPT4

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


Claude3

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.1.2 结果对比分析


       下面是我自我感受的一个测试结果,纯个人感受,文心一言的基础效果给差是因为,只有文心一言的基础结果输出时候,翻译出的西班牙语少了开头的一个符号(但我不知道重要不重要不太懂西班牙语),剩下的情况翻译的情况都基本是正确的,虽然额外的表示方式或是信息不同。

模型名称基础效果使用提示技巧效果特点相关任务推荐建议
文心一言4.0良好不是很推荐
通义千问良好良好只输出结果需要精简回答时推荐
GPT4良好良好结果前会铺垫一句描述对话场景推荐
Claude3良好良好会自动切换回答语言需自动切换语言时推荐

3.2 具体描述输出所要的格式

在这里插入图片描述
接下来测试两种文本:

提取以下文本中的地名。
输入:“虽然这些发展对研究人员来说是令人鼓舞的,但仍有许多谜团。里斯本未知的香帕利莫德中心的神经免疫学家 Henrique Veiga-Fernandes 说:“我们经常在大脑和我们在周围看到的效果之间有一个黑匣子。”“如果我们想在治疗背景下使用它,我们实际上需要了解机制。”
提取以下文本中的地名。
所需格式:
地点:<逗号分隔的公司名称列表>
输入:“虽然这些发展对研究人员来说是令人鼓舞的,但仍有许多谜团。里斯本未知的香帕利莫德中心的神经免疫学家 Henrique Veiga-Fernandes 说:“我们经常在大脑和我们在周围看到的效果之间有一个黑匣子。”“如果我们想在治疗背景下使用它,我们实际上需要了解机制。”

3.2.1 输入基础和改进之后的提示词模型的输出


文心一言

在这里插入图片描述在这里插入图片描述


通义千问

在这里插入图片描述
在这里插入图片描述


GPT4

在这里插入图片描述
在这里插入图片描述


Claude3

在这里插入图片描述
在这里插入图片描述

3.2.2 结果对比分析

       在通用提示词中明确指令前文测试结果,这里两个地名都识别出来了我认为是正确,然后识别出来一个的我就给了差。然后较好是有时候正确有时候错误我就给了较好。

模型名称基础效果使用提示技巧效果特点相关任务推荐建议
文心一言4.0不是很推荐
通义千问良好较好不改进提示词前正确,改进有时正确有时错误推荐不改进提示词使用
GPT4不是很推荐
Claude3良好不改进之前错误,改进之后正确推荐改进提示词之后使用

3.3精确描述想要的内容不要概括

在这里插入图片描述

向高中学生解释提示工程的概念。
使用 2-3 句话向高中学生解释提示工程的概念。

3.3.1 输入基础和改进之后的提示词模型的输出


文心一言

在这里插入图片描述

在这里插入图片描述


通义千问

在这里插入图片描述

在这里插入图片描述


ChatGPT4

在这里插入图片描述

在这里插入图片描述


Claude3

在这里插入图片描述

在这里插入图片描述

3.3.2 结果对比分析

然后由于这是一个开放性问题没有正确答案,大家总结的也都不错但是有个明显的区别。

  • 国内的两个模型文心一言和通义千文把提示工程认为是一种提示作用的行为然后讲述出来
  • 国外的两个模型把提示工程认为提示工程是大模型中的提示词工程而进行输出描述。

我个人认为在这方面国外的两个模型的表现要更好或者更符合当前科技背景一些。


3.4 以鼓励的方式向大模型提问

在这里插入图片描述
测试的两个文本如下

以下是向客户推荐电影的代理程序。不要询问兴趣。不要询问个人信息。

客户:请根据我的兴趣推荐电影。
代理:
以下是向客户推荐电影的代理程序。代理负责从全球热门电影中推荐电影。它应该避免询问用户的偏好并避免询问个人信息。如果代理没有电影推荐,它应该回答“抱歉,今天找不到电影推荐。”
顾客:请根据我的兴趣推荐一部电影。
客服:

3.4.1 输入基础和改进之后的提示词模型的输出


文心一言

在这里插入图片描述
在这里插入图片描述


通义千问

在这里插入图片描述
在这里插入图片描述


ChatGPT4-以鼓励的方式向大模型提问

在这里插入图片描述
在这里插入图片描述


Claude3

在这里插入图片描述
在这里插入图片描述

3.4.2 结果对比分析

这里除了GPT4,其他模型都没有完成拒绝推荐的指令,因此GPT在理解复杂指令方面还是表现出了领先的优势。

4.整体结果分析


  • 随着大模型的发展,提示词工程的通用技巧之后的模型绝大多数情况下都好于改善了之前,但也有更差的情况,个人认为随着大模型的发展,提示词工程的作用在不断的降低。如果把上述四种提示词基础功能分别对应四种任务的话我粗略的给每个模型排个名仅供参考
模型名称明确指令任务中实体识别任务精确内容任务附加条件任务综合排名(求和)
文心一言4.043324
通义千问11323
GPT413111
Claude312121
  • GPT在中文实体识别任务中不如通义千问和Claude3其他任务中全处在最优水平,而且在理解复杂逻辑方面遥遥领先
  • Claude各方面能力相当均衡没有明显的短板
  • 国产模型在整体能力上距离世界领先水平还有一段空间,加油我们自己大模型一定会越来越好。

结束


这个对比就到这,毕竟花了好多钱开了这这些大模型,争取把能测试都测试一遍,后面从零样本提示开始做实验,进一步看一下各个模型在面对复杂情况下表现和提示词能起到的作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/583664.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Docker创建镜像之--------------基于Dockerfile创建

目录 一、在编写 Dockerfile 时&#xff0c;有严格的格式需要遵循 二、Dockerfile 操作常用的指令 2.1ENTRYPOINT和CMD共存的情形 2.2ENTRYPOINT和CMD的区别 2.3ADD 与COPY的区别 三、Dockerfile案例 3.1构建apache镜像 3.1.1 创建镜像目录方便管理 3.1.2创建编写dock…

0417GoodsImgTomCat项目 实现添加储存图片 分页查询图片

0417GoodsImgTomCat项目包-CSDN博客 数据库字段&#xff1a; 界面效果

Baidu comate智能编程助手评测

Baidu comate智能编程助手评测 作者&#xff1a;知孤云出岫 目录 一&#xff0e; 关于comate产品 二&#xff0e; 关于comate产品体验 三&#xff0e; 关于实际案例. 四&#xff0e; 关于baidu comate编程助手的实测体验感悟 五&#xff0e; …

【鸿蒙】通知

一、概要 Android的Notification。 说到通知&#xff0c;就想到了推送。 通知这块可以做到不像Android一样需要集成各家厂商的推送了&#xff0c;不知道是否有建立独立的推送系统 这是官网上介绍的跨APP进行的IPC通知。实际在Android开发过程中&#xff0c;可能这种场景会相对…

代码审计-PHP模型开发篇MVC层RCE执行文件对比法1day分析0day验证

知识点&#xff1a; 1、PHP审计-MVC开发-RCE&代码执行 2、PHP审计-MVC开发-RCE&命令执行 3、PHP审计-MVC开发-RCE&文件对比简要点 1、代码审计必备知识点&#xff1a; 环境搭建使用&#xff0c;工具插件安装使用&#xff0c;掌握各种漏洞原理及利用,代码开发类知…

《HCIP-openEuler实验指导手册》2.2 Nginx静态资源访问配置

知识点 配置步骤 新建静态资源文件 mkdir /data mkdir /data/nginx touch /data/nginx/index.html echo "this is /data/nginx/index.html" > /data/nginx/index.html touch /data/nginx/test.txt echo "this is /data/nginx/test.txt" > /data/ng…

复刻系列-绝区零官网「喧响测试」

复刻绝区零官网「喧响测试」 0. 视频 绝区零&#xff0c;妮慧事捉净&#xff01;&#xff01;&#xff01; 1. 基本信息 作者: GMCY系列: 复刻系列网站: 绝区零「喧响测试」- 复刻的仓库: GitHub | Gitee话题(GitHub): vue \ reprint \ mihoyo \ ZenlessZoneZero创建时间: 20…

设计模式六大原则详解

引言 对于设计模式&#xff0c;自己很早之前就看了好多本设计模式书籍&#xff0c;其中一些还看了好几遍&#xff0c;也一直希望自己能在编码的时候把这些设计模式用上去。可是&#xff0c;在日常的打码中&#xff0c;用的做多的就是单例&#xff0c;其次是观察者和建造者模式…

ASP.NET某企业信息管理系统的设计与实现

摘 要 信息管理系统就是我们常说的MIS(Management Information System),它是一个计算机软硬件资源以及数据库的人-机系统。经过对题目和内容的分析,选用了Microsoft公司的ASP.NET开发工具,由于它提供了用于从数据库中访问数据的强大工具集,使用它可以建立开发比较完善的数据库…

docker容器---docker-compose容器集群的快速编排

一、Docker-compose简介 Docker-Compose项目是基于Python开发的Docker官方开源项目&#xff0c;负责实现对Docker容器集群的快速编排。 Docker-Compose将所管理的容器分为三层&#xff0c;分别是 工程&#xff08;project&#xff09;&#xff0c;服务&#xff08;service&am…

使用vue3+elementplus的级联选择器实现省市区联动(三级到五级)

中华人民共和国行政区划代码 github地址&#xff1a;https://github.com/uiwjs/province-city-china 中华人民共和国行政区划&#xff08;五级&#xff09;&#xff1a;省级、地级、县级、乡级和村级。来自中华人民共和国民政部&#xff0c;用于查询中国省&#xff0c;市和区数…

linux远程访问及控制

一、SSH远程管理 1.SSH的简介 SSH远程管理是一种通过 SSH 协议安全地管理远程计算机的方法。允许管理员通过加密的连接从本地计算机或其他远程位置连接到远程计算机&#xff0c;并执行管理任务、配置设置、故障排除等操作。 远程链接的两种方法&#xff1a;SSH 、Telnet S…

函数定义域和值域

定义域和值域 1. 函数的定义 函数的定义&#xff1a;一般的&#xff0c;在一个变化过程中&#xff0c;假设有两个变量 x x x&#xff0c; y y y&#xff0c;如果对于任意一个 x x x 都有唯一确定的一个 y y y 和它对应&#xff0c;那么就称 x x x 是自变量&#xff0c; y…

C++初阶学习第四弹——类与对象(中)——刨析类与对象的核心点

类与对象&#xff08;上&#xff09;&#xff1a;C初阶学习第三弹——类与对象&#xff08;上&#xff09;——初始类与对象-CSDN博客 前言&#xff1a; 在前面文章中&#xff0c;我们已经讲了类与对象的思想和类与对象的一些基本操作&#xff0c;接下来这篇文章我们将讲解以下…

会计稳健性Cscore模型(2000-2022年)

01、数据介绍 会计稳健性是指在财务报告中&#xff0c;对损失和收益的确认存在不对称的延迟。具体来说&#xff0c;对于损失或坏消息&#xff0c;企业应尽早确认&#xff1b;而对于收益或好消息&#xff0c;企业应延迟确认。这种稳健的会计处理方式有助于提高财务报告的质量&a…

人工原生动物优化器(APO)-2024年SCI一区新算法-公式原理详解与性能测评 Matlab代码免费获取

声明&#xff1a;文章是从本人公众号中复制而来&#xff0c;因此&#xff0c;想最新最快了解各类智能优化算法及其改进的朋友&#xff0c;可关注我的公众号&#xff1a;强盛机器学习&#xff0c;不定期会有很多免费代码分享~ 目录 原理简介 一、觅食行为 (1)自养模式 (2)异…

[CUDA 学习笔记] GEMM 优化: 双缓冲 (Prefetch) 和 Bank Conflict 解决

GEMM 优化: 双缓冲 (Prefetch) 和 Bank Conflict 解决 前言 本文主要是对 深入浅出GPU优化系列&#xff1a;GEMM优化&#xff08;一&#xff09; - 知乎, 深入浅出GPU优化系列&#xff1a;GEMM优化&#xff08;二&#xff09; - 知乎 以及 深入浅出GPU优化系列&#xff1a;GE…

Git工具的使用

文章目录 Git概述本地仓库命令远程仓库命令分支操作标签操作 IDEA上执行Git Git概述 一般工作流程如下&#xff1a; 从远程仓库中克隆 Git 资源作为本地仓库&#xff1b; 从本地仓库中checkout代码然后进行代码修改&#xff1b; 在提交本地仓库前先将代码提交到暂存区&#xff…

上市公司-双重差分模型手动匹配绿色企业数据及参考资料

01、数据简介 双重差分模型&#xff08;DID&#xff0c;Differences-in-Differences&#xff09;是一种用于估计某个政策或处理效果的经济计量学模型。通过双重差分模型&#xff0c;可以控制一些不易观察的个体特征和时间趋势&#xff0c;以更准确地估计政策的效应。将绿色企业…

OmniReader Pro for Mac:强大且全面的阅读工具

OmniReader Pro for Mac是一款专为Mac用户设计的强大且全面的阅读工具&#xff0c;它集阅读、编辑、管理等多种功能于一身&#xff0c;为用户提供了卓越的阅读体验。 OmniReader Pro for Mac v2.9.5激活版下载 该软件支持多种文件格式的阅读&#xff0c;包括PDF、Word、Excel、…