旷野之间12 - 内容创作用的最佳大模型评测

​​​​​​

旷野之间12 - 内容创作用的最佳大模型评测

我正在做一个项目,需要我找出最适合内容创作的 LLM。我查看了 lmsys 排行榜上的顶级模型,阅读了其他人对这些模型的评价,查看了顶级 LLM 的模型卡,在没有明确答案后,我决定对所有这些 LLM 进行测试,以完成不同的内容创作任务。

评估模型

我想要评估的模型(考虑到它们的成本、易用性以及在 lmsys 排行榜上的排名):

  1. 骆驼-3–70b
  2. Mixtral-8x7B
  3. 双子座 1.5 专业版
  4. 克劳德 3 十四行诗

以下是我所做的……

首先,我将内容创作领域分为 5 种不同的用例:

  1. 博客写作
  2. 电子邮件写作
  3. 文案撰写——包括广告、搜索引擎优化、网站、技术和社交媒体
  4. 写剧本
  5. 内容摘要

在每个用例中,我创建了多个类别,它们要么是子用例,要么是该用例流程的步骤。

每个用例如下所示:

旷野之间12 - 内容创作用的最佳大模型评测

简单的评估框架

1. GPT-4 Turbo 将担任第一位评委,根据我根据用例编写的评估提示,对每个答案进行满分 10 分的评分。

2.我本人担任第二位评委。

3. 每位评委将对答案进行满分 10 分的评分

4. 最终得分为两次得分的平均数。

制作和策划提示

在扩展每个用例的类别后,我必须仔细设计将提供给每个 LLM 的提示。不仅仅是创作提示,我知道如果我是唯一一个评估这些 LLM 的回复的人,那将是非常有偏见和不可靠的,所以我和那里最好的 LLM 联手了gpt-04-turbo

现在,

  1. 每个类别的创建提示
  2. 每个类别的评估提示

评估将由另一个 LLM 进行,我知道这听起来很奇怪,但像MT-Bench这样的基准(请注意,这个评估与 MT-Bench 相差甚远)也使用强大的 LLM 作为评判者来自动化评估过程。

为了策划创作提示,我使用了提示工程技术,例如人员采用、明确的指示、思考时间和分隔的参考文本。

例如,

社交媒体文案提示:假设您是一家精品咖啡店的社交媒体经理,这家咖啡店以使用公平贸易的有机咖啡豆而自豪。您的目标是吸引经常光顾咖啡店作为社交中心的年轻时尚受众。制作一系列社交媒体帖子:— 用生动的视觉效果和诱人的描述介绍一种新的季节性混合咖啡

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/791632.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【软件测试】 1+X初级 功能测试试题

培训进修模块需求说明书 普通员工登录系统,在“培训进修”模块,可以查看个人培训进修的信息。 培训进修需求包括用户(UI)页面、业务规则两部分。 UI 界面 培训进修:列表页 培训进修:查看培训信息 业务规…

【Git基本操作】添加文件 | 修改文件 | 及其各场景下.git目录树的变化

目录 1. 添加文件&add操作和commit操作 2. .git树状目录的变化 3. git其他操作 4. 修改文件 4.1 git status 4.2 git diff 1. 添加文件&add操作和commit操作 add操作:将工作区中所有文件的修改内容 添加进版本库的暂存区中。commit操作:…

springboot轻松音乐-计算机毕业设计源码48092

目 录 摘要 1 绪论 1.1研究背景与意义 1.2研究现状 1.3论文结构与章节安排 2 基于微信小程序的轻松音乐系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.3 系统用例分析 2.4 系统…

Mysql查询近半年每个月有多少天

Mysql 查询近6个月每个月有多少天: SELECT DATE_FORMAT(DATE_ADD(NOW(),INTERVAL-(CAST( help_topic_id AS SIGNED INTEGER )) MONTH ), %Y-%m) as months,DAY(LAST_DAY(CONCAT(DATE_FORMAT(DATE_ADD(NOW(),INTERVAL-(CAST( help_topic_id AS SIGNED INTEGER )) MO…

Java protobuf序列化

Protobuf概述 Protobuf(全称:Protocol Buffers)是由 Google 开发的一种语言中立、平台无关、可扩展的序列化协议。它用于高效地结构化数据的序列化和反序列化。Protobuf 的主要特点是其紧凑、高效和可扩展的编码格式,使其在各种网…

【单片机毕业设计选题24056】-基于STM32的八路抢答器设计

系统功能: 系统上电后显示“欢迎使用八路抢答系统请稍后”,两秒后进入正常页面显示。 第一行显示系统状态信息,第二行显示抢答计时时间,第三行显示设定的抢答时间, 第四行显示系统状态(空闲状态或计时状态&#xff…

【Qt】之【Bug】MaintenanceTool qt安装组件 无法下载存档

解决 参考:qt更新组件时,提示无法下载存档 进入MaintenanceTool.exe所在目录,使用命令行,镜像源打开程序,进行更新或添加组件 .\MaintenanceTool.exe --mirror https://mirrors.cloud.tencent.com/qt/顺利

基于Intel Chainer 和姿势检测的动作识别(人体、面部、手部关键点识别动作识别)

项目概述 目标 开发一个能够实时或近实时识别特定动作的系统,如运动姿势、表情变化或手势控制。实现对人体关键点的精确追踪,以便于分析和理解人的动态行为。 技术栈 Intel硬件:可能使用Intel的高性能计算平台,如Xeon处理器或…

Spark RDD优化

Spark RDD优化 一、分区优化二、持久化优化三、依赖优化四、共享变量优化五、提交模式与运行模式优化六、其他优化 一、分区优化 分区数调整:RDD的分区数可以通过repartition和coalesce方法进行调整。合理的分区数可以提高并行度,但过多的分区会增加管…

实现Android夜间模式主题:从入门到精通

实现Android夜间模式主题:从入门到精通 随着用户对夜间模式的需求越来越高,Android开发者需要掌握如何在应用中实现夜间模式。本文将详细介绍在Android中实现夜间模式的步骤,包括配置、实现、以及一些最佳实践,帮助开发者创建更具吸引力和用户友好的应用。 夜间模式的优势…

Git分支结构

目录 1. 线性分支结构 2. 分叉与合并结构 3. 分支与标签的关系 4. 并行开发与分支管理策略 测试(本机系统为Rocky_linux9.4) 合并失败解决 删除分支 删除本地分支 删除远程分支 Git 中的分支结构是版本控制中非常重要的概念之一,它描…

基于Java+SpringMvc+Vue技术的就医管理系统设计与实现系统(源码+LW+部署讲解)

目录 界面展示 第六章 部分代码实现 6.1 Spring boot 配置代码 6.2 用户管理及登录登出代码 6.3 Md5 加密算法代码 6.4 部分数据库代码 六、论文参考: 七、其他案例: 系统介绍: 就医管理系统,也称为医院管理系统&#…

14.爬虫---Selenium 经典动态渲染工具的使用

14.Selenium 经典动态渲染工具的使用 1.查看chrome浏览器版本2.ChromeDriver 安装3.Selenium 安装4.验证安装5.基本用法5.1启动浏览器5.2导航到页面5.3查找元素5.3.1单个元素 find_element5.3.2多个元素 find_elements 5.4 执行操作5.5 动作链ActionChains5.6 执行 JavaScript …

LabVIEW平台从离散光子到连续光子的光子计数技术

光子计数技术用于将输入光子数转换为离散脉冲。常见的光子计数器假设光子是离散到达的,记录到来的每一个光子。但是,当两个或多个光子同时到达时,计数器会将其记录为单个脉冲,从而只计数一次。当连续光子到达时,离散光…

微软Edge浏览器全解析:从速度到安全性的全面体验

微软Edge浏览器,自2015年首次亮相以来,已经成为了浏览器市场上不可忽视的一股力量。它不仅集成了Windows 10的许多原生功能,还在速度和安全性上进行了大量的优化。本文将全面解析微软Edge浏览器的各项特性,带您领略这款浏览器的魅…

M12电源分配器:高效率与可靠性的工业解决方案

关键词:M12电源分配器、M12电源接线盒、M12电源分线盒 摘要 M12电源分配器是工业环境中实现高效与可靠电源管理的现代化解决方案。该设备采用坚固的金属外壳和封闭式设计,保证了在严苛工业条件下的稳定运行,达到IP67等级的防护性能&#xf…

合合信息“大模型加速器”亮相2024世界人工智能大会

文章目录 📑引言一、大模型发展的挑战数据稀缺问题 二、大模型“加速器”解决方案概述文档解析引擎的特征 三、文档解析引擎的优势3.1 高速处理能力3.2 智能理解文档结构3.3 多种数据类型支持3.4 高精度数据提取3.5 应用广泛,适应性强 四、复杂图表解析4…

二分查找模板及例题

文章目录 模板一:使用场景:解释:例题:数的范围题意: 代码: 模板二:使用场景:解释:例题:[Building an Aquarium](https://codeforces.com/problemset/problem/…

龙蜥Anolis OS基于开源项目制作openssh 9.8p1 rpm包 —— 筑梦之路

环境信息 制作过程和centos 7几乎没有区别,此处就不再赘述。 CentOS 7基于开源项目制作openssh9.8p1 rpm二进制包修复安全漏洞CVE-2024-6387 —— 筑梦之路_cve-2024-6387修复-CSDN博客 制作成果展示 tree RPMS/ RPMS/ └── x86_64├── openssh-9.8p1-1.an7.…

Python32 极限学习机ELM

极限学习机(ELM)是一种简单的单层前馈神经网络(SLFN)学习算法。理论上,极限学习机算法(ELM)往往以极快的学习速度提供良好的性能(属于机器学习算法),由Huang等…