我正在做一个项目,需要我找出最适合内容创作的 LLM。我查看了 lmsys 排行榜上的顶级模型,阅读了其他人对这些模型的评价,查看了顶级 LLM 的模型卡,在没有明确答案后,我决定对所有这些 LLM 进行测试,以完成不同的内容创作任务。
评估模型
我想要评估的模型(考虑到它们的成本、易用性以及在 lmsys 排行榜上的排名):
- 骆驼-3–70b
- Mixtral-8x7B
- 双子座 1.5 专业版
- 克劳德 3 十四行诗
以下是我所做的……
首先,我将内容创作领域分为 5 种不同的用例:
- 博客写作
- 电子邮件写作
- 文案撰写——包括广告、搜索引擎优化、网站、技术和社交媒体
- 写剧本
- 内容摘要
在每个用例中,我创建了多个类别,它们要么是子用例,要么是该用例流程的步骤。
每个用例如下所示:
简单的评估框架
1. GPT-4 Turbo 将担任第一位评委,根据我根据用例编写的评估提示,对每个答案进行满分 10 分的评分。
2.我本人担任第二位评委。
3. 每位评委将对答案进行满分 10 分的评分
4. 最终得分为两次得分的平均数。
制作和策划提示
在扩展每个用例的类别后,我必须仔细设计将提供给每个 LLM 的提示。不仅仅是创作提示,我知道如果我是唯一一个评估这些 LLM 的回复的人,那将是非常有偏见和不可靠的,所以我和那里最好的 LLM 联手了gpt-04-turbo
。
现在,
- 每个类别的创建提示
- 每个类别的评估提示
评估将由另一个 LLM 进行,我知道这听起来很奇怪,但像MT-Bench这样的基准(请注意,这个评估与 MT-Bench 相差甚远)也使用强大的 LLM 作为评判者来自动化评估过程。
为了策划创作提示,我使用了提示工程技术,例如人员采用、明确的指示、思考时间和分隔的参考文本。
例如,
社交媒体文案提示:假设您是一家精品咖啡店的社交媒体经理,这家咖啡店以使用公平贸易的有机咖啡豆而自豪。您的目标是吸引经常光顾咖啡店作为社交中心的年轻时尚受众。制作一系列社交媒体帖子:— 用生动的视觉效果和诱人的描述介绍一种新的季节性混合咖啡