大模型什么时候应该进行微调

经常会遇到一个问题——LinkedIn 上的人们问我如何微调 LLaMA 等开源模型，试图找出销售 LLM 托管和部署解决方案的业务案例的公司，以及试图利用人工智能和大模型应用于他们的产品。但当我问他们为什么不想使用像 ChatGPT 这样的闭源模型时，他们并没有真正的答案。因此，我决定以一个每天应用大模型来解决业务问题的人的身份来写这篇文章。

封闭 API 的案例

您是否尝试过为您的用例实现 ChatGPT API？也许您想总结文档或回答问题，或者只是想在您的网站上安装聊天机器人。通常，您会发现 ChatGPT 在多语言任务上表现得相当不错。

人们普遍认为这些模型太贵了。但以 0.002 美元/1K 代币的价格，我打赌您至少可以在 100 个样本上尝试一下，并评估 LLM 是否适合您的特定应用程序。事实上，在每天数千次 API 调用或在该范围内的情况下，ChatGPT API 的成本比我在本博客中所写的自定义开源模型的托管基础设施便宜得多。

一种说法是，假设您想要回答有关数千或数万份文档的问题。在这种情况下，仅根据此数据训练或微调开源模型并向微调模型询问有关此数据的问题不是更容易吗？事实证明，这并不像听起来那么简单（出于多种原因，我将在下面有关微调数据的标签部分中讨论）。

但 ChatGPT 有一个简单的解决方案可以回答包含数千个文档的上下文中的问题。它基本上是将所有这些文档作为小文本块存储在数据库中。

现在，向模型提供所有必要信息以回答问题的问题已从模型架构转移到包含文档块的数据库。

然后可以通过计算问题和文档块之间的相似性来找到相关文档。这通常是通过将块和问题转换为词嵌入向量，并计算块和问题之间的余弦相似度，最后仅选择高于特定余弦相似度的那些块作为相关上下文来完成的。

最后，问题和上下文可以组合成如下提示，并输入 LLM API（如 ChatGPT）：

Prompt= f"回答问题。上下文: {context} \\n 问题: {question} "

您可能会问 - 为什么不将整个文档和问题输入提示中，而不是将其分成多个块？我们将文档分成块而不是将所有文档合并到一个提示中的原因是因为 LLM 对最大输入和输出长度有一定的限制。对于 ChatGPT，这是 4096 个令牌，或者大约 6-7 页文本。

当答案明显存在于这些文档中时，将文档卸载到数据库并使用封闭的 LLM API 进行查询可能会很有效。但在很多情况下，这些可能会产生次优结果，例如，如果您希望 ChatGPT 就某个利基主题提供专家观点，例如推测美国经济的财务前景。

特定领域的大模型

好的，您尝试过 ChatGPT 或 BARD — 但您不喜欢它。答案有点不对劲。例如，您询问 ChatGPT：

“美国经济的通胀可能会持续多久？”

它返回了：

作为人工智能语言模型，我无法确定地预测未来，尤其是对于复杂的经济系统。不过，我可以为您提供一些信息和观点，可能有助于您了解当前的情况。

通货膨胀是一种复杂的现象，可能由多种因素引起，例如需求增加、供应限制……。

不幸的是，这对你来说还不够好。当然，您可以向 ChatGPT 提供一些有关美联储主席杰罗姆·鲍威尔声明的最新消息。但这并不能为您提供与您交谈时所获得的同样丰富的领域经验 - 好吧，杰罗姆·鲍威尔，还有谁！或者另一位专家。

想想成为某个领域的专家需要什么。虽然其中一部分是阅读有关该主题的书籍，但也有很多是与该领域的主题专家互动，并从经验中学习。虽然 ChatGPT 接受过大量金融书籍的培训，但它可能还没有接受过顶级金融专家或其他特定领域专家的培训。那么如何才能让大模型成为金融领域的“专家”呢？这就是微调的用武之地。

大模型微调

在讨论微调 LLM 之前，我们先谈谈微调像 BERT 这样的小型语言模型，这在 LLM 之前很常见。对于像 BERT 和 RoBERTa 这样的模型，微调相当于传递一些上下文和标签。任务定义明确，例如从上下文中提取答案，或将电子邮件分类为垃圾邮件与非垃圾邮件。

然而，大型语言模型（LLM）之所以风靡一时，是因为它们可以通过改变你构建提示的方式无缝地执行多个任务，并且你拥有类似于与另一端的人交谈的体验。我们现在想要的是将大模型微调为某个学科的专家，并像“人”一样参与对话。这与在特定任务上微调 BERT 等模型有很大不同。

最早的开源突破之一是斯坦福大学的一组研究人员对 7B LLaMa 模型（今年早些时候由 Meta 发布）进行了微调，他们将其称为 Alpaca，在 52K 指令上的价格不到 600美元。不久之后，Vicuna团队发布了130亿参数的模型，达到了ChatGPT质量的90%。

最近，MPT-7B 转换器发布，可以摄取 65k 代币，是 ChatGPT 输入大小的 16 倍！培训从头开始，历时 9.5 天，花费 20 万美元。作为特定领域大模型的示例，彭博社发布了一个类似 GPT 的模型BloombergGPT，该模型专为金融而构建，并且也是从头开始训练的。

最近在培训和微调开源模型方面取得的进展只是中小型公司通过定制大模型丰富其产品的开始。那么，您如何决定何时需要微调或培训整个特定领域的大模型？

首先，重要的是要清楚地确定您所在领域的闭源 LLM API 的局限性，并证明让客户能够以极低的成本与该领域的专家聊天。对于十万条左右的指令来说，微调模型并不是很昂贵，但获得正确的指令需要仔细考虑。这也是你需要大胆一点的地方——我还想不出在许多领域中，经过微调的模型在特定领域的任务上表现得比 ChatGPT 明显更好，但我相信这即将到来，任何做得好的公司都会得到奖励。

这让我想到了从头开始完全训练大模型的案例。是的，这很容易花费数十万美元，但如果你提出一个可靠的案例，投资者会很乐意参与。在最近接受IBM 采访时，Hugging Face 首席执行官 Clem Delangue评论说，很快，定制的大模型可能会像作为专有代码库很常见，也是在行业中保持竞争力的重要组成部分。

要点

应用于特定领域的大模型在行业中可能非常有价值。有增加成本和可定制性的 3 个级别：

闭源 API + 文档嵌入数据库：第一个解决方案可能是最容易上手的，考虑到 ChatGPT API 的高质量 - 甚至可能为您提供足够好的（如果不是最好的）性能。而且很便宜！
微调 LLM：微调 LLaMA 类模型的最新进展表明，在某些领域获得类似于 ChatGPT 的基准性能需要约 500 美元。如果您有一个包含约 50-100k 指令或对话的数据库来微调基线模型，那么这可能是值得的。
从头开始训练：正如 LLaMA 和更新的 MPT-7B 模型所示，这需要大约 100-200k 的成本，并且需要一两周的时间。

现在您已经掌握了知识 - 继续构建您的自定义领域特定 LLM 应用程序！

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：