Scaling Instruction-Finetuned Language Models

Paper name

Paper Reading Note

Paper URL: https://arxiv.org/pdf/2210.11416.pdf

TL;DR

2022 年谷歌出的文章，对指令微调的影响因素进行分析，提出了一些提升指令微调效果的方案。与该文章一起出品的数据集 Flanv2 也是业界公认的高质量微调数据集，对于各种公开榜单刷榜有重要意义

人工智能的一个重要目标是开发可以推广到看不见的任务的模型。在自然语言处理 (NLP) 中，预训练的语言模型朝着这个目标取得了重大进展，因为它们可以在给定自然语言描述的情况下执行任务，但这需要一些提示词工程（few-shot 示例）来进行协助
通过在表示为指令的任务集合上微调语言模型，已经取得了进一步的进展，这使得模型能够更好地响应指令，并减少对 few-shot 示例的需求

在这里插入图片描述

本文贡献
- 使用 540B 参数模型训练 Flan-PaLM，将微调任务的数量增加到 1.8K，包括 CoT 数据。Flan-PaLM 优于 PaLM，在几个基准测试中实现了最优效果。比如 MMLU 实现了 75.2 的精度
- 与 PaLM 相比，Flan-PaLM 也提高了多语言能力，例如 one-shot TyDiQA 的绝对精度提升为 14.9%，代表性不足语言的算术推理的绝对提升为 8.1%
- 在人工评估员评估中，Flan-PaLM 在一组具有挑战性的开放式生成问题上大大优于 PaLM，这表明可用性有所提高
- 指令微调 Flan-T5 模型（80M 到 11B）。这些 checkpoints 具有很强的 zeroshot、few-shot 和 CoT 能力，优于之前的 T5 模型。

在这里插入图片描述

将指令微调称为 Flan（Finetuning language models），加上 Flan 的模型指代微调后的模型，比如 Flan-PaLM。指令微调的流程可适配以下多种模型结构

多个任务混合，如下图所示，包含 Muffin, T0-SF, NIV2, CoT 四个混合数据源，一共 1836 个微调任务，数据集就包含了 473 个
上图推理部分包含了 CoT 数据，用它来探索对 CoT 注释进行微调是否可以提高 unseen 场景下的推理任务的性能
- 从先前的工作中创建了一个包含九个数据集的新混合，人类评分者手动为训练语料库编写 CoT 注释，九个数据集主要包含算术推理、multi-hop 推理、自然语言推理任务，每个任务手动编写十个指令模板
模板设置
- 对于 Muffin、T0-SF 和 NIV2，我们为每个任务使用指示性模板，由各个数据源的创建者给出
- 对于 CoT，手动为九个数据集中的每个数据集编写了大约十个指令模板，包含/不包含 CoT 数据基于带/不带 few-shot 的样例数据如下

CoT 的影响分为两方面
- CoT 训练数据：从上节表格中，可以看出 CoT 的数据增加有明显涨点
- CoT prompt：对于大尺度模型（540B）在推理性任务（比如 BBH）上有涨点，知识性任务（MMLU）上不论大小模型都掉点
CoT 如何结合 self-consistency 对于大模型可以显著涨点；指令微调后的模型（Flan-PaLM）相比于预训练模型（PaLM）稳定涨点
同时使用 CoT 和 non-CoT 数据的精度最高；可以看出如果没有 CoT 数据引入，微调是掉点的（对于 CoT 评测任务），但是增加 CoT 数据后微调能涨点。这说明为了保持推理能力，对某些 CoT 示例进行微调至关重要
训练任务中有 CoT 的数据可以解锁 zero-shot 推理能力：对于预训练模型，使用 CoT prompt 无法涨点，但是对于微调后的模型，使用 CoT 能涨点。CoT 的方式为使用经典的 “let’s think step-by-step”

一些使用 CoT 的样例对比如下

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/52582.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！