LLM - Ruozhiba <Quality> is All You Need

目录

引言

1.COIG-CQIA Data

2.Ruozhiba Performance

3.Ruozhiba Data

4.More Ruozhiba Data

5.Some thoughts


引言

近期弱智吧 [后续以 Ruozhiba 代替] 的数据集在中文 LLM 场景的 Fine-Tuning 效果大火。众所周知,在当前 LLM 的大环境下,足够优秀的数据对模型的 Fine-Tuning 效果影响很大,以至于很多优秀的微调样本 Label 都来自 GPT-4 标注,这次我们也是借此机会,对 Ruozhiba 的数据集一探究竟,看看究竟是什么样的数据集才更利于模型的微调。

1.COIG-CQIA Data

Attention is All You Need,相信这篇文章大家一定不会陌生,而近期: 

Quality is All You Need for Chinese Fine-tuning

一文介绍了中文数据集及其对应微调效果,也是在这篇论文中,作者引入了高质量的中文数据集 COIG-CQIA,该数据集是一个高质量的中文指令微调数据集,其从中国互联网的各种来源收集了高质量的人工编写的语料库,包括 Q&A 社区、Wikis、考试和现有的 NLP 数据集。该语料库经过严格过滤和仔细处理以形成 COIG-CQIA 数据集。此外,作者按照深入的评估和分析,在 CCIA 的不同子集上训练不同尺度的模型。通过实验发现,来自于百度贴吧-弱智吧的数据在微调 Fine-Tuning 后,在多个指标上领先于其他社区与平台。

上表展示了混合数据集的构成,其中数量较多的是 MBA Encyclopedia [MBA 百科全书] 和 Zhihu [知乎],也有热门的社区例如 Xiaohognshu [小红书] 和 Douban [豆瓣],共计 48375 条数据。 

2.Ruozhiba Performance

Ruozhiba 是百度 Tieba 的一个子论坛,这是一个基于兴趣的社区论坛。它的帖子通常包含双关语多义词因果反转同音词,其中许多都是用逻辑陷阱设计的,即使对于人类也带来了挑战。我们收集了 500 个投票最多的线程。使用标题作为说明,我们消除了那些非建设性(即陈述性陈述或不可回答)或有毒的。响应 Response 由人类或 GPT-4 生成。我们对 GPT4 响应进行了人工审查,以确保准确性,最终获得 240 个(Instruction, Response)对。

- Performance On Yi-6B

使用 GPT4 在 BELLE-EVAL 上评估的各种数据集上训练的 Yi-6B 的性能,其中 Ruozhiba 在多项指标上遥遥领先, 例如 Open QA、Brainstorming、Code 等。

- Performance On Yi-34B

使用 GPT4 在 BELLE-EVAL 上评估的各种数据集上训练的 Yi-34B 的性能,Ruozhiba 基本保持了 Yi-6B 上的表现。

- SafetyBench Score on Yi-6B

在各种数据源上训练的Yi-6B的安全基准分数,可以看到 Ruozhiba 数据集对应的安全基准分也很高。

3.Ruozhiba Data

论文中给出了 COIG-CQIA 数据集的地址: COIG-CQIA,可以在 Hugging-Face 上搜素:

我们找到 Ruozhiba 数据集的文件夹,文件一共 267 kb,保存为 raw 格式:

下面我们找一条 QA pair 看看怎么个事情:

其主要的 (Instruction, Response) 由 instruction 和 output 指定,其中 task_type 定义了其问答的主次类型,domian 定义了其对应的领域,后面的 metadata 用于存放元数据,answer_from 标识 llm,hunman_verified 代表是否人类确认。 再回归到内容上,Ruozhiba 的提问确实比较有特点,而其生成来自 LLM 即 GPT-4,我们也是下载了 raw 文件对数据集做一个基本信息统计。其中共包含 240 条数据,Instruction 指令为 Ruozhiba 内容,Response 回复为 GPT-4 提供,下面博主整理一些有趣的指令,大家工作之余可以放松感受下:

石油也是油,为啥没人用它来炒菜?
执行死刑时本人不去,委托律师去可以吗?
鸡柳是鸡身上哪个部位啊?
你只准备了5杯水,来了一亿个领导你应该怎么分配这些水
老师说提一分干掉千人,那我干掉千人是不是就相当于提了一分?
既然生锈的刀砍人会让人得破伤风,古代为什么不直接用生锈的武器?
司马懿为什么不找三个臭皮匠把诸葛亮顶住
我偷功德箱,那我的功德是增加了还是减少了
吃了降压药,为什么碰到高压电还是会死?🤔
喝饮料的时候一直有个疑问冰红茶是柠檬味的红茶还是红茶味的柠檬水
很多人说的看不到未来其实是看到了未来
银行是不是已经破产了,为什么我每次取钱都显示余额不足?
完美的人会不会因为缺少缺点而变得不完美?...
既然大学生都喜欢坐后排为什么老师不在教室后面讲
兄弟们,为什么每条隧道上面都压着一座山
游泳比赛时把水喝光后跑步犯规吗
失踪是不是丢人的事情?
我做了一个1:1的地球仪,你往窗外看就能看见了
喝奶茶  用吸管喝的是下面的水 为什么少的是上面的水
妈妈说:“我的天才考59分”是不是在夸我是天才?

4.More Ruozhiba Data

上面 COIG-CQIA 数据集中 Ruozhiba 的数据只有 240 条,一些同学可能觉得不太够用,好在已经有同学在 github 上做了分享,大家可以参考: GitHub - Leymore/ruozhiba

这里按照不同类型收集了接近 10w 条原始 Ruozhiba 数据,大家可以根据自身情况构建 Instruction  并使用 LLM 构建 Response 从而 DIY 自己的个性大语言模型。

5.Some thoughts

先看下 Ruozhiba 数据在论文中的介绍:

Ruozhiba 是百度 Tieba 的一个子论坛,这是一个基于兴趣的社区论坛。它的帖子通常包含双关语多义词因果反转同音词,其中许多都是用逻辑陷阱设计的,即使对于人类也带来了挑战。我们收集了 500 个投票最多的线程。使用标题作为说明,我们消除了那些非建设性(即陈述性陈述或不可回答)或有毒的。响应 Response 由人类或 GPT-4 生成。我们对 GPT4 响应进行了人工审查,以确保准确性,最终获得 240 个(Instruction, Response)对。

有一些角度可以供我们借鉴并应用在后续的 LLM 工作中:

- 逻辑陷阱

Ruozhiba 的数据包含很多双关、多义、因果反转和同音词等,其基于逻辑陷阱涉及,本质上是更多样性或者更特别的数据,其可以给模型带来新的知识;另一方面,一些难以理解的知识本质上其实是在增加模型学习的难度,就像 Casual Mask 的设置一样,增加难度后提高模型的学习能力。

- 非建设性

选取标题后,我们消除了陈述性或不可答或者有毒的数据,这其实对应一个基础的数据清洗过程,在原数据处理以及 Prompt 构建时,这些信息都应该注意。

- GPT Response

我们通过 GPT-4 的响应获取了 240 条数据,其中通过人工审查确保其准确性。一方面说明了 GPT-4 数据生成方法的可行性,可以看到即使只有 240 条数据,但由于其质量较高,依然可以通过 Fine-Tuning 获得不错的效果。另外就是准确性的问题,不管是人工审查还是其他方式,Response 的准确性对模型的 Fine-Tuning 效果也至关重要。

- Quality is All You Need for Chinese Instruction Fine-tuning

最后回到论文的标题,Quality is All You Need - 数据质量在我们 Fine-Tuning 的工作中非常关键,在当前 LLM 模型整体框架不会大变 [Transformer] 的情况下,应该秉承宁缺毋滥的态度,可以看到 240 条的高质量数据可以在表现较好的模型上获得更好的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/529138.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

代码算法训练营day14 | 理论基础、递归遍历

day14: 理论基础二叉树的分类:二叉树的种类:满二叉树完全二叉树二叉搜索树平衡二叉搜索树 二叉树的存储方式:链式存储顺序存储 二叉树的遍历方式:深度优先和广度优先遍历实现方式 二叉树的定义: 递归遍历递…

Mac钥匙串无法导出.p12证书解决方案

Mac钥匙串无法导出.p12证书解决方案 原因: 当想要将文件导出时,发现.p12的选项是灰色的不被允许 解决方法: 切换到我的证书、或者是证书的一栏,然后在导出,就是.p12的证书文件了。

LeetCode-118. 杨辉三角【数组 动态规划】

LeetCode-118. 杨辉三角【数组 动态规划】 题目描述:解题思路一:Python 动态规划解题思路二:解题思路三:0 题目描述: 给定一个非负整数 numRows,生成「杨辉三角」的前 numRows 行。 在「杨辉三角」中&…

什么是多路复用器滤波器

本章将更深入地介绍多路复用器滤波器,以及它们如何用于各种应用中。您将了解到多路复用器如何帮助设计人员创造出更复杂的无线产品。 了解多路复用器 多路复用器是一组射频(RF)滤波器,它们组合在一起,但不会彼此加载,可以在输出之…

基于Java+SpringBoot+Vue煤矿信息管理系统(源码+文档+部署+讲解)

一.系统概述 系统根据现有的管理模块进行开发和扩展,采用面向对象的开发的思想和结构化的开发方法对煤矿信息管理的现状进行系统调查。采用结构化的分析设计,该方法要求结合一定的图表,在模块化的基础上进行系统的开发工作。在设计中采用“自…

每日OJ题_两个数组dp⑥_力扣97. 交错字符串

目录 力扣97. 交错字符串 解析代码 力扣97. 交错字符串 97. 交错字符串 难度 中等 给定三个字符串 s1、s2、s3,请你帮忙验证 s3 是否是由 s1 和 s2 交错 组成的。 两个字符串 s 和 t 交错 的定义与过程如下,其中每个字符串都会被分割成若干 非空 子…

Windows摄像头推流-RTSP

0.背景: 调试rtsp视频流时,没有网络摄像头怎么办,只需要在同一个局域网下,用windows推送rtsp流,就可以在linux进行接收。 1.下载资源包 资源包链接:https://pan.baidu.com/s/1008I7TKazE4JgFiozhtekg?pw…

深入理解Linux veth虚拟网络设备:原理、应用与在容器化架构中的重要性

在Linux网络虚拟化领域,虚拟以太网设备(veth)扮演着至关重要的角色🌐。veth是一种特殊类型的网络设备,它在Linux内核中以成对的形式存在,允许两个网络命名空间之间的通信🔗。这篇文章将从多个维…

动态路由-基于vue-admin-template

基于 vue-admin-template的动态路由 1. 拆分静态路由与动态路由 静态路由----所有人都可以访问—首页/登录/404 动态路由–有权限的人才可以访问—组织/角色/员工/权限 2. 根据用户权限添加动态路由 获取对应的权限标识(vuex中actions中把用户资料通过return 进行返回&…

基于遗传优化的SVD水印嵌入提取算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于遗传优化的的SVD水印嵌入提取算法。对比遗传优化前后SVD水印提取性能,并分析不同干扰情况下水印提取效果。 2.测试软件版本以及运行结果展示 MA…

通过系统防火墙,禁用同网段主机互访

要通过系统防火墙禁止同网段主机之间的互访,您可以在Windows操作系统中使用高级防火墙规则来实现。以下是在Windows环境中创建一条规则以阻止本地同一子网内的计算机互相访问的基本步骤: 对于Windows防火墙(适用于Windows 7至Windows 11&…

Postman —— postman的介绍和安装

Postman的介绍 Postman 是一款谷歌开发的接口测试工具,使API的调试与测试更加便捷。 它提供功能强大的 Web API & HTTP 请求调试。它能够发送任何类型的HTTP 请求 (GET, HEAD, POST, PUT..),附带任何数量的参数 headers postman是一款支持http协议的接口调试与…

TypeScript系列之-理解TypeScript类型系统画图讲解

TypeScript的输入输出 如果我们把 Typescript 编译器看成一个黑盒的话。其输入则是使用 TypeScript 语法书写的文本或者文本集合。 输出是编译之后的 JS 文件 和 .d.ts 的声明文件 其中 JS 是将来需要运行的文件(里面是没有ts语法,有一个类型擦除的操作)&#xff0…

谁懂!微信自动化操作,让你事半功倍!

作为一名有多个微信号的人来说,懂得使用工具来提高微信的管理和办公效率是非常有必要的! 今天就给大家分享一个可以实现微信自动化操作的工具——微信管理系统,让大家都能高效办公!下面一起来看看它都有哪些自动化功能吧&#xf…

工业机器人AGV底盘核心技术分享

AGV(Automated Guided Vehicle)工业机器人的底盘技术是其核心组成部分之一,它决定了机器人的移动性能、稳定性和适应性。AGV底盘技术的核心包括以下几个方面: 1、导航系统:AGV底盘通常配备有各种导航系统,…

C++中高阶数据结构(AVL树的原理讲解)

AVL树 AVL树的定义 avl本质是搜索树,是高度平衡二叉搜索树.特点是:任何树的左右子树的高度差不超过1.最大的高度差值最大也只能是1,也称之为平衡因子, 平衡因子就是右子树减去左子树的值,这个值的绝对值的最大值只能是1.这个平衡因子不是必须的,只是一种控制方式,方便我们更…

赛氪网|2024中国翻译协会年会“AI科技时代竞赛与就业”分论坛

在2024年中国翻译协会年会期间,赛氪网与中西部翻译协会共同体多边合作平台共同承办,于3月30日下午在长沙成功举办了“AI科技时代竞赛与就业分论坛”。该论坛汇聚了众多翻译界、科技界和教育界的专家学者,共同探讨科技、实践、就业与竞赛人才培…

FreeRTOS学习 -- 再识

工作中一直使用FreeRTOS进行着开发,但是没有进行过系统的总结过。现在将快速使用几天时间将FreeRTOS相关知识点加以总结。 官网: https://www.freertos.org/zh-cn-cmn-s/ 参看资料: 正点原子 STM32F1 FreeRTOS开发手册_V1.2.pdf The FreeRTOS…

OpenCV与AI深度学习 | 实战 | 使用OpenCV确定对象的方向(附源码)

本文来源公众号“OpenCV与AI深度学习”,仅用于学术分享,侵权删,干货满满。 原文链接:实战 | 使用OpenCV确定对象的方向(附源码) 导读 本文将介绍如何使用OpenCV确定对象的方向(即旋转角度,以度为单位)。 1 先决条件…

Clarity AI:免费开源的AI无损图片放大图像升级器和增强工具

可以作为Magnific AI的平替版本。Magnific AI是一款基于人工智能技术的图像处理工具,主要功能包括图像放大、像素级AI重绘、灵活的设置调整以及多种优化场景。它能够支持最高放大至16倍,甚至可以达到1亿像素的分辨率。此外,Magnific AI还具备…