SambaLingo——教会大模型新语言

在当今数字化时代,语言不仅是沟通的桥梁,也是信息和知识传递的核心。尽管大模型(LLMs)在处理英语等主流语言方面取得了显著进展,但它们在理解和生成其他语言内容方面的能力却参差不齐。这种不平衡限制了技术在全球范围内的应用潜力,SambaNova Systems 的研究团队在论文 "SambaLingo: Teaching Large Language Models New Languages" 中,直面这一挑战,提出了一种创新的方法来教授LLMs新的语言,这不仅是技术进步的体现,更是推动语言平等的重要一步。

语言是文化传承的载体,每种语言都有其独特的表达方式和世界观。技术发展中的“语言鸿沟”往往使得某些语言群体在信息时代处于不利地位。SambaLingo项目通过扩展LLMs的能力,使得这些模型能够更好地服务于非英语用户,从而缩小了这一鸿沟,为构建一个更加包容的数字世界奠定了基础。

作者的方法与其他模型相比在保留数据集上的性能

方法

在SambaLingo项目中,适应新语言的核心在于一系列精心设计的步骤,这些步骤构成了适应方法论的基石。

选择合适的基础模型是语言适应过程的第一步。研究团队选择了Llama 2 7B作为起始点,因为它是当时可用的最佳开源模型。选择基础模型时,考虑了模型在原始语言(这里是英语)上的表现,以及其参数规模和训练数据的多样性。这一选择对于后续的适应过程至关重要,因为它决定了模型在新语言上的起点和潜在的性能。

扩展模型的词汇表是为了提高模型对新语言的理解和生成能力。由于Llama 2主要在英文文本上训练,其标记器对其他语言的效率较低。为了解决这个问题,研究者们通过添加目标语言的非重叠标记来扩展词汇表,并使用原始标记器的子词嵌入来初始化这些新标记。这一步骤不仅提高了标记器的效率,还有助于模型更好地处理新语言的文本。

持续预训练是适应新语言的关键环节。研究者们使用了英语和目标语言的网页数据的1:3混合,这些数据偏向目标语言。这种数据混合策略有助于模型在保持对原始语言的理解的同时,快速学习新语言的特征。预训练数据的组成反映了对目标语言的重视,同时也确保了模型能够在多样化的数据上进行训练,以提高其泛化能力。

为了确保模型生成的文本符合人类的偏好,研究者们采用了监督微调和直接偏好优化(DPO)的两阶段方法。在监督微调阶段,模型使用与目标语言1:1比例的超聊天数据集和谷歌翻译版本的超聊天数据集进行训练。在DPO阶段,模型进一步通过与人类偏好对齐的数据进行训练,以生成更自然、更符合预期的文本。

这一阶段的训练特别重要,因为它涉及到模型的微调,使其能够生成与人类偏好一致的文本。这不仅提高了模型的可用性,还增强了其在特定文化和语境中的适应性。

以上这些步骤不仅提高了模型在新语言上的性能,还确保了其生成的文本能够符合人类的期望和偏好。通过这种方法,SambaLingo项目为构建多语言能力更强的AI系统铺平了道路。

评估

研究团队采用了多种定量和定性的方法来全面评估模型的性能。定量评估涉及使用一系列基准测试来衡量模型在不同任务上的表现。主要的评估指标包括:

  • 困惑度(Perplexity):在CulturaX数据集上,模型的困惑度被用来衡量其语言建模的能力。困惑度越低,表示模型对语言的理解越深入。
  • 翻译质量:通过FLORES-200数据集,使用CHRF(Character n-gram F-score)指标来评估模型的机器翻译能力。这包括从英语到目标语言(EN→X)和从目标语言到英语(X→EN)的翻译。

模型还在SIB-200、BELEBELE和EXAMS等数据集上进行了文本分类、问答和自然语言理解任务的评估。这些评估帮助研究者们全面了解模型在各种语言任务上的性能。

用于评估模型性能的多语言数据集和任务类别
了作者的模型在多个评估基准上的平均表现

将模型扩展到70B参数规模是SambaLingo项目的一个重要里程碑。这种扩展使得模型能够拥有更多的容量来学习和存储知识,从而提高了其在复杂任务上的表现。研究者们对70B模型进行了与7B模型相同的评估,并发现:

  • 70B模型在几乎所有评估任务上都展现出了更好的性能。
  • 即使70B模型训练的步数更少(例如,4B tokens相对于7B模型的40B tokens),它们在多个基准测试中的表现也与7B模型相当或更好。

这表明,通过扩展模型规模,可以在保持计算效率的同时显著提升模型的能力。

不同参数规模模型在计算效率上的表现

为了测试模型生成的文本是否符合人类的期望,研究者们采用了一种创新的评估方法:使用GPT-4作为评估者。GPT-4是一个高级的语言模型,被训练来评估其他模型生成的文本的质量。在这项研究中,GPT-4被用来:

  • 对比模型生成的文本与真实用户提示的匹配度。
  • 评估模型在生成高质量、符合人类偏好的文本方面的能力。

研究者们收集了一系列人工编写的提示,并使用GPT-4对模型生成的响应进行评分。这种方法提供了一个有力的视角,来评估模型是否能够生成与人类思维和表达方式一致的文本。

使用GPT-4作为评估者对模型生成的文本进行质量评估的结果

通过定量评估和扩展到更大的参数规模,SambaLingo项目证明了其方法论在提升模型性能方面的有效性。而使用GPT-4作为评估者,进一步验证了模型在生成符合人类偏好文本方面的能力。这些评估结果不仅展示了SambaLingo在技术层面的进步,也突显了其在促进语言多样性和包容性方面的潜力。

在消融研究中研究者们首先探讨了扩展词汇表对模型性能的影响。他们训练了两个模型,一个使用扩展的词汇表,另一个使用原始分词器,并在匈牙利语和阿拉伯语上进行了比较。结果表明,尽管扩展词汇表对下游任务的准确性影响不大,但它显著提高了分词效率,这有助于提高目标语言的推理效率和序列长度的利用。

词汇扩展对模型效率和准确性的影响

接下来,研究者们测试了不同的新标记嵌入初始化策略。他们尝试了高斯分布、Xavier均匀分布、所有原始标记的平均嵌入以及子词平均嵌入等四种方法。实验结果表明,使用子词平均嵌入的方法在训练损失收敛方面表现更好,并且在下游基准测试中取得了边际上的改进。

不同初始化策略对模型训练损失的影响
不同初始化方法对多语言评估性能的影响

在直接偏好优化阶段,研究者们研究了不同比例的目标语言和英语数据混合对模型性能的影响。他们尝试了100:1、10:1、10:3和1:1的不同比例,并观察了与其他模型的成对比较中的胜率。结果表明,即使是10:1的数据比例,对于匈牙利语也能几乎达到与1:1比例相似的性能,而对于阿拉伯语,即使是10:3的数据比例也能达到可接受的性能。

在直接偏好优化阶段使用不同数据比例的效果

研究者们还探讨了使用机器翻译数据与人工编写数据在人类对齐中的效果。他们使用Google翻译的超反馈数据和人工编写的开放助手对话数据进行了比较。结果表明,尽管使用翻译数据的模型在胜率上略低于使用人工编写数据的模型,但这并不意味着人工编写数据是获得高质量对齐模型的唯一途径。

研究者们分析了基础模型的质量对目标语言适应性能的影响。他们将Llama 2 7B和GPT-13B两个不同质量的基础模型适应到匈牙利语上,并发现使用更高质量的基础模型(Llama 2 7B)能够带来更好的下游性能。这一发现表明,随着更高质量模型的出现,将这些新模型应用于适应方法论将具有重要价值。

GPT-13B 和 Llama-2-7B 在英语 NLU 基准测试上的表现
GPT-13B 和 Llama 2 7B 在适应匈牙利语后的基准测试表现

SambaLingo项目展示了一种将预训练的大型语言模型适应到新语言的有效方法。通过持续预训练和与人类偏好的对齐,研究团队在9种语言上实现了最先进的模型。随着全球化的不断深入,跨语言交流的需求日益增长。SambaLingo项目通过提升LLMs在多种语言上的表现,不仅能够促进国际合作和文化交流,还能够为机器翻译、跨语言内容创作等领域带来革命性的变化。这对于提升用户体验、推动知识共享以及加速技术创新都具有深远的意义。

论文链接:https://arxiv.org/abs/2404.05829

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/734084.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Charles抓取安卓应用https包演示

一、准备软件 夜神安卓模拟器 (yeshen.com) Charles (charlesproxy.com) 二、配置抓包 2.1 Charles安装PC根证书 记住这里的ip端口 三、安卓模拟器配置 3.1 配置安卓客户端网络代理 填写上文的ip端口,保存 3.2 安装根证书 3.2.1 导出根证书 linux主机执行 op…

Springboot项目ES报异常query_shard_exception

详细异常信息如下: {"error": {"root_cause": [{"type": "query_shard_exception","reason": "failed to create query: {\n \"bool\" : {\n \"filter\" : [\n {\n \…

AST小工具|编写一个通用的js混淆代码美化工具

关注它,不迷路。 本文章中所有内容仅供学习交流,不可用于任何商业用途和非法用途,否则后果自负,如有侵权,请联系作者立即删除! 一.问题 如题,如何编写一个通用的js混淆代码美化工具&…

R语言——R语言基础

1、用repeat、for、while计算从1-10的所有整数的平方和 2、编写一个函数,给出两个正整数,计算他们的最小公倍数 3、编写一个函数,让用户输入姓名、年龄,得出他明年的年龄。用paste打印出来。例如:"Hi xiaoming …

算法:渐进记号的含义及时间复杂度计算

渐进记号及时间复杂度计算 渐近符号渐近记号 Ω \Omega Ω渐进记号 Θ \Theta Θ渐进记号小 ο \omicron ο渐进记号小 ω \omega ω渐进记号大 O \Omicron O常见的时间复杂度关系 时间复杂度计算:递归方程代入法迭代法套用公式法 渐近符号 渐近记号 Ω \Omega Ω …

图扑助力铝型材挤压:数字孪生引领智慧管理

通过图扑数字孪生技术,为铝型材挤压车间提供实时监控和优化管理方案。高精度三维建模和数据可视化提升了生产效率和管理透明度,推动智能制造和资源优化配置。

关于运用人工智能帮助自己实现英语能力的有效提升?

# 实验报告 ## 实验目的 - 描述实验的目标:自己可以知道,自己的ai学习方法是否可以有效帮助自己实现自己的学习提升。 预期结果:在自己利用科技对于自己进行学习的过程中,自己的成长速度应该是一个幂指数的增长 ## 文献回顾 根据…

FilterSolutions滤波器设计应用

首先介绍4种滤波器: 1、贝赛尔(Bessel)滤波器是具有最大平坦的群延迟(线性相位响应)的线性过滤器。 2、巴特沃斯滤波器是电子滤波器的一种,巴特沃斯滤波器的特点是通频带的频率响应曲线最平滑。 3、切比雪夫滤波器,…

ffmpeg音视频开发从入门到精通——ffmpeg日志及目录操作

文章目录 FFMPEG1. 操作日志2. 文件移动和删除3. 操作目录重要函数 FFMPEG 1. 操作日志 日志级别 AV LOG ERROR AV LOG WARNING AV LOG INFO AV LOG DEBUG cmake_minimum_required(VERSION 3.27) project(FFmpeg_exercise) set(CMAKE_CXX_STANDARD 14)# 定义FFmpeg的安装路…

冲击2024年CSDN博客之星TOP1:CSDN文章质量分查询在哪里?

文章目录 一,2023年博客之星规则1,不高的入围门槛2,[CSDN博文质量分测评地址](https://www.csdn.net/qc) 二,高分秘籍1,要有目录2,文章长度要足够,我的经验是汉字加代码至少1000字。3&#xff0…

一个漂亮的网站收藏函数

<!DOCTYPE html> <html lang="zh-CN"><head><meta charset="utf-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>网站收藏</title><style>body …

function包装器和bind包装器

function包装器和bind包装器 包装器function包装器为什么需要functionfunction包装器function包装器的应用场景逆波兰表达式求值 bind包装器bind包装器的应用场景 包装器 包装器是用于给其他编程接口提供更一致或更合适的接口 由于函数调用可以使用函数名、函数指针、函数对象…

MSPM0G3507——PWM

在sysconfig中&#xff0c;左侧可以选择MCU的外设&#xff0c;我们找到并点击TIMER-PWM选项卡&#xff0c;在TIMER-PWM中点击ADD&#xff0c;就可以添加定时器下的PWM外设。 这里设置通道0为100Hz的频率&#xff0c;0%占空比的PWM&#xff0c;周期计数值为1000&#xff0c;比较…

Linux中的文本编辑器vi与vim

摘要&#xff1a; 本文将深入探讨VI和VIM编辑器的基本概念、特点、使用方法以及它们在Linux环境中的重要性。通过对这两款强大的文本编辑器的详细分析&#xff0c;读者将能够更全面地理解它们的功能&#xff0c;并掌握如何有效地使用它们进行日常的文本编辑和处理任务。 引言&…

标准立项 | 《温室气体排放核算与报告要求 废油资源化企业》

《温室气体排放核算与报告要求 废油资源化企业》适用于废油资源化行业企业温室气体排放量的核算和报告。从事废油资源化生产的企业&#xff0c;均可参考该标准核算企业的温室气体排放量&#xff0c;并编制企业温室气体排放报告。 参编咨询&#xff1a;中华环保联合会水环境治理…

新火种AI|Claude 3.5一夜封王超越GPT-4o!留给OpenAI的时间真的不多了...

AI大模型更新换代的速度&#xff0c;的确快到令人难以想象。 相信很多人现在对“最先进AI大模型”的印象还停留在GPT-4&#xff0c;但事实上&#xff0c;大模型领域的头把交椅早已悄然易主了好几回。就在GPT-4惊艳全球不久之后&#xff0c;其“死对头” Anthropic发布了Claude…

2024/6/22 英语每日一段

France is the only country in Europe with an EPR that covers the textile industry. Critics say the policy does little for “end-of-line” countries such as Ghana because the fee paid by clothing producers is low at just €0.06 for each item, and the funds …

8_机械臂工作台坐标系标定及验证

1、机械臂实际数据 AUBO 机械臂xOxy方式标定用户坐标系&#xff1a; O: X轴正半轴一点&#xff1a; XOY象限任意一点(还是有一些要求的): 一些坐标点的验证&#xff1a; 2、如何根据上述3点&#xff0c;计算work1坐标系与base坐标系的关系&#xff1f; 最开始在网上没找到相关的…

90V转12V1A恒压WT6039

90V转12V1A恒压WT6039 WT6039降压DC-DC转换器芯片专为处理宽泛的电压输入范围设计&#xff0c;支持从12V至90V。该芯片集成了关键功能&#xff0c;如使能控制开关、参考电源、误差放大器、过热保护、限流保护及短路保护等&#xff0c;以确保系统在各种操作条件下的安全与稳定性…

【朝花夕拾】RT1170 CSI 如何使能摄像头Y8功能

【朝花夕拾】RT1170 CSI 如何使能摄像头Y8功能 一&#xff0c;文档简介二&#xff0c;RT1170 CSI Y8黑白格式配置与测试2.1 软硬件情况2.2 Y8黑白格式的具体配置2.3 测试结果 一&#xff0c;文档简介 RT1170的CSI可以支持YUV格式&#xff0c;所谓的YUV分为三个分量&#xff1a…