使用RLHF推动翻译偏好建模:低成本实现“信达雅”

在机器翻译领域,“忠实度(信)”、“表现力(达)”、“优雅性(雅)”一直是研究者们不懈追求的目标。然而,传统的评估指标如BLEU并不能完全符合人类对翻译质量的偏好。为了解决这一挑战,复旦大学自然语言处理实验室与复旦大学外文学院携手合作,共同探索了利用基于人类反馈的强化学习(RLHF)来提升翻译质量的可能途径。

我们提出一种代价高效的偏好学习策略,只需少量专业翻译即可让模型对齐人类的“信、达、雅”翻译偏好。这一策略通过区分人类高质量翻译和普通机器翻译来优化奖励模型,以对比的方式使其捕捉到机器翻译相对于人类翻译的不足之处,并在后续的强化学习中引导机器翻译的进一步改进。

实验结果表明,通过这一方法实现的RLHF可以有效提升翻译质量,并且这种改进也可对未经RLHF训练的语言产生积极影响。

图片

图片

主体介绍

  RLHF已被证明有效地使模型行为与人类社会价值观保持一致,该技术的一个重要环节是奖励建模——人类标注者根据其偏好对模型的不同响应进行排名,然后通过强化学习阶段调整模型行为。然而,标注大量高质量偏好数据并非易事,除去固有的噪声和不一致性问题,针对翻译任务的偏好数据标注还对标注者的语言能力提出了极高的要求。

本文探讨通过RLHF提升翻译质量,提出一种针对翻译任务的低成本的偏好学习策略:无需从头标注代价高昂的偏好数据集,而是直接利用“高质量人类翻译优于机器生成翻译”的归纳偏置。奖励模型通过比较两者质量差异来学习人类翻译偏好,进而指导机器翻译质量的改善。

我们通过对齐多语言版本的书籍来获得这类高质量人类翻译数据。选择书籍作为数据源的原因:

原始文本由专业作者撰写,目标语言由专业翻译家翻译,确保文本质量;

与网页文本相比,书籍文本通常包含更复杂的语言结构,对学习翻译偏好尤为有益。

对齐书籍文本不需要具备过高的语言能力,可借助外部工具辅助完成。

训练流程

图片

图片

模型的训练流程分为以下三个步骤:

1)在平行语料上对预训练模型进行监督微调,得到具有基本翻译能力的模型πsft;

2)在偏好数据集Drm上训练奖励模型,对符合人类偏好的翻译给予高奖励分数。具体来说,将高质量人类翻译作为偏好数据,而步骤1)得到的SFT模型的翻译结果作为非偏好数据,通过对比其间的差异来优化奖励模型:

图片

图片

其中x表示源语言句子,yw和yl分别代表高质量人类翻译和SFT模型的机器生成翻译。

3)利用训练好的奖励模型作为人类偏好的代理,使用近端策略优化算法(PPO)进行强化学习得到模型πrl,提高翻译质量。

实验结果

翻译质量提升

图片

图片

以WMT23和FLORES测试集评估效果,我们的方法在GPT-4评估和人类评估两种评价标准下,相较于原始SFT模型,在中→英、英→中两个方向的翻译任务上都表现出显著更高的获胜率。这说明即使没有明确的偏好标注,我们的方法利用少量高质量的专业翻译,也能够对齐人类翻译偏好,并提高模型的翻译质量。

以下三个案例展示了通过偏好优化后翻译质量的提升(RLHF代表我们的方法):

图片

图片

跨语言偏好转移

  我们还通过实验研究了是否可以将学习到的翻译偏好从一种语言转移到另一种语言。

图片

图片

结果表明,仅使用英中翻译任务进行RLHF训练后,学习到的人类偏好可以有效地转移到其他语言,显著提升了实验中所有方向翻译任务的性能。同样地,当英阿翻译作为源任务时,在英法和英俄翻译任务中也能观察到类似的提升。这表明,在当前翻译方向缺乏具有强大语言能力或高质量偏好数据的奖励模型时,在其他语言上与人类偏好对齐并将其能力转移到该翻译方向是一种可以尝试的策略。

关键因素

我们详细探讨了所提出方法可行的关键条件。进一步的分析表明,模型的语言能力在偏好学习中起着至关重要的作用。具有强大语言能力的奖励模型可以更敏感地学习到翻译质量的微妙差异,并更好地与真实人类翻译偏好保持一致;偏好数据本身的质量差异更显著,也会使得奖励模型更容易学习到具有普遍性的翻译偏好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/716735.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

利用原生HTML + CSS + JS实现歌词滚动

对于很多音乐APP,都有这么一个功能,就是根据歌曲的进度来控制对应的歌词滚动,如下图所示: 大概这样的效果,我此次是使用原生的HTMLCSSJS来实现的,以下是具体的实现过程。 1. 数据获取与处理 对于数据来源&…

Qt中利用QTextBrowser控件设计日志窗口

我们一般使用Qt开发应用程序时,都有将控制台窗口去掉。但是,有时候又需要查看一些调试信息,一般的处理方式是把log写到一个文件中。本文介绍以下日志窗口,可以更方便的查看日志信息。 UI设计 推拽UI控件,修改默认背景…

05眼动识别软件详情2波形优化

对应视频链接点击直达 01项目点击下载,可直接运行(含数据库) 05眼动识别软件详情2 对应视频链接点击直达期望的数据展示数据波形对比如何实现几种常用滤波介绍维纳滤波巴特沃斯滤波器中值滤波排序滤波 推荐 结语其他以下是废话 原始数据的波…

Objective-C 学习笔记 | KVC(key-value coding)

Objective-C 学习笔记 | KVC(key-value coding) Objective-C 学习笔记 | KVC(key-value coding)非对象类型Key 路径 Objective-C 学习笔记 | KVC(key-value coding) KVC 可以让程序通过名称直接存取属性&a…

CentOS 5(CentOS 6、Redhat 6)服务器配置VNC

一、配置服务器yum源 yum源(本地、华为云、阿里云、网易) 二、使用yum安装vnc服务 1、检查系统是否安装了vnc 和 vncserver, rpm -qa | grep vnc如果没有安装那就行自行下载安装(我这里用yum安装了,vncserver安装需…

让你的网页动起来 - 轻松实现 JavaScript 拖拽功能

效果展示 实现 要实现该效果需要运用 HTML5 的 dragstart 拖放操作事件 通过去开启dragstart监听拖放操作事件就能实现图片的拖动 <div class"empty"><div class"fill" draggable"true"></div> </div>本例子中我们对…

基于深度学习的鸟类检测识别系统【python源码+Pyqt5界面+数据集+训练代码 MX_003期】

简介&#xff1a; 基于深度学习的鸟类检测识别系统在当今世界中具有广泛的应用前景。系统不仅可以帮助生态学家和保护人员监测和保护鸟类种群&#xff0c;还能在农业管理、城市生态监测以及科学研究领域发挥重要作用。通过自动化的图像识别技术&#xff0c;可以实现对鸟类种类、…

汽车传动系统为汽车动力总成重要组成部分 我国市场参与者数量不断增长

汽车传动系统为汽车动力总成重要组成部分 我国市场参与者数量不断增长 汽车系统主要包括动力系统、制动系统、传动系统、转向系统、行驶系统、燃油供给系统、照明系统以及电器系统。汽车传动系统指能够将发动机产生的动力转化为车辆行驶驱动力的动力传递装置。汽车传动系统为汽…

学生用小台灯什么牌子的好?五大强劲护眼台灯牌子分享

在这个数码时代&#xff0c;人们对屏幕的依赖程度越来越高&#xff0c;尤其是孩子们。他们不仅在学校里需要长时间盯着教科书&#xff0c;还会在学习和娱乐中使用各种数码设备。然而&#xff0c;这也使得眼睛健康问题逐渐凸显&#xff0c;尤其是儿童近视的问题。为了保护视力&a…

Inpaint软件下载附加详细安装教程

​Inpaint是一款由Maxim Gapchenko开发的图像处理软件&#xff0c;它可以帮助用户轻松地去除图像中的水印和其他不需要的元素&#xff0c;这个软件的核心技术是基于图像处理算法的&#xff0c;它可以自动识别图片中的像素&#xff0c;并用周围的颜色进行替换&#xff0c;使得图…

吴恩达深度学习笔记:机器学习(ML)策略(1)(ML strategy(1))1.11-1.12

目录 第三门课 结构化机器学习项目&#xff08;Structuring Machine Learning Projects&#xff09;第一周 机器学习&#xff08;ML&#xff09;策略&#xff08;1&#xff09;&#xff08;ML strategy&#xff08;1&#xff09;&#xff09;1.11 超过人的表现&#xff08;Surp…

Swift Combine — Subject Publishers(PassthroughSubject CurrentValueSubject)

本文主要介绍一下Subject&#xff0c;Subject 本身也是一个 Publisher&#xff0c;其定义如下&#xff1a; public protocol Subject<Output, Failure> : AnyObject, Publisher {func send(_ value: Self.Output)func send(completion: Subscribers.Completion<Self.…

豆浆机水位传感器工作原理

豆浆机水位传感器的工作原理基于光电效应&#xff0c;利用近红外发光二极管和光敏接收器的组合实现液位的精确检测与控制。在豆浆机内部&#xff0c;传感器安装在水箱底部或需要检测液位的位置&#xff0c;起到监测和控制豆浆机水位的重要作用。 传感器包括一个近红外发光二极…

Suno新技能亮相:完美复刻歌手音色,我甚至不敢公开!

之前写过一篇文章 颠覆音乐创作! Suno史诗级更新&#xff0c;随便哼哼就能出一首好听的歌曲&#xff1f; Suno支持上传一段音频或者自己的哼唱进行续创歌曲&#xff0c;这个功能大家有玩出花样嘛&#xff1f; 可能很多人&#xff0c;还不知道这个到底有啥用! 大家先看看这首《满…

如何用Vue3和p5.js绘制交互式3D饼图

本文由ScriptEcho平台提供技术支持 项目地址&#xff1a;传送门 基于p5.js实现色彩轮和饼状图的动态可视化 应用场景 本代码利用p5.js库&#xff0c;创建了一个交互式的色彩轮和饼状图可视化界面。它适用于需要展示颜色信息或数据分布情况的场景&#xff0c;如设计、数据分…

docker通过容器id查看运行命令;Portainer监控管理docker容器

1、docker通过容器id查看运行命令 参考&#xff1a;https://blog.csdn.net/a772304419/article/details/138732138 docker inspect 运行镜像id“Cmd”: [ “–model”, “/qwen-7b”, “–port”, “10860”, “–max-model-len”, “4096”, “–trust-remote-code”, “–t…

【招联消费金融股份】有限公司2024年5月18日【算法开发岗暑期实习】一面试经验分享

招联消费金融股份有限公司2024年5月18日面试经验分享 面试流程&#xff1a;共30多分钟&#xff0c;先3分钟自我介绍&#xff0c;然后细细介绍简历上面的论文和实习信息。问题1&#xff1a;扩散模型的noise schedule有什么研究。问题2&#xff1a;有哪些常见的数学分布问题3&…

jquery动态效果插件之ScrollMagic

ScrollMagic 是一个强大的 JavaScript 库,可以帮助开发者在页面滚动时触发各种动画效果。它支持复杂的滚动交互,非常适合制作富交互的网页。 这里他使用了ScrollMagic的几种滚动效果: 视差滚动效果:页面上的一些元素在滚动时会产生视差滚动效果,即元素以不同的速度移动,营造出…

MES管理系统中的质量管理活动是什么

在制造业的广阔天地中&#xff0c;质量管理如同航船的指南针&#xff0c;指引着产品品质的航行方向。而随着科技的日新月异&#xff0c;MES管理系统在质量管理领域扮演着越来越重要的角色。MES管理系统不仅连接了企业的管理层与车间生产现场&#xff0c;更在质量管理的各个环节…

洗地机性价比高的是哪一款?行内人告诉你

在浏览前&#xff0c;希望您轻触屏幕上方的“关注”按钮&#xff0c;让我后续为您带来更多实用且精彩的内容&#xff0c;感谢您的支持&#xff01; 洗地机作为现在的流行清洁工具&#xff0c;它的魅力之处在于&#xff1a;性价比极高&#xff0c;大多数家庭无需花费过多就能把…