NLP论文速读（EMNLP2024）|多风格可控生成的动态多奖励权重

NLP论文速读（EMNLP2024）|多风格可控生成的动态多奖励权重

article2025/4/2 15:58:09/文章来源:https://blog.csdn.net/2401_85576118/article/details/144096232

论文速读|Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation

论文信息：

简介：

本文探讨了文本风格在沟通中的重要性，指出文本风格传达了除原始语义内容之外的多种信息，如人际关系动态（例如正式性）和作者的情绪或态度（例如厌恶）。

随着大型语言模型（LLMs）的能力增强和受欢迎程度提高，对LLMs输出风格进行细粒度控制的需求日益增长。然而，如何在生成文本时将目标风格编织在一起，例如产生既负面又无毒的文本，是一个开放性问题。

本文提出使用多目标强化学习（RL）作为控制生成的一种方法，但如何最好地在奖励函数中结合多个目标是一个未解决的问题。

本文的动机在于实际文本中通常不仅包含单一风格，而是风格的组合。例如，在工作场合给同事提供反馈时，可能需要同时使用正式和积极的风格。

此外，为了响应用户偏好或应用需求，LLM可能需要同时控制其他属性，如幽默、正式性或比喻语言的使用。因此，需要一种可靠的多风格控制技术来实现这些目标。

论文方法：

本文提出了一种动态多奖励加权方法，用于多风格可控生成。该方法涉及以下几个关键步骤：

1）预训练语言模型：使用LLaMA2 7B作为基模型，针对情感、正式性、讽刺、情绪和毒性训练判别器。

2）强化学习（RL）框架：将生成语言模型视为一个策略网络，该策略网络是一个在给定状态下决定下一步行动的概率分布。

3）多奖励控制公式：提出了多种结合多个风格判别器输出的方法，包括对数几率（Logits）、softmax、二值化（Binarized）、校准对数几率（Calibrated Logit scores）和动态加权（Dynamic Weighting）。其中，动态加权方法通过考虑每个判别器的梯度大小来加权结果，以此作为奖励函数的一部分。

4）微调：使用PPO算法对语言模型进行微调，以最大化期望奖励值。

5）实验设置：包括基模型、判别器训练、RL训练和评估集的详细配置。

6）评估：基于模型生成的文本是否符合目标风格以及保持原始模型的语言质量进行评估，包括自动评估和人类评估。

论文实验：

根据Table 3，我们可以了解到论文中的实验部分主要关注了不同奖励公式对于模型生成文本的风格控制和生成质量的影响。

实验比较了五种不同的奖励公式：Softmax、Calibrated Softmax、Logits、Binary 和 Dynamic Weighting。

这些奖励公式被用来训练模型以生成具有特定风格的文本，特别是结合了负面（Negative）和非正式（Informal）风格的文本。

Softmax在负面和非正式风格的控制上表现最差，尤其是在同时控制两种风格时。

Calibrated Softmax通过校准技术提高了风格判别器的置信度，但在风格控制上提升有限。

Logits在风格控制上表现较好，但以牺牲生成质量为代价，生成的文本困惑度高，不够流畅。

Binary在风格控制上表现不错，同时保持了较低的二元组重复率，表明生成的文本较为多样化。

Dynamic Weighting（动态加权）在所有指标上表现最佳，不仅在风格控制上优于其他方法，同时保持了较低的困惑度和二元组重复率，表明生成的文本既符合目标风格，又保持了较高的语言质量。

论文链接：

https://arxiv.org/abs/2402.14146

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/924117.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

【AI】Sklearn

【AI】Sklearn

长期更新，建议关注、收藏、点赞。友情链接： AI中的数学_线代微积分概率论最优化 Python numpy_pandas_matplotlib_spicy 建议路线：机器学习->深度学习->强化学习目录预处理模型选择分类实例： 二分类比赛网格搜索实例&…

阅读更多...

Dockerfile打包部署

Dockerfile打包部署

Dockerfile打包先找到打包完的目录下创建一个Dockerfile文件 touch Dockerfile 进去文件内编写 vim Dockerfile # 基础镜像 FROM openjdk:8 # author MAINTAINER yxh # 挂载目录 VOLUME /home/project # 创建目录 RUN mkdir -p /home/project # 指定路径 WORKDIR /home/pr…

阅读更多...

鸿蒙学习使用模拟器运行应用（开发篇）

鸿蒙学习使用模拟器运行应用（开发篇）

文章目录 1、系统类型和运行环境要求2、创建模拟器3、启动和关闭模拟器4、安装应用程序包和上传文件QA:在Windows电脑上启动模拟器，提示未开启Hyper-V 1、系统类型和运行环境要求 Windows 10 企业版、专业版或教育版及以上，且操作系统版本不低于10.0.18…

阅读更多...

数组学习后记——递归

数组学习后记——递归

数组这块学得有点乱，条理性欠佳。这次正好总结一下。上周的课堂内容没有更新，因为小白自己也还没来得及吸收呢qwq。也解释一下为什么文中有这么多例题。因为我呢喜欢就着题去分析和学习，直接灌输知识不太能理解，有例子就能及时检验和应用了的。先看看B3817 基础的双数组…

阅读更多...

每天五分钟深度学习：神经网络的前向传播的计算过程（单样本）

每天五分钟深度学习：神经网络的前向传播的计算过程（单样本）

本文重点本节课程我们学习神经网络的输出是如何计算的，这个过程叫做神经网络的前向传播。神经网络的结构如上所示是一个具有单隐藏层的神经网络，其中输入层不算神经网络的层数。在这个神经网络中，x表示输入特征，a表示每个神经元的输出，W表示权重参数。神经网络的…

阅读更多...

C++——多态（下）

C++——多态（下）

目录引言多态 4.多态的原理 4.1 虚函数表指针 4.2 多态的原理 5.单继承和多继承关系的虚函数表 5.1 单继承中的虚函数表 5.2 多继承中的虚函数表结束语引言接下来我们继续学习多态。没有阅读多态（上）的可以点击下面的链接哦~ C——多态…

阅读更多...

【CSS in Depth 2 精译_061】9.4 CSS 中的模式库 + 9.5 本章小结

【CSS in Depth 2 精译_061】9.4 CSS 中的模式库 + 9.5 本章小结

当前内容所在位置（可进入专栏查看其他译好的章节内容） 【第九章 CSS 的模块化与作用域】 ✔️ 9.1 模块的定义 9.1.1 模块和全局样式9.1.2 一个简单的 CSS 模块9.1.3 模块的变体9.1.4 多元素模块 9.2 将模块组合为更大的结构 9.2.1 模块中多个职责的拆分…

阅读更多...

DHCP服务（包含配置过程）

DHCP服务（包含配置过程）

目录一、 DHCP的定义二、使用DHCP的好处三、 DHCP的分配方式四、 DHCP的租约过程 1. 客户机请求IP 2. 服务器响应 3. 客户机选择IP 4. 服务器确定租约 5. 重新登录 6. 更新租约五、 DHCP服务配置过程一、 DHCP的定义 DHCP（Dynamic Host Configur…

阅读更多...

技术实践 | AI 安全：通过大模型解决高危WEB应用识别问题

技术实践 | AI 安全：通过大模型解决高危WEB应用识别问题

一、引言在日常企业安全能力建设中，收敛企业外网高危资产，以保障公司外部安全是企业安全的重要工作。WEB 高危服务（如：管理后台、内部系统等）外开是企业所面临的一个重要风险。针对该风险，传统的方式是基…

阅读更多...

C 语言函数递归探秘：从基础概念到复杂问题求解的进阶之路

C 语言函数递归探秘：从基础概念到复杂问题求解的进阶之路

我的个人主页我的专栏：C语言，希望能帮助到大家！！！点赞❤ 收藏❤ 目录什么是函数递归递归的基本组成递归的工作原理递归的优缺点递归的经典案例 5.1 阶乘计算5.2 斐波那契数列5.3 汉诺塔问题5.4 二分查找递归的高级…

阅读更多...

多输入多输出 | Matlab实现TCN-LSTM时间卷积神经网络结合长短期记忆神经网络多输入多输出预测

多输入多输出 | Matlab实现TCN-LSTM时间卷积神经网络结合长短期记忆神经网络多输入多输出预测

多输入多输出 | Matlab实现TCN-LSTM时间卷积神经网络结合长短期记忆神经网络多输入多输出预测目录多输入多输出 | Matlab实现TCN-LSTM时间卷积神经网络结合长短期记忆神经网络多输入多输出预测预测效果基本介绍程序设计参考资料预测效果基本介绍多输入多输出 | Matlab实现…

阅读更多...

「Mac畅玩鸿蒙与硬件33」UI互动应用篇10 - 数字猜谜游戏

「Mac畅玩鸿蒙与硬件33」UI互动应用篇10 - 数字猜谜游戏

本篇将带你实现一个简单的数字猜谜游戏。用户输入一个数字，应用会判断是否接近目标数字，并提供提示“高一点”或“低一点”，直到用户猜中目标数字。这个小游戏结合状态管理和用户交互，是一个入门级的互动应用示例。关键词 UI互…

阅读更多...

el-table根据接口返回某一个字段合并行

el-table根据接口返回某一个字段合并行

根据名称相同合并行 <template><div><el-table :data"responseSearchIntegralAddData" :span-method"objectSpanMethod1" border style"width: 100%"><el-table-column prop"integralTypeName" label"名称…

阅读更多...

Linux系统之fuser命令的基本使用

Linux系统之fuser命令的基本使用

Linux系统之fuser命令的基本使用一、fuser命令介绍二、fuser命令使用帮助2.1 help帮助信息2.1 基本语法①通用选项②文件/设备相关选项③网络相关选项④进程操作选项⑤其他选项三、fuser命令的基本使用3.1 查找挂载点的进程3.2 查看指定设备进程信息3.3 查找监听特定端口的进…

阅读更多...

守护进程

守护进程

目录守护进程前台进程后台进程 session（进程会话） 前台任务和后台任务比较好本质绘画和终端都关掉了，那些任务仍然在 bash也退了，然后就托孤了编辑守护进程化---不想受到任何用户登陆和注销的影响编辑如何…

阅读更多...

网络安全在现代企业中的重要作用

网络安全在现代企业中的重要作用

网络安全是这个数字时代最令人担忧的事情之一。对技术的依赖性越来越强，使其同时面临多种网络威胁。其声誉和法律后果的大幅下降可能归因于一次妥协。这使得良好的网络安全成为所有企业的选择和必需品。本文介绍了网络安全的重要性、企业中常见的网络威胁以及公司…

阅读更多...

C++学习日记---第14天(蓝桥杯备赛)

C++学习日记---第14天(蓝桥杯备赛)

笔记复习 1.对象的初始化和清理对象的初始化和清理是两个非常重要的安全问题，一个对象或者变量没有初始状态，对其使用后果是未知，同样的使用完一个对象或者变量，没有及时清理，也会造成一定的安全问题构造函数&…

阅读更多...

Kotlin DSL Gradle 指南

Kotlin DSL Gradle 指南

本文是关于 Kotlin DSL Gradle 的指南（上篇），介绍了 Gradle 作为 Android 开发构建工具的作用及优势，包括初始配置、生命周期、依赖管理、Task 相关内容。如 Task 的创建、自定义、各种方法和属性，以及文件操作等&…

阅读更多...

深度学习笔记之BERT(三)RoBERTa

深度学习笔记之BERT(三)RoBERTa

深度学习笔记之RoBERTa 引言回顾：BERT的预训练策略RoBERTa训练过程分析静态掩码与动态掩码的比较模型输入模式与下一句预测使用大批量进行训练使用Byte-pair Encoding作为子词词元化算法更大的数据集和更多的训练步骤 RoBERTa配置引言本节将介绍一种基于 BERT \t…

阅读更多...

扫振牙刷设计思路以及技术解析

扫振牙刷设计思路以及技术解析

市面上目前常见的就两种：扫振牙刷和超声波牙刷为了防水，表面还涂上了一层防水漆一开始的电池管理芯片，可以让充电更加均衡。如TP4056 第一阶段以恒流充电；当电压达到预定值时转入第二阶段进行恒压充电，此时电流逐…

阅读更多...

最新文章