NLP论文速读(斯坦福大学)|使用Tree将语法隐藏到Transformer语言模型中正则化

论文速读|Sneaking Syntax into Transformer Language Models with Tree Regularization

论文信息:

简介:

        本文的背景是基于人类语言理解的组合性特征,即语言处理本质上是层次化的:语法规则将词级别的意义组合成更大的成分的意义,然后再组合成句子。然而,当前的神经模型,如变换器(Transformers),缺乏对这种树状结构的直接归纳偏差。尽管变换器在大规模数据上进行预训练以实现合理的泛化,但最新的研究表明,即使是最先进的大型语言模型(LLMs)仍然在组合性泛化方面存在困难,即在新环境中理解熟悉的词汇。因此,引入语法归纳偏差可能会在变换器语言模型中实现更稳健和数据高效的学习。

        本文的动机是基于以下几个方面:首先,人类语言处理的层次化特征表明,语法结构在语言理解中起着关键作用。其次,尽管变换器模型在处理大量数据时表现出色,但它们在组合性泛化方面仍存在不足。因此,本文旨在通过引入语法归纳偏差来增强变换器模型的语法泛化能力,同时保持模型的表达能力和推理效率。此外,本文还希望通过这种方法提高模型在少数据情况下的样本效率。

论文方法:

图片

        本文提出了一种名为TREEREG的方法,这是一种辅助损失函数,用于将输入句子的成分句法分析转换为对向量隐藏状态的一组可微分的正交性约束。

        TREEREG通过以下步骤实现:

        Span Contextual Independence Score (SCIN):对于任何跨度,通过量化独立性来定义SCIN。具体来说,对于一个跨度Si;j,其独立性通过其表示向量与上下文表示向量的正交性来衡量。

        TREEREG Loss:给定一个句子S,TREEREG损失(LTR)偏向于提高所有成分句法分析中的跨度的SCIN,同时降低其他跨度的SCIN。具体来说,对于一个成分Si;j,首先计算分割分数s(i, q, j),然后使用这些分数计算跨度级别的对数损失l(i,j)。LTR是所有成分的跨度级别损失l(i,j)的总和。

        恢复解析树:在推理过程中,可以使用自顶向下的贪婪解码算法从隐藏状态中恢复由TREEREG约束编码的唯一解析树。

论文实验:

图片

        实验部分涉及训练变换器语言模型(LMs)来执行两个诊断任务:时态变化(Tense Inflection, TI)和疑问句形成(Question Formation, QF)。这些任务是从PCFGs(概率上下文无关文法)中派生出来的。

        1)时态变化(TI):模型接收一个过去时态的输入,并需要生成相同输入的现在时态版本。评估指标是目标动词正确变化的比例。

         2)疑问句形成(QF):模型需要将一个陈述句转换为疑问句。评估指标是解码疑问句的第一个词的准确性。

        Table 1显示了在TI和QF任务上的评估结果,包括平均测试准确性(Avg. Acc.)、最佳测试准确性(Best Acc.)以及测试性能收敛所需的平均迭代次数(itr.)。

        时态变化(TI)

         Base LM:平均准确性为47.2%,最佳准确性为71.1%,平均收敛迭代次数为427k。

         TREEREG LM:平均准确性为90.4%,最佳准确性为98.3%,平均收敛迭代次数为391k。

        疑问句形成(QF)

        Base LM:平均准确性为42.1%,最佳准确性为66.9%,平均收敛迭代次数为460k。

        TREEREG LM:平均准确性为99.6%,最佳准确性为100.0%,平均收敛迭代次数为43k。

论文链接:

https://arxiv.org/abs/2411.18885

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/930110.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

RISC-V架构下OP-TEE 安全系统实践

安全之安全(security)博客目录导读 本篇博客,我们聚焦RISC-V 2024中国峰会上的RISC-V和OP-TEE结合的一个安全系统实践,来自芯来科技桂兵老师。 关于RISC-V TEE(可信执行环境)的相关方案,如感兴趣可参考RISC-V TEE(可信执行环境)方案初探 首…

车载VR可视化解决方案

车载VR可视化解决方案是通过融合跟踪用户头部运动的特殊预测算法与惯性测量数据而开发的。该系统将大范围虚拟现实跟踪技术与IMU传感器相结合,为VR和AR应用打造了一套全面的运动跟踪与渲染流程,极大地方便了虚拟现实头显制造商定制可视化流程。 该车载VR…

Git常用的命令【提交与回退】

git分布式版本控制系统 (SVN集中式版本控制系统)之间的对比 git有本地仓库和远程仓库,不同的开发人员可以分别提交自己的本地仓库并维护代码的版本控制。 然后多个人员在本地仓库协作的代码,可以提交到远程仓库中做整合。 git本…

【vue2自定义指令】v-disabled 实现el-switch,el-button等elementUI禁用(disabled)效果

如果你搜过类似的功能,肯定看到过千篇一律的 // 实现按钮禁用el.disabled true// 增加 elementUI 的禁用样式类el.classList.add(is-disabled)但是这个方案明显对el-switch,不起作用,所以我这边直接把方案贴出来,不想了解具体原理…

使用数据库同步中间件DBSyncer实现不同数据库的数据同步

点击上方蓝字关注我 有去O(ORACLE数据库)、信创、国产化数据库等项目实践的同学应该都遇到过不同数据库之前进行数据迁移的问题,虽然有各种工具可以实现,但是有些工具的部署、使用比较复杂,也有些工具迁移数据效率很低。本文将介绍一款开源且…

3.2 串口_HAL库实现代码

1、串口用作调试 串口用作调试就是配置好串口后,用串口做一些输出。对于代码层面,最终调用的是标准库printf来实现串口数据的输出。 1.1 CubeMX配置 1、RCC配置外部晶振 2、时钟树配置如下 3、工程配置如下 4、串口配置如下 注意这里默认设置的波特率…

乌龟咬人,小意外中的大警示

近日,听闻有朋友被自家乌龟咬了手指,这看似滑稽的小意外,实则蕴含着不少值得我们深思的安全与责任问题。 乌龟,在大众的认知里,向来是行动迟缓、性情温和的宠物代表。它们慢悠悠地爬行,憨态可掬的模样常常…

AI赋能:构建安全可信的智能电子档案库

在档案的政策与法规上,《中华人民共和国档案法》2020年修订新增,对电子档案的合法要件、地位和作用、安全管理要求和信息化系统建设等方面作出了明确规定,保障数字资源的安全保存和有效利用。 日前,国家档案局令第22号公布《电子…

解谜类游戏《迷失岛2》等如何抽象出一套通用高效开发框架?

解谜类游戏以精妙的谜题设计和引人入胜的故事叙述为特点,考验着玩家的智慧与观察力。《迷失岛2》与《南瓜先生2九龙城寨》正是这一领域的佳作。游戏以独特的艺术风格和玩法设计吸引了大量玩家,而它们背后隐藏着一套强大的框架。 上海胖布丁游戏的技术总…

使用ALB实现gRPC协议的负载均衡

gRPC是一种高性能、开源的远程过程调用框架,当您使用gRPC进行后端服务通信时,您可使用应用型负载均衡ALB(Application Load Balancer)实现gRPC协议的负载均衡,统一流量入口。gRPC基于HTTP/2协议进行通信,目…

JUC:Synchronized和锁升级

1. 面试题 谈谈你对Synchronized的理解Sychronized的锁升级你聊聊Synchronized实现原理,monitor对象什么时候生成的?知道monitor的monitorenter和monitorexit这两个是怎么保证同步的嘛?或者说这两个操作计算机底层是如何执行的偏向锁和轻量级…

ros项目dual_arm_pick-place(对比moveit配置助手生成的文件)

目录 前言正文gazebo_controllers.yaml变更ros_controllers.yaml变更simple_moveit_controllers.yaml变更moveit_planning_execution.launch变更ros_controllers.launch变更其他文件 汇总总结 前言 在本专栏前文中讲到,作者有moveit配置助手导出的包marmbots&#…

【力扣】13.罗马数字转整数

问题描述 思路解析 对于这种限制字符的问题&#xff0c;使用Map来对键值存储 对其进行判断&#xff0c;如果前面的数小于后面的数&#xff0c;那么结果相减 否则&#xff0c;正常相加。 代码 class Solution {Map<Character,Integer> mapnew HashMap<Character,In…

从ground_truth mask中获取图像的轮廓图

引言 在图像取证领域&#xff0c;主要分为检测和定位两个方面。检测就是判断一张图片是否为伪造图&#xff0c;定位与传统意义上的语义分割任务相近&#xff0c;就是定位伪造像素的区域。如果单纯使用语义分割网络训练&#xff0c;只能获得次优解&#xff0c;而像多任务学习那样…

C语言程序设计P5-2【应用函数进行程序设计 | 第二节】——知识要点:函数的参数及返回值和函数的调用及声明

知识要点&#xff1a;函数的参数及返回值和函数的调用及声明 视频&#xff1a; 目录 一、任务分析 二、必备知识与理论 三、任务实施 一、任务分析 1.求x的n次方的值也就是求n个x的乘积&#xff0c;可把x和n作为函数的形参&#xff0c;定义一个函数power来完成这个功能&am…

【sgUploadList】自定义组件:基于elementUI的el-upload封装的上传列表组件,适用于上传附件时

sgUploadList源码 <template><div :class"$options.name"><ul class"files"><li v-for"(a, i) in files" :key"i"><el-link click.stop"clickFile(a)"><img :src"getFlieThumbSrc(a…

位运算(一)位运算简单总结

191. 位1的个数 给定一个正整数 n&#xff0c;编写一个函数&#xff0c;获取一个正整数的二进制形式并返回其二进制表达式中 设置位 的个数&#xff08;也被称为 汉明重量&#xff09;。 示例 1&#xff1a; 输入&#xff1a;n 11 输出&#xff1a;3 解释&#xff1a;输入的二…

聚合支付系统/官方个人免签系统/三方支付系统稳定安全高并发 附教程

聚合支付系统/官方个人免签系统/三方支付系统稳定安全高并发 附教程 系统采用FastAdmin框架独立全新开发&#xff0c;安全稳定,系统支持代理、商户、码商等业务逻辑。 针对最近一些JD&#xff0c;TB等业务定制&#xff0c;子账号业务逻辑API 非常详细&#xff0c;方便内置…

声音克隆GPT-SoVITS

作者&#xff1a;吴业亮 博客&#xff1a;wuyeliang.blog.csdn.net 一、原理介绍 GPT-SoVITS&#xff0c;作为一款结合了GPT&#xff08;生成预训练模型&#xff09;和SoVITS&#xff08;基于变分信息瓶颈技术的歌声转换&#xff09;的创新工具&#xff0c;正在声音克隆领域掀…

WLAN AutoConfig服务假死?重启服务恢复网络连接!

目录 背景&#xff1a; 过程&#xff1a; 可能引起原因&#xff1a; 具体解决步骤&#xff1a; 步骤一: 步骤二&#xff1a; 总结&#xff1a; 背景&#xff1a; 这个问题困扰我好长一段时间了&#xff0c;每次下班将电脑关机后&#xff0c;次日早上电脑开机的时候无线…