刚刚,深兰科技在国际顶级会议EMNLP竞赛中再夺两冠

      12月6日至10日,自然语言处理领域的国际顶级会议EMNLP(自然语言处理中的经验方法会议)在新加坡召开,研究人员、学者和业界专业人士齐聚一堂,展示和讨论该领域的最新研究成果、进展和创新。

      会上公布了各项任务竞赛的获奖名单,深兰科技团队凭借丰富的经验,以多个预训练模型为基础,并结合多种自然语言处理技术,最终在“PragTag-2023”和“Violence Inciting Text Detection(VITD)”两项任务竞赛中脱颖而出,夺得了冠军。

PragTag-2023”任务竞赛

      其中,“PragTag-2023”任务竞赛的要求,是在论文评审过程中,对同行评审内容中的每一句话,按照摘要、优点、不足、建议、结构、其他这六个类别进行分类,以实现评审内容细粒度的自动分类,并通过整合各方的评审意见,为经验不足的评审人提供评议帮助,该项任务的主要难点在于可参考的数据量少,缺少统一的分类标准。

      为此,深兰科技技术团队采用了两个出色的预训练模型“RoBERTa”和“DeBERTa”作为语言模型底座,在对其进行调整优化的基础上,同时融入了诸如注意力池化、最大池化、多折交叉验证、对抗训练等技术,并经过多组数据实验,通过使用多个模型投票得到结果的方式,解决了相关难题,赢得这项任务竞赛的冠军。

Violence Inciting Text Detection任务竞赛

      “Violence Inciting Text Detection(暴力煽动文本检测)”任务竞赛的内容,则是检测社交媒体上的文本是否包含暴力信息,并按照主动暴力、被动暴力、非暴力三个类别做分类,目的是对发生在孟加拉国和印度西孟加拉邦的各种形式的社区暴力行为进行分类甄别,以及阐明发生这一复杂现象的缘由,并阻止同类事件的再次发生,缓解社会上的暴力倾向。

      该任务的难点主要在于文本语言的特性,因为孟加拉语虽然有2亿多的使用人口,但本身还是属于小语种,使用范围小,可参考的文本数据也少,同时孟加拉语有着句子普遍超长、文本差异小、语意语境难以辨别的特点,这就对计算机自然语言处理技术有着更高的要求。

      为了解决以上难题,深兰科技技术团队采用了“分而治之”的策略。针对小语种问题,团队选用了“XLM-RoBERTa”和“banglabert”两个与孟加拉语的语言特点相适配的预训练模型;为了解决句子超长的问题,则采用了多种裁剪策略分别进行实验,不断优化语句裁剪效果;为了提升语言预训练模型的鲁棒性,则通过在模型中加入注意力池化、最大池化、多折交叉验证、对抗训练、伪标签、multi-sample dropout等技术,以增强模型承受故障和干扰的能力。

      最终,深兰科技团队以0.004分的优势,战胜了包括弗吉尼亚大学、加利福尼亚大学、詹姆斯库克大学等美国知名高校在内的来自全球的27支参赛队伍,夺得该任务竞赛的冠军。

关于EMNLP

      EMNLP是计算机语言学和自然语言处理领域的顶级国际会议,由ACL旗下SIGDAT组织,每年举办一次,在Google Scholar计算语言学刊物指标中排名第二。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/228188.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

十分钟带你搞懂Python那啥

Python爬虫的用处就不需要我多说了吧,今天就来带大家十分钟快速学会Python是如何爬取网页信息的,当然大家在爬取目标网页内容之前一定要遵守该网页的爬虫规则,以免带来不必要的麻烦,因而本次的示例所爬取的网页也是自己的本地网站…

【Vulnhub 靶场】【Funbox: GaoKao】【简单】【20210606】

1、环境介绍 靶场介绍:https://www.vulnhub.com/entry/funbox-gaokao,707/ 靶场下载:https://download.vulnhub.com/funbox/FunboxGaoKao.ova 靶场难度:简单 发布日期:2021年06月06日 文件大小:1.3 GB 靶场作者&#…

专业130+总分400+云南大学通信847专业基础综考研经验(原专业课827)

今年专业130总分400云南大学通信上岸,整体考研感觉还是比较满意,期间也付出了很多心血,走过弯路,下面分享一下这一年考研得失,希望大家可以从中有所借鉴。 先说明我在考研报名前更换成云南大学的理由:&…

通过项目管理软件监管新员工入职流程的方法与策略

项目管理软件是什么?项目管理软件都能做什么?是不是只有项目团队需要啊?NO!项目管理软件乍听其名不免让人觉得这不过是个项目领域的专用工具。 那什么是项目呢?项目是为创造独特的产品、服务或成果而进行的体系化的工…

Qt内存管理、UI编辑器、客制化组件、弹出对话框、常用部件类

头文件的小技巧 #include <QtWidgets> // 在自动生成的 .h 里面加上此句 适用条件&#xff1a; QT 的内存管理 当父窗体被关闭时&#xff0c;子部件的内存会自动释放。 对象树是一种管理对象生命周期的机制。当一个对象被添加到另一个对象的子对象列表中时&#xff0…

机器学习应用 | 使用 MATLAB 进行异常检测(下)

在使用MATLAB 进行异常检测&#xff08;上&#xff09;中&#xff0c;我们探讨了什么是异常值&#xff0c;简单的一维数据异常检测问题&#xff0c;针对高维数据的有监督异常检测方法。 在&#xff08;下&#xff09;篇中&#xff0c;我们将和大家一起探讨无监督异常检测。 没…

“身份证信息批量核验:高效解决管理难题,轻松提升工作效率“

尊敬的读者们&#xff0c;您是否曾经因为身份证信息的核验而感到烦恼&#xff1f;是否曾经因为手动核验而感到繁琐和耗时&#xff1f;现在&#xff0c;我们向您介绍一款全新的工具——身份证信息批量核验器&#xff0c;它将帮助您一键解决管理难题&#xff0c;让工作事半功倍&a…

netty源码:(9)ChannelId

ChannelId代表了一个Channel的全局标识符。它提供了asShortText和asLongText两个方法来返回对应的字符串

C语言printf的输出格式大全及颜色字体打印

不同类型的数据有不同形式的打印格式&#xff0c;熟知了printf的不同输出格式会让后边的学习事半功倍。 文章目录 %d%i打印十进制整形数据标志&#xff08;flags&#xff09;%u打印无符号十进制%o 打印无符号八进制%x %X打印大写或小写十六进制%f打印浮点数%e %E科学计数法打印…

Java几种深拷贝方式比较

Java的深度拷贝分为克隆&#xff08;实现Java的Clone接口&#xff09;和序列化&#xff08;实现Java的Serializable接口&#xff09;两种&#xff0c;由于序列化有不同的方式&#xff0c;下面分析一下每种的注意事项和性能对比。 一、继承Cloneable接口 可以使用Java提供的Clo…

Java基础50题: 21.实现一个方法printArray, 以数组为参数,循环访问数组中的每个元素,打印每个元素的值.

概述 实现一个方法printArray, 以数组为参数,循环访问数组中的每个元素,打印每个元素的值. 代码 public static void printArray(int[] array) {for (int i 0; i < array.length; i) {System.out.println(array[i] " ");}System.out.println();}public static…

class060 拓扑排序的扩展技巧【算法】

class060 拓扑排序的扩展技巧【算法】 算法讲解060【必备】拓扑排序的扩展技巧 2023-12-7 22:23:02 code1 P4017 最大食物链计数 // 最大食物链计数 // a -> b&#xff0c;代表a在食物链中被b捕食 // 给定一个有向无环图&#xff0c;返回 // 这个图中从最初级动物到最顶…

Atlassian Confluence 模板注入代码执行漏洞风险通告

近期&#xff0c;亚信安全CERT通过监控发现&#xff0c;Atlassian 公司发布了一则安全公告&#xff0c;针对 Confluence 数据中心和 Confluence 服务器存在的远程代码执行漏洞&#xff08;CVE-2023-22522&#xff09;进行了修复。该漏洞涉及 Confluence 页面中的模板注入问题&a…

加载类型库/dll 时出错

软件使用DataSnap数据库ERP管理系统&#xff0c;用户更换操作系统&#xff0c;出现“加载类型库/dll 时出错”信息。 通常思路&#xff0c;从大环境查找&#xff0c;怀疑操作系统中的C运行库出现错误&#xff0c;搜索一翻末果。百度搜索也找不到结果。 通过Dll修复大师、全能修…

ArcMap中构建金字塔详解

1.金字塔 1.1 定义 金字塔可用于改善性能。它们是原始栅格数据集的缩减采样版本&#xff0c;可包含多个缩减采样图层。金字塔的各个连续图层均以 2:1 的比例进行缩减采样。如下图所示。从金字塔的底层开始每四个相邻的像素经过重采样生成一个新的像素&#xff0c;依此重复进行…

【Lidar】Python实现点云CSF布料滤波算法提取地面点

这两天会持续更新一下Python处理点云数据的教程&#xff0c;大家可以点个关注。今天给大家分享一下点云的经典算法&#xff1a;CSF布料模拟算法。 1 CSF算法简介 CSF算法&#xff0c;全称为Cloth Simulation Filtering&#xff0c;是一种基于欧几里得空间中最小生成树思想的聚类…

什么是网站?

这篇文章是我学习网站开发&#xff0c;阶段性总结出来的。可以帮助你 通俗易懂 地更加深刻理解网站的这个玩意。 一&#xff0c;网站和网页的区别&#xff1f; 网站是由一个个网页组成。我们在浏览器上面看到的每一个页面就是网页&#xff0c;这些 相关的 网页组成一个网站。…

【Selenium+Webmagic】基于JAVA语言实现爬取js渲染后的页面,附有代码

事先声明 笔者最近需要查看一些数据&#xff0c;自己挨个找太麻烦了&#xff0c;于是简单的学了一下爬虫。笔者在这里声明&#xff0c;爬的数据只为学术用&#xff0c;没有其他用途&#xff0c;希望来这篇文章学习的同学能抱有同样的目的。 枪本身不坏&#xff0c;坏的是使用枪…

EOCR-CT电流互感器与SR-CT区别简介

电流互感器CT是&#xff08;Current Transformers&#xff09;的缩写&#xff0c;是将一次测的大电流&#xff0c;按比列变为适合通过测量仪表或保护装置的变换设备。 EOCR外部电流互感器3CT和SR-CT是专为保护大负载的组合使用&#xff0c;电流变比100&#xff1a;5&#xff0…

如何部署自己的服务渲染页面为Pdf文档

前言 相信大家都觉得官方发布的文档生成模块https://docs.mendix.com/appstore/modules/document-generation/很有用&#xff0c;它能把Mendix页面像素级导出到Pdf文件中&#xff0c;这对于归档等业务非常有价值。但部署依赖公有云提供的渲染服务&#xff0c;而中国本土用户对…