Talk | UCSB博士生许闻达:细粒度可解释评估初探

本期为TechBeat人工智能社区551线上Talk。

北京时间11月29(周三)20:00,UC Santa Barbara博士生许闻达的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是: 细粒度可解释评估初探,分享了他们团队在具备解释性的细粒度评估模型的一系列研究成果。

Talk·信息

主题:细粒度可解释评估初探

嘉宾:加州大学圣塔芭芭拉分校博士生 许闻达

时间:北京时间 11月29日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=829

Talk·介绍

迎接大语言模型时代的同时,面临着NLP中一项令人头疼的大问题:评估文本生成质量。挑战源自于文本的丰富多样性和评估过程中固有的主观性。虽然人工评估目前看来是最可靠的策略,但却因为高昂的成本和主观性的存在而被人诟病。因此,我们急需一种自动化评估模式,这已经成为当前的首要任务之一。

近期,大家注意到,学术界在开发可学习的评估模型上,无论在有监督还是无监督方面,都取得了显著的突破。但遗憾的是,由于评估模型的分数缺乏有效的校准,这些模型仍然无法清晰、直观地告诉我们问题在哪,至此仍缺乏足够的可解释性。

在研究中,我们的团队工作出色,设计了一套具备解释性的细粒度评估模型。我们通过充分利用生成错误的位置、类别和错误程度,来替代染繁复杂的质量分数,让用户能快速掌握文本质量的情况和所在短板。更为惊喜的是,我们发现这些指标不仅能帮助人类理解错误产生的原因, 它还像一位深思熟虑的老师耐心引导学生一样,能利用这些反馈指导大语言模型的生成,从而进一步提升其性能。

Talk大纲

1、近年来可学习评测的发展,以及在大语言模型时代,评测的重要性

2、我们最近在可学习,解释评估上的突破,和其所带来的意义

3、可解释评测带来的细粒度反馈可以如何提升大语言模型的性能

Talk·预习资料

Image

文章链接:https://arxiv.org/abs/2305.14282

Image

文章链接: https://arxiv.org/pdf/2311.09336

Image

文章链接:https://arxiv.org/abs/2212.09305

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

​​​​​​​

Image

许闻达

UC Santa Barbara 博士生

许闻达目前是UCSB计算机系博四的学生,导师是UCSB NLP 的王威廉教授和CMU LTI的李磊教授。博士期间主要的研究方向是文本生成评估和大语言模型对齐。以前,于UC Davis获得本科学位,隶属于UC Davis的Computer vision组,主要研究方向为图像分割和无人驾驶。本科所做的Visual SLAM和道路规划曾获得年度最佳毕业设计奖。

以第一作者身份在多个定会发表过多篇论文, 包括AAAI, EMNLP和ACL,并以协作作者身份发表多篇论文。并在字节谷歌等研究院实习。担任多个顶会的审稿人,包括AAAI, EMNLP和ACL。

个人主页: 

TechBeat


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/203518.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Synchronized底层机制:偏向锁、轻量级锁与重量级锁及其锁升级过程

前言: 在Java并发编程中,synchronized关键字是用于实现线程同步的重要工具。在JVM中,synchronized的底层实现涉及到了偏向锁、轻量级锁和重量级锁这三种锁状态,以及锁升级过程。在之前的文章中介绍到过,这篇文章详细对…

《golang设计模式》第三部分·行为型模式-09-策略模式(Strategy)

文章目录 1. 概述1.1 作用1.1 角色1.2 类图 2. 代码示例2.1 设计2.2 代码2.3 类图 1. 概述 1.1 作用 策略(Strategy)是用于封装一组算法中单个算法的对象,这些策略可以相互替换,使得单个算法的变化不影响使用它的客户端。 1.1 …

基于Springboot的房产销售系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的房产销售系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spring Sp…

Python数据分析从入门到进阶:模型评估和选择(含代码)

引言 之前我们介绍了机器学习的一些基础性工作,介绍了如何对数据进行预处理,接下来我们可以根据这些数据以及我们的研究目标建立模型。那么如何选择合适的模型呢?首先需要对这些模型的效果进行评估。本文介绍如何使用sklearn代码进行模型评估…

《PFL》论文阅读笔记

一、概要 随着联邦学习的发展,简单的聚合算法已经不在有效。但复杂的聚合算法使得联邦学习训练时间出现新的瓶颈。本文提出了并行联邦学习(parallel federated learning,PFL),通过调换中心节点聚合和广播的顺序。本文…

W11安装mysql8详细保姆篇

一、MySQL的下载 目前官方最新版本是8.0.34,考虑到其稳定性、可靠性还需一定周期保证,所以使用官方版求稳定仍然建议5.7系列。MySQL官方下载链接:MySQL官网下载 二、MySQL的安装 1、右击下载完成的安装包 2、点击Custom >> Next 3、…

【LeetCode】每日一题 2023_11_30 确定两个字符串是否接近 (数组、排序、哈希/位运算、脑筋急转弯)

文章目录 刷题前唠嗑题目:确定两个字符串是否接近题目描述代码与解题思路 结语 刷题前唠嗑 LeetCode?启动!!! 刷完今天,我的每日一题就坚持一个月啦,月度勋章要到手啦 今早很尴尬,…

【C++】POCO学习总结(八):通知Notifications和事件Events

【C】郭老二博文之:C目录 1、Notifications和Events的区别 1)通知Notifications:如果观察者不知道或不关心事件的来源,则使用通知Notifications。 Poco::NotificationCenter或Poco::NotificationQueue位于源source和目标target之…

【JS Promise, Promise.all 与 async/await用法详解】

目录 PromisePromise基本使用Promise可进行连续回调Promise回调可接受入参1.工作原理 async/await总结参考文档: 异步 let a 0setTimeout(() > {a 1}, 1000)console.log(a) // 0此时这个延迟就成为异步执行的了,a值还没有变1就被使用输出&#xff0…

BLP9H10-30GZ LDMOS 功率晶体管 Ampleon

BLP9H10-30GZ 30W塑料LDMOS 功率晶体管,适用于频率范围为616 MH 至960 MHz的基站应用。 BLP9H10-30GZ 特点和优势: 高效率 出色的耐用性 专为宽带操作而设计 出色的热稳定性 高功率增益 集成ESD保护 有关 RoHS 合规性 BLP9H10-30GZ应用程序&…

上海震坤行被评为虹桥生产线互联网服务高质量发展平台

上海震坤行被评为虹桥生产线互联网服务高质量发展平台 10月12日,新一期“潮涌浦江投资虹桥”活动暨“战略赋能新机遇,开放引领新高地”——2023虹桥国际中央商务区投资促进大会在上海虹桥举行。 本次活动旨在释放关于推动虹桥国际开放枢纽进一步提升能级…

matplotlib与opencv图像读取与显示的问题

个人博客:Sekyoro的博客小屋 个人网站:Proanimer的个人网站 最近在用opencv和matplotlib展示图片,但是遇到了一些问题,这里展开说说 首先需要明确的是,opencv和matplotlib读取图片都是通道在最后,而前者默认可见光图像是BGR,后者是RGB.此外还有PIL以及imageio等读取图像的工具…

东明石化集团领导团队参访震坤行工业超市

东明石化集团领导团队参访震坤行工业超市 10月16日,山东东明石化集团(以下简称东明石化)总裁李治先生一行带队来访参观交流震坤行,与震坤行工业超市董事长兼CEO陈龙、销售负责团队开展座谈。期间,双方就企业数字化转型…

图扑软件受邀出席高交会-全球清洁能源创新博览会

“相聚鹏城深圳,共享能源盛宴” 第二十五届中国国际高新技术成果交易会(简称“高交会”)于 11 月 15-18 日在深圳盛大开幕。高交会由商务部、科学技术部、工业和信息化部、国家发展改革委、农业农村部、国家知识产权局、中国科学院、中国工程院和深圳市人民政府共同…

C#图像处理OpenCV开发指南(CVStar,04)——图片像素访问与多种局部放大效果的实现代码

​​​​​​​ 使用本文代码需要预先设置一点开发环境,请阅读另外一篇博文: C#图像处理OpenCV开发指南(CVStar,03)——基于.NET 6的图像处理桌面程序开发实践第一步https://blog.csdn.net/beijinghorn/article/deta…

ESP32-Web-Server编程- WebSocket 编程

ESP32-Web-Server编程- WebSocket 编程 概述 在前述 ESP32-Web-Server 实战编程-通过网页控制设备的 GPIO 中,我们创建了一个基于 HTTP 协议的 ESP32 Web 服务器,每当浏览器向 Web 服务器发送请求,我们将 HTML/CSS 文件提供给浏览器。 使用…

[Linux] linux防火墙

一、防火墙是什么 防火墙(FireWall):隔离功能,工作在网络或主机的边缘,数据包的匹配规则与由一组功能定义的操作组件处理的规则相匹配,根据特定规则检查网络或主机的入口和出口 当要这样做时,基…

EXCEL一对多关系将结果合并到一个单元格

EXCEL一对多关联结果,合并到1个单元格,变成一对一 需求说明 举例说明 假设给出国家省和国家市的对应表,因为每个省都有很多个城市(如图1,截取了部分),属于一对多的情况; 如何将同…

数据清洗和特征工程的关系是什么?有什么区别?

1.数据清洗独立于特征工程 数据清洗是独立于特征工程的:一方面,数据清洗不仅适用于机器学习项目,也适用于一般的数据统计分析过程,而特征工程仅适用于机器学习项目;另一方面,针对机器学习项目,…