大模型日报|7 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.加州大学团队推出“罕见病”大模型 Zebra-Llama

罕见病为医疗保健带来了独特的挑战,通常会出现诊断延迟和信息分散的情况。这些疾病的可靠知识稀缺,给大语言模型(LLM)在支持临床管理和提供精确的患者信息方面带来了独特的挑战,强调了对这些“zebra”病例进行重点训练的必要性。

来自加州大学旧金山分校的研究团队及其合作者推出了 Zebra-Llama,这是一种具有高精度检索增强生成(RAG)能力的专有上下文感知语言模型,以 Ehlers-Danlos 综合症(EDS)为研究案例。每 5000 人中就有 1 人患有 EDS,该病症状多样,有多种亚型,诊断标准不断变化,是罕见病复杂性的典型代表。Zebra-Llama 采用了一种新颖的上下文感知微调方法,根据从医学文献、患者经验和临床资源中获得的问题以及专家精心策划的回答进行训练,在处理 EDS 相关查询方面展现了优异的能力。

在一组从 EDS 患者和临床医生处收集的实际问题测试中,医学专家对两种模型生成的回复进行了评估,结果显示 Zebra-Llama 在全面性(77.5% 对 70.1%)、准确性(83.0% 对 78.8%)、清晰性(74.7% 对 72.0%)和引用可靠性(70.6% 对 52.3%)方面都比基础模型(Llama 3.1-8B-Instruct)有大幅提高。Zebra-Llama 作为开源资源发布,不仅提供了更易于获取和更可靠的 EDS 信息,还为开发其他罕见病症的专门人工智能解决方案建立了框架。这项工作是实现罕见病管理专家级知识普及的关键一步,有可能改变医疗服务提供者和患者应对复杂罕见病的方式。

论文链接:
https://arxiv.org/abs/2411.02657

2.智谱、清华团队推出 AutoGLM:用于 GUI 的自主基础智能体

虽然基础模型在获取人类知识方面表现出色,但它们在动态现实环境中的决策制定方面却往往举步维艰,从而限制了它们在通用人工智能方面的发展。这种局限性凸显了通过强化现有模型来开发能够通过自主环境交互进行学习的基础智能体的重要性。

来自智谱和清华大学的研究团队推出了 ChatGLM 模型系列中的一个新系列 AutoGLM,该系列旨在作为基础智能体,通过图形用户界面 (GUI) 实现对数字设备的自主控制。

他们基于以 Web 浏览器和手机为代表的图形用户界面场景开发了 AutoGLM,作为现实世界图形用户界面交互的实用基础智能体系统。他们的方法集成了一整套技术和基础设施,以创建适合用户交付的可部署智能体系统。通过这次开发,他们获得了两个重要启示:首先,为图形用户界面控制设计一个适当的“中间界面”至关重要,它可以将规划和接地行为分离开来,而规划和接地行为分别需要对灵活性和准确性进行不同的优化。其次,他们开发了一个新颖的渐进式训练框架,使 AutoGLM 能够进行自进化式在线课程强化学习。

他们的评估证明了 AutoGLM 在多个领域的有效性。在网页浏览方面,AutoGLM 在 VAB-WebArena-Lite 上取得了 55.2% 的成功率(第二次尝试后成功率提高到 59.1%),在 OpenTable 评估任务中取得了 96.2% 的成功率。在 Android 设备控制方面,AutoGLM 在 AndroidLab(VAB-Mobile)上的成功率为 36.2%,在流行 APP 的常见任务上的成功率为 89.7%。

论文链接:
https://arxiv.org/abs/2411.00820

3.百图生科、清华团队:蛋白质语言模型的计算优化训练

来自百图生科和清华大学的研究团队探讨了如何优化蛋白质语言模型的训练,这是生物研究中的一个重要领域,但最佳实践的指导却很有限。大多数模型都是在使用大量计算资源的情况下进行训练的,直到性能收益趋于稳定为止,主要集中在增加模型大小,而不是优化平衡性能和计算预算的高效计算前沿。

他们的研究基于一个由 9.39 亿个蛋白质序列组成的海量数据集。他们训练了 300 多个模型,这些模型的参数从 350 万到 107 亿个不等,包含 50 亿到 2000 亿个独特的 token,以研究模型大小、训练 token 数量和目标之间的关系。

首先,在重复使用常用的 Uniref 数据库时,他们观察到因果语言模型(CLM)的收益递减效应和掩码语言模型(MLM)的过度拟合效应。为此,他们在训练集中加入了元基因组蛋白质序列,以增加多样性,避免过拟合效应。其次,他们根据蛋白质序列数据的具体特点,在 Transformer 上获得了 CLM 和 MLM 的缩放规律。第三,他们观察到了从 CLM 到 MLM 的转移缩放现象,通过基于估算的有效转移 token 的缩放行为进一步证明了转移的有效性。最后,为了验证他们的缩放规律,他们比较了大规模版本的 ESM-2 和 PROGEN2 在下游任务上的表现,包括对蛋白质生成以及结构和功能相关任务的评估,所有这些任务的训练前计算预算都较少或相当。

论文链接:
https://arxiv.org/abs/2411.02142
GitHub 地址:
https://github.com/cxysteven/ScalingProteinLM

4.智谱、北大团队推出文生 3D 模型 DreamPolish

来自智谱北京大学和清华大学的研究团队推出了 DreamPolish,这是一种文本到 3D 的生成模型,在生成精致的几何图形和高质量纹理方面表现出色。在几何体构建阶段,他们的方法利用多种神经表征来增强合成过程的稳定性。在新颖的采样视图中,视图条件下的扩散先验往往会导致几何表面出现不希望出现的假象,而它们并不完全依赖于视图条件下的扩散先验,而是在不同视场的视点条件下,加入一个额外的法线估计器来打磨几何细节。

他们建议增加一个表面抛光阶段,只需几个训练步骤,就能有效改善因前几个阶段的指导有限而产生的假象,生成几何形状更理想的三维物体。使用预训练的文生图模型生成纹理的关键课题是在这些模型的庞大潜在分布中找到一个合适的域,其中包含逼真且一致的渲染。

在纹理生成阶段,他们提出了一个新颖的分数提炼目标,即域分数提炼(DSD),以引导神经表征朝向这样一个域。 他们从文本条件图像生成任务中的无分类器引导(CFG)中汲取灵感,证明无分类器引导和变分分布引导代表了梯度引导的不同方面,都是提高纹理质量的必要领域。广泛的实验表明,他们提出的模型可以生成具有光滑表面和逼真纹理的 3D 资产,其性能优于现有的 SOTA 方法。

论文链接:
https://arxiv.org/abs/2411.01602

5.腾讯开源 389B MoE 模型 Hunyuan-Large

在这项工作中,腾讯混元团队了 Hunyuan-Large,它是目前最大的基于 Transformer 的开源混合专家模型,共有 389B 个参数和 52B 个激活参数,能够处理多达 256K 个 token。

他们在语言理解与生成、逻辑推理、数学解题、编码、长上下文和聚合任务等各种基准测试中对 Hunyuan-Large 的性能进行了全面评估,结果显示,Hunyuan-Large 的性能优于 LLama3.1-70B,与规模更大的 LLama3.1-405B 模型相比也不相上下。

Hunyuan-Large 的主要实践包括:比以往文献大数倍的大规模合成数据、混合专家路由策略、键值缓存压缩技术和专家特定学习率策略。此外,他们还研究了专家混合模型的 scaling law 和学习率安排,为未来的模型开发和优化提供了宝贵的见解和指导。

论文链接:
https://arxiv.org/abs/2411.02265
GitHub 地址:
https://github.com/Tencent/Tencent-Hunyuan-Large

6.华盛顿大学团队推出约束扩散隐含模型

来自华盛顿大学、康奈尔大学的研究团队提出了一种使用预训练扩散模型解决噪声线性逆问题的高效算法。他们扩展了去噪扩散隐含模型(DDIM)的范例,推出了约束扩散隐含模型(CDIM),该模型修改扩散更新以对最终输出强制执行约束。

对于无噪声逆问题,CDIM 完全满足约束条件;在有噪声的情况下,他们将 CDIM 推广到满足噪声残余分布的精确约束条件。各种任务和指标的实验表明,CDIM 性能强劲,推理速度与无约束 DDIM 类似:比以前的条件扩散方法快 10 到 50 倍。他们在超分辨率、去噪、内绘制、去模糊和三维点云重建等许多问题上展示了他们方法的多功能性。

论文链接:
https://arxiv.org/abs/2411.00359

7.AutoVFX:根据自然语言指令进行物理逼真的视频编辑

现代视觉特效(VFX)软件使熟练的艺术家能够创造出几乎任何图像。然而,创作过程依然费力、复杂,而且普通用户基本上无法使用。

在这项工作中,伊利诺伊大学香槟分校的研究团队提出了 AutoVFX,这是一个能够根据单个视频和自然语言指令自动创建逼真动态视觉特效视频的框架。通过精心整合神经场景建模、基于 LLM 的代码生成和物理模拟,AutoVFX 能够提供基于物理的逼真剪辑效果,并可直接使用自然语言指令进行控制。

他们进行了大量实验来验证 AutoVFX 在各种视频和指令中的功效。定量和定性结果表明,AutoVFX 在生成质量、指令对齐、编辑多功能性和物理合理性方面远远优于所有竞争方法。

论文链接:
https://arxiv.org/abs/2411.02394
项目地址:
https://haoyuhsu.github.io/autovfx-website/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/909760.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Docker篇(基础命令)

目录 一、启动与停止 二、镜像相关的命令 1. 查看镜像 2. 搜索镜像 3. 拉取镜像 4. 删除镜像 三、容器创建与启动容器 1. 查看容器 2. 创建容器 交互式方式创建容器 守护式方式创建容器 3. 容器启动与停止 四、容器操作命令 1. 文件拷贝 2. 目录(文件…

网络安全认证的证书有哪些?

在网络安全领域,专业认证不仅是个人技术能力的象征,也是职业发展的重要推动力。随着网络安全威胁的日益严峻,对网络安全专业人才的需求也在不断增长。本文将介绍一些网络安全认证的证书,帮助有志于从事网络安全行业的人士了解并选…

论文阅读笔记:Image Processing GNN: Breaking Rigidity in Super-Resolution

论文阅读笔记:Image Processing GNN: Breaking Rigidity in Super-Resolution 1 背景2 创新点3 方法4 模块4.1 以往SR模型的刚性4.2 图构建4.2.1 度灵活性4.2.2 像素节点灵活性4.2.3 空间灵活性 4.3 图聚合4.4 多尺度图聚合模块MGB4.5 图聚合层GAL 5 效果5.1 和SOTA…

tomato靶机

下载tomato地址:https://vulnhub.com/entry/tomato-1,557/ 直接拖进虚拟机中 tomato靶机和kali虚拟机必须在同一网段所以使用nat模式 扫描主机 arp-scan -I eth0 -l 发现新主机ip 192.168.142.147 nmap扫描端口 namp -p- -A -T4 --min-rate10000 192.168.142.147 有用的信息…

集成旺店通旗舰版售后单至MySQL数据库

旺店通旗舰版-售后单集成到MySQL的技术实现 在数据驱动的业务环境中,如何高效、准确地将旺店通旗舰奇门的数据集成到MySQL数据库,是许多企业面临的重要挑战。本文将分享一个具体的系统对接案例:旺店通旗舰版-售后单-->BI泰海-售后订单表(…

随着FAB的发布,在FAB中使用Megascans的简单方法(适用于Unreal Engine 5)

UE5系列文章目录 文章目录 UE5系列文章目录前言一、如何在2024年12月31之前免费获取Quixel Megascans所有资源 前言 随着FAB的发布,Quixel Megascans的资源在2024年12月31号之后将不再免费,一个资源1美元 Fab是Epic Games推出的一个全新的数字内容平台,…

论文阅读:Computational Long Exposure Mobile Photography (二)

这篇文章是谷歌发表在 2023 ACM transaction on Graphic 上的一篇文章,介绍如何在手机摄影中实现长曝光的一些拍摄效果。 Abstract 长曝光摄影能拍出令人惊叹的影像,用运动模糊来呈现场景中的移动元素。它通常有两种模式,分别产生前景模糊或…

Linux云计算 |【第五阶段】PROJECT3-DAY1

主要内容: 跳板机(堡垒机)的概念、部署JumpeServer 一、跳板机(堡垒机)的概念 跳板机(Jump Server 或 Bastion Host)是一种网络安全设备或服务器,也称堡垒机,是一类可作…

一款根据图片内的文字,把图片分类的软件

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

文件操作:Xml转Excel

1 添加依赖 Spire.Xls.jar <dependency><groupId>e-iceblue</groupId><artifactId>spire.xls</artifactId><version>5.3.3</version></dependency>2 代码使用 package cctd.controller;import com.spire.xls.FileFormat; im…

从底层技术到实际应用:Claude与ChatGPT谁更适合学术写作?

学境思源&#xff0c;一键生成论文初稿&#xff1a; AcademicIdeas - 学境思源AI论文写作 使用大模型智能AI进行学术写作和科研已经成为学者、研究人员和高校学生的强大助手。Anthropic的Claude和OpenAI的ChatGPT作为该领域的两个主要参与者&#xff0c;正在不断发展和完善。随…

linux 磁盘配额 quota

增加一个facl的的知识点&#xff1a; linux中默认的文件系统支持facl&#xff0c;如果是新挂载的分区&#xff0c;则不支持facl应用。需要在挂载文件系统时使用-o acl选项来启用facl支持。如下图显示 在/etc/fstab添加defaults,acl 1.启用磁盘配额功能&#xff1a;修改/etc/f…

qt QMessageBox详解

1、概述 QMessageBox是Qt库中的一个类&#xff0c;它用于在图形用户界面&#xff08;GUI&#xff09;程序中显示消息框。消息框是一种用于向用户显示信息、警告、错误或询问用户确认的对话框。QMessageBox可以显示文本、图标和按钮&#xff0c;并允许自定义按钮的文本和功能。…

qt QResizeEvent详解

1、概述 QResizeEvent是Qt框架中用于处理窗口或控件大小变化事件的一个类。当用户调整窗口或控件的尺寸时&#xff0c;Qt会生成一个QResizeEvent事件&#xff0c;并将其发送到相应的窗口或控件。开发者可以通过重载窗口或控件的resizeEvent()方法来响应这个事件&#xff0c;并…

黑科技安利 | 超好用的背景去除软件

背景 如果一幅主图里存在其它颜色的背景色调&#xff0c;希望变成白色或者特定色彩/背景图片 推荐 1. Microsoft PowerPoint里自带的“清除背景”/设置透明色 这个功能超级好用&#xff0c;基本满足我日常涉及的90%的清除白色背景的需求 2. https://www.remove.bg/ 这个网…

PyCharm中pylint安装与使用

目录 1. 安装插件2. pycharm中使用该功能3. 命令行使用 1. 安装插件 然后重启 2. pycharm中使用该功能 3. 命令行使用 前提是先 pip install pylint pylint demo01.py下面红框内容的意思是&#xff0c;得到10分/ 满分10分&#xff0c;上次运行获得8.33分&#xff0c;经调整…

Git遇到“fatal: bad object refs/heads/master - 副本”问题的解决办法

Git遇到“fatal: bad object refs/heads/master - 副本”问题的解决办法 起源 让我们从一个常见的Git错误开始&#xff1a; fatal: bad object refs/heads/master - 副本这个错误提示通常意味着Git在引用&#xff08;ref&#xff09;中发现了不一致或损坏的数据。引用是Git用…

Android13 系统/用户证书安装相关分析总结(三) 增加安装系统证书的接口遇到的问题和坑

一、前言 接上回说到&#xff0c;修改了程序&#xff0c;增加了接口&#xff0c;却不知道有没有什么问题&#xff0c;于是心怀忐忑等了几天。果然过了几天&#xff0c;应用那边的小伙伴报过来了问题。用户证书安装没有问题&#xff0c;系统证书(新增的接口)还是出现了问题。调…

一文速学-知识图谱从零开始构建实战:知识图谱搭建构架实践-知识展示

前言 系列文章的上一篇我们已经进行了UIE抽取&#xff0c;非结构化知识抽取整理&#xff0c;转化。但是目前仅在于通过分词提取实体、属性、关系&#xff0c;还没有通过大模型来进一步高效率高精准度来提取这些关键字段&#xff0c;因此后续我们都整个流程优化空间都很大&…

自由学习记录(19)

unity核心也算是看完了吧&#xff0c;但觉得的确是少了点东西&#xff0c;之后再看mvc框架&#xff0c;和网络开发&#xff0c;&#xff0c;感觉有必要想想主次顺序了&#xff0c;毕竟在明年的3月之前尽量让自己更有贴合需求的能力 先了解一些相关概念&#xff0c;不用看懂&am…