大家好,今日必读的大模型论文来啦!
1.加州大学团队推出“罕见病”大模型 Zebra-Llama
罕见病为医疗保健带来了独特的挑战,通常会出现诊断延迟和信息分散的情况。这些疾病的可靠知识稀缺,给大语言模型(LLM)在支持临床管理和提供精确的患者信息方面带来了独特的挑战,强调了对这些“zebra”病例进行重点训练的必要性。
来自加州大学旧金山分校的研究团队及其合作者推出了 Zebra-Llama,这是一种具有高精度检索增强生成(RAG)能力的专有上下文感知语言模型,以 Ehlers-Danlos 综合症(EDS)为研究案例。每 5000 人中就有 1 人患有 EDS,该病症状多样,有多种亚型,诊断标准不断变化,是罕见病复杂性的典型代表。Zebra-Llama 采用了一种新颖的上下文感知微调方法,根据从医学文献、患者经验和临床资源中获得的问题以及专家精心策划的回答进行训练,在处理 EDS 相关查询方面展现了优异的能力。
在一组从 EDS 患者和临床医生处收集的实际问题测试中,医学专家对两种模型生成的回复进行了评估,结果显示 Zebra-Llama 在全面性(77.5% 对 70.1%)、准确性(83.0% 对 78.8%)、清晰性(74.7% 对 72.0%)和引用可靠性(70.6% 对 52.3%)方面都比基础模型(Llama 3.1-8B-Instruct)有大幅提高。Zebra-Llama 作为开源资源发布,不仅提供了更易于获取和更可靠的 EDS 信息,还为开发其他罕见病症的专门人工智能解决方案建立了框架。这项工作是实现罕见病管理专家级知识普及的关键一步,有可能改变医疗服务提供者和患者应对复杂罕见病的方式。
论文链接:
https://arxiv.org/abs/2411.02657
2.智谱、清华团队推出 AutoGLM:用于 GUI 的自主基础智能体
虽然基础模型在获取人类知识方面表现出色,但它们在动态现实环境中的决策制定方面却往往举步维艰,从而限制了它们在通用人工智能方面的发展。这种局限性凸显了通过强化现有模型来开发能够通过自主环境交互进行学习的基础智能体的重要性。
来自智谱和清华大学的研究团队推出了 ChatGLM 模型系列中的一个新系列 AutoGLM,该系列旨在作为基础智能体,通过图形用户界面 (GUI) 实现对数字设备的自主控制。
他们基于以 Web 浏览器和手机为代表的图形用户界面场景开发了 AutoGLM,作为现实世界图形用户界面交互的实用基础智能体系统。他们的方法集成了一整套技术和基础设施,以创建适合用户交付的可部署智能体系统。通过这次开发,他们获得了两个重要启示:首先,为图形用户界面控制设计一个适当的“中间界面”至关重要,它可以将规划和接地行为分离开来,而规划和接地行为分别需要对灵活性和准确性进行不同的优化。其次,他们开发了一个新颖的渐进式训练框架,使 AutoGLM 能够进行自进化式在线课程强化学习。
他们的评估证明了 AutoGLM 在多个领域的有效性。在网页浏览方面,AutoGLM 在 VAB-WebArena-Lite 上取得了 55.2% 的成功率(第二次尝试后成功率提高到 59.1%),在 OpenTable 评估任务中取得了 96.2% 的成功率。在 Android 设备控制方面,AutoGLM 在 AndroidLab(VAB-Mobile)上的成功率为 36.2%,在流行 APP 的常见任务上的成功率为 89.7%。
论文链接:
https://arxiv.org/abs/2411.00820
3.百图生科、清华团队:蛋白质语言模型的计算优化训练
来自百图生科和清华大学的研究团队探讨了如何优化蛋白质语言模型的训练,这是生物研究中的一个重要领域,但最佳实践的指导却很有限。大多数模型都是在使用大量计算资源的情况下进行训练的,直到性能收益趋于稳定为止,主要集中在增加模型大小,而不是优化平衡性能和计算预算的高效计算前沿。
他们的研究基于一个由 9.39 亿个蛋白质序列组成的海量数据集。他们训练了 300 多个模型,这些模型的参数从 350 万到 107 亿个不等,包含 50 亿到 2000 亿个独特的 token,以研究模型大小、训练 token 数量和目标之间的关系。
首先,在重复使用常用的 Uniref 数据库时,他们观察到因果语言模型(CLM)的收益递减效应和掩码语言模型(MLM)的过度拟合效应。为此,他们在训练集中加入了元基因组蛋白质序列,以增加多样性,避免过拟合效应。其次,他们根据蛋白质序列数据的具体特点,在 Transformer 上获得了 CLM 和 MLM 的缩放规律。第三,他们观察到了从 CLM 到 MLM 的转移缩放现象,通过基于估算的有效转移 token 的缩放行为进一步证明了转移的有效性。最后,为了验证他们的缩放规律,他们比较了大规模版本的 ESM-2 和 PROGEN2 在下游任务上的表现,包括对蛋白质生成以及结构和功能相关任务的评估,所有这些任务的训练前计算预算都较少或相当。
论文链接:
https://arxiv.org/abs/2411.02142
GitHub 地址:
https://github.com/cxysteven/ScalingProteinLM
4.智谱、北大团队推出文生 3D 模型 DreamPolish
来自智谱北京大学和清华大学的研究团队推出了 DreamPolish,这是一种文本到 3D 的生成模型,在生成精致的几何图形和高质量纹理方面表现出色。在几何体构建阶段,他们的方法利用多种神经表征来增强合成过程的稳定性。在新颖的采样视图中,视图条件下的扩散先验往往会导致几何表面出现不希望出现的假象,而它们并不完全依赖于视图条件下的扩散先验,而是在不同视场的视点条件下,加入一个额外的法线估计器来打磨几何细节。
他们建议增加一个表面抛光阶段,只需几个训练步骤,就能有效改善因前几个阶段的指导有限而产生的假象,生成几何形状更理想的三维物体。使用预训练的文生图模型生成纹理的关键课题是在这些模型的庞大潜在分布中找到一个合适的域,其中包含逼真且一致的渲染。
在纹理生成阶段,他们提出了一个新颖的分数提炼目标,即域分数提炼(DSD),以引导神经表征朝向这样一个域。 他们从文本条件图像生成任务中的无分类器引导(CFG)中汲取灵感,证明无分类器引导和变分分布引导代表了梯度引导的不同方面,都是提高纹理质量的必要领域。广泛的实验表明,他们提出的模型可以生成具有光滑表面和逼真纹理的 3D 资产,其性能优于现有的 SOTA 方法。
论文链接:
https://arxiv.org/abs/2411.01602
5.腾讯开源 389B MoE 模型 Hunyuan-Large
在这项工作中,腾讯混元团队了 Hunyuan-Large,它是目前最大的基于 Transformer 的开源混合专家模型,共有 389B 个参数和 52B 个激活参数,能够处理多达 256K 个 token。
他们在语言理解与生成、逻辑推理、数学解题、编码、长上下文和聚合任务等各种基准测试中对 Hunyuan-Large 的性能进行了全面评估,结果显示,Hunyuan-Large 的性能优于 LLama3.1-70B,与规模更大的 LLama3.1-405B 模型相比也不相上下。
Hunyuan-Large 的主要实践包括:比以往文献大数倍的大规模合成数据、混合专家路由策略、键值缓存压缩技术和专家特定学习率策略。此外,他们还研究了专家混合模型的 scaling law 和学习率安排,为未来的模型开发和优化提供了宝贵的见解和指导。
论文链接:
https://arxiv.org/abs/2411.02265
GitHub 地址:
https://github.com/Tencent/Tencent-Hunyuan-Large
6.华盛顿大学团队推出约束扩散隐含模型
来自华盛顿大学、康奈尔大学的研究团队提出了一种使用预训练扩散模型解决噪声线性逆问题的高效算法。他们扩展了去噪扩散隐含模型(DDIM)的范例,推出了约束扩散隐含模型(CDIM),该模型修改扩散更新以对最终输出强制执行约束。
对于无噪声逆问题,CDIM 完全满足约束条件;在有噪声的情况下,他们将 CDIM 推广到满足噪声残余分布的精确约束条件。各种任务和指标的实验表明,CDIM 性能强劲,推理速度与无约束 DDIM 类似:比以前的条件扩散方法快 10 到 50 倍。他们在超分辨率、去噪、内绘制、去模糊和三维点云重建等许多问题上展示了他们方法的多功能性。
论文链接:
https://arxiv.org/abs/2411.00359
7.AutoVFX:根据自然语言指令进行物理逼真的视频编辑
现代视觉特效(VFX)软件使熟练的艺术家能够创造出几乎任何图像。然而,创作过程依然费力、复杂,而且普通用户基本上无法使用。
在这项工作中,伊利诺伊大学香槟分校的研究团队提出了 AutoVFX,这是一个能够根据单个视频和自然语言指令自动创建逼真动态视觉特效视频的框架。通过精心整合神经场景建模、基于 LLM 的代码生成和物理模拟,AutoVFX 能够提供基于物理的逼真剪辑效果,并可直接使用自然语言指令进行控制。
他们进行了大量实验来验证 AutoVFX 在各种视频和指令中的功效。定量和定性结果表明,AutoVFX 在生成质量、指令对齐、编辑多功能性和物理合理性方面远远优于所有竞争方法。
论文链接:
https://arxiv.org/abs/2411.02394
项目地址:
https://haoyuhsu.github.io/autovfx-website/