大家好,今日必读的大模型论文来啦!
1.清华团队提出“智能体医院”:医生智能体可实现自我进化
在这项工作中,来自清华大学的研究团队提出了一种名为“智能体医院”(Agent Hospital)的模拟医院,它可以模拟治疗疾病的整个过程。其中,所有病人、护士和医生都是由大型语言模型(LLM)驱动的自主智能体。
该研究的核心目标是让医生智能体学会如何在模拟环境中治疗疾病。为此,研究团队提出了一种名为 MedAgent-Zero 的方法。由于仿真系统可以根据知识库和 LLM 模拟疾病的发生和发展,医生智能体可以不断从成功和失败的病例中积累经验。
模拟实验表明,医生智能体在各种任务中的治疗效果都在不断提高。更有趣的是,医生智能体在“智能体医院”中获得的知识适用于现实世界的医疗保健基准。在治疗了约一万名患者后(现实世界中的医生可能需要花费两年多的时间),进化后的医生智能体在涵盖主要呼吸系统疾病的 MedQA 数据集子集上达到了 93.06% 的准确率。
论文链接:
https://arxiv.org/abs/2405.02957
2.具有 3D 理解能力的语言-图像模型
多模态大型语言模型(MLLMs)在各种 2D 视觉和语言任务中表现出了惊人的能力。来自德州大学奥斯汀分校、英伟达的研究团队将 MLLM 的感知能力扩展进了 3D 空间的图像基准(ground)和推理。
他们首先开发了一个大规模的 2D 和 3D 预训练数据集——LV3D,该数据集将现有的多个 2D 和 3D 识别数据集结合在一个共同的任务表述下:作为多轮问题解答;然后,他们提出了一种名为 Cube-LLM 的新型 MLLM,并在 LV3D 上对其进行了预训练。研究表明,纯粹的数据缩放可以产生强大的 3D 感知能力,而无需特定的 3D 架构设计或训练目标。
另外,Cube-LLM 具有与 LLM 相似的特性:1)Cube-LLM 可以应用思维链提示,从 2D 上下文信息中提高 3D 理解能力;2)Cube-LLM 可以遵循复杂多样的指令,并适应多种输入和输出格式;3)Cube-LLM 可接受视觉提示,如专家提供的 2D box 或一组候选 3D box。
室外基准测试表明,Cube-LLM 在 3D 基础推理 Talk2Car 数据集和复杂驾驶场景推理 DriveLM 数据集上的表现,明显优于现有基准,分别比 AP-BEV 高出 21.3 分和 17.7 分。此外,Cube-LLM 还在 MLLM 基准(如用于 2D 基础推理的 refCOCO)以及视觉问题解答基准(如用于复杂推理的 VQAv2、GQA、SQA、POPE 等)中显示出具有竞争力的结果。
论文链接:
https://arxiv.org/abs/2405.03685
项目地址:
https://janghyuncho.github.io/Cube-LLM/
3.美团提出视频生成模型 Matten,采用 Mamba-Attention 架构
在这项工作中,来自美团的研究团队提出了一种采用 Mamba-Attention 架构、用于视频生成的潜在扩散模型——Matten。Matten 采用空间-时间注意力进行局部视频内容建模,采用双向 Mamba 进行全局视频内容建模,计算成本低。
综合实验评估表明,在基准性能方面,Matten 与当前基于 Transformer 和 GAN 的模型相比具有很强的竞争力,可获得更高的 FVD 分数和效率。此外,他们还观察到所设计模型的复杂度与视频质量的改善之间存在直接的正相关关系,这表明 Matten 具有出色的可扩展性。
论文链接:
https://arxiv.org/abs/2405.03025