2024 人工智能最前沿:分享几个大模型(LLMs)的热门研究方向

引言

在人工智能领域,大模型的研究正迅速发展,当前涵盖了很多个研究方向,每个方向都带有其独特的研究重点和挑战。下面给大家盘点几个比较热门的研究方向,主要包括检索增增强生成RAG、大模型Agent、Mamba、MoE、LoRA等,这些些研究方向旨在解决大模型在实际应用中的关键问题,提高性能和实用性。希望给正在找研究方向的小伙伴一些启发。
检索增强生成RAG

检索增强生成(RAG)通过结合信息检索和文本生成来提高AI系统的性能。RAG的核心优势在于它能够利用外部知识库来辅助生成过程,从而提高生成内容的准确性和鲁棒性。结合大模型强大的生成性能,使得RAG在问答系统、文档生成、自动摘要、智能助手、信息检索和知识图谱填充等多种自然语言处理任务中都能发挥作用。研究重点包括**「检索器与生成器的集成」「跨模态应用和知识更新」。面临的挑战是如何提高「提高检索效率」「增强生成质量」「跨领域应用」等。近年来,人工智能大模型在多种任务上展现了令人瞩目的能力,但在知识整合和长期记忆方面,大模型仍存在显著缺陷。为此,OSU&斯坦福作者提出了一个新思路:让大模型也拥有一个像人脑海马体一样的"记忆操作系统"。借鉴海马体在人脑记忆中的关键作用,设计了一个名为HippoRAG的新型检索增强模型。实验表明,装备了这一"类脑"记忆系统的大模型在多种需要知识整合的任务中展现出了惊人的性能提升。AI2提出了一种自适应QA问答框架:Adaptive-RAG,该框架涵盖各种策略(简单复杂的都有),该框架可根据请求的复杂性动态的选择合适的策略,旨在提升检索增强大模型得处理不同复杂请求的响应准确性,提高了QA问答的效率!。如果仅仅依赖大模型本身的参数知识来进行文本生成,那么大模型会不可避免的产生模型幻觉。为此,人们将检索增强生成(RAG)作为大模型文本生成的辅助方法,但是RAG方法的准确性依赖于检索文本的准确性,当检索出现问题时,那么生成文本的准确性将难以保证!为此,中科大提出纠正检索增强生成:CRAG,旨在提高文本生成的鲁棒性。Infineon提出RAG-Fusion,它是一种结合了RAG和 Reciprocal Rank Fusion(RRF)的技术。具体来说,首先通过指令遵循模型生成多个请求,然后对每个生成的请求进行矢量搜索,以从预定义的集合中检索相关文档,接着应用倒数排名融合算法根据多个请求之间的相关性对文档重新排名;最后生成重新排序的文档组列表。Amazon提出了一种新方法SYNTHESIZRR,用于改进大模型(LLMs)在分类任务中的微缩化过程。传统方法通过few-shot提示生成数据集,但存在重复和偏见问题。SYNTHESIZRR通过检索增强引入多样性,「使LLM根据不同内容生成更多样化的示例」**。SYNTHESIZRR在提升词汇和语义多样性、模仿人类文本以及提高模型微缩化性能方面,均优于传统方法。

大模型Agent

今年年初业内大佬吴恩达表示,大模型Agent是为来大模型大发力点。随着大模型应用场景越来越复杂化,单纯依赖大模型的能力将面临巨大的挑战,为此用好大模型能力,构建大模型Agent将是大势所趋。微软研究人员也深入探讨了Agent AI的基础,强调了智能Agent在物理、虚拟现实、混合现实、感官交互等方面的能力,并指出Agent AI或是下一代人工智能的关键。其研究重点在于**「多任务学习」「常识推理和持续学习」**,旨在提高Agent在广泛任务上的表现和适应性。智谱提出新型自动化网页导航Agent:AUTOWEBGLM 本文提出了一个名为AUTOWEBGLM的新型自动化web导航Agent,它通过简化网页内容和使用AI技术来解决现有web Agent处理真实网页时的挑战。AUTOWEBGLM通过特别设计的算法来表示网页,保留重要信息,并利用混合人工智能方法进行训练。此外,该Agent通过强化学习和拒绝采样技术来提高对网页的理解能力和执行任务的效率。微软提出自动软件开发框架:AutoDev,这是一个完全自动化的AI驱动软件开发框架,旨在自主规划和执行复杂的软件开发任务。AutoDev可以让用户定义复杂的软件工程目标,并将这些目标分配给AutoDev的自主Agent来实现。这些Agent可以在代码库上执行多种操作,包括文件编辑、检索、构建过程、执行、测试和Git操作。Google提出了SceneCraft,它是一个创新的大语言模型Agent,能够将文本描述转换成可在Blender中执行的Python脚本,用于创建复杂的3D场景。它通过高级抽象、战略规划和库学习来解决空间规划和布局的复杂性。生成模型在软件工程中的应用已经取得了显著成果,尤其是在代码生成和调试任务中。尽管如此,这些模型在自动生成代码文档方面的潜力还未被充分挖掘。为此,清华开发了REPOAGENT,这是一个基于大型语言模型的开源框架,专门用于自动生成、维护和更新代码文档。通过一系列的评估,包括定性和定量分析,我们证明了REPOAGENT在创建高质量的代码仓库文档方面的能力。本文研究是关于怎么让那些大型的语言模型,比如ChatGPT和GPT-4,变得更厉害,特别是在处理那些复杂和需要多种技能的任务上。为此,清华开发了GITAGENT,它可以让模型自己从GitHub上找到合适的代码库,然后加到自己的工具箱里。GITAGENT工作的时候,会分四个步骤,如果遇到问题,它还会去GitHub上看看别人是怎么解决的,学习经验。对于大语言模型的规划和推理能力,不同的人有不同的看法。「亚利桑那州立大学研究人员的核心观点是:大语言模型(LLMs)自身无法进行规划推理」,但是却能在解决规划问题上发挥积极的作用。为此,作者还提出了一个新的LLM-Modulo框架,这个框架把大型语言模型和一些外部的验证工具结合起来,使LLMs在规划任务中发挥了重要作用。

Mamba

Mamba是一种选择性结构状态空间模型(Selective Structured State Space Model),其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。该技术最早由CMU提出,Mamba通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于Transformers的高级建模能力,同时避免了与Transformer相关的二次计算复杂性。其研究方向集中在提高**「长序列数据处理能力」「多模态数据处理」「计算效率」**等。近日,波兰研究团队给出的研究成果是 MoE-Mamba,即将 Mamba 和混合专家层组合起来的模型。MoE-Mamba 能同时提升SSM 和 MoE 的效率。而且该团队还发现,当专家的数量发生变化时,MoE-Mamba 的行为是可预测的。中科大等研究人员将Mamba与视觉研究结合起来,提出了Vim架构,在 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务上,与 DeiT等成熟的视觉 Transformers 相比,Vim 实现了更高的性能,同时还显著提高了计算和内存效率。例如,在对分辨率为 1248×1248 的图像进行批量推理提取特征时,Vim 比 DeiT 快 2.8 倍,并节省 86.8% 的 GPU 内存。华为诺亚方舟实验室的研究者提出了 DenseMamba,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DensessM 保留了对最终输出至关重要的精细信息。DenseSSM 在保持训练并行性和推理效率的同时,通过密集连接实现了性能提升。该方法可广泛应用于各种 SSM 类型,如 Mamba 和 RetNet。浙大将Mamba与多模型大模型结合,提出了Cobra,一个具有线性计算复杂度的MLLM,它将Mamba语言模型整合到了视觉模态中。实验结果显示,Cobra在性能上与最先进的方法相当,速度更快,尤其在处理视觉错觉和空间关系判断方面表现突出。cobra的参数量只有LLaVA的43%,但性能相当。AI21 Labs 推出并开源了一种名为Jamba的新方法,在多个基准上超越了 transformer。Mamba 的 SSM 架构可以很好地解决 transformer 的内存资源和上下文问题。然而,Mamba 方法很难提供与 transformer 模型相同的输出水平。Jamba 将基于结构化状态空间模型 (SSM)的 Mamba 模型与 transformer 架构相结合,旨在将 SSM 和 transformer 的最佳属性结合在一起。结果表明:Jamba 在长上下文上的吞吐量达到了 Mixtral 8x7B 的3倍。Jamba 比 Mixtral 8x78 等大小相当的基于Transformer 的模型更高效。

大模型高效微调(LoRA)

大模型在微调过程中,可以采取不同的策略,主要分为全量微调和参数高效微调两大类。全量微调涉及对预训练模型的所有参数进行调整,需要大量的计算资源,并有可能导致灾难性遗忘,即在提升特定任务性能的同时损失在其他领域的表现。

为了解决这些问题,参数高效微调(PEFT)技术通过仅更新模型中的一部分参数来减少训练时间和计算成本。PEFT包括多种方法,如Prefix Tuning(在输入前添加可学习的virtual tokens作为Prefix),Prompt Tuning(在输入层加入prompt tokens),P-Tuning(将Prompt转换为可学习的Embedding层,并用MLP+LSTM处理),Adapter Tuning(在模型层中插入小型神经网络模块),以及LoRA(在矩阵相乘模块中引入低秩矩阵来模拟full fine-tuning)。这些技术旨在提高训练效率,同时保持或提升模型性能。

在广泛使用的参数高效微调(PEFT)方法中,LORA 及其变体由于避免了额外的推理成本而获得了相当大的普及。LoRA显著降低了微调的成本,同时获得与全模型微调相近的效果。所以LoRA的一些改进方法也层出不穷,该方向也成了研究热点。该方向的研究重点主要在于**「参数效率」「保微调策略」「上下文扩展」「模型压缩」**等。英伟达提出了权重分解低阶适应(DORA),增强了 LoRA 的学习能力和训练稳定性,同时避免了任何额外的推理开销。实验表明DORA 在各种下游任务上的模型微调都要优于LORA。华盛顿大学提出了QLORA,该算法在保持完整的16位微调任务性能的情况下,可以实现单卡48G GPU微调650亿参数的大模型,作者公布了他们训练的系列模型Guanaco,与之前公开发布的所有模型相比,在Vicuna基准测试中表现更好,只需要在单个GPU上微调24小时就能达到ChatGPT性能水平的99.3%。MIT为了扩展Token上下文长度,提出了LongLORA微调算法,它能够在资源受限的情况下,极大的扩展预训练大模型(LLMS)的上下文长度,LongLORA可以让LLaMA2-7B的上下文从4K扩展至100K。斯坦福提出了S-LORA,它是专为众多 LORA 适配程序的可扩展服务而设计的系统,它将所有适配程序存储在主内存中,并将当前运行査询所使用的适配程序取到 GPU 内存中。S-LORA 能够以较小的开销在单个 GPU 或多个 GPU 上为数千个 LORA 适配器提供服务(同时为 2000 个适配器提供服务),并将增加的 LORA 计算开销降至最低。相比之下,LLM-packed 需要维护多个权重副本,并且由于 GPU 内存限制,只能为少于5 个适配器提供服务。

MoE

MoE其实也不是一项新的技术了,MoE全称为Mixed Expert Models。该项技术最早是由剑桥的研究人员在1991年的一篇文章(“Adaptive Mixture of Local Experts”)中提出。但是随着近年来大模型参数规模的不断拓展,以及大模型多任务的应用,该技术也成为了当前研究的热点。

我们都知道随着模型参数规模的不断增大,模型性能也会不断的提升,并会出现涌现现象,这也是当前大模型爆火的主要原因。然而,如何在有限的计算资源预算下,用更少的训练步数训练一个更大的模型呢?那么MoE技术主要就是干这件事情的。

MoE具有训练资源需求低、训练速度快、推理成本低、扩展性好以及具备多任务学习能力。它的一个显著优势是它们能够在远少于 Dense 模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下,您可以显著扩大模型或数据集的规模。特别是在预训练阶段,与Dense 模型相比,MoE模型通常能够更快地达到相同的质量水平。当前其研究重点主要集中在**「专家网络的协同」「动态路由」「专家激活率低」「模型的可扩展性」**等方向。下面是一些最近的研究进展供大家参考:2022年,Google 提出的 Switch Transformers 一定程度缓解了模型复杂性高、下游任务微调不稳定等问题。Switch Transformers 简化了 MoE 路由算法,设计了直观的改进模型,降低了通信和计算成本。Switch Transformers 的训练方法减轻了不稳定性,并且首次展示了用较低精度(bfloat16)格式训练大型稀疏模型的可能性。北大针对MoE路由机制进行了改进,提出了一种新颖的动态Expert选择框架,对于较难的任务,本文方法会选择更多的Expert来处理,对于简单的任务就用少些,这样可以更有效地利用计算资源。实验结果表明:本文动态路由方法在各种基准测试中都要优于传统的Tp-2路由方法平均提高了0.7%,同时激活的参数不到90%。微软针对MoE专家激活率低等问题,提出了多头混合专家(MH-MOE)。MH-MOE 采用了多头机制,可将每个输入 token 分成多个子 token。然后将这些子 token 分配给组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式,该方法专家激活率更高且扩展性更好,并且具有更细粒度的理解能力。ByteDance针对大模型多模态场景提出了CuMo,将MOE应用于多模态LLM,该方法在视觉编码器和多层感知器(MLP)连接器中整合了Top-K稀疏门控MOE块,有效提升了模型在多模态任务上的性能,同时保持了较低的推理成本。在不同模型尺寸的多模态任务基准测试中达到了SOTA。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/871249.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript - Ajax

Asynchronous JavaScript And XML,异步的JavaScript和XML 作用: 数据交换:通过Ajax可以给服务器发送请求,并获取服务器响应的数据。异步交互:可以在不重新加载整个页面的情况下,与服务器交换数据并更新部分网页的技术…

从台架到实车的语音识别专项测试分析笔记

(网络资源图) 一.语音识别原理及测试范围 1.语音识别的原理: ①.通过麦克风输入人的声音 ②.声学处理:处理掉杂音,噪音 ③.特征处理:提取声音中的关键因素 如:小米 xiao mi ④.模型匹配: 如xiaomi 可以匹配小米或者小蜜,需要根据前后内容计算出概率最大内容进行输出给用户确认…

Leetcode每日刷题之3.无重复字符的最长子串(C++)

1.题目解析 本题的目标是在给定的字符串中找出不含有重复字符的最长子串,并且返回其长度,这道题核心就是如何去重并且不能遗漏以保证子串长度最长,题目来源:3.无重复字符的最长子串 2.算法原理 本题的算法原理主要是"滑动窗口"也就…

自存实践本地访问 nginx放前端打包好的项目

nginx 部署前端项目_哔哩哔哩_bilibili 将打包好的dits文件放到 配置nginx.conf文件的location 启动命令 start nginx.exe 输入localhost即可访问打包好的项目 关闭nginx .\nginx.exe -s quit

Unity--XLua调用C#

Unity–XLua调用C# 由于Unity/C# 和lua是两种语言,两种语言的特性不一样,因此,如果要互相调用的话,需要第三方作桥梁. 因此,为了在Unity中/C#中使用lua的特性,需要在Unity中安装插件,Xlua/toLu…

IDEA2024中,解决建多级包时不分级显示问题

点击右上角的三个点-----外观----不勾选“压缩空的中间软件包”、“平展软件包”这两项即可。

新加坡vps好不好?新加坡vps深度评测

新加坡vps好不好?新加坡VPS是一个好的选择。其优势在于地理位置优越、网络连接快速以及价格合理;劣势在于带宽资源有限、供应商众多导致选择困难、以及安全性和隐私保护问题。下面小编将针对新加坡vps优劣势进行详细分析: 新加坡VPS的优势&a…

水水水水水水水水水水水水水水水水水水水

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和技术。关…

RIPRO主题美化-首页底部纯标题文章展示模块+网站统计模块美化 WordPress主题美化

教程 1、找到wp-content/themes/ripro/assets/css/diy.css并将附件内的diy.css内容整体复制进去并保存 2、找到wp-content/themes/ripro/parts/home-mode/ulist.php并将附件内的ulist.php上传进去替换即可 3、找到wp-content/themes/ripro/functions.php并将附件内的functio…

第N11周:seq2seq翻译实战-Pytorch复现

任务: ●为解码器添加上注意力机制 一、前期准备工作 from __future__ import unicode_literals, print_function, division from io import open import unicodedata import string import re import randomimport torch import torch.nn as nn from torch impor…

QT-监测文件内容重复工具)

QT-监测文件内容重复工具 一、演示效果二、核心代码三、下载链接 一、演示效果 二、核心代码 #include "widget.h" #include "ui_widget.h" #include <QDir> #include <QFile> #include <QCryptographicHash> #include <QApplicatio…

Ubuntu 添加 GitLab 官方仓库报错“curl is unable to connect to packagecloud.io over TLS”

Ubuntu 安装 Gitlab 报错“curl is unable to connect to packagecloud.io over TLS” 1 现象2 问题排查3 解决方案4 验证 1 现象 Ubuntu 上添加 GitLab 官方仓库时报错“……curl is unable to connect to packagecloud.io over TLS……” 2 问题排查 终端提示中给出两种可…

局部归纳偏置真的有必要吗?探索 Transformer 新范式:一个像素就是一个 token!

本文目录 1 一个像素就是一个 token&#xff01;探索 Transformer 新范式 (来自 FAIR, Meta AI&#xff0c;阿姆斯特丹大学) 1 PiT 论文解读 1.1 局部性这个归纳偏置可以在 Transformer 中去除 1.2 ConvNets 中的局部性 1.3 ViTs 中的局部性 1.4 像素 Transformers 1.5 实验1&a…

SpringBoot事务-调度-缓存

一.Spring Boot中的事务管理 设置事务 Transactional(isolation Isolation.DEFAULT) Transactional(propagation Propagation.REQUIRED) 开启事务 EnableTransactionManagement 1. 开启事务管理 要开启 Spring 的事务管理&#xff0c;你需要在你的 Spring Boot 应用中添加 …

宋红康JVM调优思维导图

文章目录 1. 概述2. JVM监控及诊断命令-命令行篇3. JVM监控及诊断工具-GUI篇4. JVM运行时参数5. 分析GC日志 课程地址 1. 概述 2. JVM监控及诊断命令-命令行篇 3. JVM监控及诊断工具-GUI篇 4. JVM运行时参数 5. 分析GC日志

【数字ic自整资料】AXI握手协议及outstanding

参考资料&#xff1a; ic基础|时序篇&#xff1a;握手协议valid和ready的时序优化_valid和ready握手信号-CSDN博客 https://zhuanlan.zhihu.com/p/365573848 1、AXI握手协议 当我们遇到时序违例时&#xff0c;通常采用的方式为插入寄存器&#xff08;打拍&#xff09;或者是…

手机视频转换mp4格式:轻松实现格式转换的实用指南

随着智能手机的普及和移动互联网的飞速发展&#xff0c;手机视频已成为我们生活中不可或缺的一部分。然而&#xff0c;不同平台、不同应用产生的视频格式繁多&#xff0c;给视频分享、播放带来了诸多不便。我们经常会有疑问&#xff1a;怎么把手机视频转换mp4格式&#xff1f;为…

8.20 roles的基本用法+使用剧本安装nginx

安装nginx并更改其端口 创建目录 mkdir /etc/ansible/playbook 编辑配置文件 vim /etc/ansible/palybook/nginx.yml --- - hosts: s remote_user: root tasks: - name: 卸载httpd yu…

基于Conda的Python版本管理与Python包管理

文章目录 前言Conda是什么Conda与Anaconda安装Anaconda安装包windows v2024.06-1安装包更多版本安装包(Windows/Mac/Linux) 安装添加环境变量安装过程中遇到的问题 使用步骤创建Python环境激活Python环境安装Python包列出和切换 Python 版本管理多个环境 总结 前言 开发环境中…

Java 数据结构和集合框架

数据结构 数据结构是计算机科学中用于组织、管理数据的一种特殊方式&#xff0c;它能够有效地存储和检索数据。在Java中&#xff0c;数据结构通常通过集合框架&#xff08;Collection Framework&#xff09;来实现&#xff0c;它提供了一系列接口和类来帮助我们高效地处理数据…