资讯
研究
ICLR 2024 | 连续学习不怕丢西瓜捡芝麻,神经形态方法保护旧知识
https://mp.weixin.qq.com/s/-inS55h-MSUX51Kj061big
来自北京大学林宙辰教授团队的研究者们提出了一种新的基于赫布学习的正交投影的连续学习方法,其通过神经网络的横向连接以及赫布与反赫布学习,以神经形态计算的方式提取神经元活动的主子空间并对突触前神经元的活动迹进行投影,实现了连续学习中对旧知识的保护。HLOP 首次展示了更有数学保障的正交投影的思想能够如何在神经元运算中实现,以及横向神经回路和赫布学习等生物特性可能如何支持神经计算系统的高级能力。论文被机器学习顶会 ICLR 2024 接收。
保真度高达~98%,广工大「AI+光学」研究登Nature子刊,深度学习赋能非正交光复用
https://mp.weixin.qq.com/s/Wjc9FVFRb7-EI0TJv5prYg
通道之间的正交性在光复用中扮演着关键的角色。它确保了不同通道之间的信号不会相互干扰,从而实现了高效的数据传输。因此,光复用系统可以同时传输多个通道的数据,提高了光纤的利用率。然而,它不可避免地施加了复用容量的上限。在此,广东工业大学通感融合光子技术教育部重点实验室开发一种基于深度神经网络的多模光纤(MMF)上的非正交光复用,称为散斑光场检索网络(Speckle light field retrieval network,SLRnet),它可以学习包含信息编码的多个非正交输入光场与其对应的单强度输出之间的复杂映射关系。通过原理验证实验,SLRnet 可以有效解决 MMF 上非正交光复用的不适定问题,可以利用单发散斑输出明确地检索由相同偏振、波长和空间位置介导的多个非正交输入信号,保真度高达 ~ 98%。这一研究为利用非正交通道实现高容量光复用迈出了重要一步。该研究不仅将激发光学和光子学领域的各种潜在应用,还将激发信息科学与技术更广泛学科的探索。
产业
英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
https://mp.weixin.qq.com/s/EsFkd_isPz2J5wap6KaF5A
「这不是演唱会。你们是来参加开发者大会的!」老黄出场时,现场爆发出了巨大的欢呼声。今天凌晨四点,加州圣何塞,全球市值第三大公司英伟达一年一度的 GTC 大会开始了。今年的 GTC 大会伴随着生成式 AI 技术爆发,以及英伟达市值的暴涨。相对的是,算力市场也在升温,硬件和软件方面的竞争都在加剧。而英伟达带来的产品,再次将 AI 芯片的标杆推向了难以想象的高度。「通用计算已经失去动力,现在我们需要更大的模型,我们需要更大的 GPU,更需要将 GPU 堆叠在一起。」黄仁勋说道。「这不是为了降低成本,而是为了扩大规模。」黄仁勋提到,大模型参数量正在呈指数级增长,此前 OpenAI 最大的模型已经有 1.8T 参数,需要吞吐数十亿 token。即使是一块 PetaFLOP级的 GPU,训练这样大的模型也需要 1000 年才能完成。这句话还透露了一个关键信息:GPT-4 的实际参数量应该就是 1.8 万亿。为了帮助世界构建更大的 AI,英伟达必须首先拿出新的 GPU,这就是 Blackwell。此处老黄已有点词穷了:「这是块非常非常大的 GPU!」Blackwell 的发布意味着,近八年来,AI 算力增长了一千倍。一些网友看完发布会惊叹:Nvidia eats world!
英伟达 GTC 大会不仅有 AI 芯片,还有 AI for Science
https://mp.weixin.qq.com/s/3UvokVFkr6a6s_uqZ_bPvA
北京时间 2024 年 3 月 18 日上午,NVIDIA 在 GTC 大会的媒体吹风会上透露,NVIDIA 有众多 AI for Scinece 领域的战略内容在布局,包括健康医疗、生命科学、物理学、地球科学等多个 AI 交叉领域。
支持百亿参数大模型、卢伟冰现场官宣小米首发,高通骁龙8s Gen3发布
https://mp.weixin.qq.com/s/eBbn8rfxLzC6zrw9dIPVqQ
高通最强手机芯片骁龙 8 Gen3 迎来了一款与它同源的「旗舰级」产品。3 月 18 日,高通正式推出了第三代骁龙 8s 移动平台(骁龙 8s Gen3),凭借旗舰级的 CPU、GPU 和 AI 性能,全方位支持了强大的终端侧生成式 AI 功能、始终感知的 ISP、超沉浸的移动游戏体验、突破性连接能力和无损高清音频。当然,大家最为关心的恐怕是哪家手机厂商会率先搭载这款旗舰芯片。在活动现场,小米集团总裁、小米品牌总经理卢伟冰官宣小米 Civi 4 Pro 将全球首发骁龙 8s Gen3。同时,红米 Redmi 也会推出搭载这款芯片的产品系列。
阿里大模型产品“通义听悟”升级:超长视频自由问,还会做思维导图
https://www.ithome.com/0/756/690.htm
今日阿里大模型产品“通义听悟”发布多项新功能,上线音视频问答助手“小悟”、一键 AI 改写、思维导图生成等六大功能。通义听悟接入通义千问大模型,融合了十多项 AI 功能,包括转写、翻译、角色分离、全文摘要、章节速览、发言总结、PPT 提取等,并支持标重点、记笔记。通义听悟本次升级上新了六大功能点,其中最重磅的是音视频问答助手“小悟”,关键信息直接“问”出来。小悟通过多语言 Query 处理、长篇章文本理解、指令演化框架优化及检索增强生成算法,在业内首次实现对超长音视频的单记录、跨记录、多语言自由问答,支持内容问答的音视频时长和文件数均突破业界上限。
OpenAI GPT商店发展缓慢:多数GPT没有用户,开发者信心受损
https://new.qq.com/rain/a/20240319A00N1V00
据国外媒体报道,借助ChatGPT取得的巨大成功,OpenAI首席执行官山姆·奥特曼(Sam Altman)在去年秋天宣布推出GPT商店。类似于苹果iPhone与开发者的共赢模式,OpenAI曾希望第三方开发人员能够利用该公司的技术,向ChatGPT用户开发和销售对话式AI应用。然而在奥特曼宣布推出GPT商店4个月之后,一些通过该商店提供聊天机器人的开发者表示,他们对自己的产品缺少用户感到失望。开发者还表示,在用户分析方面,他们几乎没有得到OpenAI的支持。OpenAI还限制非ChatGPT付费用户访问GPT商店,并且也不允许开发者对GPT收费。向应用开发人员(包括为GPT商店开发应用的开发人员)出售分析工具的基里尔·德莫奇金(Kirill Demochkin)说:“人们觉得OpenAI已经放弃了GPT商店。”
Hinton、Bengio等联合中国专家达成AI安全共识:AI系统不应违反红线
https://mp.weixin.qq.com/s/qeiZ1zkFoK4XZInBRGHRHw
现阶段,人工智能的发展速度已经超出了人们最初的预想,用 AI 工具写文章、编代码、生成图片、甚至是生成一段电影级别的视频…… 这些在以前看似非常艰难的任务,现在只需用户输入一句提示就可以了。我们在感叹 AI 带来惊艳效果的同时,也应该警惕其带来的潜在威胁。在此之前,很多知名学者以带头签署公开信的方式应对 AI 带来的挑战。现在,AI 领域又一封重磅公开信出现了。上周在颐和园召开的「北京AI国际安全对话」,为中国和国际AI安全合作首次搭建了一个独特平台。这次会议由智源研究院发起,图灵奖得主Yoshua Bengio和智源学术顾问委员会主任张宏江担任共同主席,Geoffrey Hinton、Stuart Russell 、姚期智等三十余位中外技术专家、企业负责人开展了一次关于 AI Safety 的闭门讨论。这次会议达成了一项 Bengio、Hinton 与国内专家共同签名的《北京 AI 安全国际共识》。
推特
Jim Fan介绍GR00T:将使机器人能够理解多模态指令,如语言、视频和演示,并执行各种有用的任务
https://x.com/DrJimFan/status/1769860044324319658?s=20
今天是我们在物理世界中解决具身AGI的登月计划的开始。我非常兴奋地宣布GR00T项目,这是我们创建人形机器人学习通用基础模型的新倡议。GR00T模型将使机器人能够理解多模态指令,如语言、视频和演示,并执行各种有用的任务。我们正在与世界各地许多领先的人形机器人公司合作,以便GR00T可以在不同的机器人之间转移,并帮助生态系统繁荣发展。
GR00T诞生于NVIDIA的深度技术堆栈。我们在Isaac Lab(Omniverse Isaac Sim上的新人形机器人学习应用)中进行模拟,在OSMO(新的计算编排系统,用于扩展模型)上进行训练,并部署到Jetson Thor(新的边缘GPU芯片,旨在为GR00T提供动力)。
在Jensen的主题演讲中宣布,GR00T项目是新成立的GEAR实验室"基础智能体"路线图的基石。在GEAR,我们正在构建具有一般能力的智能体,它们可以学习在许多虚拟和现实世界中熟练地行动。看看你能否在视频中发现"GEAR";)加入我们登月之旅吧。
暂时无法在飞书文档外展示此内容
LeCun:即使我们的语言能力被中风破坏,我们仍然可以思考
https://x.com/ylecun/status/1769768065712177615?s=20
即使我们的语言能力被中风破坏,我们仍然可以思考。
语言是表达思想的一种方式,但思想、记忆和推理可以在没有语言的情况下存在。
我最喜欢这篇麻省理工学院文章中的一句话:"这个语言系统似乎与我们计划、记忆、回忆过去和未来、在社交情况下进行推理、体验同理心、做出道德决定以及构建自我形象的能力相关的区域是不同的。因此,我们日常认知经历的很大一部分似乎与语言本身无关。"
引用 Kostas Daniilidis
@ylecun ++: "成年人大脑中语言系统的损伤会使大多数其他认知功能保持完整。"有充分的证据表明,在语言能力消失后,推理仍然可以发生:https://mcgovern.mit.edu/2019/05/02/ask-the-brain-can-we-think-without-language/
DeepLearningAI:高效服务大语言模型,从头学习如何构建优化的大语言模型推理系统
https://x.com/AndrewYNg/status/1769761666143814122?s=20
在我们与 @predibase 合作推出的新短期课程"高效服务大语言模型(Efficiently Serving LLMs)"中,从头学习如何构建优化的大语言模型推理系统。该课程由 @TravisAddair 讲授。
无论你是在服务自己的大语言模型还是使用模型托管服务,本课程都将让你深入了解同时高效服务多个用户所需的优化。
-
了解大语言模型如何一次生成一个token的文本,以及KV缓存、连续批处理和量化等技术如何加速并优化服务多个用户的内存使用。
-
对这些大语言模型优化的性能进行基准测试,探索快速响应单个用户请求与同时服务多个用户之间的权衡。
-
使用低秩自适应(LoRA)等技术在单个设备上高效服务数百个独特的自定义微调模型,而不牺牲吞吐量。
-
使用Predibase的LoRAX框架,在真实的大语言模型服务器上看到优化技术的实际应用。
在此注册:https://deeplearning.ai/short-courses/efficiently-serving-llms
暂时无法在飞书文档外展示此内容
Pietro Schirano:Claude如何指挥子代理构建一个完整的绘图应用程序
https://x.com/skirano/status/1769775481245585883?s=20
Claude Opus协调子代理的能力绝对是疯狂的,值得更多关注。
看看Claude如何指挥子代理构建一个完整的绘图应用程序。🧙♂️
如果你愿意,我可以分享这段代码,它基本上可以一步一步地解决你提出的任何目标。
就像Devin一样!
暂时无法在飞书文档外展示此内容
更多OpenAI Sora 视频
https://x.com/LinusEkenstam/status/1769695358555427317?s=20
prompt:Elephant made out of leaves
树叶做成的大象
暂时无法在飞书文档外展示此内容
YOLO v9发布,比之前的任何YOLO版本都更快、更准确,超过了所有基于卷积或Transformer的模型
https://x.com/akshay_pachaar/status/1769703955070607420?s=20
YOLO v9发布了!这是实时目标检测的最新技术! 它比之前的任何YOLO版本都更快、更准确,超过了所有基于卷积或Transformer的模型。它带来了两个新功能:
-
可编程梯度信息(PGI) ,允许YOLO v9更有效率和效果地学习,从而得到更准确的模型。
-
广义高效层聚合网络(GELAN) ,使其能够更快地处理图像。
只需3行代码即可使用Ultralytics运行它!
from ultralytics import YOLO
model = YOLO ('yolo9c.pt')
results = model.predict('path/to/image.jpg')
暂时无法在飞书文档外展示此内容
Inversion:结构化大语言模型,以更少的资源做更多的事情
https://x.com/jrysana/status/1769786911030186111?s=20
介绍我们的结构化大语言模型家族 Inversion。我们的第一代模型在结构化任务方面表现出色,提供无与伦比的速度、延迟、可靠性和效率,同时提供业界最全面的类型化JSON输出支持。Inversion: fast, reliable structured LLMs - Rysana
暂时无法在飞书文档外展示此内容
Tizkova分析Agent可视化图:大脑=数据库+ 大语言模型,手和脚 = 工具,脸 = 前端和UI
https://x.com/tereza_tizkova/status/1769728977529197018?s=20
Tereza Tizkova:当我第一次探索人工智能代理时,我看到了@swyx的"自主解剖"可视化图。代理的定义仍然不确定,所以我正在尝试制作自己的可视化图。你认为还缺少什么?
大脑 = 数据库(例如,@pinecone)+ 大语言模型(OpenAI,MistralAI,...)为"快速"思维提供动力 + 代码解释器,允许更复杂的推理,如数学和逻辑问题、多步骤任务,或一般需要运行代码的任务。
手和脚 = 工具,可以是很多东西,例如搜索互联网、访问上传的数据、定义新函数或创建文件。使用工具是代理随机大脑的结果,因此需要在安全的环境中完成(如@e2b_dev)。
脸 = 前端和UI,用于与人类进行最佳交流。我认为开发人员越来越意识到,围绕代理构建的产品与技术同等重要。
Cohere Embed V3 - int8 & 二进制支持,将向量数据库成本降低4倍到32倍
https://x.com/Nils_Reimers/status/1769809006762037368?s=20
Cohere Embed V3 - int8 & 二进制支持
我很高兴推出对 Cohere Embed V3 的 int8 & 二进制嵌入的原生支持。它们将你的向量数据库成本降低了4倍到32倍,同时保持95%到100%的搜索质量。https://txt.cohere.com/int8-binary-embeddings/
论文
MoPE:通过Prompt专家混合实现参数高效和可扩展的多模态融合
链接:http://arxiv.org/abs/2403.10568v1
在融合多模态任务的单模基础模型时,提示微调在参数效率方面表现出色。然而,由于其有限的适应性和表现力,与其他调整方法相比,其性能不佳。本文通过解开普通提示,从而自适应地捕捉数据集级和实例级特征来解决这一问题。在此解开基础之上,我们引入了提示专家混合(MoPE)技术以增强表现力。MoPE利用多模态配对先验在每个实例上路由最有效的提示。与普通提示相比,我们基于MoPE的条件提示展现出更大的表现力,与训练数据和总可训参数数量更好地扩展。我们还研究了专家路由的正则化术语,导致涌现专家专长,不同专家专注于不同概念,实现可解释的软提示。在三个多模态数据集上进行的广泛实验表明,我们的方法实现了最先进的结果,达到或甚至超过微调的性能,同时仅需0.8%的可训练参数。代码将发布在:https://github.com/songrise/MoPE。
从人类反馈中学习的参数高效的 强化学习
链接:http://arxiv.org/abs/2403.10704v1
强化学习来自人类反馈(RLHF)已被证明是一种有效的方法,用于使预训练的大语言模型(LLMs)与人类偏好保持一致。但使用RLHF训练模型计算成本高,是一个复杂的过程。在这项工作中,我们研究了在使用Hu等人(2021年)引入的低秩适应(LoRA)参数高效方法来训练基础模型的RLHF。我们研究了"参数高效强化学习"(PERL)的设置,在其中我们使用LoRA进行奖励模型训练和强化学习。我们将PERL与传统的微调(全调优)在7个基准测试中进行比较,包括奖励建模和强化学习的两个新数据集。我们发现PERL的表现与传统的RLHF设置相当,训练速度更快,占用的内存更少。这使得RLHF能够高效运行,同时减少了计算负担,限制了其作为大语言模型对齐技术的采用。我们还发布了两个新的好评/差评偏好数据集:"任务大师咖啡"和"任务大师售票",以促进围绕RLHF的研究。
探索大语言模型的代码生成能力:辅助函数
链接:http://arxiv.org/abs/2403.10575v1
摘要:辅助函数是提高语言模型代码生成能力的有用组成部分。然而,对它们如何影响的系统性探索尚未完成。在这项工作中,我们全面评估了最近的代码预训练语言模型中编码的辅助函数的利用能力。我们首先构建了一个人工设计的评估集,称为HumanExtension,其中包含两个函数的示例,其中一个函数辅助另一个函数。通过HumanExtension,我们设计了几个实验来多方面检验它们的能力。我们的评估过程使我们全面了解了在提示中包含辅助函数在有效性和稳健性方面的情况。另外,实现风格分析捕获了模型在访问辅助函数时的各种实现模式。通过这个分析,我们发现了模型实现两个函数逐步改进的潜力。然而,我们的分析也揭示了模型调用辅助函数的被低估行为,建议未来通过引出模型中编码的辅助函数调用能力来增强它们的实现方向。我们发布了代码和数据集,以促进这一研究方向。
超越静态评估:评估智能助手API调用能力的动态方法
链接:http://arxiv.org/abs/2403.11128v1
随着大语言模型(LLMs)的兴起,人工智能助手利用工具的能力,尤其是通过API调用,显著提高。现有研究往往采用静态评估方法,基于预定义的对话历史评估人工智能助手的API调用。在我们的框架中,我们致力于模拟人类与人工智能助手在对话中的真实模式,使用基于大语言模型的用户智能体,并配备用户脚本以确保与人类的一致性。实验结果表明,自动动态评估(AutoDE)揭示了静态评估忽视的错误,更贴近于人类评估。通过我们设计的基准测试四个人工智能助手,我们的方法与人类评估的相关性达到0.99,比传统的静态评估提高了8%。
产品
AI Article Writer
https://writesonic.com/ai-article-writer-generator
AI Article Writer 借助 LLMs 和先进的网络抓取技术,按照用户要求深入分析大量相关文章,生成最新的、基于事实的内容,并控制文章的长度。这种工具可以帮助用户节省时间,提升内容质量,并且适应搜索引擎优化(SEO)的需求,使内容更具吸引力和可信度。
ChaturJi
https://www.chaturji.ai/
Chaturji 以世界顶尖的人工智能模型为基础,让用户可完全自定义的提示库,将强大的团队协作功能集成到一个平台上,实现高效办公。它由 Ignite Solutions 的创始人 Anand Shah 开发,提供灵活性、协作性、易用性,用户可以实现多类型的文档处理,制作适合业务的提示库并实时更新,团队共享文档与 AI 一起办公,以满足团队的需求。
HuggingFace&Github
Clarity-Upscaler:图像细致化完善
https://github.com/philz1337x/clarity-upscaler
这个存储库开源了有关图像细致化提升的 AI 应用程序,可以帮助已有图片进行细致化完善,让画中的风格,人物更具有特点,更加真实。
Skyvern
https://github.com/Skyvern-AI/skyvern
Skyvern 的灵感来自于 BabyAGI 和 AutoGPT 推广的任务驱动自主代理设计,而Skyvern 能够使用浏览器自动化库(如 Playwright)与网站进行交互,用 LLMs 计算机视觉自动执行基于浏览器的工作流,它提供了一个简单的 API 端点,可以完全自动化手动工作流程,取代不可靠的自动化解决方案。
投融资
BigID完成6000万美元融资,致力于数据安全与合规并购
https://www.govinfosecurity.com/bigid-raises-60m-eyes-ma-around-data-security-compliance-a-24632
数据安全公司BigID在由Riverwood Capital领投的增长轮融资中筹集了6000万美元,以加速公司在数据安全和合规方面的有机和非有机扩张。BigID将继续发展其新数据卫生能力,并引入新的控制措施以检测和跟踪对敏感数据的模型访问。公司自2016年成立以来,已累计筹集资金超过3.2亿美元,并保持了超过10亿美元的独角兽估值。BigID在全球数据隐私合规软件供应商中排名第四,市场份额为8.1%,但增长率低于行业平均水平。公司致力于保护关键数据,特别是在大型语言模型和非结构化数据管理领域。
Sensor Tower收购市场情报平台data.ai
https://www.finsmes.com/2024/03/sensor-tower-acquires-data-ai.html#google_vignette
2024年3月18日,美国旧金山的应用分析公司Sensor Tower宣布收购同地的市场情报平台data.ai(原名App Annie),具体金额未公开。此次交易由Bain Capital Credit领投,Riverwood Capital跟投,Paramark Ventures也进行了新的投资。收购后,Sensor Tower将扩大客户群,包括已使用data.ai工具的微软、Sky和Bandai Namco等大品牌。预计此次合并将大幅提升数据准确性、全球覆盖范围和产品供应的广度,服务于超过2000家企业客户。Sensor Tower由首席执行官Oliver Yeh领导,提供移动应用和出版商的高级数据;data.ai由首席执行官Ted Krantz领导,利用人工智能统一消费者和市场数据,为全球超过1400名客户提供数字体验。
非凡产研:2024年2月全国AIGC行业月报-资本篇
https://mp.weixin.qq.com/s/A-BQCqz2uPM_HzSJEXklwA
2024年2月,全球AIGC(人工智能生成内容)行业融资总额达229.6亿元人民币,融资次数40次,其中B轮及以后轮次融资规模占比93.0%。月之暗面科技有限公司是本月获最高融资金额的企业,约71亿元人民币,由阿里巴巴领投。中美在AIGC领域的投资表现突出,中国在年内累计完成42次融资,超过美国的31次。此外,欧洲的法国和英国也展现了活跃的投资态势。全球对AIGC技术的兴趣和投资意愿普遍高涨,尽管规模上不及美中,但为行业多元化和创新提供了支持。
学习
LLM推理:首token时延优化与System Prompt Caching
https://zhuanlan.zhihu.com/p/687685636?utm_psn=1753416164980862977
本文讨论了大语言模型(LLM)推理中的首token时延优化问题,强调了首token时延对用户体验的重要性,并提出了System Prompt Caching作为优化方法。文章解释了生成首token的时间与模型参数、Prompt长度等因素的关系,并介绍了System Prompt Caching的两种形式:Prefix Sharing和Prompt Cache,以及它们如何减少重复计算和提高首token生成速度。此外,提到了Nvidia的TensorRT-LLM推理引擎已支持System Prompt Caching功能,并期望未来版本能解决与FP8 KV Cache、INT8 KV Cache的兼容性问题。最后,作者推荐了Triton & TRT-LLM作为LLM推理解决方案。
能够大海捞针的LLM 会导致 RAG 消亡么?
https://zhuanlan.zhihu.com/p/687607855?utm_psn=1753413934617747456
文章探讨了大型语言模型(LLM)在长上下文处理能力上的进步,特别是“大海捞针”的能力,即在处理大量信息时能够准确回答问题。尽管LLM在这一领域取得了显著进展,但文章认为检索增强型生成模型(RAG)仍然不可或缺。RAG在处理复杂数据、多路召回和重排序方面具有优势,而LLM则在长上下文理解和逻辑推理方面表现出色。文章强调,尽管LLM的技术在不断进步,但RAG作为一个产业,其多场景应用潜力尚未充分挖掘,两者在未来的AI技术中将共同发挥作用。
LLM推理:MoE架构利好国产AI芯片
https://zhuanlan.zhihu.com/p/687770014?utm_psn=1753413733811167232
文章讨论了大语言模型(LLM)采用的MoE(Mixture-of-Experts)架构及其对国产AI芯片的影响。MoE架构通过动态选择子专家模型处理不同输入,减少计算量,适用于大规模参数模型如Grok-1。MoE-LLM模型推理适合专家并行,即将子专家模型分布到多个推理加速芯片上。国产AI芯片在处理MoE-LLM推理任务上具有潜力,尤其是对于参数规模较小的LLM模型。随着MoE架构的发展,国产AI芯片有望支持未来更大规模的模型推理。
多模态LLM系列调研 - 4 | Fuyu、MiniGPT4-v2、Qwen-vl、CogVLM
https://zhuanlan.zhihu.com/p/672027715?utm_psn=1753413535236136960
本文是关于多模态大型语言模型(LLM)的系列调研第四篇,介绍了几个新的多模态LLM模型,包括Fuyu-8B、MiniGPT4-v2、Qwen-vl和CogVLM。Fuyu-8B采用直接将图像patch嵌入到Transformer的方法,支持任意分辨率图像,无需image encoder,简化了训练和推理过程。MiniGPT4-v2通过Visual encoder、linear layer和LLM的组合,提升了图像分辨率处理能力和多任务学习效率。Qwen-vl支持多图交错对话,采用Openclip ViT-bigG作为视觉编码器。CogVLM在大型预训练语言模型的每一层中添加了视觉专家模块,实现了图像和文本特征的深度融合。这些模型在多模态理解和交互方面展现了先进的技术进展。
声明
本文档仅供学习交流使用,版权归原作者所有,若涉侵权,请联系Jack Jin 15101136166