大模型日报-20240201

大模型最新资讯

- 2024，AI for Science 如何赋能科研第一线？
- 大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增
- 马斯克：Neuralink首次将芯片植入人体，产品已在路上
- 小扎官宣Code Llama重量级更新，新增70B版本，但还有能力限制
- 讯飞星火开源-13B 大模型发布，针对国产软硬件环境深度优化
- 苹果 iOS 史上最大更新！Siri 要上大模型了
- Jina AI 发布中英和英德双语 8K 向量模型，即刻开源！
- Reddit牛人自制加强家用GPU设置，eBay赌赢五张A100s，闲鱼五个SXM4->PCIE适配器
- Chatbot Arena 排行榜现在增加模型知识截止日期
- Google Research@ NYC 闪电演讲：Google研究如何致力于将语音、翻译和语言处理技术扩展到世界上最常用的1,000种语言
- Swif.ai
- AirBrush Studio——证件照片合成编辑
- 蓝驰创投、西湖科创投相中这家AIGC公司联手浙大团队共同研发
- 随机 Transformer
- 写在跨年之前：聊聊LLM Agents的现状，问题与未来

2024，AI for Science 如何赋能科研第一线？

在这里插入图片描述
https://mp.weixin.qq.com/s/o39kq1SRcIwUJdlGx_mYlQ

科技的新篇章正在被撰写：AI for Science——将人工智能与科学研究深度结合，利用 AI 的技术和方法来学习、模拟、预测自然和人类社会的各种现象和规律。这不仅能够推动科学的发现，也悄无声息地改变着我们的生活。AI 技术的大爆发，正催动着科研领域的剧变。AI for Science 这一科研新范式，正以前所未有的速度改变人类探索未知的进程。无论是预测气候变化、探索外星奥秘、研发新药，还是预警灾害发生、发现生命奥义……AI 都展现出了无比强大的潜力。以下 6 个精彩案例，将为大家展示 NVIDIA 如何为科学研究的发展注入新动能！

大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增

在这里插入图片描述

https://mp.weixin.qq.com/s/HlgpNkjZAQm7Q-ffk3Qfmw

大型语言模型（LLM）通常拥有数十亿的参数，用了数万亿 token 的数据进行训练，这样的模型训练、部署成本都非常高。因此，人们经常用各种模型压缩技术来减少它们的计算需求。一般来讲，这些模型压缩技术可以分为四类：蒸馏、张量分解（包括低秩因式分解）、剪枝和量化。其中，剪枝方法已经存在了一段时间，但许多方法需要在剪枝后进行恢复微调（RFT）以保持性能，这使得整个过程成本高昂且难以扩展。为了解决这一问题，来自苏黎世联邦理工学院、微软的研究者提出了一个名为 SliceGPT 的方法。SliceGPT 的核心思想是删除权重矩阵中的行和列来降低网络的嵌入维数，同时保持模型性能。研究人员表示，有了 SliceGPT，他们只需几个小时就能使用单个 GPU 压缩大型模型，即使没有 RFT，也能在生成和下游任务中保持有竞争力的性能。目前，该论文已经被 ICLR 2024 接收。

马斯克：Neuralink首次将芯片植入人体，产品已在路上

在这里插入图片描述

https://mp.weixin.qq.com/s/dsDgkgG8zt1TELbGTmveAA

马斯克的脑机接口公司 Neuralink，终于开始人体临床研究了。今天早晨，伊隆・马斯克宣布了一个重要消息。根据他在推特上的说法，Neuralink 已在上周日首次将脑机接口设备植入了一个人体，患者「恢复良好」。这是 Neuralink 在去年获得 FDA 批准开展人体临床研究，于秋季开始招募患者后进行的首次人体临床试验。也是 Neuralink「脑后插管」技术通往商业化道路上的最新一步。

小扎官宣Code Llama重量级更新，新增70B版本，但还有能力限制

在这里插入图片描述

https://mp.weixin.qq.com/s/od_YI7MVh_gThffcSM4xAg

今天，Meta 正式发布 Code Llama 70B，这是 Code Llama 系列有史以来最大、性能最好的型号。小扎：我们正在开源一个全新的改进版 Code Llama，包括一个更大的 70B 参数模型。编写和编辑代码已成为当今人工智能模型最重要的用途之一。事实证明，编写代码的能力对于人工智能模型更严谨、更合理地处理其他领域的信息也非常重要。我为这一进展感到自豪，并期待着将这些进展纳入 Llama 3 和未来的模型中。

讯飞星火开源-13B 大模型发布，针对国产软硬件环境深度优化

在这里插入图片描述

https://www.ithome.com/0/748/030.htm

在今日下午的讯飞星火认知大模型 V3.5 升级发布会上，科大讯飞推出了“星火开源大模型”。据介绍，星火开源大模型是根据去年 5 月的星火 1.0 版本（13B）改进而来，增加了数据、能力、针对应用场景的工具链，并且针对国产安全可控进行了更系统性的设计。

苹果 iOS 史上最大更新！Siri 要上大模型了

在这里插入图片描述

https://mp.weixin.qq.com/s/4p4ZIt3kAY_kgnuaKIuAnw

苹果到底会以什么方式将大模型落地到自己的产品体系中？在科技巨头们纷纷推出搭载 AI 功能的软件和硬件以及服务，试图在人工智能领域占据一席之地时，苹果似乎一直保持着一种审慎的态度。不过，去年 10 月，有分析师透露，苹果可能计划在 2024 年底，通过 iOS 18 和 iPadOS 18 的发布，开始引入生成式 AI 功能。而现在，随着一些新的动态浮出水面，似乎可以窥见苹果在这一领域的新动向。根据彭博社报道，苹果将在今年 6 月的 WWDC 中推出带有重磅 AI 功能的 iOS 18，其分析师 Mark Gurman 更是将 iOS 18 视为「苹果历史上最大的 iOS 更新之一，甚至是最大的更新」。此前在去年 11 月，彭博社就报道称，苹果希望 iOS 18 能成为其多年来最「雄心勃勃、最引人注目」的更新。

Jina AI 发布中英和英德双语 8K 向量模型，即刻开源！

https://mp.weixin.qq.com/s/T-2EB1LfZKhueidIGW1x0w

Jina AI发布了中英和英德双语的8K向量模型，这是全球首个支持8K双语文本的开源向量模型。这些模型基于JinaBert架构，专为长文本任务优化，能处理高达8k token的输入，实现多粒度向量表示，显著提升长文本处理能力。双语模型能将不同语言映射到同一向量空间，减少语言偏见，支持无缝跨语言交互。Jina Embeddings v2在MTEB排行榜上性能领先，与OpenAI的ada 002模型输出一致，是理想的开源替代方案。模型轻巧，无需GPU，易于在普通硬件上运行，且与OpenAI API兼容，便于集成。Jina AI计划继续扩展多语言模型家族，推动多模态AI领域的发展。

Reddit牛人自制加强家用GPU设置，eBay赌赢五张A100s，闲鱼五个SXM4->PCIE适配器

在这里插入图片描述

https://x.com/Yampeleg/status/1751980537781117069?s=20

Yam Peleg转发帖子：

显然，用于运行服务器级A100的地下适配器不再隐藏于地下了。/r/LocalLLaMA上的人们开始加强他们的家用GPU设置了。很猛。😆

看起来这个主人在eBay上得到了5个A100s SXM4的非常好的交易。他获得了5个（！）地下的SXM4->PCIE适配器[在闲鱼/淘宝上大约350-400美元]，然后从https://c-payne.com购买了一些高质量的PCIE开关和扩展器来将它们全部连接起来。

评论区：这哥们决心在谷歌之前训练并发布Gemini ultra

Chatbot Arena 排行榜现在增加模型知识截止日期

在这里插入图片描述

https://x.com/lmsysorg/status/1752126690476863684?s=20

lmsys.org：感谢 @Teknium1 和社区的反馈！我们在排行榜上增加了一个新的列，显示每个模型的知识截止日期。

对于基于API的模型，除非特别注明，我们将其标记为未知，因为它可能会在没有通知的情况下接收更新。对于开放模型，我们使用其发布日期。

请注意，不同模型的知识截止日期各不相同。例如，GPT-4-Turbo比GPT-4（2023/4 vs 2021/9）更新。在比较模型时，你可以考虑这一点。

更多详情请访问 https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

Google Research@ NYC 闪电演讲：Google研究如何致力于将语音、翻译和语言处理技术扩展到世界上最常用的1,000种语言

https://x.com/JeffDean/status/1752039880182714822?s=20

Google AI：了解Google研究如何致力于将语音、翻译和语言处理技术扩展到世界上最常用的1,000种语言，在由Uche Okonkwo和Sandy Ritchie主持的Research@ NYC的闪电演讲中 → https://goo.gle/48Y0wWf

谷歌Research Jeff Dean评论：

改善对1,000种语言的语音和文本理解将使数十亿人的计算更有效，并使信息更易获取。机器学习以及跨不同语言的学习，可以提高这些系统对所有人的能力。

Swif.ai

在这里插入图片描述

https://www.swif.ai/

Swif.ai 的产品希望可以帮助管理不同类型设备的公司更轻松地实现合规自动化。这包括统一设备管理、自动化注册、自动化控制、合规性和政策执行状态的智能警报等功能。该产品旨在简化设备管理和合规性方面的挑战，特别是对于需要符合 HIPPA 和 SOC 2 标准的科技公司等。

AirBrush Studio——证件照片合成编辑

在这里插入图片描述

https://studio.airbrush.com/

AirBrush Studio 是一款 AI 照片制作产品，它可以生成专业的头像照片，并且可以根据用户的需求定制背景和服装。用户只需上传自拍照，选择喜欢的背景和服装，90分钟后就能收到专业的头像照片。此外，AirBrush Studio 还提供一键智能调整功能，让用户无需费力地进行详细编辑，即可获得精美的肖像照片。还可以为团队提供解决方案，帮助提升团队的视觉形象，增强品牌效应。

蓝驰创投、西湖科创投相中这家AIGC公司联手浙大团队共同研发

https://www.chinastarmarket.cn/detail/1583827

波形智能宣布完成千万元级Pre-A轮融资，由蓝驰创投领投，西湖科创投和藕舫天使跟投。波形智能成立于2023年，专注于AIGC领域，其自研的大语言模型Weaver在小说创作、营销文案、短视频脚本和游戏NPC塑造等方面取得突破。Weaver大模型由波形智能联合APUS和浙江大学陈华钧教授团队共同研发，特别强调其在中文内容生成上的优势。波形智能创始人姜昱辰强调，Weaver大模型专为创作而生，通过预训练和工程师调整，提升了写作内容的“人味”。公司计划在C端和B端市场推出产品，B端开放API，C端推出AI辅助创作工具蛙蛙写作1.0。蓝驰创投认为，AIGC垂直大模型需聚焦垂直领域，且应考虑出海战略。

随机 Transformer

https://mp.weixin.qq.com/s/4WtoHGegZY6o4Jaa3bz66Q

本文通过简化的示例深入讲解了Transformer模型的数学原理，包括文本嵌入、位置编码、自注意力机制、残差连接和层归一化等关键技术。文章通过端到端的示例展示了如何构建一个简单的翻译器，解释了编码器和解码器的工作原理，以及如何通过多头注意力和前馈神经网络处理输入序列。此外，文章还探讨了模型训练中的一些挑战，如梯度爆炸问题，并提出了解决方案。最后，文章提供了一个随机生成的Transformer模型的实现，用于生成基于给定输入序列的输出序列。

写在跨年之前：聊聊LLM Agents的现状，问题与未来

https://zhuanlan.zhihu.com/p/679177488

作者在知乎专栏文章中讨论了LLM Agents的当前状况、问题和未来展望。首先给出了三种理解LLM Agents的视角，包括面向用户的实用定义、直观定义以及生产者视角的学术定义。接着深入讲解了构建LLM Agents时会使用到的一些技术，如RAG、CoT、多模态等，并探讨了各技术的细节、应用场景和潜在问题。此外，还涉及了如意图识别与执行、数据通路与行动框架等概念。最后，作者分享了对LLM Agents可能会遇到的问题的反思，以及未来的愿景，特别是在游戏领域中的应用。整篇文章围绕大型语言模型的智能体展开深入的分析和展望。