大模型日报-20240201

大模型最新资讯

    • 2024,AI for Science 如何赋能科研第一线?
    • 大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增
    • 马斯克:Neuralink首次将芯片植入人体,产品已在路上
    • 小扎官宣Code Llama重量级更新,新增70B版本,但还有能力限制
    • 讯飞星火开源-13B 大模型发布,针对国产软硬件环境深度优化
    • 苹果 iOS 史上最大更新!Siri 要上大模型了
    • Jina AI 发布中英和英德双语 8K 向量模型,即刻开源!
    • Reddit牛人自制加强家用GPU设置,eBay赌赢五张A100s,闲鱼五个SXM4->PCIE适配器
    • Chatbot Arena 排行榜现在增加模型知识截止日期
    • Google Research@ NYC 闪电演讲:Google研究如何致力于将语音、翻译和语言处理技术扩展到世界上最常用的1,000种语言
    • Swif.ai
    • AirBrush Studio——证件照片合成编辑
    • 蓝驰创投、西湖科创投相中这家AIGC公司 联手浙大团队共同研发
    • 随机 Transformer
    • 写在跨年之前:聊聊LLM Agents的现状,问题与未来

2024,AI for Science 如何赋能科研第一线?

在这里插入图片描述
https://mp.weixin.qq.com/s/o39kq1SRcIwUJdlGx_mYlQ

科技的新篇章正在被撰写:AI for Science——将人工智能与科学研究深度结合,利用 AI 的技术和方法来学习、模拟、预测自然和人类社会的各种现象和规律。这不仅能够推动科学的发现,也悄无声息地改变着我们的生活。AI 技术的大爆发,正催动着科研领域的剧变。AI for Science 这一科研新范式,正以前所未有的速度改变人类探索未知的进程。无论是预测气候变化、探索外星奥秘、研发新药,还是预警灾害发生、发现生命奥义……AI 都展现出了无比强大的潜力。以下 6 个精彩案例,将为大家展示 NVIDIA 如何为科学研究的发展注入新动能!

大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增

在这里插入图片描述

https://mp.weixin.qq.com/s/HlgpNkjZAQm7Q-ffk3Qfmw

大型语言模型(LLM)通常拥有数十亿的参数,用了数万亿 token 的数据进行训练,这样的模型训练、部署成本都非常高。因此,人们经常用各种模型压缩技术来减少它们的计算需求。一般来讲,这些模型压缩技术可以分为四类:蒸馏、张量分解(包括低秩因式分解)、剪枝和量化。其中,剪枝方法已经存在了一段时间,但许多方法需要在剪枝后进行恢复微调(RFT)以保持性能,这使得整个过程成本高昂且难以扩展。为了解决这一问题,来自苏黎世联邦理工学院、微软的研究者提出了一个名为 SliceGPT 的方法。SliceGPT 的核心思想是删除权重矩阵中的行和列来降低网络的嵌入维数,同时保持模型性能。研究人员表示,有了 SliceGPT,他们只需几个小时就能使用单个 GPU 压缩大型模型,即使没有 RFT,也能在生成和下游任务中保持有竞争力的性能。目前,该论文已经被 ICLR 2024 接收。

马斯克:Neuralink首次将芯片植入人体,产品已在路上

在这里插入图片描述

https://mp.weixin.qq.com/s/dsDgkgG8zt1TELbGTmveAA

马斯克的脑机接口公司 Neuralink,终于开始人体临床研究了。今天早晨,伊隆・马斯克宣布了一个重要消息。根据他在推特上的说法,Neuralink 已在上周日首次将脑机接口设备植入了一个人体,患者「恢复良好」。这是 Neuralink 在去年获得 FDA 批准开展人体临床研究,于秋季开始招募患者后进行的首次人体临床试验。也是 Neuralink「脑后插管」技术通往商业化道路上的最新一步。

小扎官宣Code Llama重量级更新,新增70B版本,但还有能力限制

在这里插入图片描述

https://mp.weixin.qq.com/s/od_YI7MVh_gThffcSM4xAg

今天,Meta 正式发布 Code Llama 70B,这是 Code Llama 系列有史以来最大、性能最好的型号。小扎:我们正在开源一个全新的改进版 Code Llama,包括一个更大的 70B 参数模型。编写和编辑代码已成为当今人工智能模型最重要的用途之一。事实证明,编写代码的能力对于人工智能模型更严谨、更合理地处理其他领域的信息也非常重要。我为这一进展感到自豪,并期待着将这些进展纳入 Llama 3 和未来的模型中。

讯飞星火开源-13B 大模型发布,针对国产软硬件环境深度优化

在这里插入图片描述

https://www.ithome.com/0/748/030.htm

在今日下午的讯飞星火认知大模型 V3.5 升级发布会上,科大讯飞推出了“星火开源大模型”。据介绍,星火开源大模型是根据去年 5 月的星火 1.0 版本(13B)改进而来,增加了数据、能力、针对应用场景的工具链,并且针对国产安全可控进行了更系统性的设计。

苹果 iOS 史上最大更新!Siri 要上大模型了

在这里插入图片描述

https://mp.weixin.qq.com/s/4p4ZIt3kAY_kgnuaKIuAnw

苹果到底会以什么方式将大模型落地到自己的产品体系中?在科技巨头们纷纷推出搭载 AI 功能的软件和硬件以及服务,试图在人工智能领域占据一席之地时,苹果似乎一直保持着一种审慎的态度。不过,去年 10 月,有分析师透露,苹果可能计划在 2024 年底,通过 iOS 18 和 iPadOS 18 的发布,开始引入生成式 AI 功能。而现在,随着一些新的动态浮出水面,似乎可以窥见苹果在这一领域的新动向。根据彭博社报道,苹果将在今年 6 月的 WWDC 中推出带有重磅 AI 功能的 iOS 18,其分析师 Mark Gurman 更是将 iOS 18 视为「苹果历史上最大的 iOS 更新之一,甚至是最大的更新」。此前在去年 11 月,彭博社就报道称,苹果希望 iOS 18 能成为其多年来最「雄心勃勃、最引人注目」的更新。

Jina AI 发布中英和英德双语 8K 向量模型,即刻开源!

https://mp.weixin.qq.com/s/T-2EB1LfZKhueidIGW1x0w

Jina AI发布了中英和英德双语的8K向量模型,这是全球首个支持8K双语文本的开源向量模型。这些模型基于JinaBert架构,专为长文本任务优化,能处理高达8k token的输入,实现多粒度向量表示,显著提升长文本处理能力。双语模型能将不同语言映射到同一向量空间,减少语言偏见,支持无缝跨语言交互。Jina Embeddings v2在MTEB排行榜上性能领先,与OpenAI的ada 002模型输出一致,是理想的开源替代方案。模型轻巧,无需GPU,易于在普通硬件上运行,且与OpenAI API兼容,便于集成。Jina AI计划继续扩展多语言模型家族,推动多模态AI领域的发展。

Reddit牛人自制加强家用GPU设置,eBay赌赢五张A100s,闲鱼五个SXM4->PCIE适配器

在这里插入图片描述

https://x.com/Yampeleg/status/1751980537781117069?s=20

Yam Peleg转发帖子:

显然,用于运行服务器级A100的地下适配器不再隐藏于地下了。/r/LocalLLaMA上的人们开始加强他们的家用GPU设置了。很猛。😆

看起来这个主人在eBay上得到了5个A100s SXM4的非常好的交易。他获得了5个(!)地下的SXM4->PCIE适配器[在闲鱼/淘宝上大约350-400美元],然后从https://c-payne.com购买了一些高质量的PCIE开关和扩展器来将它们全部连接起来。

评论区:这哥们决心在谷歌之前训练并发布Gemini ultra

Chatbot Arena 排行榜现在增加模型知识截止日期

在这里插入图片描述

https://x.com/lmsysorg/status/1752126690476863684?s=20

lmsys.org:感谢 @Teknium1 和社区的反馈!我们在排行榜上增加了一个新的列,显示每个模型的知识截止日期。

对于基于API的模型,除非特别注明,我们将其标记为未知,因为它可能会在没有通知的情况下接收更新。对于开放模型,我们使用其发布日期。

请注意,不同模型的知识截止日期各不相同。例如,GPT-4-Turbo比GPT-4(2023/4 vs 2021/9)更新。在比较模型时,你可以考虑这一点。

更多详情请访问 https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

Google Research@ NYC 闪电演讲:Google研究如何致力于将语音、翻译和语言处理技术扩展到世界上最常用的1,000种语言

https://x.com/JeffDean/status/1752039880182714822?s=20

Google AI:了解Google研究如何致力于将语音、翻译和语言处理技术扩展到世界上最常用的1,000种语言,在由Uche Okonkwo和Sandy Ritchie主持的Research@ NYC的闪电演讲中 → https://goo.gle/48Y0wWf

谷歌Research Jeff Dean评论:

改善对1,000种语言的语音和文本理解将使数十亿人的计算更有效,并使信息更易获取。机器学习以及跨不同语言的学习,可以提高这些系统对所有人的能力。

Swif.ai

在这里插入图片描述

https://www.swif.ai/

Swif.ai 的产品希望可以帮助管理不同类型设备的公司更轻松地实现合规自动化。这包括统一设备管理、自动化注册、自动化控制、合规性和政策执行状态的智能警报等功能。该产品旨在简化设备管理和合规性方面的挑战,特别是对于需要符合 HIPPA 和 SOC 2 标准的科技公司等。

AirBrush Studio——证件照片合成编辑

在这里插入图片描述

https://studio.airbrush.com/

AirBrush Studio 是一款 AI 照片制作产品,它可以生成专业的头像照片,并且可以根据用户的需求定制背景和服装。用户只需上传自拍照,选择喜欢的背景和服装,90分钟后就能收到专业的头像照片。此外,AirBrush Studio 还提供一键智能调整功能,让用户无需费力地进行详细编辑,即可获得精美的肖像照片。还可以为团队提供解决方案,帮助提升团队的视觉形象,增强品牌效应。

蓝驰创投、西湖科创投相中这家AIGC公司 联手浙大团队共同研发

https://www.chinastarmarket.cn/detail/1583827

波形智能宣布完成千万元级Pre-A轮融资,由蓝驰创投领投,西湖科创投和藕舫天使跟投。波形智能成立于2023年,专注于AIGC领域,其自研的大语言模型Weaver在小说创作、营销文案、短视频脚本和游戏NPC塑造等方面取得突破。Weaver大模型由波形智能联合APUS和浙江大学陈华钧教授团队共同研发,特别强调其在中文内容生成上的优势。波形智能创始人姜昱辰强调,Weaver大模型专为创作而生,通过预训练和工程师调整,提升了写作内容的“人味”。公司计划在C端和B端市场推出产品,B端开放API,C端推出AI辅助创作工具蛙蛙写作1.0。蓝驰创投认为,AIGC垂直大模型需聚焦垂直领域,且应考虑出海战略。

随机 Transformer

https://mp.weixin.qq.com/s/4WtoHGegZY6o4Jaa3bz66Q

本文通过简化的示例深入讲解了Transformer模型的数学原理,包括文本嵌入、位置编码、自注意力机制、残差连接和层归一化等关键技术。文章通过端到端的示例展示了如何构建一个简单的翻译器,解释了编码器和解码器的工作原理,以及如何通过多头注意力和前馈神经网络处理输入序列。此外,文章还探讨了模型训练中的一些挑战,如梯度爆炸问题,并提出了解决方案。最后,文章提供了一个随机生成的Transformer模型的实现,用于生成基于给定输入序列的输出序列。

写在跨年之前:聊聊LLM Agents的现状,问题与未来

https://zhuanlan.zhihu.com/p/679177488

作者在知乎专栏文章中讨论了LLM Agents的当前状况、问题和未来展望。首先给出了三种理解LLM Agents的视角,包括面向用户的实用定义、直观定义以及生产者视角的学术定义。接着深入讲解了构建LLM Agents时会使用到的一些技术,如RAG、CoT、多模态等,并探讨了各技术的细节、应用场景和潜在问题。此外,还涉及了如意图识别与执行、数据通路与行动框架等概念。最后,作者分享了对LLM Agents可能会遇到的问题的反思,以及未来的愿景,特别是在游戏领域中的应用。整篇文章围绕大型语言模型的智能体展开深入的分析和展望。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/362231.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

科技云报道:云原生PaaS,如何让金融业数字化开出“繁花”?

科技云报道原创。 在中国金融业数字化转型的历史长卷中,过去十年无疑是一部磅礴的史诗。 2017年,南京银行第一次将传统线下金融业务搬到了线上。那一年,它的互联网金融信贷业务实现了过去10年的业务总额。 2021年,富滇银行通过…

分销商城---社区团购的货源是哪里来的?看这里!仅限小程序!

我们知道本地生活是一个“勤”行,所谓的市场红利期、爆发期都已逐步平稳,大浪淘沙下剩下来的都是在拼“苦活”。在低利润的情况下,现在的你有没有在考虑在2024年除了靠自身的能力和增值服务外,还能靠什么来提高自己的利润&#xf…

Wireshark网络协议分析 - TCP协议

在我的博客阅读本文 文章目录 1. 基础2. 实战2.1. 用Go写一个简单的TCP服务器与客户端2.2. Wireshark抓包分析2.3. 限制数据包的大小——MSS与MTU2.4. 保证TCP的有序传输——Seq,Len与Ack2.5. TCP头标志位——URG,ACK,PSH,RST&…

正则表达式 与文本三剑客(sed grep awk)

一,正则表达式 (一)正则表达式相关定义 1,正则表达式含义 REGEXP: Regular Expressions,由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意…

【GPU驱动开发】-LLVM和Clang环境部署

前言 不必害怕未知,无需恐惧犯错,做一个Creator! 一、下载LLVM源码 官网下载源码 https://github.com/llvm/llvm-project/releases/ 包含所有llvm版本的下载内容 win源码传到ubuntu 首先将虚拟机关机,在虚拟机设置中&#xff…

微服务—Docker

目录 初识Docker Docker与虚拟机的区别 镜像与容器 Docker架构 常见Docker命令 镜像命令 容器命令 数据卷挂载 直接挂载 初识Docker 在项目部署的过程中,如果出现大型项目组件较多,运行环境也较为复杂的情况,部署时会碰到一些问题&…

stm32--simulink开发之--timer的学习,硬件输入中断,触发事件

总体的参考链接是: https://ww2.mathworks.cn/help/ecoder/stmicroelectronicsstm32f4discovery/ref/timer.html 输入: 1,配置项:Enable frequency input 缩写:freq conunt 说明:“freq count — Frequency…

[Mac游戏]割绳子3 Cut the Rope 3 v1.3.0 for Mac 苹果电脑游戏

你准备好和Am Nom和迷人的Kus Nom一起去未开发的土地了吗?这场激动人心的冒险从一张旧地图和诱人的伟大发现开始。然后你们三个将带着狡猾的谜题去不可思议的地方旅行!解决所有问题,找到Nyammi的新物种,并成为伟大的先驱。 对于那…

收集子域名信息(三):Layer 工具(附链接)

一、介绍 Layer 子域名挖掘机是一款域名查询工具,可提供网站子域名查询服务;拥有简洁的界面、简单的操作模式,支持服务接口、暴力搜索、同服挖掘三种模式,支持打开网站、复制域名、复制 IP、复制 CDN、导出域名、导出 IP、导出域…

【SpringBoot系列】自动装配的魅力:Spring Boot vs 传统Spring

IT行业有哪些证书含金量高? 文章目录 IT行业有哪些证书含金量高?强烈推荐前言区别项目配置:依赖管理:内嵌服务器:开发体验: 实例Spring项目示例:Spring Boot项目示例: 总结强烈推荐专栏集锦写在最后 强烈…

SpringBoot后端接收Axios上传的文件

很多时候,我们项目开发的过程中,难免会遇到文件上传的需求 对于SpringBoot项目,我们该如何编写一个文件上传的接口呢? 这里我用的是阿里云OSS云服务器来作为上传文件的存储仓库,比起存储在电脑本地,云服务…

Histone H3K27ac Antibody, SNAP-ChIP® Certified

EpiCypher是一家为表观遗传学和染色质生物学研究提供高质量试剂和工具的专业制造商。EpiCypher(国内代理商欣博盛生物)推出的ChIP级别的Histone H3K27ac Antibody符合EpiCypher的“SNAP-ChIP Certified”标准,用于ChIP实验中的特异性和有效靶…

数据标准经验分享

给客户做数据类项目,在做数据标准时的经验分享 1. 收集本项目的数据范围内的数据 2. 整理本数据范围内的所有元数据 3. 观察该公司所有元数据的表命名、字段命名规律 4. 根据行业经验, 国标、行标, 也根据元数据范围,制定本公司…

elementUI实现selecttree自定义下拉框树形组件支持多选和搜索

elementUI实现selecttree自定义下拉框树形组件支持多选和搜索 效果图定义子组件父组件应用 效果图 定义子组件 主要结合el-select和el-tree两个组件改造的。 <template><div class"selectTree"><el-select filterable :filter-method"filterMe…

【HarmonyOS应用开发】ArkUI 开发框架-进阶篇-Video组件的使用(十)

一、Video组件的使用 1、概述 在手机、平板或是智慧屏这些终端设备上&#xff0c;媒体功能可以算作是我们最常用的场景之一。无论是实现音频的播放、录制、采集&#xff0c;还是视频的播放、切换、循环&#xff0c;亦或是相机的预览、拍照等功能&#xff0c;媒体组件都是必不可…

分割头篇 | 原创自研 | YOLOv8 更换 SEResNeXtBottleneck 头 | 附详细结构图

左图:ResNet 的一个模块。右图:复杂度大致相同的 ResNeXt 模块,基数(cardinality)为32。图中的一层表示为(输入通道数,滤波器大小,输出通道数)。 1. 思路 ResNeXt是微软研究院在2017年发表的成果。它的设计灵感来自于经典的ResNet模型,但ResNeXt有个特别之处:它采用…

EDI报文到Excel转换方案详解

EDI目前已广泛应用于电子、物流、汽车、零售等行业。 越来越多的交易伙伴要求建立EDI连接&#xff0c;通过EDI来对接上下游交易伙伴&#xff0c;收发业务单据。 当我们与新的交易伙伴建立EDI连接时&#xff0c;有多种实施方案可供选择&#xff0c;如果您的单据量较少&#xf…

游戏APP用户行为统计分析

文章目录 1.游戏业务数据分析如图所示的用户行为数据2.数据预处理2.1加载包2.2读取数据2.3查看安装信息2.4查看注册信息2.5查看安装信息表中的最大值&#xff0c;最小值等基本信息。2.6查看注册信息表中的最大值&#xff0c;最小值等基本信息。 3.数据分析3.1数据统一3.2安装信…

ADSelfService Plus 推出离线多因素身份验证以提升远程工作安全性

采用先进验证方法&#xff0c;确保在任何时间、地点或连接问题下对业务数据的合法访问即使远程用户未连接到身份验证服务器或互联网&#xff0c;也可通过MFA安全认证。 MFA 得克萨斯州德尔瓦雷 — 2023年5月3日 — Zoho Corporation 旗下的企业IT管理部门ManageEngine今日宣布…

做好测试用例的分析 ? 是做好软件测试的必要步骤。

目录 1.测试用例的分析指标 2.可能原因的论证 3.确定原因的解决方案 测试用例作为测试人员最重要的输出物之一 &#xff0c;它的作用不仅仅是能保证需求覆盖 &#xff0c;提高测试覆盖率等 。通过对执行后的测试用例分析 &#xff0c;你也可以发现更多在编写上&#xff0c;执…