极智一周 | MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on


欢迎关注我的公众号 [极智视界],获取我的更多技术分享

大家好,我是极智视界,带来本周的 [极智一周],关键词:MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on。

邀您加入我的知识星球「极智视界」,星球目前促销优惠内有超多好玩的项目实战源码和资源下载,链接:https://t.zsxq.com/0aiNxERDq

极智视界本周热点文章回顾

(1) MoE专家混合架构正成为主流

首先需要明确的是 MoE 肯定不是非常新的架构,因为早在 2017 年,谷歌就已经引入了 MoE。而最近 MoE 的火热主要源于 Mistral AI,它是由前 Google、Meta 和 OpenAI 的研究人员创立的一家新科大模型公司,被称为 "欧洲 OpenAI",而首个开源的 MoE 多专家混合模型 Mixtral 8x7B 就来自于 Mistral AI。大部分 MoE 的工作都是出自 Google 之手,但让 Google 尴尬的是这个技术由 OpenAI GPT 发扬光大。而其实你也可以看到,最近 Google 的号称 "最强大模型" 的 Gemini,也是一种 "分布式模型架构",大抵也是一种 MoE 的变体。这么看来,Transformer + FlashAttention (可参考我的上篇解读) + MoE 似乎已经成为目前大模型主流架构的标配了。那么,你还不赶紧学起来。

  • 《极智AI | 解读专家混合架构MoE正成为大模型主流技术》;

(2) 一图看懂大模型优化技术FlashAttention

所谓一图胜千言,一张好的图对于一个工作的表达很重要,通常能够让人更能直观理解这个工作在做什么。这里基于一张图,来解读大模型优化技术之 FlashAttention。先用一句话来总结 FlashAttention 的优化之道:算子融合,矩阵分块分而治之。具体可见分析。

  • 《极智AI | 算子融合、矩阵分块 一图看懂大模型优化技术FlashAttention》;

(3) PTQ 后量化系列

之前陆续输出过一些 PTQ 后量化算法的讲解分享,会涉及十余篇,这里进行一个系列汇总,方便系统地展现给同样对模型小型化感兴趣的朋友。

  • 《极智AI | 解读深度学习PTQ后量化算法系列》;

(4) MI300 禁令

说到美国的两轮芯片禁令,很自然就会想到英伟达 A100、H100、璧仞、寒武纪等,但是好像都不太容易联系到 AMD。我们在上次的解读中得出了一个结论:MI300X 相比于英伟达最强芯 H100,不管是显存还是算力,都是呈碾压之势的,这个话题的具体分析可以参考我的这篇解读《极智芯 | MI300X呈碾压之势 修正解读AMD MI300X vs NVIDIA H100 关于稀疏算力的解释》。按这样的结论,AMD MI300X 应是妥妥的禁令之中。因为禁令禁的并不是具体什么什么卡,不是说具体指明了就是要禁你 A100,还是要禁你 H100,而是提供了两个指标范围,在这个范围内的就要禁。对于具体的禁令指标解读可以参考我的这篇汇总篇《极智芯 | 解读美国芯片禁令及英伟达特供芯片系列》或者直接这篇《极智AI | 老美升级芯片禁令限制中的性能指标到底指什么》。那么到底 AMD Instinct MI300 系列,或者说 MI300X 芯片在不在芯片禁令范围之内呢。先给答案:肯定在。具体可见分析。

  • 《极智芯 | 解读AMD Instinct MI300系列是否在禁令名单》;

(5) H100 利润空间

在马克思关于 "利润" 的解读中,300% 基本就属上限。而外网路透社之前有过报道,英伟达 H100 成本约 3320 美元,售价则为 30000 美元,它的利润率甚至高达 1000%,这明显非常不符合市场规律。这里来剖析一下 H100 的成本,到底这个 "3320 美元" 的数字靠不靠谱。具体可见分析。回过头来,市场肯定是足够聪明的,既然能够维持这么久的 "供不应求",其实就是在说明大家还是认可它的 "价值",而这些 "价值" 应该就存在于那 "看不见的" 1000% 的 "利润空间" 之中。

  • 《极智芯 | 剖析英伟达H100的利润空间》;

(6) 实战戴口罩检测

带来两个实战戴口罩检测项目分享,分别是基于 OpenCV 和 Pytorch 的,也是承诺的提供 "基于 OpenCV基于 pytorch、提供 tensorflow、基于 tensorflow、基于 paddle、基于 caffe、基于 mxnet、基于 keras 版本" 系列中的其中之二,其他版本敬请期待。项目提供完整的代码,包括推理代码、一键执行脚本、模型权重、三方依赖库、待检测的图片、检测后的效果图等。欢迎下载体验。

  • 《极智项目 | 实战Pytorch戴口罩检测》;

极智一周,祝大家周末愉快!


【极智视界】

《极智一周 | MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/266861.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

1856_emacs_calc使用介绍与故事

Grey 全部学习内容汇总: GitHub - GreyZhang/g_org: my learning trip for org-mode 1856_emacs_calc使用介绍与故事 calc是emacs内置的一个计算器,可以提供多种计算表达方式并且可以支持org-mode中的表格功能。 主题由来介绍 我是因为想要了解org-…

c语言的练习---BCD解密

#继续源于c语言翁恺先生 一.分析 初看这道题的时候,可能很多人就想选择放弃,但这道题实在不是考察我们对于编码的能力;而是我们的数学能力。 就拿它的输入样例---18,来举例。 我们来看---在十进制中,是18D&#xf…

网络协议-BIO实战和NIO编程

网络通信编程基本常识 原生JDK网络编程-BIO 原生JDK网络编程-NIO Buffer 的读写 向 Buffer 中写数据 写数据到 Buffer有两种方式: 1. 读取 Channel写到 Buffer。 2.通过 Buffer 的 put0方法写到 Buffer 里。 从 Channel 写到 Buffer …

分布式锁常见问题及其解决方案

一、为什么要使用分布式锁? 因为在集群下,相当于多个JVM,就相当于多个锁,集群之间锁是没有关联的,会照成锁失效从而导致线程安全问题 分布式锁可以分别通过MySQL、Redis、Zookeeper来进行实现 二、redis分布式锁的实…

SpringBoot 3 集成Hive 3

前提条件: 运行环境&#xff1a;Hadoop 3.* Hive 3.* MySQL 8 &#xff0c;如果还未安装相关环境&#xff0c;请参考&#xff1a;Hive 一文读懂 Centos7 安装Hadoop3 单机版本&#xff08;伪分布式版本&#xff09; SpringBoot 2 集成Hive 3 pom.xml <?xml ver…

力扣经典面试题——搜索二维矩阵(两次二分搜索)

https://leetcode.cn/problems/search-a-2d-matrix/description/?envTypestudy-plan-v2&envIdtop-100-liked 思路&#xff1a;先按行二分&#xff0c;再按列进行二分。即先找到对应的行&#xff0c;再找对应的列。 对于这种判断是否存在某个数&#xff0c;记得while(left…

PHP案例代码:PHP如何提供下载功能?

对Web开发人员来说,“下载”功能是一个非常常见的需求。在网站中提供文件下载,通常用于提供用户手册、软件升级、音乐、视频等各种资源文件。本教程将向您介绍如何实现一个PHP下载功能,同时告诉浏览器文件名称、文件大小、文件类型,并统计下载次数。 首先,我们需要了解一些…

Verilog RAM/ROM的数据初始化

文章目录 一、初始化方式二、测试 FPGA设计中RAM和ROM作为存储器用来存储可变或不可变类型的数据。 ROM初始化一般是加载固定数据&#xff0c;RAM声明时默认为不定态数据&#xff0c;初始化时可以让数据为全1或者全0。 一、初始化方式 复位时按地址写入初值always (posedge cl…

nodejs+vue+ElementUi房屋房产销售预约看房系统bqv00

完成房产销售系统&#xff0c;对房源的信息、用户信息及各种资料进行收集和科学的管理&#xff0c;该系统的功能基本可以满足当前市面上的小型房产企业对于房产销售的基本要求&#xff0c;收集各个地区的房源信息并进行分类管理&#xff0c;用户通过注册账号登录网站查询房源信…

MySQL内外连接

目录 内连接外连接左外连接右外连接 内连接 给出一张员工表和一张部门表&#xff0c;员工表数据如下&#xff1a; 部门表信息如下&#xff1a; 内连接实际上就是利用where子句对两种表形成的笛卡儿积进行筛选&#xff0c;我们前面学习的查询都是内连接&#xff0c;也是在开发过…

小程序面试题 | 11.精选小程序面试题

&#x1f90d; 前端开发工程师&#xff08;主业&#xff09;、技术博主&#xff08;副业&#xff09;、已过CET6 &#x1f368; 阿珊和她的猫_CSDN个人主页 &#x1f560; 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 &#x1f35a; 蓝桥云课签约作者、已在蓝桥云…

推荐算法架构7:特征工程(吊打面试官,史上最全!)

系列文章&#xff0c;请多关注 推荐算法架构1&#xff1a;召回 推荐算法架构2&#xff1a;粗排 推荐算法架构3&#xff1a;精排 推荐算法架构4&#xff1a;重排 推荐算法架构5&#xff1a;全链路专项优化 推荐算法架构6&#xff1a;数据样本 推荐算法架构7&#xff1a;特…

算法:BFS宽度优先遍历

文章目录 BFS与Queue相结合N叉树的层序遍历二叉树的锯齿形层序遍历二叉树的最大宽度 BFS和FLoodFill相结合图像渲染岛屿数量岛屿的最大面积 BFS解决最短路问题最小基因变化单词接龙为高尔夫比赛砍树 本篇总结的是BFS算法&#xff0c;BFS算法相比起DFS算法来说还是比较简单的 B…

基于 Sentry 的前端监控系统搭建(Linux)

一、前言 随着技术这几年的发展与沉淀&#xff0c;线上数据指标监控也变得尤为重要&#xff0c;研发人员和运营人员需要对线上的产品指标有所感知&#xff0c;同时风险也需要及时暴露&#xff0c;很多公司开始自建监控系统&#xff0c;但对于一些定制化要求不是特别高的团队&a…

Spark的核心概念:RDD、DataFrame和Dataset

Apache Spark&#xff0c;其核心概念包括RDD&#xff08;Resilient Distributed Dataset&#xff09;、DataFrame和Dataset。这些概念构成了Spark的基础&#xff0c;可以以不同的方式操作和处理数据&#xff0c;根据需求选择适当的抽象。 RDD&#xff08;Resilient Distribute…

Linux学习教程(第十七章 LAMP环境搭建和LNMP环境搭建)一

第十七章 LAMP环境搭建和LNMP环境搭建&#xff08;一&#xff09; LAMP 环境搭建指的是在 Linux 操作系统中分别安装 Apache 网页服务器、MySQL 数据库服务器和 PHP 开发服务器&#xff0c;以及一些对应的扩展软件。 LAMP 环境是当前极为流行的搭建动态网站的开源软件系统&…

【模式识别】探秘分类奥秘:最近邻算法解密与实战

​&#x1f308;个人主页&#xff1a;Sarapines Programmer&#x1f525; 系列专栏&#xff1a;《模式之谜 | 数据奇迹解码》⏰诗赋清音&#xff1a;云生高巅梦远游&#xff0c; 星光点缀碧海愁。 山川深邃情难晤&#xff0c; 剑气凌云志自修。 目录 &#x1f30c;1 初识模式识…

行为型设计模式(五):访问者模式 观察者模式

访问者模式 Visitor 1、什么是访问者模式 访问者模式允许定义一些不改变数据结构的前提下的操作。通过这种方式&#xff0c;可以在不修改元素类的情况下定义新的操作。访问者模式常用于对复杂对象结构进行操作&#xff0c;而又不希望在这些对象上破坏封装性。 2、为什么使用…

YOLOv8改进 | 主干篇 | 利用SENetV1改进网络结构 (ILSVRC冠军得主)

一、本文介绍 本文给大家带来的改进机制是SENet&#xff08;Squeeze-and-Excitation Networks&#xff09;其是一种通过调整卷积网络中的通道关系来提升性能的网络结构。SENet并不是一个独立的网络模型&#xff0c;而是一个可以和现有的任何一个模型相结合的模块(可以看作是一…

文章解读与仿真程序复现思路——电力自动化设备EI\CSCD\北大核心《计及风电不确定性的多场景多时段安全约束机组组合解耦求解方法》

这个标题涉及到一种解决在能源系统中考虑风电不确定性的方法。让我们逐步分解这个标题&#xff0c;以便更好地理解其含义&#xff1a; 计及风电不确定性&#xff1a; 这指的是在能源系统中&#xff0c;风力发电的产出具有不确定性。因为风速是难以预测的&#xff0c;风力发电的…