不同的llm推理框架

不同的llm推理框架

article2025/4/3 8:45:32/文章来源:https://blog.csdn.net/huapeng_guo/article/details/140184405

vLLM适用于大批量Prompt输入，并对推理速度要求比较高的场景。

实际应用场景中，TensorRT-LLM通常与Triton Inference Server结合起来使用，NVIDIA官方能够提供更适合NVIDIA GPU运行的高效Kernel。

LightLLM比较轻量、易于扩展、易于上手，集成了众多优化的开源实现。

Text generation inference依赖HuggingFace模型，并且不需要为核心模型增加多个adapter的场景。

CTranslate2支持用户在多种CPU架构上面进行LLM的高效推理。

OpenLLM为核心模型添加adapter并使用HuggingFace Agents，不完全依赖PyTorch，支持轻松的微调、服务、部署和监控任何LLM。

RayLLM支持连续批处理，可以获得更好的吞吐量和延时，支持多种LLM后端。

MLC-LLM不仅支持GPU，支持在多种边缘设备（Android或iPhone平台上）本地部署LLM，但是当前支持的模型比较有限。

DeepSpeed-FastGen将DeepSpeed MII与DeepSpeed结合在一起，提供了多种多样的系统组件，拥有多种优化机制。

虽然InferLLM基于llama.cpp，但是它比llama.cpp更轻量、更简洁、更容易上手。

llama.cpp是一个支持纯C/C++实现的推理库，无任何依赖，当前已经从仅支持LLAMA扩展到支持其它的LLM。

rtp-llm是一个已经商业应用的LLM推理框架，支持了淘宝、天猫、菜鸟、高德等多个部门的LLM推理业务。

PowerInfer利用了LLM推理中固有的高局部特性，比llamca.cpp的推理速度更快、精度更高。

XInference不仅支持LLM的推理，还支持文生图模型、文本嵌入模型、语音识别模型、多模态模型等。

FastChat是一个用于培训、服务和评估基于大语言模型的聊天机器人的开放平台。

PPL-LLM基于ppl.nn，支持多种注意力机制、支持动态batch。

BentoML是一个用于构建可靠、可扩展的LLM推理框架。它提供了模型服务、应用程序打包和生产部署所需要的一切。

fastllm是一个纯c++实现、无第三方依赖的高性能LLM推理库，支持INT4量化。

JittorLLM可以支持在一些低性能的端侧设备上面执行LLM推理，模型迁移能力强。

LMDeploy是由MMDeploy和MMRazor团队联合开发，提供了一个涵盖了LLM任务的全套轻量化、部署和服务解决方案。

OneDiffusion是一个开源的一站式仓库，用于促进任何扩散模型的快速部署。

Neural Compressor提供了多种模型压缩技术，包括：量化、裁剪、蒸馏、神经网络搜索。

TACO-LLM是基于腾讯云异构计算产品推出的一套LLM推理框架，用来提升LLM的推理效能。

MindSpore是一种适用于端边云场景的开源LLM训练与推理框架。支持多种并行优化策略，支持自研的LLM量化与剪枝方法。

HuggingFace初衷是为了做聊天机器人业务，最终却成了一个优秀的开源社区，支持400k+个预训练模型、150k+个应用和100k+种数据集。

AITemplate（AIT）是一个Python框架，它可以将深度神经网络转换为CUDA（NVIDIA GPU）/HIP（AMD GPU）C++代码，用于快速的推理服务。它当前支持的大模型并不多，但是它小而美！

原文链接：https://blog.csdn.net/WZZ18191171661/article/details/137937461

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/770993.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

Android 抓取 CPU 资源信息

Android 抓取 CPU 资源信息

在 Android 开发中，使用 ADB（Android Debug Bridge）命令获取 CPU 资源信息有很多重要的作用。这些命令可以帮助开发者在多种情况下分析和优化应用性能、解决问题以及进行系统性调试。以下列举一些 ABD 获取 CPU 资源信息的命令获取 CPU 核…

阅读更多...

农作物生长环境的远程监控与智能调控

农作物生长环境的远程监控与智能调控

农作物生长环境的远程监控与智能调控农作物生长环境的远程监控与智能调控技术，作为现代农业科技的核心组成部分，正逐步革新传统农业的生产模式，推动农业向精准化、智能化转型。这一技术体系综合应用了物联网、大数据、云计算以及人工智能等…

阅读更多...

C语言实战 | Flappy Bird游戏

C语言实战 | Flappy Bird游戏

Flappy Bird游戏是由一名越南游戏制作者独自开发的，曾经风靡全球。游戏规则非常简单，玩家必须控制一只小鸟，跨越由各种长度的水管所组成的障碍物，如果撞上管道游戏就结束，如图11.11所示。 ■ 图11.11Flappy Bird 游戏 …

阅读更多...

启明智显Model3A芯片方案7寸高清触摸屏ZX7D00CM21S：开箱、设置与实操全攻略指南

启明智显Model3A芯片方案7寸高清触摸屏ZX7D00CM21S：开箱、设置与实操全攻略指南

一、背景本指南将详细介绍启明智显的Model3A芯片方案下的7寸高清触摸屏ZX7D00CM21S的开箱步骤、基础设置以及实操应用。无论您是电子爱好者、开发者还是工程师，这份指南都能助您快速上手并充分利用这款触摸屏的各项功能。二、硬件介绍 ZX7D00CM21S 7寸高清触摸屏是…

阅读更多...

不知几DAY的Symfony---RCE复现

不知几DAY的Symfony---RCE复现

感谢红队大佬老流氓的供稿，此篇文章是针对Symfony框架的一个RCE漏洞复现框架简介 Symfony是一个开源的PHP Web框架，它现在是许多知名 CMS 的核心组件，例如Drupal、Joomla!、eZPlatform（以前称为 eZPublish）或Bolt。…

阅读更多...

7、Qt5开发及实列（笔记2）

7、Qt5开发及实列（笔记2）

文章目录 1、mainwindow.c2、mainwindow.h 说明：此示例包含了基本的常使用的基本小部件效果如下 1、mainwindow.c #include "mainwindow.h" #include <QApplication>MainWindow::MainWindow(QWidget *parent): QMainWindow(parent) {widgetInit()…

阅读更多...

$深度Q网络（DQN）算法技术博客$

深度Q网络（DQN）算法技术博客

深度Q网络（DQN）是一种将深度学习与强化学习相结合的算法，用于解决高维状态空间的强化学习问题。本文将详细介绍DQN算法的基本原理，关键公式以及具体的代码实现。一、DQN算法的基本原理 DQN算法是Q学习的一种扩展，利…

阅读更多...

小程序 npm 支持

小程序 npm 支持

使用 npm 包目前小程序已经支持使用 npm 安装第三方包，因为 node_modules 目录中的包不会参与小程序项目的编译、上传和打包，因此在小程序项目中要使用的 npm 包，必须走一遍构建 npm 的过程。在构建成功以后，默认会在小程序目…

阅读更多...

Python面向对象编程中的继承及其应用

Python面向对象编程中的继承及其应用

目录 1. 继承的基本概念 2. 继承的语法 3. 继承的应用场景 4. 使用示例：汽车销售系统 5. 总结继承是面向对象编程中的一个重要概念，它允许我们根据已有类创建新类，并继承已有类的属性和方法。在本文中，我们将学习Python中的…

阅读更多...

向量数据库、主键存储引擎、高速网络 RDMA 框架……DolphinDB 版本更新啦！

向量数据库、主键存储引擎、高速网络 RDMA 框架……DolphinDB 版本更新啦！

盛夏已至，炎热的七月伊始，DolphinDB 也迎来了版本的更新。此次更新的 3.00.1 与 2.00.13 版本从多个维度进行了优化扩展，进一步深化了 DolphinDB 在机器学习、数据分析等领域的尝试与探索。为了响应用户日益增长的 AI 运算需求，…

阅读更多...

Java基础:爬虫

Java基础:爬虫

1.本地爬虫 Pattern:表示正则表达式 Matcher:文本匹配器，作用按照正则表达式的规则去读取字符串，从头开始读取。在大串中去找符合匹配规则的子串。 1.2.获取Pattern对象通过Pattern p Pattern.compile("正则表达式");获得 1.3.…

阅读更多...

nginx重定向

nginx重定向

nginx的重定向 location 匹配 location 匹配的就是后面的URI /wordpress location 匹配的分类和优先级** 1、精确匹配 location / 对字符串进行完全匹配，必须完全符合 2、正则匹配 ^~ 前缀匹配， 以什么开头 -区分大小写的匹配 ~*不区分大小写 …

阅读更多...

Redis 五大数据类型底层原理

Redis 五大数据类型底层原理

0、前言本文涉及的主题： redis 对象存储底层数据结构：int、embstr、raw、ziplist、listpack、quicklist、skiplist、intset、hashtable redis 数据类型：string、list、set、zset、hash 1、对象存储、底层编码、数据类型 1.1 对象存储…

阅读更多...

剧本杀小程序：助力商家发展，提高游戏体验

剧本杀小程序：助力商家发展，提高游戏体验

近几年，剧本杀游戏已经成为了当下年轻人娱乐的游戏社交方式。与其他游戏相比，剧本杀游戏具有强大的社交性，玩家在游戏中既可以推理玩游戏，也可以与其他玩家交流互动，提高玩家的游戏体验感。随着互联网的发展&#xf…

阅读更多...

QT截屏，截取控件为图片，指定位置截屏三种截屏方式

QT截屏，截取控件为图片，指定位置截屏三种截屏方式

项目中我们常用到截取屏幕，Qt给我的们多种方式： 主要有以下三种： 截取全屏；截取控件为图片；指定位置截屏三种截屏方式； 1.截取全屏常用： 实现： QScreen *screen QGuiApplicat…

阅读更多...

SSM少儿读者交流系-计算机毕业设计源码20005

SSM少儿读者交流系-计算机毕业设计源码20005

摘要随着信息技术的发展和互联网的普及，少儿读者之间的交流方式发生了革命性的变化。通过使用Java编程语言，可以实现系统的高度灵活性和可扩展性。而SSM框架的采用，可以提供良好的开发结构和代码管理，使系统更加稳定和易于维护。…

阅读更多...

中服云数字孪生平台引领工业物联仿真新纪元！

中服云数字孪生平台引领工业物联仿真新纪元！

中服云数字孪生平台3.0是基于中服云物联网平台和数据中台打造的一款实时数据2D/3D集成展示监控平台。旨在解决工业物联网数据的直观展示、实虚互动、仿真模拟、故障诊断、告警、预警、预测、实时观测、实时监控等问题。提供了数据采集、数据底座、监控逻辑、建模工具、展示互…

阅读更多...

爬虫笔记19——代理IP的使用

爬虫笔记19——代理IP的使用

访问网站时IP被阻止有些网站会设置特定规则来限制用户的访问，例如频率限制、单一账户多次登录等。网站为了保护自身安全和用户体验，会设置防御机制，将涉嫌恶意行为的IP地址加入黑名单并屏蔽访问。如果用户在使用网站时违反了这些规则&…

阅读更多...

改变conda创建虚拟环境时的默认路径（C盘）

改变conda创建虚拟环境时的默认路径（C盘）

①C:\Users\Lenovo 找到C盘中用户目录下的.condarc文件 ②打开.condarc文件后，添加并修改.condarc 中的 env_dirs 环境路径，按顺序第⼀个路径作为默认存储路径，也就是我的E盘（需要你先在E盘中新建文件夹envsE）。修改完…

阅读更多...

【C++知识点总结全系列 (03)】：函数（函数参数传递、可变参数、函数返回值等详细介绍）

【C++知识点总结全系列 (03)】：函数（函数参数传递、可变参数、函数返回值等详细介绍）

函数 1、函数基本概述(1)What（什么是函数）(2)Why（函数的作用）(3)How（如何声明和定义函数）A.声明函数B.定义函数（实现） 2、函数参数(1)传递方式A.值传递B.指针传递C.引用传递 (2)cons…

阅读更多...

最新文章