LLM大模型的7种推理框架分析

 89be71a1195202ab831288cdc438831f.jpeg

LLM的7种推理框架

   

  1. Hugging Face的transformers

这是一个Python库,可以简化本地运行LLM的过程。

Transformers的优点:

  • 自动模型下载
  • 提供代码片段
  • 非常适合实验和学习

Transformers的缺点:

  • 需要对ML和NLP有深入了解
  • 需要编码和配置技能

2.Llama.cpp:

Llama.cpp,C++推理引擎翘楚,专为Apple Silicon量身打造,高效运行Llama2模型。GPU与CPU双优化,为您的推理任务提供卓越性能,引领业界潮流。

优势显著:超越Python性能,支持在普通硬件上运行如Llama 7B等大型模型,提供多语言绑定构建AI应用,并凭借Llama.cpp高效执行推理,为您的AI项目提供强大支持。

缺点:模型支持有限,需要构建工具。

Llama.cpp是您的理想选择,无论是本地硬件运行大型模型,还是跨语言构建AI应用,其高效性与兼容性均能满足您的需求。

3.Llamafile:

Llamafile,Mozilla匠心之作,基于C++与llama.cpp库,专为自托管大型语言模型(LLMs)打造。它简化了LLM模型的创建、加载与运行,无需担忧底层环境的繁琐。其简洁的API接口,让开发人员与LLM的交互更为便捷,轻松实现各类复杂应用场景,引领智能编程新纪元。

Llamafile助力您轻松创建嵌入模型的单一可执行文件,打造便携工具的不二之选,满足您的多样化需求。

4.Ollama:

Ollama,作为Llama.cpp和Llamafile的升级之选,以其用户友好的特性脱颖而出。简易下载可执行文件后,即可在您的机器上安装服务,轻松打开终端并运行,轻松高效。

优点:易于安装和使用,可以运行llama和vicuña模型,运行速度非常快。

缺点:模型库有限,需自行管理模型,不支持模型重用,无法定制LLM运行选项,且暂不支持Windows系统。

轻松应对llama与vicuña模型运行,追求简易安装与高效使用的您,Ollama工具将是您的首选之选。

目前微软Phi-3以上四种本地运行模式都支持。详见:

Phi-3量化模型:SLM系列2

5:vLLM

vLLM,一款高效推理与服务引擎,专为大型语言模型打造,提供高吞吐量、内存优化服务,轻松实现便捷、快速、经济的LLM体验。

优点

  • 高效的服务吞吐量:vLLM可以快速处理大量的并发请求。
  • 支持模型种类多。
  • vLLM通过创新的PagedAttention技术,显著提升了内存效率,高效管理注意力键和值,助力强大性能。

缺点

  • 你需要确保你的设备有GPU,CUDA或者RoCm.

vLLM会提供对Phi-3的支持,目前代码在集成中。

对Phi-2的支持的验证详见:

语言模型小型化尝试-PyTorch学习系列36

6.TGI(Text Generation Inference)

TGI,由HuggingFace倾力打造的文本生成推理部署框架,兼容主流大模型及其量化方案。结合Rust与Python,TGI巧妙平衡服务效率与业务灵活性,并实现了丰富特性,助力您轻松部署和优化大模型推理任务。

  • 简单的启动LLM
  • 优化后的transformers代码,利用Flash Attention与Paged Attention技术,显著提升推理性能,打造高效、精准的智能应用。
  • 运用bitsandbytes的GPT-Q、EETQ、AWQ与Safetensors技术,实现高效量化,提升性能与效率。

TGI与Transformer推理方式有所不同,差异体现在多个关键方面,包括但不限于处理文本生成与推断的独特方法。

  • TGI与Transformer均支持并行计算,但TGI更胜一筹。它巧妙结合Rust与Python,实现服务效率与业务灵活性的完美平衡。在处理庞大语言模型时,TGI能高效利用计算资源,显著提升推理速度,为您带来前所未有的高效体验。
  • TGI引入革新优化技巧,包括continuous batching、Flash Attention和Paged Attention,显著提升推理效率和性能,较传统Transformer模型更具优势。这些技巧让您在数据处理上更胜一筹,轻松实现高效能计算。
  • TGI支持GPTQ模型服务部署,实现单卡上连续批处理的大模型运行,优于传统Transformer模型,确保高效能与广泛适用性,为大型模型应用提供强大支持。

TGI在某些方面超越传统Transformer推理,但并非万能。面对与TGI优化策略不匹配的任务或数据时,传统Transformer推理或更为适用。经测试,TGI在推理速度上尚不及vLLM。因此,在选择推理方法时,需根据实际需求灵活权衡,确保最优解的选择。

TGI推理支持容器方式运行:

3f81b93bf6c3ac1a0461a5f38317f7a2.jpeg

7.Deepspeed

DeepSpeed,微软开源的深度学习优化库,支持本地推理。它通过系统优化和压缩技术,深度优化硬件、操作系统和框架,运用模型与数据压缩,显著提升大规模模型的推理与训练效率。

DeepSpeed-Inference,作为DeepSpeed框架的推理扩展,专为大型语言模型打造。凭借模型、张量及流水线并行技术,显著提升推理性能,大幅缩短延迟,让语言处理更迅速高效。

详细内容参见:

DeepSpeed-Chat微调模型:deepspeed训练系列-1

推理框架的选择(选择之前先确认要使用的模型是否支持这种推理框架):

DeepSpeed:卓越选择,专为高性能推理任务定制。其独特的ZeRO优化器、3D并行(数据、模型与流水线并行)以及1比特Adam等技术,大幅增强大模型训练与推理效率。若您追求极致性能,DeepSpeed不容错过。

ollama,简便易用的工具之选。其显著优势在于易用性,用户仅需通过简易命令行界面,即可轻松运行模型,让操作更加流畅高效。

Llamafile,卓越之选,打造嵌入模型的独立可执行文件。它以卓越的便携性和单文件生成能力闻名,轻松满足您一体化部署需求。

TGI(文本生成推理)是多种硬件环境下高效推理的优选。它集成模型并行、张量并行和流水线并行等优化技术,为大型模型推理带来显著效率提升。无论您的任务需求如何,TGI都能助您一臂之力。

Transformer模型,处理自然语言处理任务的理想之选。对于机器翻译、文本生成等复杂任务,其强大的表示能力可精准捕获文本长距离依赖关系。选择Transformer,解锁自然语言处理的无限可能。

vLLM,专为处理海量自然语言任务而生,如文本分类与情感分析。作为大规模预训练模型,vLLM在各种NLP任务中均展现卓越性能,是您处理大规模数据的不二之选。

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/640348.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

探寻最强性能云电脑:ToDesk云电脑、无影云、网易云游戏、易腾云横测大比拼

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的…

Linux基础(二):环境搭建

本文准备从0开始,一步步搭建一套属于自己的Linux系统环境,这将是后续学Linux、用Linux、Linux环境编程、应用和项目部署、工具实验等一系列学习和实践的基石,希望对小伙伴们有帮助。提前备好Linux编程实验环境非常重要,建议人手一…

齐护K210系列教程(三十一)_视觉小车

视觉小车 齐护编程小车端程序动作说明联系我们 在经常做小车任务项目时会用的K210的视觉与巡线或其它动作结合,这就关系到要将K210的识别结果传送给小车的主控制器,K210为辅助传感器(视觉采集)。 这节课我们用K210识别图像&#x…

加速度传感器的冲击振动的原始特征与解算(部分)

这里是工作中测得的一组数据,设备有多个加速度传感器通道,我们可以看到冲击振动发生前后,各个振动传感器的的反馈以及其他的细化特征: 1.随机振动(加速度传感器视角) 2.冲击振动(加速度&#x…

不平衡数据研究:分配权重 合并2个loader

分配权重(基于实例分配,基于类分配) import numpy as np import torch from torch.utils.data import DataLoader, WeightedRandomSampler, Dataset# Mock dataset class class MockDataset(Dataset):def __init__(self, data, targets):sel…

“AIGC行业投资时机分析:评估当前市场发展阶段与未来需求趋势“

文章目录 每日一句正能量前言行业前景当前发展前景相关领域的发展趋势行业潜力竞争情况结论 市场需求人才需求情况机会挑战结论 选择与规划自我评估行业调研职业规划风险管理个人陈述示例 后记 每日一句正能量 胖了就减,没钱就赚,不会就学,不…

上位机图像处理和嵌入式模块部署(mcu中的串口接口)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 在mcu开发中,mcu扮演着非常重要的角色。一方面,串口可以帮助我们对固件功能进行调试,另外一方面,串…

申请表填写错误?河南道路与桥梁乙级资质申请表填写技巧

在填写河南道路与桥梁乙级资质申请表时,为了避免错误并确保申请顺利进行,以下是一些填写技巧: 仔细阅读申请指南: 在填写申请表之前,务必仔细阅读相关的申请指南或说明文件。这些文件会详细解释每个填写项的要求和目的…

【Linux系列】软链接使用

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

【耕地保卫战:揭秘“占补平衡”】守护粮仓的智慧策略

嗨,各位小伙伴们,今天咱们来聊聊一个与我们每日餐桌紧密相关的主题——耕地占补平衡。在现代化的车轮滚滚向前时,如何在发展与保护之间找到那个微妙的平衡点,确保我们的“米袋子”满满当当呢?这就不得不提到耕地占补平…

PY32F系列32位单片机 特殊引脚复用说明

一 、 PY32F030 系 列 , 包 括 PY32F030 、PY32F003、 PY32F002A、 XL32F003 的特殊引脚使用说明。 1、晶振引脚的复用,使用 HSE/LSE 引脚作为 GPIO 功能引脚时,只要没有配置相关功能的情况下,正常配置 GPIO 功能即可。 其中&am…

法那科机器人M-900iA维修主要思路

发那科工业机器人是当今制造业中常用的自动化设备之一,而示教器是发那科机器人操作和维护的重要组成部分。 一、FANUC机械手示教器故障分类 1. 硬件故障 硬件故障通常是指发那科机器人M-900iA示教器本身的硬件问题,如屏幕损坏、按键失灵、电源故障等。 2…

纹理映射技术在AI去衣中的艺术与科技融合

引言: 在数字图像处理的世界里,AI去衣技术正逐步揭开其神秘的面纱。这门技术结合了深度学习的智能算法与图形学的先进手段,以实现对图像中衣物的智能识别与处理。在这一过程中,纹理映射技术发挥着至关重要的作用。本篇博客将深入探…

OpenHarmony实战开发——网络组件axios可以在OpenHarmony上使用了

什么是axios 上古浏览器页面在向服务器请求数据时,因为返回的是整个页面的数据,页面都会强制刷新一下,这对于用户来讲并不是很友好。并且我们只是需要修改页面的部分数据,但是从服务器端发送的却是整个页面的数据,十分…

Vision Mamba代码笔记

1 论文回顾 基本思路 论文解读见: 《VideoMamba》论文笔记_video mamba-CSDN博客 注意 Vision Mamba和VIT的输入和输出的shape的形状是相同的(VIT基于Transformer的Encoder设计,输入经过多层MHA和MLP计算,输入和输出的形状相同…

构建传统企业信息化数字化智能化技术架构:挑战与机遇

随着数字化和智能化技术的快速发展,传统企业在信息化转型过程中面临着前所未有的机遇和挑战。如何构建适应企业需求的信息化数字化智能化技术架构,成为企业发展的关键之一。本文将探讨传统企业信息化数字化智能化技术架构的设计与实践。 一、数字化转型的…

阿里云Linux 3.2104 LTS 64位安装SVN服务器

直接按步骤 yum install subversion 写y就行 主要是看看安装了那些文件 rpm -ql subversion 主要是为了创建版本库而准备,这个能一遍创建就一遍创建,不行就逐个创建。能创就忽略下面两个mkdir步骤。 mkdir /home/svn/groupRepos 根据新建目录作为版本…

Windows 10x64 IoT Enterprise LTSC 2021

打KB5036892补丁,升级版本19044.4291,打简体中文补丁包,系统后续升级需要升级英文补丁,需要重新打中文补丁包,系统禁用升级。禁用打印机服务,需要安装打印机的自行打开服务Print Spooler。 链接&#xff1a…

Docker-制作镜像的两种方式=》基于容器制作基于Dockerfile制作

本文主要是基于Docker如何制作一个Java镜像,而一个Java镜像想要运行需要系统环境,JDK。所以我们要先有一个系统环境,本文使用的是centos7,JDK选择版本是8,而我使用的Java程序是一个简易的springBoot项目,你…

时空扭曲:重温相对论的终极挑战,探寻真理的脚步

大家都知道,相对论是爱因斯坦提出的划时代理论,为人类认知时空和引力做出了革命性贡献。但这个理论真的万无一失吗?近日,一项新研究提出了测试时间扭曲的新方法,或许能让我们重新审视相对论在宇宙大尺度上的适用性。 时…