vLLM适用于大批量Prompt输入,并对推理速度要求比较高的场景。
实际应用场景中,TensorRT-LLM通常与Triton Inference Server结合起来使用,NVIDIA官方能够提供更适合NVIDIA GPU运行的高效Kernel。
LightLLM比较轻量、易于扩展、易于上手,集成了众多优化的开源实现。
Text generation inference依赖HuggingFace模型,并且不需要为核心模型增加多个adapter的场景。
CTranslate2支持用户在多种CPU架构上面进行LLM的高效推理。
OpenLLM为核心模型添加adapter并使用HuggingFace Agents,不完全依赖PyTorch,支持轻松的微调、服务、部署和监控任何LLM。
RayLLM支持连续批处理,可以获得更好的吞吐量和延时,支持多种LLM后端。
MLC-LLM不仅支持GPU,支持在多种边缘设备(Android或iPhone平台上)本地部署LLM,但是当前支持的模型比较有限。
DeepSpeed-FastGen将DeepSpeed MII与DeepSpeed结合在一起,提供了多种多样的系统组件,拥有多种优化机制。
虽然InferLLM基于llama.cpp,但是它比llama.cpp更轻量、更简洁、更容易上手。
llama.cpp是一个支持纯C/C++实现的推理库,无任何依赖,当前已经从仅支持LLAMA扩展到支持其它的LLM。
rtp-llm是一个已经商业应用的LLM推理框架,支持了淘宝、天猫、菜鸟、高德等多个部门的LLM推理业务。
PowerInfer利用了LLM推理中固有的高局部特性,比llamca.cpp的推理速度更快、精度更高。
XInference不仅支持LLM的推理,还支持文生图模型、文本嵌入模型、语音识别模型、多模态模型等。
FastChat是一个用于培训、服务和评估基于大语言模型的聊天机器人的开放平台。
PPL-LLM基于ppl.nn,支持多种注意力机制、支持动态batch。
BentoML是一个用于构建可靠、可扩展的LLM推理框架。它提供了模型服务、应用程序打包和生产部署所需要的一切。
fastllm是一个纯c++实现、无第三方依赖的高性能LLM推理库,支持INT4量化。
JittorLLM可以支持在一些低性能的端侧设备上面执行LLM推理,模型迁移能力强。
LMDeploy是由MMDeploy和MMRazor团队联合开发,提供了一个涵盖了LLM任务的全套轻量化、部署和服务解决方案。
OneDiffusion是一个开源的一站式仓库,用于促进任何扩散模型的快速部署。
Neural Compressor提供了多种模型压缩技术,包括:量化、裁剪、蒸馏、神经网络搜索。
TACO-LLM是基于腾讯云异构计算产品推出的一套LLM推理框架,用来提升LLM的推理效能。
MindSpore是一种适用于端边云场景的开源LLM训练与推理框架。支持多种并行优化策略,支持自研的LLM量化与剪枝方法。
HuggingFace初衷是为了做聊天机器人业务,最终却成了一个优秀的开源社区,支持400k+个预训练模型、150k+个应用和100k+种数据集。
AITemplate(AIT)是一个Python框架,它可以将深度神经网络转换为CUDA(NVIDIA GPU)/HIP(AMD GPU)C++代码,用于快速的推理服务。它当前支持的大模型并不多,但是它小而美!
原文链接:https://blog.csdn.net/WZZ18191171661/article/details/137937461