使用 BentoML快速实现Llama-3推理服务

介绍

近年来,开源大模型如雨后春笋般涌现,为自然语言处理领域带来了革命性的变化。从文本生成到代码编写,从机器翻译到问答系统,开源大模型展现出惊人的能力,吸引了越来越多的开发者和企业投身其中。

然而,尽管开源大模型潜力巨大,但将其部署到实际应用场景中却并非易事。高昂的硬件成本、复杂的模型配置、繁琐的部署流程等问题,都为大模型的落地应用设置了重重障碍。

为了降低大模型的使用门槛,让更多用户能够轻松体验和应用大模型的强大能力,本文将介绍BentoML是怎么降低使用门槛并快速上手大模型开发的**。**无论你是经验丰富的开发者,还是对大模型充满好奇的初学者,相信都能从本文中找到你需要的答案,快速开启你的大模型应用之旅。

环境准备

租用GPU资源

众所周知,在深度学习中,拥有合适的可用硬件至关重要。特别是对于像大语言模型这样的大型模型,这一点变得更加重要。然后购买硬件资源非常昂贵,所以租用GPU资源对于普通开发者而言是最经济实惠的方案。下面我选择在AutoDL平台上租一块RTX 4090,当然你可以在其他平台租售需要的硬件资源。

首先,确保您有 AutoDL 帐户。接下来,按照自己的需求选择计费方式,GPU型号和基础镜像等信息。
在这里插入图片描述
几分钟后服务器会初始化好,然后使用SSH登录服务器。
在这里插入图片描述
在这里插入图片描述

使用 BentoML 服务

首先,通过 CLI,我们可以克隆 BentoML 团队开发的存储库。


git clone https://github.com/bentoml/BentoVLLM.git

在存储库中,我们将找到不同模型的几个示例。本教程我将专门使用 llama3-8b-instruct。所以我们进入该文件夹。


cd BentoVLLM/
cd llama3-8b-instruct/

然后安装必要的依赖。

pip install -r requirements.txt && pip install -f -U "pydantic>=2.0"

在这里插入图片描述

实际代码可以在 service.py 文件中找到。但是,我们调用以下命令来调起模型就足够了。

由于huggingface在国内不稳定,所以可以通过代理的方式获取模型,下面我将介绍一个方法。

  • 通过官方的huggingface-cli工具

1. 安装依赖

pip install -U huggingface_hub

2. 设置环境变量

Linux

export HF_ENDPOINT=https://hf-mirror.com

Windows Powershell

$env:HF_ENDPOINT = "https://hf-mirror.com"

建议将上面这一行写入

~/.bashrc

3.1 下载模型

huggingface-cli download --resume-download meta/llama3-8b-instruct
  • 使用 hfd

hfd 是国内开发者开发的 huggingface 专用下载工具,基于成熟工具 git+aria2,可以做到稳定下载不断线。

1. 下载hfd

wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh

2. 设置环境变量

Linux

export HF_ENDPOINT=https://hf-mirror.com

Windows Powershell

$env:HF_ENDPOINT = "https://hf-mirror.com"

3.1 下载模型

./hfd.sh meta/llama3-8b-instruct --tool aria2c -x 4

3.2 下载数据集

./hfd.sh wikitext --dataset --tool aria2c -x 4

模型下载好后执行下面命令启动bentoml服务

bentoml serve .

命令调用后将打开一个 IP 地址以在本地查看 API。如果将路径“/docs”添加到 IP 地址,将会打开swagger页面提供所有可用接口的文档。

在这里插入图片描述

我们会看到主要的API是/generate,可以在其中输入提示符和系统提示符并等待模型的输出。

在这里插入图片描述
在这里插入图片描述
当然,除了 swagger 之外,如果您想开发自己的自定义前端,您还可以使用代码中的 API!

总结

本教程手把手的演示了一遍怎么快速的使用一个开源大模型进行推理,通过使用BentoML这一强大的工具。BentoML不仅简化了模型部署过程,还提供了便捷的API接口,使得开发者能够轻松地将大模型集成到各种应用场景中。这种快速部署和使用的方法,为大模型的广泛应用铺平了道路,让更多人能够享受到人工智能带来的便利。

然而,尽管BentoML大大简化了大模型的部署和使用流程,我们仍需要注意一些关键点。首先,选择合适的硬件资源至关重要,这直接影响到模型的运行效率和响应速度。其次,对于不同的应用场景,可能需要对模型进行微调或优化,以获得最佳性能。

我会在后续文章中介绍怎么使用BentoML对开发RAG和Function Calling等功能演示,敬请期待。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/875768.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW环境中等待FPGA模块初始化完成

这个程序使用的是LabVIEW环境中的FPGA模块和I/O模块初始化功能,主要实现等待FAM(Field-Programmable Gate Array Module,FPGA模块)的初始化完成,并处理初始化过程中的错误。让我们逐步分析各部分的功能: 1.…

DataWind将string类型转化为int类型的报错解决

一、现象&#xff1a; toInt64([kernel_wakeup_top_count_str]) 二、日志&#xff1a; 遇到&#xff1a;错误: 直连查询失败&#xff0c;内部异常:<class aeolus.aeolus.libs.exception.aeolus_base_exception.AeolusBaseException>: aeolus/logicQuery/logicQueryMysq…

.NET 一款在线解密Web.config的脚本

01阅读须知 此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等&#xff08;包括但不限于&#xff09;进行检测或维护参考&#xff0c;未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失&#xf…

攻防世界--->re2-cpp-是-awesome

学习笔记。 下载 查壳。 64ida打开。 直接ctrlX进行跟踪 逆向往前看。 没事&#xff0c;对解题并不影响。 编写脚本&#xff1a; ALEXCTF{W3_L0v3_C_W1th_CL45535}

哈希表简单介绍

概念 在顺序结构以及平衡树中&#xff0c;元素关键字与他们存储的位置并没有直接的映射关系&#xff0c;从而会影响查找关键字的效率&#xff0c;顺序结构中查找关键字的时间复杂度为O&#xff08;N&#xff09;&#xff0c;平衡树查找关键字的时间复杂度为O&#xff08;log2^…

.Net6/.Net8(.Net Core) IIS中部署 使用 IFormFile 上传大文件报错解决方案

描述 最近使用.Net6 WebAPI IFormFile对象接收上传文件时大于30MB(兆)的文件就会报错 原因分析 IIS上传文件有大小默认限制大约28.6MB 解决办法 .无论是Net6还是.Net8写法都一样 方法一&#xff1a;IIS可视化操作 1.打开Internet Information Services (llS)管理器&…

Pandas读取某列、某行数据——loc、iloc区别

loc&#xff1a;通过行、列的名称或标签来索引 iloc&#xff1a;通过行、列的索引位置来寻找数据 首先&#xff0c;我们先创建一个DataFrame生成数据 import pandas as pddata {a:[1,2,3,4,5],b:[6,7,8,9,10],c:[11,12,13,14,15] } data pd.DataFrame(data) print(data) 运行…

关于【禁止new对象时在for循环内定义申明变量】

文章目录 简介代码分析反编译之后对比性能测试内存与垃圾回收情况JDK和常用框架怎么写总结依赖 简介 不知道是谁最先提出了一个不要将变量定义在循环内。 然后我们在代码扫描中有一项是&#xff1a;【禁止new对象时在for循环内定义申明变量】 我也好奇为什么不能&#xff1f…

e冒泡排序---复杂度O(X^2)

排序原理: 1.比较相邻的元素。如果前一个元素比后一个元素大&#xff0c;就交换这两个元素的位置。 2.对每一对相邻元素做同样的工作,从开始第一对元素到结尾的最后一对元素。最终最后位置的元素就是最大值, public class 冒泡排序 {public static void main(String[] args) {I…

学习使用LangGraph x GPT-Researcher构建一个多智能体架构的AI自主研究助理

原文&#xff1a;学习使用LangGraph x GPT-Researcher构建一个多智能体架构的AI自主研究助理 - 百度智能云千帆社区 本文为大家剖析一个通过多智能体协作来完成的AI研究助理&#xff0c;可以用来帮助进行各种综合的在线研究任务并输出报告。该应用基于LangGraph以及开源的GPT-…

electron有关mac构建

针对 Mac M1/2/3 芯片的设备&#xff0c;proces.archarm64. 执行下面命令&#xff0c;检查下按照的 node.js 版本是不是 intel x64 指令集&#xff0c;如果是的话安装下 arm64 指令集的 node.js终端中执行以下命令&#xff1a;node -p process.arch 对应的node版本也是arm版 …

YoloV10 训练自己的数据集(推理,转化,C#部署)

目录 一、下载 三、开始训练 train.py detect.py export.py 超参数都在这个路径下 四、C#读取yolov10模型进行部署推理 如下程序是用来配置openvino 配置好引用后就可以生成dll了 再创建一个控件&#xff0c;作为显示 net framework 4.8版本的 再nuget工具箱里下载 …

春之学习:SpringBoot在线教育平台构建

第三章 系统分析 3.1 系统设计目标 在线视频教育平台主要是为了用户方便对首页、个人中心、用户管理、教师管理、课程信息管理、课程类型管理、我的收藏管理、系统管理、订单管理等信息进行查询&#xff0c;也是为了更好的让管理员进行更好存储所有数据信息及快速方便的检索功能…

僵尸网络开发了新的攻击技术和基础设施

臭名昭著的 Quad7 僵尸网络&#xff08;也称为 7777 僵尸网络&#xff09;不断发展其运营&#xff0c;最近的发现表明其目标和攻击方法都发生了重大变化。 根据 Sekoia.io 的最新报告&#xff0c;Quad7 的运营商正在开发新的后门和基础设施&#xff0c;以增强僵尸网络的弹性&a…

K8s利用etcd定时备份集群结合钉钉机器人通知

如何通过脚本的方式进行K8s集群的备份 查看K8s中master节点中etcd集群的状态 kubectl get pods -n kube-system | grep etcd由于使用的etcd服务是K8s搭建时自身携带的,并不是独立搭建的etcd集群信息。使用 K8s 搭建集群时,etcd 是 Kubernetes 集成的一个重要组件因此需要查…

DDR3AXI4接口读写仿真

前文已经介绍了DDR3和AXI4总线的相关知识&#xff0c;我们知道MIG ip核除了可以生成native接口还能生成AXI4接口&#xff0c;今天就练习一下将AXI4接口的DDR3打包成FIFO。首先我们生成一个AXI4接口的MIG ip核&#xff0c;其余步骤与Native接口的ip核相同&#xff0c;如果我们勾…

vue3.0 使用echarts与echarts-gl 实现3D饼图

效果 安装echarts npm install echarts npm install echarts-gl 3d饼图组件&#xff1a; <template><div style"width: 100%; height: 100%" ref"echart"></div> </template><script setup> import { reactive, ref, onMou…

质量追溯管理在MES系统中举足轻重

1. 质量追溯管理概述 质量追溯管理是指通过记录和监控产品在生产过程中的关键信息&#xff0c;确保在产品出现质量问题时&#xff0c;能够迅速追踪到问题源头&#xff0c;并采取相应措施的一种管理方法。在现代制造业中&#xff0c;质量追溯管理对于保障产品质量、提升客户满意…

关于 vue/cli 脚手架实现项目编译运行的源码解析

1.vue项目运行命令解析 在日常开发中&#xff0c;vue 项目通过vue-cli-service脚手架包将项目运行起来&#xff0c;常用的命令例如&#xff1a; npm run serve npm run build 上述执行命令实际一般对应为项目中 package.json 文件的 scripts属性中编写的脚本命令&#xff0c;在…

Python 课程5-NumPy库

在数据处理和科学计算中&#xff0c;NumPy 是一个非常强大且基础的库。除了基本的创建数组功能之外&#xff0c;NumPy 提供了许多强大的函数和方法&#xff0c;用于执行高级的矩阵运算、统计分析、逻辑操作等。以下是一些常用且非常有用的 NumPy 指令&#xff0c;涵盖了创建数组…