大模型能力对外提供服务

我们在上一篇介绍了如何在本地部署大模型。大模型有了,下一步,很自然的就会想到怎么让模型对外提供服务。毕竟只有用户使用了产品、解决了问题,产品才有价值。

文章目录

  • 1、编程方式和大模型交互
  • 2、使用FastAPI开发大模型web端
    • 2.1、数据实体
    • 2.2、服务层
    • 2.3、控制层
    • 2.4、启动类
    • 2.5、测试类
  • 3、java开发中间层
  • 4、参考资料

1、编程方式和大模型交互

这里直接参考了hugging face上的代码示例。
可以自己先验证一下下面的示例代码在你机器上是否可用。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("模型路径", trust_remote_code=True)
model = AutoModel.from_pretrained("模型路径", trust_remote_code=True).half().cuda()
model = model.eval()
response, history = model.chat(tokenizer, "你好", history=[])
print(response)

2、使用FastAPI开发大模型web端

示例代码如果跑通了,下面其实就是搭建大模型web端,将能力暴露出去。这里我们使用FastAPI,一个Python的web端高性能框架来搭建web端。
先看一下web端的代码层级

project_name/
│
├── controller/
│   ├── chat_controller.py       # web控制器
│
├── services/                    # 服务层目录
│   ├── chat_service.py          # 聊天服务相关实现
│
├── schemas/                     
│   ├── chat_schema.py           # 数据实体.类似java中的entity
│
├── tests/                
│   ├── test_chat_controller.py  # 测试web控制器脚本

2.1、数据实体

数据实体就是chat_schema.py文件

#pydantic可以理解成java的validation数据校验组件
from pydantic import BaseModel, Field
from typing import Optional, List

#类只要继承了BaseModel,就相当于拥有了数据校验的能力。
#类似于validation校验框架的@NotEmpty、@NotBlank注解,如果写过java,应该了解这个
class Message(BaseModel):
    role: str
    content: str

class ChatMessage(BaseModel):
    prompt: str    
    max_tokens: int    
    temperature: float    
    top_p: float = Field(default=1.0)

2.2、服务层

服务层,就是java中的service层,主要就是和大模型进行交互。
在这里是chat_service.py文件

import datetime
import model_manager
from schemas.chat_schema import ChatMessage
class ChatService:
    def post_message(self, message: ChatMessage):
        model = model_manager.ModelManager.get_model()
        tokenizer = model_manager.ModelManager.get_tokenizer()
        #我们这里使用的是chat方法,chat方法是一次性输出推理结果,这个方法的弊端是如果推理时间长,用户要等很久,体验不好。除了chat方法,还可以使用stream_chat方法,类似于一个字一个字往外输出的效果,避免用户长时间等待
        response = model.chat( 
                tokenizer,            
                message.prompt,            
                history=[],
                max_length=message.max_tokens,
                top_p=message.top_p,
                temperature=message.temperature
        )
        # 获取当前时间
        now = datetime.datetime.now()
        # 格式化时间为字符串
        time = now.strftime("%Y-%m-%d %H:%M:%S")
        answer = {            
                "response": response,            
                "status": 200,            
                "time": time        
                }
        log = "[" + time + "] " + '", prompt:"' + message.prompt + '", response:"' + repr(response) + '"'
        print(log)
        return answer
    def get_messages(self):
        return {"message": "get message"}

2.3、控制层

这里就引入了fastapi框架

from fastapi import APIRouter

from schemas.chat_schema import ChatMessage
from services.chat_service import ChatService

#定义一个API转发器。作用:对API进行路由
chat_router = APIRouter()
#这个就类似于spring框架的@Autowired注解,在controller中注入了一个chat_service服务
chat_service = ChatService()

#发布一个post方法
@chat_router.post("/new/message/")
def post_message(message: ChatMessage):
    print("进入post方法")
    return chat_service.post_message(message)

#发布一个get方法
@chat_router.get("/get/messages/")
def get_messages():
    return chat_service.get_messages()

2.4、启动类

#uvicorn用来发布web服务。类似于tomcat服务器
import uvicorn
from fastapi import FastAPI
from controller.chat_controller import chat_router as chat_router

app = FastAPI()
#对请求进行路由,将前缀为/chat的请求路由到chat_router服务
app.include_router(chat_router, prefix="/chat", tags=["chat"])

#类似于java中的main方法
if __name__ == "__main__":
	#启动web服务
    uvicorn.run(app, host="0.0.0.0", port=6006, log_level="info", workers=1)

2.5、测试类

import json
import requests

url1 = "http://127.0.0.1:6006/chat/new/message/"
data = {
    "history":[
        {
            "role":"user",
            "content":"北京今天的天气怎么样"
        }
    ],
    "prompt":"只回答温度和风力",
    "max_tokens":12000,
    "temperature":0.5
}



response1 = requests.post(url1, data=json.dumps(data))
print(response1.text)

url2 = "http://127.0.0.1:6006/chat/get/messages/"
response2 = requests.get(url2)
print(response2.text)

3、java开发中间层

java中间层的作用是:调用大模型web端,获取推理结果,展示给用户。

为什么需要有这样一个java中间层呢?其他语言写这个中间层可以吗?
我们现在做的只是一个demo版本,真正上线使用的话,要考虑很多东西。比如:限流、熔断、降级等等。保护大模型服务
在web方面,java发展了20多年的时间,有非常厚的沉淀和非常好的生态,所以用java开发web比较合适,用其他语言来写这个中间层也可以,但是没有java语言好,这是利用了java语言的长处。

调用大模型获取推理结果,我们可以考虑以下两种方式
一次性获取推理结果
引入Hutool

    <dependency>
      <groupId>cn.hutool</groupId>
      <artifactId>hutool-all</artifactId>
      <version>5.6.5</version>
    </dependency>
@PostMapping(value = "/sendMessageHutool")
    public void sendMessageHutool(@RequestBody ChatRequest request, HttpServletResponse response) {
        try {
            log.info("参数为:{}",JSONObject.toJSONString(request));
            String channelResponse = HttpRequest.post(URL)
                    .body(JSONObject.toJSONString(request)).execute().body();
            log.info("channelResponse的值:{}",channelResponse);
        } catch (Exception e) {
            log.error("流式调用异常", e);
        }
    }

流式获取推理结果
使用okhttp3。okhttp3提供了流式获取大模型结果的API。依赖如下:

//引入okttp3的依赖
<dependency>
      <groupId>com.squareup.okhttp3</groupId>
      <artifactId>okhttp-sse</artifactId>
      <version>5.0.0-alpha.14</version>
    </dependency>
//引入kotlin依赖
<dependency>
      <groupId>org.jetbrains.kotlin</groupId>
      <artifactId>kotlin-stdlib</artifactId>
      <version>2.0.0</version>
    </dependency>

极客时间的专栏课上提供了demo示例,大家可以根据这个思路试一试


@ApiOperation(value = "流式发送对话消息")
@PostMapping(value = "sendMessage")
public void sendMessage(@RequestBody ChatRequest request, HttpServletResponse response) {
  try {
    JSONObject body = new JSONObject();
    body.put("model", request.getModel());
    body.put("stream", true);
    JSONArray messages = new JSONArray();
    JSONObject query = new JSONObject();
    query.put("role", "user");
    query.put("content", request.getQuery());
    messages.add(query);
    body.put("messages", messages);
    EsListener eventSourceListener = new EsListener(request, response);

    RequestBody formBody = RequestBody.create(body, MediaType.parse("application/json"));
    Request.Builder requestBuilder = new Request.Builder();

    Request request2 = requestBuilder.url(URL).post(formBody).build();
    EventSource.Factory factory = EventSources.createFactory(OkHttpUtil.getInstance());

    factory.newEventSource(request2, eventSourceListener);
    eventSourceListener.getCountDownLatch().await();
  } catch (Exception e) {
    log.error("流式调用异常", e);
  }
}

//EsListener继承了EventSourceListener类,重写了其中的onEvent方法,onEvent不断地接收大模型的推理结果,写回到前端
@Override
public void onEvent(EventSource eventSource, String id, String type, String data) {
  try {
    output.append(data);
    if ("finish".equals(type)) {
    }
    if ("error".equals(type)) {
    }

    // 开始处理data,此处只展示基本操作
    // 开发过程中具体逻辑可自行扩展
    if (response != null) {
      response.getWriter().write(data);
      response.getWriter().flush();
    }
  } catch (Exception e) {
    log.error("事件处理异常", e);
  }
}

4、参考资料

1、极客时间<AI大模型实战高手课>
2、fastapi官网。https://fastapi.tiangolo.com/zh/tutorial/first-steps/
3、hugging face。https://huggingface.co/THUDM/chatglm3-6b

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/729233.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

关于创建虚拟机时kdump服务的简介

kdump 是一种先进的基于 kexec 的内核崩溃转储机制。 当系统崩溃时&#xff0c;kdump 使用 kexec 启动到第二个内核&#xff0c;这个内核通常被称为捕获内核。它以较小的内存启动&#xff0c;用于捕获转储镜像。 第一个内核会保留一部分内存给第二个内核启动使用。由于 kdump 利…

掌握JavaScript ES6精髓:探索函数和对象的高级扩展与实用技巧

序言 JavaScript&#xff0c;作为前端开发中不可或缺的语言&#xff0c;已经发展到了ECMAScript 2015&#xff08;简称ES6&#xff09;以及后续的版本。ES6带来了诸多语法上的改进和创新&#xff0c;使得代码更加简洁、优雅&#xff0c;同时也提供了更多的编程模式和实用技巧。…

MySQL客户端与服务端建立连接抓包分析

文章目录 MySQL客户端与服务端建立连接流程抓包分析1.连接建立流程2.各类数据包介绍2.1挑战数据包2.2认证数据包2.3切换认证插件请求数据包2.4切换认证插件响应数据包2.5成功数据包2.6失败数据包3.注意点4.测试代码MySQL客户端与服务端建立连接流程抓包分析 抓包工具采用的是W…

【AI副业指南】用AI做心理测试图文号,单月稳赚7000+(附详细教程)

大家好&#xff0c;我是画画的小强 因为AI的出现&#xff0c;很多自媒体副业项目变得简单容易上手&#xff0c;也给予很多想要在业余时间变现的朋友更丰富的项目选择。 今天分享的赛道绝对颠覆大家的认知&#xff0c;本期将叫大家如何通过AI在自媒体平台上做心理测试账号。 …

vue中实现百度地图全国与省市地图切换

前言 本文主要是用于示例全国地图&#xff0c;点击省市地图直接跳转到该省市地图并展示&#xff0c;可以拓展在地图上显示标记点&#xff08;本文未做示例&#xff09;&#xff0c;后续有完整代码&#xff0c;但是由于需要与本来项目业务代码进项分割&#xff0c;可能会有些问题…

nexus配置问题

错误信息&#xff1a; npm ERR! code E401 npm ERR! Unable to authenticate, need: BASIC realm"Sonatype Nexus Repository Manager"解决办法一&#xff1a; npm login --registryhttp://192.168.52.128:8081/repository/npm-repo 输入 用户名 密码 邮箱完成后会…

Tower 使用指南

Tower 使用指南 目录 打开 git 仓库查看分支历史切换分支提交修改推送修改创建标签自动拉取最新代码 打开 git 仓库 File -> Open然后选择项目目录 查看分支历史 切换分支 提交修改 推送修改 创建标签 自动拉取最新代码

aardio - 日历

写了个日历小例程&#xff0c;因 lunar 农历库存在问题&#xff0c;经过研究算是变相解决了&#xff0c;日历也完成了雏形&#xff0c;先开源出来&#xff0c;感兴趣的玩玩。 请下载最新paint库、customPlus库、lunar库。 不同的颜色搭配&#xff0c;实现不同的风格&#xff1…

WDG看门狗

一、WDG简介 1、WDG&#xff08;Watchdog&#xff09;看门狗 &#xff08;1&#xff09;看门狗可以监控程序的运行状态&#xff0c;当程序因为设计漏洞、硬件故障、电磁干扰等原因&#xff0c;出现卡死或跑飞现象时&#xff0c;看门狗能及时复位程序&#xff0c;避免程序陷入…

URLDNS利用链

利用链分析在我的Github主页 Java反序列化学习 下面写下POC思路 利用点HashMap的readObject private void readObject(java.io.ObjectInputStream s)throws IOException, ClassNotFoundException {// Read in the threshold (ignored), loadfactor, and any hidden stuffs.de…

JAVAWeb---- 数据库的简单了解

目录 1.什么是数据库 2.什么是数据库管理系统 3.什么是SQL 4.什么是关系型数据库 1.什么是数据库 用来存储和管理数据的“仓库”&#xff0c;简称DB(Database)&#xff1b; 2.什么是数据库管理系统 对数据库的一切操作都是在数据库管理系统进行的&#xff0c;比如MySQL&a…

Ollama深度探索:AI大模型本地部署的全面教程

目录 引言一、Ollama概述1、定义与定位2、核心功能3、技术优势4、应用场景 二、安装与配置1、系统要求2、安装方法3、配置指南4、启动Ollama服务 四、快速开始1、启动Ollama2、部署运行模型3、REEST API 五、自定义模型1、定制化的必要性2、使用Modelfile定制模型3、参数调整4、…

【数据结构与算法】树的存储,森林 详解

树的几种存贮结构(双亲表示法、孩子表示法、孩子兄弟表示法)的优缺点&#xff0c;各自适应的运算。 双亲表示法&#xff1a; 优点&#xff1a;方便查找双亲及其祖先结点缺点&#xff1a; 查找孩子和兄弟结点比较费事未表示出结点之间的先后次序 适应的运算&#xff1a;查找节点…

iOS封装FrameWork

我们是整个项目封装给客户app用&#xff0c;项目里面有资源文件&#xff1a;xib和图片文件。有第三方&#xff0c;也有.a文件和第三方给我们的frameWork。下面记录下大体遇到的问题及遇到的冲突解决办法。 第一部分&#xff1a;封装frameWork 1.首先准备好&#xff0c;要封装的…

无线领夹麦克风哪款好,领夹麦克风哪个品牌好,多款麦克风推荐

​科技发展让无线领夹麦克风成为现代演讲、演出和采访不可或缺的工具。这种小巧便携的设备让我们摆脱线缆束缚&#xff0c;自由移动同时保持声音清晰稳定。无线领夹麦克风怎么选呢&#xff1f;接下来&#xff0c;我们介绍几款市面上综合表现相当不错的无线领夹麦克风给大家来参…

几十块就能“开盒”,还能查祖上三代?

近期&#xff0c;网络上突然开始掀起一阵“人肉开盒”风波。明星、博主、素人无一幸免。 隐匿在此般恶劣行径背后的幕后黑手们无视法律、充满戾气。他们才不管你是什么人&#xff0c;只要有哪里让他们不愉快&#xff0c;那么不好意思&#xff0c;马上“开”你没商量。 这个“…

ubuntu下同时安装和使用不同版本的库 librealsense

apt 安装的最新版本在/usr 源码安装的旧版本在/usr/local set(realsense2_DIR /usr/local/) find_package(realsense2 2.50.0 REQUIRED) message( "\n\n ${realsense2_INCLUDE_DIR} ${realsense2_VERSION} RealSense SDK 2.0 is FINDINGING, please install it from…

Thinkphp5内核流浪猫流浪狗宠物领养平台H5源码

Thinkphp5内核流浪猫流浪狗宠物领养平台H5源码 可封装APP&#xff0c;适合做猫狗宠物类的发信息发布&#xff0c;当然懂的修改一下&#xff0c;做其他信息发布也是可以的。 Thinkphp5内核流浪猫流浪狗宠物领养平台H5源码

WPF 深入理解六、ControlTemplate控件模板

ControlTemplate 定义 控件模板用于来定义控件的外观、样式&#xff0c;还可通过控件模板的触发器(ControlTemplate.Triggers)修改控件的行为、响应动画等。 对与WPF当中,每个控件都是无外观的,这意味着我们可以完全自定义其可视元素的外观,但是不能修改其内部的行为&#xf…

【MySQL系列】MySQL 字符集的演变与选择

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…