十三、大模型项目部署与交付

1 硬件选型

  1. CUDA 核心和 Tensor 核心
  • CUDA 核心:是NVIDIA开发的并行计算平台和编程模型,用于GPU上的能用计算,可做很多的工作。应用在游戏、图形渲染、天气预测和电影特效
  • Tensor 核心:张量核心,专门设计用于深度学习的矩阵运算,加速深度学习算法中的关键计算过程
  1. 常用的GPU
    在这里插入图片描述
显卡目标市场性能应用场景价格
T4企业/AI 推理适中AI 推理, 轻量级训练, 图形渲染7999(14G)
4090消费者非常高通用计算, 图形渲染, 高端游戏, 4K/8K 视频编辑14599(24G)
A10企业/图形适中图形渲染, 轻量级计算18999(24G)
A6000企业/图形适中图形渲染, 轻量级计算32999(48G)
V100数据中心/AI深度学习训练/推理, 高性能计算42999(32G)
A100数据中心/AI深度学习训练/推理, 高性能计算69999(40G)
A800数据中心/AI中等深度学习推理, 高性能计算, 大数据分析110000
H100数据中心/AI深度学习训练/推理, 高性能计算, 大数据分析242000
  1. LPU
    在这里插入图片描述

Jonathan Ross - 前谷歌工程师,参与设计 TPU 芯片核心。后创办 Groq 公司,创造了世界首个语言处理单元 LPU™。
LPU™ 推理引擎可提供卓越 AI 工作负载速度,比其他领先供应商快 18 倍。

  1. 云服务

国内主流云服务厂商

  • 阿里云:https://www.aliyun.com/product/ecs/gpu
  • 腾讯云:https://cloud.tencent.com/act/pro/gpu-study
  • 火山引擎:https://www.volcengine.com/product/gpu

国外主流云服务厂商

  • AWS:https://aws.amazon.com
  • Vultr:https://www.vultr.com
  • TPU:https://cloud.google.com/tpu
  1. 算力平台
    主要用于学习和训练,不适合提供服务。
  • Colab:谷歌出品,升级服务仅需 9 美金。https://colab.google.com
  • Kaggle:免费,每周 30 小时 T4,P100 可用。https://www.kaggle.com
  • AutoDL:价格亲民,支持 Jupyter Notebook 及 ssh,国内首选。https://www.autodl.com

2 全球大模型选型

  1. 国产大模型
    国产模型列表
公司名称网址备注
百度文心一言https://yiyan.baidu.com/
阿里云通义千问https://tongyi.aliyun.com/开源模型Qwen-1.8B,7B,14B,72B、Qwen-VL和Qwen-Audio
科大讯飞星火https://xinghuo.xfyun.cn/
百川智能百川https://chat.baichuan-ai.com/开源小模型baichuan-7B和Baichuan-13B
零一万物Yihttps://github.com/01-ai/Yi6B 和 34B 开源模型
360智脑/一见https://ai.360.cn/, https://github.com/360CVGroup/SEEChat
昆仑万维天工 Skyworkhttps://github.com/SkyworkAI/Skywork开源且可商用,无需单独申请,Skywork 是由昆仑万维集团·天工团队开发的一系列大型模型,本次开源的模型有 Skywork-13B-Base 模型、Skywork-13B-Chat 模型、Skywork-13B-Math 模型和 Skywork-13B-MM 模型
腾讯混元https://hunyuan.tencent.com/
月之暗面Moonshothttps://www.moonshot.cn/“长文本”大模型 支持 20 万字输入
商汤科技商量https://chat.sensetime.com/
  1. chat-lmsys
    在这里插入图片描述
  2. llmmodels
    在这里插入图片描述
  3. opencompass
    在这里插入图片描述
  4. huggingface
    在这里插入图片描述
  5. maximumtruth
    在这里插入图片描述

3 OLLAMA部署

  1. https://ollama.com/
    在这里插入图片描述
  2. ollama run llama3
    在这里插入图片描述
  3. run llama3

在这里插入图片描述
4. OpenWebUI 前端页面与大模型交互

open-webui

在这里插入图片描述

4 VLLM部署

  1. vllm
    在这里插入图片描述

vLLM 是一个快速且易于使用的库,用于进行大型语言模型(LLM)的推理和服务。它具有以下特点:

  • 速度快:
    在每个请求需要 3 个并行输出完成时的服务吞吐量。vLLM 比 HuggingFace Transformers(HF)的吞吐量高出 8.5 倍-15 倍,比 HuggingFace 文本生成推理(TGI)的吞吐量高出 3.3 倍-3.5 倍

  • 优化的 CUDA 内核

  • 灵活且易于使用:

  • 与流行的 Hugging Face 模型无缝集成。

  • 高吞吐量服务,支持多种解码算法,包括并行抽样、束搜索等。

  • 支持张量并行处理,实现分布式推理。

  • 支持流式输出。

  • 兼容 OpenAI API 服务器。

支持的模型
vLLM 无缝支持多个 Hugging Face 模型,包括 Aquila、Baichuan、BLOOM、Falcon、GPT-2、GPT BigCode、GPT-J、GPT-NeoX、InternLM、LLaMA、Mistral、MPT、OPT、Qwen 等不同架构的模型。

  1. installation
# (Recommended) Create a new conda environment.
conda create -n myenv python=3.9 -y
conda activate myenv

# Install vLLM with CUDA 12.1.
pip install vllm
  1. Prepared Model
    以Yi-6B-Chat为例, 这个模型需要提前下载到服务器
  2. Run
python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Yi-6B-Chat --trust-remote-code --port 6006

使用autodl算力服务

curl https://u394727-bf57-ff9e7382.westb.seetacloud.com:8443/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "/root/autodl-tmp/Yi-6B-Chat",
        "max_tokens":60,
        "messages": [
            {
                "role": "user",
                "content": "你知道承德吗?"
            }
        ]
    }'

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
5. 分布式推理
要运行多 GPU 服务,请在启动服务器时传入 --tensor-parallel-size 参数。

例如,要在 2 个 GPU 上运行 API 服务器:

python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Yi-6B-Chat --dtype auto --api-key token-agiclass  --trust-remote-code --port 6006 --tensor-parallel-size 2

5 Dify部署

  1. dify
    在这里插入图片描述
  2. installation
cd docker
docker compose up -d

在这里插入图片描述

6 内容安全

敏感词库管理与用户输入过滤:

  • 定期更新敏感词汇和短语库,应对文化变迁和当前事件。
  • 使用第三方服务或自建工具进行实时输入过滤和提示。推荐使用:
    • 网易易盾:https://dun.163.com/product/text-detection
    • 百度文本内容安全:https://ai.baidu.com/tech/textcensoring

7 备案步骤

什么情况下要备案?

  • 对于 B2B 业务,不需要备案。
  • 但在 B2C 领域,一切要视具体情况而定。
  • 如果我们自主训练大型模型,这是必要的。
  • 但如果是基于第三方模型提供的服务,建议选择那些已获得备案并且具有较大影响力的模型。
  • 如果你使用了文心一言的模型,可以向他们的客服要相关算法备案号。

备案指南 && 申请引导

beian

yuque

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/588384.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

YOLOv5入门(四)训练自己的目标检测模型

前言 通过前面几篇文章,已经完成数据集制作和环境配置(服务器),接下来将继续实践如何开始训练自己数据集~ 往期回顾 YOLOv5入门(一)利用Labelimg标注自己数据集 YOLOv5入门(二)处…

【PyTorch与深度学习】2、PyTorch张量的运算API(上)

课程地址 最近做实验发现自己还是基础框架上掌握得不好,于是开始重学一遍PyTorch框架,这个是课程笔记,这个课还是讲的简略,我半小时的课听了一个半小时。 1. 张量 1.1 张量操作 (1)chunk:将一…

华为手机ip地址怎么切换

随着移动互联网的普及,IP地址成为了我们手机上网的重要标识。然而,在某些情况下,我们可能需要切换手机的IP地址,以更好地保护个人隐私、访问特定地区的内容或服务,或者出于其他网络需求。华为手机作为市场上的热门品牌…

Kafka客户端工具:Offset Explorer 使用指南

Kafka作为一个分布式流处理平台,在大数据处理和实时数据流应用中扮演着至关重要的角色。管理Kafka的topics及其offsets对于维护系统稳定性和数据一致性至关重要。Offset Explorer是一个强大的桌面应用程序,它使得管理和监控Kafka集群变得简单直观。本文将…

2023 广东省大学生程序设计竞赛(部分题解)

目录 A - Programming Contest B - Base Station Construction C - Trading D - New Houses E - New but Nostalgic Problem I - Path Planning K - Peg Solitaire A - Programming Contest 签到题:直接模拟 直接按照题目意思模拟即可,为了好去…

【Unity】修改模型透明度

在 Unity 中修改模型透明度主要有两种方法:通过材质和通过着色器。以下是两种方法的步骤和解释: 方法 1:通过材质 在 Unity 编辑器中,选择你想要修改透明度的模型。在 Inspector 窗口中,找到模型的 Renderer 组件&am…

海康WEB3.3控件开发包 V3.3 前端vue项目调用实时监控画面

公司业务迭代, 需要前端vue项目里增加一个查看实时监控模块, 这个需求是之前离职的前端小哥没有研究明白的, 现在落在了我的肩上, 压力还是有的. 但是压力归压力, 问题还是要解决的. 一、调研设备和方案 第一步: 调研大佬们已经实现的方案, 找设备对接. 公司后端大佬提出用官…

Jenkins邮件发送失败问题解决

如下提示为 Extended E-mail Notification开启Debug模式下显示的错误信息, (Debug模式设置方法:Dashboard-> manage Jenkins->configure System)DEBUG SMTP: Attempt to authenticate using mechanisms: LOGIN PLAIN DIGEST-MD5 NTLM XOAUTH2 DEB…

Unity3d 学习之按钮绑定事件

创建测试脚本 using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.UI;public class myTest : MonoBehaviour {// Start is called before the first frame updatepublic Button _codeBindBtn null;void Start(){if (_codeBi…

LeetCode 213 —— 打家劫舍 II

阅读目录 1. 题目2. 解题思路3. 代码实现 1. 题目 2. 解题思路 此题是 LeetCode 198—— 打家劫舍 的升级版,多了一个首尾相连的设定。 因为首尾相连,所以第一个房屋和最后一个房屋只能偷窃其中一个。 所以,第一种方案就是不偷窃最后一个房…

每日OJ题_DFS爆搜深搜回溯剪枝⑧_力扣980. 不同路径 III

目录 力扣980. 不同路径 III 解析代码 力扣980. 不同路径 III 980. 不同路径 III 难度 困难 在二维网格 grid 上,有 4 种类型的方格: 1 表示起始方格。且只有一个起始方格。2 表示结束方格,且只有一个结束方格。0 表示我们可以走过的空…

HTML5实用大全(Part.1)

引言: 哈喽,各位小伙伴们,在本篇博客我将带领大家走进前端中的HTML5,利用HTML我们将可以在网页上自我创作内容,现在学起来,不久后自己也能制作一个花哨的项目了呢,那么,我们开始吧! …

【ROS2学习记录】—— 参考鱼香ROS

1 回顾Linux基础 (1)打开终端:Ctrl Alt T (2)ls (3)cd cd ~ cd /(4)pwd (5)mkdir -p catkin_ws/src (6)rm -rf &#…

LeetCode 198—— 打家劫舍

阅读目录 1. 题目2. 解题思路3. 代码实现 1. 题目 2. 解题思路 此题使用动态规划求解,假设 d p [ i ] [ 0 ] dp[i][0] dp[i][0] 代表不偷窃第 i i i 个房屋可以获得的最高金额,而 d p [ i ] [ 1 ] dp[i][1] dp[i][1] 代表偷窃第 i i i 个房屋可以获…

【右一的开发日记】全导航,持续更新...

文章目录 📚前端【跟课笔记】🐇核心技术🐇高级技术 📚捣鼓捣鼓🐇小小案例🐇喵喵大王立大功🐇TED自用学习辅助网站🐇世界top2000计算机科学家可视化大屏🐇基于CBDB的唐代历…

GitHub Copilot 简单使用

因为公司安全原因,并不允许在工作中使用GitHub Copilot,所以,一直没怎么使用。最近因为有一些其它任务,所以,试用了一下,感觉还是很不错的。(主要是C和Python编程) 一:常…

python中的进程线程和协程

目录 进程(Process)多进程代码实例 线程(Thread)多线程存在原因及其缺点多线程代码实例 协程(Coroutine)协程的优点协程代码实例 进程、线程和协程适合的任务性质和环境多进程更适合的场景多线程更适合的场…

LeetCode 11—— 盛最多水的容器

阅读目录 1. 题目2. 解题思路一3. 代码实现一4. 解题思路二5. 代码实现二 1. 题目 2. 解题思路一 暴力法,遍历所有可能的垂线对 ( i , j ) (i, j) (i,j),求取最大面积: a r e a m i n ( h [ i ] , h [ j ] ) ∗ ( j − i ) area min(h[i]…

Node.js -- MongoDB

文章目录 1. 相关介绍2. 核心概念3. 命令行交互3.1数据库命令3.2 集合命令3.3 文档命令 4. 数据库应用场景4.1 新增4.2 删除4.3 更新4.4 查询 1. 相关介绍 一、简介 Mongodb是什么 MongoDB是一个基于分布式文件存储的数据库,官方地址https://www.mongodb.com/try/d…

一个C++小程序调试过程记录

Top 20 C Projects With Source Code [2024 Update]https://www.interviewbit.com/blog/cpp-projects/ 这个网页有一些简单的C程序的源码,闲来无事,把第一个程序(Bookshop Management System Using C)的源码下载了下来。 源文件…