最新本地部署 DeepSeekR1 蒸馏\满血量化版 + WebOpenUI 完整教程(Ubuntu\Linux系统\Ollama)

测试机为6133CPU(40Cores)+256G D4+4*4090D 24G
一种方法是部署蒸馏版Distill模型。一种是部署Huggingface上unsloth的量化版模型

Ollama及模型安装

1.下载并安装ollama

curl -fsSL https://ollama.com/install.sh | sh

如果下载不动可以试试挂梯子或者再试几次
挂代理代码:

export HTTP_PROXY="http://xxx:xxx"
export HTTPS_PROXY="http://xxx:xxx"

2. 安装Deepseek模型

这里根据自己的实际配置选择对应的模型
在这里插入图片描述
有多种可选择:https://ollama.com/library/deepseek-r1
在这里插入图片描述

我选择的是70B

ollama run deepseek-r1:70b

下载时间可能会较长

安装完成后可以使用同样的命令来启动本地对话

3.更改监听端口(如需外网访问)

vim /etc/systemd/system/ollama.service

改成这样:

即添加一个:Environment=“OLLAMA_HOST=0.0.0.0”

随后执行

sudo systemctl daemon-reload 
sudo systemctl restart ollama

如需外网访问,还需要检查防火墙是否放开11434端口。

4.API测试

本地访问127.0.0.1:11434

curl http://127.0.0.1:11434

会出现 ollama is running的提示

外网可通过IP:11434访问

量化版部署

还有一种是在671B上面量化的版本,理论上比前面的蒸馏版要好一点,但是很麻烦

1.下载

https://huggingface.co/unsloth/DeepSeek-R1-GGUF
在这里插入图片描述
DeepSeek-R1-UD-IQ1_M:内存 + 显存 ≥ 200 GB
DeepSeek-R1-UD-IQ2_XXS:内存 + 显存 > 300GB
DeepSeek-R1-Q4_K_M:内存 + 显存 ≥ 500 GB

我这里选择了2.22bit

如果源网站下载慢的话,推荐用镜像站:
https://hf-mirror.com/unsloth/DeepSeek-R1-GGUF
https://www.modelscope.cn/models/unsloth/DeepSeek-R1-GGUF/files
或者使用hf的cli下载:

(base) user@user-SYS-7049GP-TRT:~/r1_gguf$ huggingface-cli download unsloth/DeepSeek-R1-GGUF DeepSeek-R1-UD-IQ2_XXS/DeepSeek-R1-UD-IQ2_XXS-00001-of-00004.gguf  --local-dir .

2.合并

这里需要将多个文件合并为一个大文件,需要llama.cpp文件,参考
https://hf-mirror.com/unsloth/DeepSeek-R1-GGUF

apt-get update

apt-get install build-essential cmake curl libcurl4-openssl-dev -y

git clone https://github.com/ggerganov/llama.cpp

cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON

cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split

cp llama.cpp/build/bin/llama-* llama.cpp

随后使用split工具来合并gguf文件:
注意:只传入第一个文件作为输入,输出文件为目标文件

./llama.cpp/build/bin/llama-gguf-split --merge \
  /data/DeepSeek-R1/DeepSeek-R1-UD-IQ2_XXS/DeepSeek-R1-UD-IQ2_XXS-00001-of-00004.gguf \
  merged_deepseek_r1_ud_iq2_xxs.gguf

这个过程会有点漫长,并且需要大存储空间,要不然会报空间不足,而且模型较大的话只能装在固态盘,否则读取性能不足
如果空间不足,可以更改model位置到其它盘:

vim /etc/systemd/system/ollama.service

Environment=“OLLAMA_MODELS=/data/ollama_models”
在这里插入图片描述
随后保存

sudo systemctl daemon-reload 
sudo systemctl restart ollama

3.安装

创建一个文件 DeepSeekQ2_Modelfile

vim DeepSeekQ2_Modelfile

写入内容: 注:路径根据自己刚刚合并后的文件修改,其它详情见 https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html
这里可能需要过多调试

FROM /home/user/r1_gguf/merged_deepseek_r1_ud_iq2_xxs.gguf
PARAMETER num_gpu 24  
PARAMETER num_ctx 2048  
PARAMETER temperature 0.6  
TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"

安装:

ollama create deepseek-r1-ud-iq2-xxs -f DeepSeekQ2_Modelfile

后面测试的时候可能会报CUDA或内存错误,具体需要自己排查

OpenWebUI搭建

这相当于搭建一个前端页面

1.docker安装

首先需要安装docker,步骤如下,如果已有docker可跳过

sudo apt-get update

sudo apt-get install \
   apt-transport-https \
   ca-certificates \
   curl \
   gnupg-agent \
   software-properties-common

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -

sudo add-apt-repository \
   "deb [arch=amd64] https://download.docker.com/linux/ubuntu \
  $(lsb_release -cs) \
  stable"

sudo apt-get update 

sudo apt-get install docker-ce docker-ce-cli containerd.io 

sudo systemctl enable docker    

sudo apt-get install docker-compose -y

2.运行openweb-ui

直接运行方式:

sudo docker run -d  --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

docker-compose方式

version: "3.8"

services:
  open-webui3:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui3
    ports:
      - "3000:8080"
    volumes:
      - open-webui:/app/backend/data
    environment:
      - OLLAMA_BASE_URL=http://host.docker.internal:11434
    extra_hosts:
      - "host.docker.internal:host-gateway"
    restart: always

volumes:
  open-webui:

3.启动并配置

docker-compose方式通过 sudo docker-compose up -d 启动

如果是直接运行,则访问 服务器ip:8080,
如果是docker-compose,则访问 服务器ip:3000

随后进入界面,首次进入需设置管理员账号

4.设置外部链接

1.打开设置-管理员设置-外部连接
在这里插入图片描述
在这里插入图片描述
2.进行设置如下:
注意 openAI的API一般需要关闭,且防火墙需要放行3000或8080以及11434端口,否则会导致初始化时界面白屏

sudo ufw allow 11434
sudo ufw allow 3000

在这里插入图片描述
这里我是以docker-compose方式启动的,所以前面设置过,这里直接通过host.docker.internal访问即可。
如果前面是直接运行的,则用的是主机网络,IP设置为127.0.0.1,端口同样是11434
3.设置后点击 下载 按钮测试

4.随后返回首页,会看到刚才添加的模型:

在这里插入图片描述

结语

这是我第一次接触ollama及大语言模型的部署,如有错误的地方请指正

最终的使用感受是 o3-mini-high ≈ R1满血版 ≈ O1 > Gemini2.0 Thiking > O3Mini > 本地量化2.22bit > GPT4o > 本地R1-Distill-70B > 本地R1-Distill-32B

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/974941.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PySide6学习专栏(四):用多线程完成复杂计算任务

如果计程序中要处理一个非常庞大的数据集中的数据&#xff0c;且数据处理计算很复杂&#xff0c;造成数据处理占用大量时间和CPU资源&#xff0c;如果不用多线程&#xff0c;仅在主进程中来处理数据&#xff0c;将会使整个程序卡死&#xff0c;必须采用多线程来处理这些数据是唯…

路由基本配置

学习目标 • 根据拓扑图进行网络布线。 • 清除启动配置并将路由器重新加载为默认状态。 • 在路由器上执行基本配置任务。 • 配置并激活以太网接口。 • 测试并检验配置。 • 思考网络实施方案并整理成文档。 任务 1&#xff1a;网络布线 使用适当的电缆类型连接网络设备。…

STM32MP157A单片机移植Linux驱动深入版

需求整理 在Linux设备树中新增leds节点&#xff0c;其有3个gpio属性&#xff0c;分别表示PE10对应led1&#xff0c;PF10对应led2&#xff0c;PE8对应led3&#xff0c;设备树键值对如下&#xff1a; leds { led1-gpio <&gpioe 10 0>; led2-gpio &l…

瑞芯微RV1126部署YOLOv8全流程:环境搭建、pt-onnx-rknn模型转换、C++推理代码、错误解决、优化、交叉编译第三方库

目录 1 环境搭建 2 交叉编译opencv 3 模型训练 4 模型转换 4.1 pt模型转onnx模型 4.2 onnx模型转rknn模型 4.2.1 安装rknn-toolkit 4.2.2 onn转成rknn模型 5 升级npu驱动 6 C++推理源码demo 6.1 原版demo 6.2 增加opencv读取图片的代码 7 交叉编译x264 ffmepg和op…

如何为自己的 PDF 文件添加密码?在线加密 PDF 文件其实更简单

随着信息泄露和数据安全问题的日益突出&#xff0c;保护敏感信息变得尤为重要。加密 PDF 文件是一种有效的手段&#xff0c;可以确保只有授权用户才能访问或修改文档内容。本文将详细介绍如何使用 CleverPDF 在线工具为你的 PDF 文件添加密码保护&#xff0c;确保其安全性。 为…

蓝桥杯核心内容

核心内容 数学 质数与筛质数&#xff0c;分解质因数 分解质因数 所有的数都可以写成有限个数相乘质数&#xff1a;可以写成1✖本身&#xff08;如131✖13&#xff09;合数&#xff1a;ab1✖...✖bn-》把乘数里面是合数的再分&#xff08;如b3是合数-》b3c1✖c2&#xff09;进…

七星棋牌源码高阶技术指南:6端互通、200+子游戏玩法深度剖析与企业级搭建实战(完全开源)

在棋牌游戏行业高速发展的今天&#xff0c;如何构建一个具备高并发、强稳定性与多功能支持的棋牌游戏系统成为众多开发者和运营团队关注的焦点。七星棋牌全开源修复版源码 凭借其 六端互通、200子游戏玩法、多省区本地化支持&#xff0c;以及 乐豆系统、防沉迷、比赛场、AI智能…

【学习笔记】【SpringCloud】MybatisPlus 基础使用

目录 一、使用 MybatisPlus 基本步骤 1. 引入 MybatisPlus 依赖 2. 定义Mapper接口并继承BaseMapper 二、MybatisPlus 常用配置 三、自定义SQL 四、IService 接口 1. 批量新增的效率问题 2. 配置方式 五、插件功能 1. 分页插件 一、使用 MybatisPlus 基本步骤 1. 引…

QT 引入Quazip和Zlib源码工程到项目中,无需编译成库,跨平台,压缩进度

前言 最近在做项目时遇到一个需求&#xff0c;需要将升级的文件压缩成zip&#xff0c;再进行传输&#xff1b; 通过网络调研&#xff0c;有许多方式可以实现&#xff0c;例如QT私有模块的ZipReader、QZipWriter&#xff1b;或者第三方库zlib或者libzip或者quazip等&#xff1…

在高流量下保持WordPress网站的稳定和高效运行

随着流量的不断增加&#xff0c;网站的稳定和高效运行变得越来越重要&#xff0c;特别是使用WordPress搭建的网站。流量过高时&#xff0c;网站加载可能会变慢&#xff0c;甚至崩溃&#xff0c;直接影响用户体验和网站正常运营。因此&#xff0c;我们需要采取一些有效的措施&am…

linux 安装启动zookeeper全过程及遇到的坑

1、下载安装zookeeper 参考文章&#xff1a;https://blog.csdn.net/weixin_48887095/article/details/132397448 2、启动失败 1、启动失败JAVA_HOME is not set and java could not be found in PATH 已安装 JAVA 配置了JAVA_HOME,还是报错解决方法&#xff1a;参考&#xf…

投资组合风险管理

投资组合风险管理 市场风险 信用风险流动性风险风险指标收益率波动率最大回撤 α \alpha α&#xff08;詹森指数&#xff09;&#xff0c; β \beta β卡玛比率月胜率上/下行捕获比夏普比率索提诺比率经风险调整的收益率&#xff08;&#x1d440;2&#xff09;特雷诺比率信息…

MySQL八股学习笔记

文章目录 一、MySQL结构1.宏观结构1.1.Server层1.2.存储引擎层 2.建立链接-连接器3.查询缓存4.解析SQL-解析器&#xff08;1&#xff09;词法分析&#xff08;2&#xff09;语法分析 5.执行SQL5.1.预处理器 prepare5.2.优化器 optimize5.3.执行器 execute&#xff08;1&#xf…

在windows下安装windows+Ubuntu16.04双系统(下)

这篇文章的内容主要来源于这篇文章&#xff0c;为正式安装windowsUbuntu16.04双系统部分。在正式安装前&#xff0c;若还没有进行前期准备工作&#xff08;1.分区2.制作启动u盘&#xff09;&#xff0c;见《在windows下安装windowsUbuntu16.04双系统(上)》 二、正式安装Ubuntu …

自然语言处理NLP 04案例——苏宁易购优质评论与差评分析

上一篇文章&#xff0c;我们爬取了苏宁易购平台某产品的优质评价和差评&#xff0c;今天我们对优质评价与差评进行分析 selenium爬取苏宁易购平台某产品的评论-CSDN博客 目录 1. 数据加载 2. 中文分词 3. 停用词处理 4. 数据标注与合并 5. 数据集划分 6. 文本特征提取 …

最新版本Exoplayer扩展FFmpeg音频软解码保姆级教程

ExoPlayer 是一个开源的 Android 媒体播放库&#xff0c;由 Google 开发和维护&#xff0c;用于替代 Android 系统自带的 MediaPlayer。它提供了更强大的功能、更好的性能和更高的灵活性&#xff0c;适用于各种复杂的媒体播放场景。所以被广泛用于各种播放器场景。 最近项目中…

华为昇腾910b服务器部署DeepSeek翻车现场

最近到祸一台HUAWEI Kunpeng 920 5250&#xff0c;先看看配置。之前是部署的讯飞大模型&#xff0c;发现资源利用率太低了。把5台减少到3台&#xff0c;就出了他 硬件配置信息 基本硬件信息 按照惯例先来看看配置。一共3块盘&#xff0c;500G的系统盘&#xff0c; 2块3T固态…

【操作系统】操作系统概述

操作系统概述 1.1 操作系统的概念1.1.1 操作系统定义——什么是OS&#xff1f;1.1.2 操作系统作用——OS有什么用&#xff1f;1.1.3 操作系统地位——计算机系统中&#xff0c;OS处于什么地位&#xff1f;1.1.4 为什么学操作系统&#xff1f; 1.2 操作系统的历史1.2.1 操作系统…

使用Dify将AI机器人嵌入到你的前端页面中及chrome的扩展应用

目录 1 博主有话说2 前提环境3 Dify创建个聊天助手应用4 将AI聊天机器人嵌入到html中5 将AI聊天机器人设置为chrome的扩展应用6 博主增语 1 博主有话说 那博主话不多说&#xff0c;先展示一下成果&#xff01; 这个界面是使用dify配置的一个“聊天助手”的应用&#xff0c;助…

Django REST Framework (DRF) 中用于构建 API 视图类解析

Django REST Framework (DRF) 提供了丰富的视图类&#xff0c;用于构建 API 视图。这些视图类可以分为以下几类&#xff1a; 1. 基础视图类 这些是 DRF 中最基础的视图类&#xff0c;通常用于实现自定义逻辑。 常用类 APIView&#xff1a; 最基本的视图类&#xff0c;所有其…