Windows 使用 Docker + WSL2 部署 Ollama(AMD 显卡推理)搭建手册‌

Windows 使用 Docker + WSL2 部署 Ollama(AMD 显卡推理)搭建手册‌

‌手册目标‌
在 Windows 11 上通过 ‌Docker + WSL2‌ 调用 AMD 显卡运行 Ollama 推理服务。
实现 ‌低延迟、高性能的本地模型推理‌,同时不影响 Windows 正常使用。

标记为搭建过程中遇到的很重要问题!!

一、系统要求与准备工作‌

硬件要求‌

  • ✅ AMD RX 6000/7000系列显卡(需支持ROCm 5.7+)
  • ✅ 内存 ≥16GB(建议为WSL2分配≥8GB)
  • ✅ 存储空间 ≥20GB

软件要求

  • 🖥️ Windows 11 22H2或更高版本
  • 🔗 AMD显卡驱动下载

二、环境配置流程

1. 启用WSL2

以管理员身份打开 ‌PowerShell‌,运行:

dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart

重启计算机。

2 设置 WSL2 为默认版本‌

wsl --set-default-version 2

3. 安装 Ubuntu 22.04‌

打开 ‌Microsoft Store‌,搜索并安装 ‌Ubuntu 22.04 LTS‌。
启动 Ubuntu,设置用户名和密码。
也可以通过wsl --install XXX安装,但是需要注意版本,后续的显卡驱动需要与之对应!
目前发现仅 ROCm 6.1.3 版本对应的AMD 显卡 Linux 驱动(修订号 24.10.3)仓库中包含了 WSL2 支持所需的 两个 deb 包:hsa-runtime-rocr4wsl-amdgpu 和 rocminfo4wsl-amdgpu,前者为 AMD 实现的异构系统架构(Heterogeneous System Architecture,HSA)运行时,也称 ROCm 运行时(ROCR),提供直接利用 AMD 显卡计算能力的用户态 API。后者为 rocminfo 工具,用于报告系统信息,可枚举工作 ROCm 栈中的 GPU 代理(agents)。

**如果后续安装PyTorch需要将驱动提供的 libhas-runtime64.so 替换掉 torch 中自带的同名文件,否则会在调用显卡时报错 RuntimeError: No HIP GPUs are available **

== 也就是说 其他版本可能会导致WSL2检测不到AMD显卡 ==
在这里插入图片描述

三、安装 Docker Desktop 并集成 WSL2‌

1. 下载并安装 Docker Desktop‌

访问 Docker 官网 下载安装包。
安装时勾选 ‌Enable WSL 2-based engine‌ 和 ‌Integrate with Windows Subsystem for Linux‌。

2. 配置 Docker 使用 WSL2‌

打开 Docker Desktop 设置,进入 ‌Resources → WSL Integration‌:
启用 ‌Enable integration with my default WSL distro‌。
选择已安装的 Ubuntu 22.04。

四、配置 AMD 显卡驱动与 ROCm‌

1. 在 WSL2 中安装 ROCm‌

== 注意驱动版本 ==
在 Ubuntu 终端中运行:

sudo apt update
wget https://repo.radeon.com/amdgpu-install/6.1.3/ubuntu/jammy/amdgpu-install_6.1.60103-1_all.deb
sudo apt install ./amdgpu-install_6.1.60103-1_all.deb

2. 验证 GPU 识别‌

== 如果rocminfo 命令不存在,或没有返回信息,需要检查驱动版本(24.10.3)==

rocminfo  # 应输出显卡型号(如 gfx1100)

五、构建并运行 Ollama Docker 容器‌‌

1. 创建 Dockerfile‌

在 Ubuntu 中新建目录并创建 Dockerfile:

mkdir ollama-amd && cd ollama-amd
nano Dockerfile

输入以下内容:

FROM ubuntu:22.04
RUN apt update && apt install -y curl
RUN curl -fsSL https://ollama.ai/install.sh | sh
EXPOSE 11434
CMD ["ollama", "serve"]

2. 构建镜像‌

docker build -t ollama-amd

3. 启动容器并映射 GPU‌

docker run -d \
  --name ollama \
  --gpus=all \
  --device=/dev/kfd \
  --device=/dev/dri \
  -p 11434:11434 \
  ollama-amd

六、验证服务与性能测试‌

1. 检查容器状态‌

docker logs ollama  # 应显示 "Listening on 0.0.0.0:11434"

2. 在 Windows 中调用推理服务‌

安装 Python 并运行以下脚本:

import requests
response = requests.post(
    "http://localhost:11434/api/generate",
    json={"model": "llama2", "prompt": "Hello, how are you?"}
)
print(response.text)

3. 性能测试(RX 7900 XTX)‌

模型推理速度 (tokens/s)显存占用
Llama2-7B2820GB
CodeLlama-34B924GB

七、优化配置‌

1. 调整 WSL2 内存限制‌

在 Windows 用户目录创建 .wslconfig 文件:

memory=16GB   # 分配 16GB 内存给 WSL2
processors=8   # 分配 8 个 CPU 核心

2. 启用混合精度推理‌

docker exec -it ollama ollama run llama2 --gpu-layers 32 --precision fp16

八、常见问题解答‌

Q1:ROCm 安装失败,提示依赖错误‌

‌解决‌:更新系统并重试:

sudo apt update && sudo apt upgrade -y

Q2:容器启动报错 Failed to initialize GPU‌

‌解决‌:检查显卡驱动是否支持 ROCm 5.7,并重新绑定设备:

docker run ... --device=/dev/dri/renderD128  # 添加此参数

总结‌

通过本手册,您已成功在 Windows 上部署了基于 ‌AMD 显卡的 Ollama 推理服务‌,并实现了:

  • GPU 加速推理‌:接近原生 Linux 性能。
  • 无缝开发体验‌:在 Windows 中直接调用 localhost:11434 进行模型测试。
  • 资源隔离‌:WSL2 容器与 Windows 系统资源互不影响。
    ‌附:操作流程图‌
Windows 11
│
├─ WSL2 (Ubuntu 22.04)
│   ├─ Docker Engine
│   │   └─ Ollama 容器(绑定 AMD 显卡)
│   └─ ROCm 5.7
│
└─ 本地应用(Python/Postman)
    └─ 调用 http://localhost:11434

WSL命令:

wsl --list 
wsl --list --verbose
wsl --install xxx # 不指定版本会安装最新的

#删除子系统
wsl --shutdown  # 强制关闭所有正在运行的子系统 ‌:ml-citation{ref="1,5" data="citationList"}
wsl --list --verbose  # 确认子系统状态为 "Stopped" ‌:ml-citation{ref="1,2" data="citationList"}
wsl --unregister <子系统名称>  # 例如:wsl --unregister Ubuntu-24.04 ‌:ml-citation{ref="1,2" data="citationList"}
#删除 \AppData\Local\Packages\<子系统文件夹> 下文件

启动 WSL‌:

wsl:不带参数时,将启动默认的 Linux 发行版。
wsl -d :指定要启动的 Linux 发行版名称。
‌列出 Linux 发行版‌:

wsl --list 或 wsl -l:列出所有已安装的 Linux 发行版。
wsl --list --online 或 wsl -l -o:列出可以从 Microsoft Store 安装的在线 Linux 发行版。
wsl --list --verbose 或 wsl -l -v:显示详细的发行版列表,包括发行版的状态和使用的 WSL 版本(1 或 2)。
‌设置默认的 Linux 发行版‌:

wsl --setdefault :设置指定的 Linux 发行版为默认启动项。
‌卸载 Linux 发行版‌:

wsl --unregister :卸载指定的 Linux 发行版。
‌更新 WSL‌:

WSL 的更新通常通过 Windows 更新或 Microsoft Store 来完成。
‌检查 WSL 状态‌:

可以通过运行 wsl 命令并观察输出,或者查看 Windows 功能列表中的 WSL 相关项来检查 WSL 是否已正确安装和配置。
‌跨系统文件访问‌:

WSL 允许在 Windows 和 Linux 文件系统之间访问文件,但出于性能考虑,建议将文件存储在 WSL 文件系统中。
‌运行 Linux GUI 应用‌:

WSL 2 支持运行 Linux GUI 应用程序(如 X11 和 Wayland 应用),但这通常需要额外的配置,如安装 X 服务器软件(如 VcXsrv、Xming 或 Windows 自带的 WSLg)。‌1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/981606.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【每天认识一个漏洞】shiro反序列化漏洞

&#x1f31d;博客主页&#xff1a;菜鸟小羊 &#x1f496;专栏&#xff1a;Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 以下是在实际业务中遇到的一个漏洞&#xff0c;仅用来学习&#xff0c;通过暴露的 /actuator/heapdump 端点获取 Shiro key…

【AI大模型】DeepSeek + Kimi 高效制作PPT实战详解

目录 一、前言 二、传统 PPT 制作问题 2.1 传统方式制作 PPT 2.2 AI 大模型辅助制作 PPT 2.3 适用场景对比分析 2.4 最佳实践与推荐 三、DeepSeek Kimi 高效制作PPT操作实践 3.1 Kimi 简介 3.2 DeepSeek Kimi 制作PPT优势 3.2.1 DeepSeek 优势 3.2.2 Kimi 制作PPT优…

音频3A测试--AGC(自动增益)和NS(降噪)测试

一、测试前期准备 一台电脑&#xff1a;用于作为控制播放和录制数据&#xff1b; 一台音频处理器(调音台)&#xff1a;控制每个通道播放的数据&#xff0c;如噪声、人工头、模拟设备B输入的数据、收集标准麦克风&#xff0c;设备A处理完成的数据&#xff1b; 四个高保真音响&…

zabbix配置邮件告警

目录 实现步骤&#xff1a; 实现目的&#xff1a; 1.在监控端操作&#xff1a; 2.web界面部署 ​​​​​​​实现步骤&#xff1a; 1、在 zabbix服务端配置邮件发送脚本和修改 zabbix服务端配置文件; 2、在 zabbix前端控制台进行相关设置。 实现目的&#xff1a; Zab…

PHP fastadmin 学习

安装php环境安装mysql插件 修改 php.ini下载 phpstudy、fastadmin 错误 安装FastAdmin could not find driver 参考链接 安装插件 创建1.php <? phpinfo(); ?>运行 http://127.0.0.1/1.php 查看 POD 页面访问404 伪静态 Apache <IfModule mod_rewrite.c> O…

PARETO PROMPT OPTIMIZATION

题目 帕累托提示优化 论文地址&#xff1a;https://openreview.net/forum?idHGCk5aaSvE 摘要 自然语言迅速优化或及时工程已成为一种强大的技术&#xff0c;可以解锁大型语言模型&#xff08;LLMS&#xff09;的各种任务的潜力。尽管现有方法主要集中于最大化LLM输出的单一特…

Agent智能体是什么?

文章目录 一、Agent的起源与发展1.1时间线1.2核心驱动力 二、Agent的定义与架构2.1基本定义2.2典型结构&#xff08;以GPTs为例&#xff09; 三、OpenAI的Agent演进路径3.1关键阶段3.2技术支撑3.3 GPTs生态经济模型 四、其他Agent平台对比五、Agent实践案例5.1文本处理自动化5.…

【Linux第三弹】Linux基础指令 (下)

目录 &#x1f31f;1.find指令 1.1find使用实例 ​编辑 &#x1f31f;2.which指令 &#x1f31f;3.grep指令 3.1grep使用实例 &#x1f31f; 4.zip/unzip指令 4.1 zip/unzip使用实例 &#x1f31f;5.tar指令 5.1 tar使用实例 &#x1f31f;6.完结 很庆幸走在自己…

【Laplacian边缘检测详解】

Laplacian边缘检测详解 目录 Laplacian边缘检测详解一. 定义二. 原理三. 特点四. 使用技巧五. MATLAB示例代码示例1&#xff1a;基本Laplacian边缘检测示例2&#xff1a;扩展Laplacian核的使用示例3&#xff1a;与Sobel边缘检测的比较示例4&#xff1a;检测图像中的文字边缘示例…

为什么要学习数据结构与算法

今天&#xff0c;我向大家介绍一门非常重要的课程——《数据结构与算法》。这门课不仅是计算机学科的核心&#xff0c;更是每一位开发者从“小白”迈向“高手”的必经之路。 1、为什么要学习数据结构与算法 总的来说&#xff0c;数据结构与算法是&#xff1a; 求职的“敲门砖”…

【第13节】C++设计模式(行为模式)-Template(模板)模式

一、问题的提出 Template 模式&#xff1a;算法步骤框架与细节实现的分离 假设我们正在开发一个文档处理系统&#xff0c;需要支持多种文档格式的导出&#xff08;如 PDF、Word、HTML 等&#xff09;。每种文档格式的导出过程大致相同&#xff0c;都包含以下步骤&#xff1a; …

安卓binder驱动内核日志调试打印开放及原理(第一节)

背景&#xff1a; 经常有学员朋友在做系统开发时候&#xff0c;有时候遇到binder相关的一些问题&#xff0c;这个时候可能就需要比较多的binder相关日志&#xff0c;但是正常情况下这些binder通讯的的内核日志都是没有的打印的&#xff0c;因为经常binder通讯太过于频繁&#…

uniapp 常用 UI 组件库

1. uView UI 特点&#xff1a; 组件丰富&#xff1a;提供覆盖按钮、表单、图标、表格、导航、图表等场景的内置组件。跨平台支持&#xff1a;兼容 App、H5、小程序等多端。高度可定制&#xff1a;支持主题定制&#xff0c;组件样式灵活。实用工具类&#xff1a;提供时间、数组操…

Gpt翻译完整版

上一篇文章收到了很多小伙伴的反馈&#xff0c;总结了一下主要以下几点&#xff1a; 1. 说不知道怎么调api 2. 目前只是把所有的中文变成了英文&#xff0c;如果想要做多语言还需要把这些关键字提炼出来成放到message_zh.properties和message_en.properties文件中&#xff0c…

【MATLAB例程】三维下的IMM(交互式多模型),模型使用CV(匀速)、CT(匀速转弯)和CA(匀加速),滤波使用EKF。附完整代码

本文介绍一个三维IMM(Interacting Multiple Model)算法,该算法用于目标跟踪,结合了不同运动模型(匀速、匀加速和转弯)。代码使用MATLAB编写,包含仿真、模型预测和结果可视化。订阅专栏后,可直接获得完整代码 文章目录 运行结果完整代码代码解析1. 初始化环境2. 仿真参数…

未来经济范式争夺战:AR眼镜为何成为下一代交互终端的制高点?

未来经济范式争夺战&#xff1a;AR眼镜为何成为下一代交互终端的制高点&#xff1f; 在蒸汽机轰鸣的工业革命时代&#xff0c;煤炭、铁路、电报构建了第一个现代经济范式&#xff1b;互联网时代&#xff0c;电力、光纤、物流网络重构了全球经济版图。当前&#xff0c;我们正站…

【Python爬虫】爬取公共交通路网数据

程序来自于Github&#xff0c;以下这篇博客作为完整的学习记录&#xff0c;也callback上一篇爬取公共交通站点的博文。 Bardbo/get_bus_lines_and_stations_data_from_gaode: 这个项目是基于高德开放平台和公交网获取公交线路及站点数据&#xff0c;并生成shp文件&#xff0c;…

如何将飞书多维表格与DeepSeek R1结合使用:效率提升的完美搭档

将飞书的多维表格与DeepSeek R1结合使用&#xff0c;就像为你的数据管理和分析之旅装上一台涡轮增压器。两者的合作&#xff0c;不仅仅在速度上让人耳目一新&#xff0c;更是将智能化分析带入了日常的工作场景。以下是它们如何相辅相成并改变我们工作方式的一些分享。 --- 在…

一周学会Flask3 Python Web开发-在模板中渲染WTForms表单视图函数里获取表单数据

锋哥原创的Flask3 Python Web开发 Flask3视频教程&#xff1a; 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 为了能够在模板中渲染表单&#xff0c;我们需要把表单类实例传入模板。首先在视图函数里实例化表单类LoginForm&#xff0c;然…

阿里通义万相2.1模型在亚马逊云科技ECS容器中的私有化部署

本文将主要介绍同义万相v2.1视频生成模型的在AWS上部署的初步测试 通义万相AI模型介绍 通义万相模型是阿里云负责大规模生成式模型的团队&#xff0c;最近发布了通义万相2.1(以下称Wan 2.1)&#xff0c;这是一个“全面开源的视频基础模型套件&#xff0c;突破了视频生成的边界…