从零开始构建强大 AI 对话系统:ollama + deepseek + open-webui 完整部署教程(Docker 版)

文章目录

  • 前言
  • 一、工具简介
  • 二、前期准备
  • 三、部署步骤
    • 1. 安装并配置 ollama
      • 使用 CPU 运行
      • 使用 GPU 运行
      • 配置 AMD GPU
    • 2. 本地运行模型
    • 2. 部署 open-webui
  • 四、调试与验证
  • 五、Docker Compose 简化部署
  • 六、注意事项与常见问题
    • 1. ollama 容器网络代理
    • 2. 无法直接启动模型
    • 3. ollama run 500 报错
    • 4. 硬件配置对性能的影响
    • 5. **ollama** 启动与 **open-webui** 调用速度差异
    • 6. 内存不足导致的性能问题
    • 7. 家用部署方案的困难
  • 六、总结


前言

在现代的人工智能应用中,基于模型的对话系统和开放式网络UI正逐渐成为越来越多企业和开发者的选择。本篇博文将为您详细讲解如何通过 Docker 部署 ollama、deepseek 和 open-webui,并结合使用 Docker Compose 实现更加高效、便捷的管理。


一、工具简介

在开始之前,我们先了解一下每个工具的功能和作用:

ollama

  • ollama 是一个强大的对话生成模型,它支持多种自然语言处理任务,包括对话生成、问答、文本总结等。通过容器化部署,ollama 可以轻松地集成到开发环境中,提供一个灵活、可扩展的对话服务。

deepseek

  • deepseek 是一个基于深度学习的语义理解模型,通常与对话系统一起使用。它能够根据用户的输入快速生成符合语义逻辑的回答,从而增强对话系统的准确性和响应速度。在本教程中,我们通过 ollama 运行 deepseek 模型,提供强大的对话能力。

open-webui

  • open-webui 是一个开源的 Web 界面,用于与 AI 模型进行交互。通过它,用户可以通过浏览器与部署的 AI 模型进行实时对话,查看模型的输出结果。open-webui 提供了一个简洁、易用的 UI,方便用户快速集成和管理对话系统。

二、前期准备

在开始部署之前,首先确保系统中已安装好 Docker。若尚未安装,可以参考以下教程:
Windows 系统 Docker 安装教程(菜鸟教程)

Docker 是一个基于容器的轻量级虚拟化平台,能够帮助我们更轻松地部署和运行应用。


三、部署步骤

1. 安装并配置 ollama

可参考:

  • ollama官网
  • ollama 官方 docker 镜像

ollama 是一个强大的对话生成模型,支持多个版本的对话能力。在 Docker 中部署 ollama 是十分简单的。我们首先需要从 Docker Hub 上拉取 ollama 的镜像。

使用 CPU 运行

用如下命令,可以直接跑在 CPU 上:

docker run -d -v D:/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

-d:后台运行容器
-v D:/ollama:/root/.ollama:将本地文件夹挂载到容器内
-p 11434:11434:映射端口,方便外部访问
--name ollama:容器名称
ollama/ollama:镜像名

部署完成后,执行以下命令启动 deepseek 模型:

docker exec -it ollama ollama run deepseek-r1:1.5b

此时,系统已启动,进入容器后,你可以看到一个 >>> 的提示符,表示可以开始与模型进行对话了。

使用 GPU 运行

安装 NVIDIA 驱动
请参考 Ubuntu 安装 NVIDIA 驱动实操指南(含卸载)

安装 NVIDIA 容器工具包

  • 使用 Apt 安装:

    1. 配置存储库
    curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
        | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
    curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
        | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
        | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
    sudo apt-get update
    
    1. 安装 NVIDIA 容器工具包
    sudo apt-get install -y nvidia-container-toolkit
    
  • 使用 Yum 或 Dnf 安装:

    1. 配置存储库
    curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo \
        | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
    
    1. 安装 NVIDIA 容器工具包
    sudo yum install -y nvidia-container-toolkit
    

配置 Docker 使用 Nvidia 驱动

sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

启动容器:

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

配置 AMD GPU

使用 AMD GPU 启动 ollama 时,可以使用 rocm 标签,并执行以下命令:

docker run -d --device /dev/kfd --device /dev/dri -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:rocm

2. 本地运行模型

现在可以运行模型了:

docker exec -it ollama ollama run deepseek-r1:1.5b

2. 部署 open-webui

接下来,我们将部署 open-webui,它是一个用于与 AI 模型交互的 Web 界面。只需要执行以下命令即可启动:

docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://192.168.x.x:11434 -v D:/open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

-p 3000:8080:将容器的 8080 端口映射到宿主机的 3000 端口
-e OLLAMA_BASE_URL=http://192.168.x.x:11434:配置 ollama 服务的基础 URL 地址(此处 192.168.x.x 请替换为本机 IP 地址)
-v D:/open-webui:/app/backend/data:挂载本地目录到容器
--name open-webui:容器名称
--restart always:容器异常退出后自动重启

可使用 ip a (Linux)或 ipconfig (Windows)命令查看本机 ip 地址。

四、调试与验证

完成部署后,可以通过浏览器访问 http://localhost:3000 进入 open-webui。在这个 Web 界面上,你可以与 deepseek 模型进行交互。

登录进去后,左上角选择模型。

五、Docker Compose 简化部署

为了让部署过程更加自动化和易于管理,我们可以将以上命令封装到一个 docker-compose.yml 文件中。通过 Docker Compose,我们可以实现一次性启动整个应用栈。

以下是 docker-compose.yml 文件的示例:

version: '3'

services:
  ollama:
    image: ollama/ollama:0.5.8
    container_name: ollama
    volumes:
      - ./ollama:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            capabilities: ["gpu"]
            count: all  # 调整数量以匹配你希望使用的 GPU 数量
    ports:
      - "11434:11434"
    restart: always

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - ./open-webui:/app/backend/data
    restart: always  # 可以选择是否需要重启策略

在文件夹中创建 docker-compose.yml,然后执行以下命令启动所有服务:

docker-compose up -d

Docker Compose 会根据 docker-compose.yml 文件自动拉取镜像、创建容器并启动服务。你只需要专注于应用的业务逻辑,无需手动管理每个容器。

然后再执行:

docker exec -it ollama ollama run deepseek-r1:1.5b

如果跑 CPU 的话,那就把这段删掉就好了:

   deploy:
   resources:
     reservations:
       devices:
       - driver: nvidia
          capabilities: ["gpu"]
          count: all  # 调整数量以匹配你希望使用的 GPU 数量

六、注意事项与常见问题

在实际部署 ollama + deepseek + open-webui 的过程中,我遇到了一些问题和限制,特别是在硬件配置和性能方面。这里是我个人的一些使用经验和建议,供大家参考。

1. ollama 容器网络代理

ollma 容器 用不了 http https 的 proxy 代理(配全局都没用),官方没有说明,有人提问了但官方也没有解决方案,如果是内网部署还挺麻烦的

2. 无法直接启动模型

ollma 容器 无法直接启动模型
就好比,我无法直接执行下面命令:

docker run -it -v ollama:/root/.ollama -p 11434:11434 --name ollama2 ollama/ollama:0.5.8 ollama  run deepseek-r1:7b

会报错:Error: unknown command “ollama” for “ollama”
具体为啥可以看官方的 Dockerfile 文件

这样将导致不方便写 docker-compose.ymlk8s.yml ,无法让其一步执行完,还得再单独 ollama run 跑一次。
所以有能力的话,最好还是自己做一个 docker 镜像

3. ollama run 500 报错

ollama run 在下载模型时出现 500 错误的情况。根据我的观察,这可能是因为 ollama 的官方网站或服务在某些时段遭遇了攻击或过载,导致无法正常处理请求。
虽然出现了 500 错误,但等待一段时间后问题会自动恢复。

4. 硬件配置对性能的影响

在使用 deepseek 时,我遇到了性能问题,特别是在硬件配置不达标的情况下,模型的表现会非常差。具体来说:

  • 我尝试在一台 32 核 CPU、128GB 内存、机械硬盘的超融合集群的 虚拟机 上部署 8B 模型。结果,模型的表现极差,甚至出现了非常离谱的回答——比如问 7B 和 8B 模型的区别是什么,得到的答案居然是“这两台机器的区别”,完全是乱回答。

  • 然后,在一台小米笔记本上部署测试,笔记本配置为 i5-7200U(4核),8GB 内存,SSD 硬盘。虽然这台笔记本的硬件配置远不如前述虚拟机,但 7B 模型 在这台机器上能正经回答关于 7B 和 8B 模型区别 这个问题,相比下效果好很多。

从中我得出结论,官方建议的硬件配置真的不容忽视,特别是对于 deepseek 这类计算量较大的模型。官方推荐的硬件配置和部署方案如果达不到,精度和准确度都会大打折扣。特别是硬盘方面,SSD 的作用显著,性能差距非常明显。

AI 模型分享、讨论、下载,开放社区 Hugging Face 里面可以找到很多建议

5. ollama 启动与 open-webui 调用速度差异

在测试过程中,我发现 直接使用 ollama 启动并与模型对话 的速度比通过 open-webui 调用 API 的速度要快得多。速度差距非常明显,直接启动 ollama 的响应时间更短,几乎可以立刻得到回复,而通过 open-webui 调用 API 时,响应时间则明显较慢。

至于为什么会有这种差异,我猜测是由于 open-webui 在前端和后端之间有额外的通信开销和数据处理,而直接启动 ollama 可以避免这些额外的延迟,直接与模型进行交互。但具体的原因可能还需要更深入的分析,涉及到 API 调用、网络请求等多个因素。

6. 内存不足导致的性能问题

由于笔记本的内存限制,1.5B 模型 + open-webui 的组合在使用过程中非常慢,尤其是在内存不足时,体验非常差。我曾在笔记本上运行 1.5B 模型,问一个简单的问题竟然等了 5 分钟,连续提问之后,甚至出现了 500 错误,导致 open-webui 服务挂掉(ollama 没挂)。

因为 open-webui 作为前端容器,它不仅需要处理用户的请求,还需要通过 API 与后端模型容器交互。这会导致以下几个因素:

  • API 调用的额外开销:每次用户请求都需要通过网络与后端容器进行通信。如果系统内存不足,网络请求的延迟和处理时间会增加,容易出现超时、错误等问题,特别是在大量并发请求时,可能导致服务挂掉(如 500 错误)。
  • 请求队列的积压:在内存不足的情况下,open-webui 可能会积压请求,导致响应变慢,最终无法及时处理所有请求,进而导致服务崩溃。

然而,ollama(和其中的 deepseek)容器在内存不够的情况下依旧能够稳定运行,不会像 open-webui 一样挂掉,并且单独提问也比在 open-webui 回答的速度快。这个现象可能与 open-webui 容器在处理大量 API 请求时的资源消耗有关,而 ollama 可能是通过更高效的资源管理,减少了对内存和 CPU 的依赖。

相比之下,ollama 容器直接运行模型,不依赖于外部的 API 调用,且可能具有以下优势:

  • 内部资源管理更高效ollama 在处理请求时,不需要通过复杂的前端请求-后端响应流程。它将整个流程封装在一个容器内,可能在内存和 CPU 使用上进行了更精简的优化。这使得即使在内存不足的情况下,它依旧能够较为稳定地运行。
  • 直接与模型交互:当你直接与 ollama 容器进行交互时,数据传输的路径更短,计算更加集中,减少了外部请求和资源竞争的问题。
  • 容错性较强ollama 可能有更好的内存管理策略,比如缓存、分页加载或其他优化策略,能够在内存资源有限的情况下保持运行稳定。

7. 家用部署方案的困难

我原本的计划是把 deepseek 部署在家用环境中,以达到省电并保持高效的目标。然而,实际测试结果显示,这种方案在当前的硬件配置下似乎不可行。特别是在内存和硬盘的压力下,系统的响应速度和稳定性并没有达到预期效果。

所以,如果你计划在家用机器上运行类似的 AI 模型,尤其是 deepseek,建议你提前检查硬件配置,特别是 SSD 硬盘和充足的内存。

六、总结

通过以上步骤,我们已经成功地在 Docker 中部署了 ollama、deepseek 和 open-webui,并通过 Docker Compose 优化了整个部署过程。这一组合为开发者和 AI 研究人员提供了一个快速、高效的对话系统解决方案,可以方便地进行自定义开发与实验。

如果有任何问题,欢迎留言讨论!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/967670.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

macbook2015升级最新MacOS 白苹果变黑苹果

原帖:https://www.bilibili.com/video/BV13V411c7xz/MAC OS系统发布了最新的Sonoma,超酷的动效锁屏壁纸,多样性的桌面小组件,但是也阉割了很多老款机型的升级权利,所以我们可以逆向操作,依旧把老款MAC设备强…

2025年最新版武书连SCD期刊(中国科学引文数据库)来源期刊已更新,可下载PDF版!需要的作者进来了解~

2025年最新版武书连SCD期刊(中国科学引文数据库)来源期刊已更新! 官网是不提供免费查询的。小编给大家两个路径,无需下载PDF,随时随地都能查25版SCD目录。 路径一:中州期刊联盟官网,25版SCD目…

deepseek大模型集成到idea

1 下载插件 安装CodeGPT打开 IntelliJ IDEA,鼠标点击左上角导航栏,File --> Setting 2 申请API key 3 配置deepseek 在 Settings 界面中的搜索框中,搜索 CodeGPT,路径 Tools --> CodeGPT --> Providers --> 如下一…

本地部署DeepSeek,并使用UI界面进行快速交互

一.需要本地部署的原因 1.我们在deepseek的官网界面进行交互时,经常会出现如下问题,不能正常交互,很是困扰: 2.本地部署的好处 就是能够很流畅的与deepseek进行交互;也有缺点,现在官网交互的版本更高一点…

8.flask+websocket

http是短连接,无状态的。 websocket是长连接,有状态的。 flask中使用websocket from flask import Flask, request import asyncio import json import time import websockets from threading import Thread from urllib.parse import urlparse, pars…

深度学习之神经网络框架搭建及模型优化

神经网络框架搭建及模型优化 目录 神经网络框架搭建及模型优化1 数据及配置1.1 配置1.2 数据1.3 函数导入1.4 数据函数1.5 数据打包 2 神经网络框架搭建2.1 框架确认2.2 函数搭建2.3 框架上传 3 模型优化3.1 函数理解3.2 训练模型和测试模型代码 4 最终代码测试4.1 SGD优化算法…

【Matlab优化算法-第15期】基于NSGA-II算法的铁路物流园区功能区布局优化

基于NSGA-II算法的铁路物流园区功能区布局优化 一、前言 铁路物流园区的合理布局对于提高物流效率、降低运营成本具有重要意义。随着铁路物流的快速发展,传统的铁路货场需要升级为综合物流园区,以满足多式联运和综合物流服务的需求。本文将介绍一种基于…

手写一个C++ Android Binder服务及源码分析

手写一个C Android Binder服务及源码分析 前言一、 基于C语言编写Android Binder跨进程通信Demo总结及改进二、C语言编写自己的Binder服务Demo1. binder服务demo功能介绍2. binder服务demo代码结构图3. binder服务demo代码实现3.1 IHelloService.h代码实现3.2 BnHelloService.c…

WebSocket connection failed 解决

WebSocket connection failed 解决 前言 这里如果是新手小白不知道 WebSocket 是什么的? 怎么使用的?或者想深入了解的 那可以 点击这里 几分钟带你快速了解并使用,已经一些进阶讲解; WebSocket,多应用于需要双向数据…

Python截图轻量化工具

一、兼容局限性 这是用Python做的截图工具,不过由于使用了ctypes调用了Windows的API, 同时访问了Windows中"C:/Windows/Cursors/"中的.cur光标样式文件, 这个工具只适用于Windows环境; 如果要提升其跨平台性的话,需要考虑替换cty…

字节跳动后端一面

📍1. Gzip压缩技术详解 Gzip是一种流行的无损数据压缩格式,它使用DEFLATE算法来减少文件大小,广泛应用于网络传输和文件存储中以提高效率。 🚀 使用场景: • 网站优化:通过压缩HTML、CSS、JavaScript文件来…

Visual Studio踩过的坑

统计Unity项目代码行数 编辑-查找和替换-在文件中查找 查找内容输入 b*[^:b#/].*$ 勾选“使用正则表达式” 文件类型留空 也有网友做了指定,供参考 !*\bin\*;!*\obj\*;!*\.*\*!*.meta;!*.prefab;!*.unity 打开Unity的项目 注意:只是看&#xff0…

智慧机房解决方案(文末联系,领取整套资料,可做论文)

智慧机房解决方案-软件部分 一、方案概述 本智慧机房解决方案旨在通过硬件设备与软件系统的深度整合,实现机房的智能化管理与服务,提升机房管理人员的工作效率,优化机房运营效率,确保机房设备的安全稳定运行。软件部分包括机房管…

ubuntu中如何在vscode的终端目录后显示(当前的git分支名) 实测有用

效果展示 配置过程: 在 Ubuntu 中,如果你想在 VS Code 的终端提示符后显示当前的 Git 分支名,可以通过修改 Shell 配置文件(如 ~/.bashrc 或 ~/.zshrc)来实现。以下是具体步骤: 1. 确定使用的 Shell 首…

【机器学习案列】车辆二氧化碳排放量预测

这里是引用 🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中…

SpringCloud - Sentinel服务保护

前言 该博客为Sentinel学习笔记,主要目的是为了帮助后期快速复习使用 学习视频:7小快速通关SpringCloud 辅助文档:SpringCloud快速通关 源码地址:cloud-demo 一、简介 官网:https://sentinelguard.io/zh-cn/index.h…

基于 GEE 利用插值方法填补缺失影像

目录 1 完整代码 2 运行结果 利用GEE合成NDVI时,如果研究区较大,一个月的影像覆盖不了整个研究区,就会有缺失的地方,还有就是去云之后,有云量的地区变成空值。 所以今天来用一种插值的方法来填补缺失的影像&#xf…

海云安开发者智能助手(D10)全面接入DeepSeek,赋能开发者安全高效编码新范式

海云安正式宣布完成与DeepSeek(深度求索)的深度技术融合,旗下核心产品D10开发者智能助手全面接入DeepSeek R1模型。此次合作标志着海云安在"AI驱动开发安全"领域实现重要突破。数据显示,通过DeepSeek R1模型的优化与蒸馏…

Docker 1. 基础使用

1. Docker Docker 是一个 基于容器的虚拟化技术,它能够将应用及其依赖打包成 轻量级、可移植 的容器,并在不同的环境中运行。 2. Docker指令 (1)查看已有镜像 docker images (2)删除镜像 docker rmi …

【批量获取图片信息】批量获取图片尺寸、海拔、分辨率、GPS经纬度、面积、位深度、等图片属性里的详细信息,提取出来后导出表格,基于WPF的详细解决方案

摄影工作室通常会有大量的图片素材,在进行图片整理和分类时,需要知道每张图片的尺寸、分辨率、GPS 经纬度(如果拍摄时记录了)等信息,以便更好地管理图片资源,比如根据图片尺寸和分辨率决定哪些图片适合用于…