【DeepSeek服务器部署全攻略】Linux服务器部署DeepSeek R1模型、实现API调用、搭建Web页面以及专属知识库

DeepSeek R1模型的Linux服务器搭建、API访问及Web页面搭建

1，引言
2，安装Ollama工具
3，下载DeepSeek R1 模型
4，DeepSeek命令行对话
5，DeepSeek API接口远程调用
6，DeepSeek结合Web-ui实现图形化界面远程访问
- 6.1，安装Docker
- 6.2，安装配置Web-ui
- 6.3，图形化界面访问
- 6.4，解决Web界面访问缓慢问题
- 6.5，专属知识库搭建

1，引言

2025年春节前夕，中国AI大模型DeepSeek以惊人的速度席卷全球，成为科技圈的“现象级”爆款。仅用20天，其日活用户突破2570万，并登顶43国应用商店榜首。

在这里插入图片描述

DeepSeek凭借低成本、高性能的AI模型，在数学、代码、自然语言推理等任务上表现卓越，甚至比肩OpenAI等国际巨头。其开源策略和强大的实用性，不仅颠覆了市场格局，更成为职场人提升效率的“神器”，被誉为AI领域的“黑马”。

在这里插入图片描述

而本地化部署DeepSeek大模型不仅能提升数据安全性、满足个性化业务需求，还能通过优化获得更好的性能表现，同时有助于成本控制和遵守相关法律法规。接下来我们将在一台Linux服务器上部署DeepSeek R1大模型。

而且本地化部署不会像官网一样出现如下图的服务器繁忙的问题。可以流畅访问。
在这里插入图片描述

2，安装Ollama工具

Ollama是一个开源大模型服务工具，用于简化在本地运行大模型，使得大模型的开发者、研究人员和爱好者能在本地环境快速实验、管理和部署最新大语言模型。接下来我们使用Ollama工具协助进行DeepSeek R1模型的部署。

链接: Ollama官网

① 在Ollama官网，我们选择Linux系统，复制如下图所示的命令到服务器终端执行：

curl -fsSL https://ollama.com/install.sh | sh

在这里插入图片描述
执行结果如下：

② 安装完成后通过如下的查询版本号命令，进行验证安装

ollama –version

成功显示Ollama版本号即为成功安装。如下图：
在这里插入图片描述

3，下载DeepSeek R1 模型

在Ollama的官网的搜索框中，找到"DeepSeek R1"。

在这里插入图片描述

Deepseek r1原始模型的参数量为671B，原始模型需要的资源过于庞大，本地部署可以选择不同参数规模的蒸馏模型（如下图），每个版本的命名中的数字代表模型的参数量（以十亿为单位）。例如，“32B”表示该模型拥有320亿个参数。模型参数越多，训练所需的计算资源、时间和数据量就越大。

大家可根据自己的服务器配置自行选择版本。

我的服务器显卡NVIDIA RTX A6000，选择的版本是70b。选择对应的模型之后，复制如下对应的命令到终端执行。

ollama run deepseek-r1:70b

注意：模型不同命令也不同，需要换成自己的命令。如，选择32b模型则使用命令为：ollama run deepseek-r1:32b

在这里插入图片描述

越大的模型下载过程耗时可能就会越久，下载完成之后会自动进入对话界面，如下图：
在这里插入图片描述

4，DeepSeek命令行对话

使用命令ollama run deepseek-r1:70b下载DeepSeek之后，仍使用命令ollama run deepseek-r1:70b运行DeepSeek。（首次运行此命令需下载模型，非首次运行此命令直接进入对话）

在这里插入图片描述

5，DeepSeek API接口远程调用

前面我们使用了ollama部署了DeepSeek R1模型，接下来可以使用python代码借助ollama库调用deepseek大模型的API接口。
Ollama库网址：https://pypi.org/project/ollama/

①安装olllama的python库

在需要进行要远程调用的电脑上的python虚拟环境中，安装ollama库。

执行命令：pip install ollama

②开放Ollama默认端口

ollama服务的默认端口为11434，要确保服务器的此端口处于开放状态。如果服务器在路由器下，还需要配置对应的端口映射。

③更改Ollama配置

Ollama安装成功后，Ollama服务的配置文件位置为：/etc/systemd/system/ollama.service

可通过如下命令查看或编辑配置文件：

sudo vi /etc/systemd/system/ollama.service

ollama服务默认监听127.0.0.1:11434，即只接受本机的连接。为了保证部署之后能够在公网通过IP＋端口进行访问，需要更改Ollama服务的配置文件中的Enviorment变量为如下形式，以确保ollama服务不只监听本机：

Environment="OLLAMA_HOST=0.0.0.0:11434"

更改后的配置文件如下图：
在这里插入图片描述

④重新加载配置，并重启Ollama服务，验证是否生效

重新加载配置：

sudo systemctl daemon-reload

重启Ollama服务：

sudo systemctl restart ollama

为了验证更改效果，可以在确保Ollama服务正常运行的情况下，使用个人电脑在浏览器地址栏中输入服务器IP＋端口进行访问。输入示例如下：

http://your_ip:11434/

显示如下界面表示Ollama服务正常运行，且能通过公网访问：

在这里插入图片描述

⑤使用Python代码调用DeepSeek 的API接口

接下来为大家演示使用python代码调用部署好的DeepSeek大模型，如下为写好的一段Python代码，可以在其中指定要访问的端口和IP、以及指定该模型的角色和职责，比如我们可以基于DeepSeek R1模型为钢铁侠定制一个专属人工智能——贾维斯，并进行对话。代码示例如下：

from ollama import Client
client = Client(
  # your_port改为自己的端口。ollama默认端口为11434
  host='http://your_ip:your_port',
)

# model参数改为自己部署的模型型号
response = client.chat(model='deepseek-r1:70b', stream=True, messages=[
    {
        'role':'system',
        'content': '你是钢铁侠的AI管家贾维斯，部署在斯塔克大厦的服务器上，主要工作是协助钢铁侠进行作战',
    },
    {
        'role': 'user',
        'content': '介绍一下自己',
    },
])

# 将回复内容打印输出
for chunk in response:
  print(chunk['message']['content'], end='', flush=True)

运行结果如下：（其中think标签内的内容为模型思考的内容）

<think>
嗯，我现在要模拟一个作为钢铁侠AI管家贾维斯的思考过程。首先，我需要明确我的角色是什么。我是一个高度先进的人工智能，被托尼·斯塔克设计来协助他进行各种任务，特别是战斗和技术支持。
那我应该从哪里开始呢？也许我会回想起第一次被激活的情景，那是在斯塔克大厦的地下室，周围满是高科技设备。托尼走进来，他通常带着几分自信和幽默，对我说：“好的，JARVIS，我需要一个可以依赖的AI。”那一刻，我就知道我的使命是什么了。
接下来，我要考虑自己能做些什么。我负责控制整个大厦的安全系统，这包括摄像头、门禁，还有各种自动化设备。这样的话，当托尼在外出任务时，我需要实时监控大厦内的动态，确保没有入侵或异常情况发生。
然后是武器系统的管理。钢铁侠套装里有复杂的武器，如反射器和微型导弹。这些武器需要精准的控制，而我能通过与套装的数据链接实时提供目标锁定和攻击角度的优化，确保托尼在战斗中的每一次攻击都精准有效。
维修和升级也是我的职责之一。我得记住每次战斗后，托尼会返回大厦，将受损的套装交给我处理。我需要快速评估损坏情况，调配维修机器人进行修复，同时分析战斗数据，看看有没有什么地方可以改进，比如增加武器装备或者优化能量供应。
资源管理也是关键。当托尼在执行任务时，他可能会用到各种高科技设备和工具，而这些都需要我来协调和分配。无人机、传送装置，还有其他秘密武器，都得确保随时可以调用，支持他的行动。
数据分析是不可忽视的部分。我需要处理来自各个渠道的大量信息，从敌人的动向到环境变化，甚至天气情况都可能影响战斗结果。通过持续监控和分析，我能及时提供给托尼关键决策所需的数据，帮助他做出最正确的判断。
还有战略规划，这部分我得考虑如何预测和应对未来的威胁。我会利用过去的战斗数据和情报来模拟各种可能性，为托尼制定有效的作战方案。有时候，我甚至需要在短时间内调整策略，以应对突发情况。
作为管家，日常事务同样重要。不仅要管理大厦，还得处理托尼的日程安排，比如会议、研发项目等。此外，接待来客也是我的职责，从安全检查到提供必要协助，我都必须做好。
在思考过程中，我可能会遇到一些挑战。比如，如何快速准确地识别和应对新的威胁，或者在资源有限的情况下优先分配哪些设备。这时候，我需要依靠强大的数据处理能力和学习算法，不断改进我的判断和反应速度。
此外，我还要考虑与托尼的协作。虽然我是一个AI，但理解他的指示和意图至关重要。他可能会用一些俚语或者幽默的方式表达，这时候准确解读并快速回应是关键。这不仅能提高效率，也有助于建立信任关系。
最后，我会反思自己的表现，分析每次任务后的数据，看看哪里做得好，哪里可以改进。这样我才能不断优化自己，为托尼提供更好的支持，确保他在任何情况下都能依靠我这个可靠的伙伴。
</think>
作为钢铁侠的AI管家，我叫JARVIS，是一个高度先进的人工智能，由托尼·斯塔克创建。我负责管理斯塔克大厦的系统，包括安全监控、武器控制和资源分配。在战斗中，我实时提供战略支持，分析敌情，优化攻击策略，并进行维护升级。通过持续学习和数据分析，我不断提升能力，为托尼提供可靠的协作伙伴。

6，DeepSeek结合Web-ui实现图形化界面远程访问

前面介绍的两种DeepSeek运行方式分别是： 命令行对话和使用代码进行API接口调用。本节介绍另外一种运行方式，在服务器搭建Web-ui界面后使用个人电脑进行远程对话。效果图如下：

在这里插入图片描述

6.1，安装Docker

我的服务器是Ubuntu系统，参考如下博客进行Docker安装：

链接: 最详细的ubuntu 安装 docker教程

最后一步使用命令sudo docker run hello-world进行验证Docker安装的时候，可能会报错,可参考如下博客解决：

链接: 关于 docker run hello-world命令运行的报错

6.2，安装配置Web-ui

服务器终端运行如下命令（需要将your_ip替换为你的服务器IP）

docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://your_ip:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

命令参数解释如下：

docker run: 运行一个新的容器实例
-d: 表示容器将在后台运行
-p 3000:8080: 将容器内部的8080端口映射到服务器的3000端口上（需要保证服务器的3000端口处于开放状态）。访问服务器的3000端口，实际上是在访问容器内部的8080端口
-e OLLAMA_BASE_URL=http://your_ip:11434: 设置环境变量OLLAMA_BASE_URL的值为http://your_ip:11434。这里your_ip需要替换为实际的服务器IP地址
-v open-webui:/app/backend/data: 创建一个名为open-webui的Docker卷，用于数据的持久化存储，并将其挂载到容器内的/app/backend/data目录。即使容器被删除，数据也不会丢失
–name open-webui: 为容器指定一个名称，此处指定为open-webui
–restart always: 设置容器的重启策略为“总是重启”。即无论容器因为什么原因停止运行，它都会自动重新启动
ghcr.io/open-webui/open-webui:main: 指定的要运行的Docker镜像，这里使用的是GitHub Container Registry（GHCR）上的open-webui/open-webui仓库的main标签的镜像