【LLM】本地部署LLM大语言模型+可视化交互聊天,附常见本地部署硬件要求(以Ollama+OpenWebUI部署DeepSeekR1为例)

【LLM】本地部署LLM大语言模型+可视化交互聊天,附常见本地部署硬件要求(以Ollama+OpenWebUI部署DeepSeekR1为例)

文章目录

    • 1、本地部署LLM(以Ollama为例)
    • 2、本地LLM交互界面(以OpenWebUI为例)
    • 3、本地部署硬件要求对应表

1、本地部署LLM(以Ollama为例)

本地部署LLM的框架

  • 129k-Ollama 1
    是一个提供简单命令行接口的工具,可以轻松下载和运行本地 AI 模型。
  • 139k-Transformers 2
    Hugging Face 的 Transformers 库支持多种预训练语言模型,并提供简单的 API 以在本地运行这些模型,适合进行微调和推理。
  • 75k-llama.cpp, 3
    CPU友好,一个高效的 C++ 实现,支持在各种设备上运行 LLaMA 模型,适合追求性能的用户。
  • 39k-vllm, link
    GPU优化,vLLM 是一个高效的、用于推理的框架,特别针对大型语言模型的并行推理进行优化。它利用了内存和计算资源的高效管理,提供了显著的性能提升。
  • 69k-stable-diffusion,link
    虽然主要用于图像生成,它也在开源领域取得了极大的关注,且可以灵活地与文本模型结合使用。

ollama是什么

  • Ollama 是一个用于构建和运行本地 AI 模型的开源工具。
  • 它可以帮助开发者和研究人员更方便地利用 AI 模型进行各种应用,如自然语言处理、图像识别等。
    在这里插入图片描述

下载ollama

  • 要安装Ollama,可以官方网站的下载页面:Ollama下载页面
  • 支持的模型列表
  • 参考安装 1
    在这里插入图片描述

使用ollama

ollama     
Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  stop        Stop a running model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

Flags:
  -h, --help      help for ollama
  -v, --version   Show version information

Use "ollama [command] --help" for more information about a command.

例子,安装deepseek r1

# ollma --version
ollama version is 0.5.12

# ollama pull deepseek-r1:1.5b
pulling manifest 
pulling aabd4debf0c8... 100% ▕██████████████████████████████████▏ 1.1 GB                         
pulling 369ca498f347... 100% ▕██████████████████████████████████▏  387 B                         
pulling 6e4c38e1172f... 100% ▕██████████████████████████████████▏ 1.1 KB                         
pulling f4d24e9138dd... 100% ▕██████████████████████████████████▏  148 B                         
pulling a85fe2a2e58e... 100% ▕██████████████████████████████████▏  487 B                         
verifying sha256 digest 
writing manifest 
success 

# ollama run deepseek-r1:1.5b
# ollama run llama3.2:1b

# ollama list
NAME                ID              SIZE      MODIFIED      
llama3.2:1b         baf6a787fdff    1.3 GB    3 minutes ago    
deepseek-r1:1.5b    a42b25d8c10a    1.1 GB    2 hours ago

# systemctl stop ollama

2、本地LLM交互界面(以OpenWebUI为例)

本地LLM交互界面项目

  • 78k-OpenWebUI, link
    OpenWebUI是一个开源Web用户界面,旨在让用户能够方便地与本地大语言模型(如GPT、LLaMA等)进行交互。用户可以通过简单的Web界面进行对话,支持多种模型。

  • 82k-Nextchat(ChatGPT Next Web) , link
    兼容本地LLM,轻量快速的 AI 助手。支持:Web | iOS | MacOS | Android | Linux | Windows。一键免费部署私人 ChatGPT 网页应用,支持 Claude, GPT4 & Gemini Pro 模型。

  • 32k-ChatBox , link
    Chatbox AI 是一款 AI 客户端应用和智能助手,支持众多先进的 AI 模型和 API,可在 Windows、MacOS、Android、iOS、Linux 和网页版上使用。
    客户端安装参考 1,2:选择使用自己的api-key或本地模型,目前支持

  • 72k-GPT4All, link
    GPT4All 在日常台式机和笔记本电脑上私下运行大型语言模型 (LLM)。无需 API 调用或 GPU - 您只需下载应用程序并开始使用即可。

  • 42k-text-generation-webui, link
    适用于大型语言模型的 Gradio Web UI,支持多个推理后端。其目标是成为文本生成的stable-diffusion-webui 。

  • 39k-AnythingLLM, link
    全栈应用程序,可以将任何文档、资源(如网址链接、音频、视频)或内容片段转换为上下文,以便任何大语言模型(LLM)在聊天期间作为参考使用。
    此应用程序允许您选择使用哪个LLM或向量数据库,同时支持多用户管理并设置不同权限。

  • 150k-stable-diffusion-webui, link
    支持一键安装的stable Diffusion网页用户界面。

  • jetbrain-idea/goland集成插件, link
    设置-插件里安装后,配置Ollama API 默认调用端口号:11434

OpenWebUI是什么?

  • 一个可扩展、功能丰富且用户友好的自托管WebUI,它支持完全离线操作,并兼容Ollama和OpenAI的API。
  • 这为用户提供了一个可视化的界面,使得与大型语言模型的交互更加直观和便捷。
    在这里插入图片描述

安装openwebUI

# 基于docker的安装
# 电脑上有Ollama
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
# Ollama在其他服务器上,OLLAMA_BASE_URL替换为地址
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=https://example.com -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

# 安装完成后,您可以通过http://localhost:3000 访问OpenWebUI
# 这个时候会发现【Select a model】可以选择我们刚刚下载好的模型
# 并且他还可以一次性加入多个模型,一起对话对比使用

3、本地部署硬件要求对应表

大模型名称中的数字含义

  • 例如 1.5b、7b、8b、14b、32b、70b和671b等
  • 这些数字代表模型的参数量(Parameters),单位为 「B」(Billion,十亿)。例如:
    1.5B:15 亿参数
    7B:70 亿参数
    671B:6710 亿参数(接近万亿规模)
  • 参数量的意义:
    模型能力:参数量越大,模型就有更强的理解和生成能力,但是需要更多计算资源。
    硬件需求:参数越多,对内存(RAM)和显存(VRAM)的需求就越高。
    运行速度:参数量大的模型,推理速度更慢,尤其是资源不足的时候。1

本地部署的硬件配置「最低」要求(按模型规模分类)

  • 1.3B、1.5B 模型
    适用场景:简单文本生成、问答、轻量级任务
    CPU:4 核以上(需支持 AVX2 指令集)
    内存(RAM):8GB 以上
    GPU(可选):显存 ≥ 4GB(如 NVIDIA GTX 1650)
    存储:需 3~5GB 硬盘空间(模型文件 + 依赖库)
    说明:可在纯 CPU 环境下运行,但速度较慢(约 1~2 秒/词)。

  • 6.7b、7B、8B 模型
    适用场景:复杂文本生成、代码生成、多轮对话
    CPU:8 核以上(推荐 Intel i7 或 AMD Ryzen 7)
    内存(RAM):32GB 以上(纯 CPU 运行时需更高内存)
    GPU(推荐):显存 ≥ 16GB(如 RTX 4090 或 Tesla T4)
    存储:需 15~20GB 硬盘空间
    优化建议:
    使用 4-bit 量化可将显存需求降至 8GB。
    使用 vLLM 或 HuggingFace TGI 框架提升推理速度。

  • 32B、70B 模型
    适用场景:企业级应用、高精度需求
    CPU:无法纯 CPU 运行
    内存(RAM):≥ 128GB(用于加载中间数据)
    GPU:显存 ≥ 80GB(如 A100 80GB x2 或 H100)
    存储:需 70~150GB 硬盘空间
    关键点:
    必须使用多卡并行(如 NVIDIA NVLink 互联)。
    推荐 FP16 或 8-bit 量化以降低显存占用。

硬件选择对比表

模型规模CPU 需求内存需求显卡 型号适用场景
1.5B纯 CPU4GBRTX 3050个人学习
7B7GB16GBRTX 4090个人学习
14B24GBA5000 x2264GB小型项目
32B48GBA100 40GBx2专业应用
40GB80GBx4RTX 7000企业级服务
64GB+H100H100640GB+H100集群不可行

一些QA

  • 能否用 Mac 电脑运行这些DeepSeek模型?
    可以,但仅限于小模型(如 7B以下)。需使用 llama.cpp 的 Metal 后端,M1/M2 芯片需 16GB 以上统一内存。
  • 官方仓库(如 HuggingFace Hub)、开源社区(如 modelscope)。
    如果使用Ollama在本地部署,那么直接在Ollama中下载。
  • 为什么实际显存占用比参数量大很多?
    除了模型权重,还需存储中间计算结果(KV Cache),尤其在长文本生成时占用显著增加。
  • 没有显存、显存的笔记本电脑,能在本地部署和运行DeepSeek吗?
    可以。但是内存要求更高,文本生成速度慢。1,

更多部署教程
1 从零到一:本地部署Llama3大模型的简明指南,
2 本地部署 DeepSeek-R1-671B 满血版大模型教程
3 预算50-100万:4 * H100 80GB + NVLink,8 * A100 80GB + NVLink

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/977674.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

事务的4个特性和4个隔离级别

事务的4个特性和4个隔离级别 1. 什么是事务2. 事务的ACID特性2.1 原子性2.2 一致性2.3 持久性2.4 隔离性 3. 事务的创建4. 事务并发时出现的问题4.1 DIRTY READ 脏读4.2 NON - REPEATABLR READ 不可重复读4.3 PHANTOM READ 幻读 5. 事务的隔离级别5.1 READ UNCOMMITTED 读未提交…

Linux中文件目录类指令

1、pwd指令 基本语法:pwd 功能:显示当前工作目录的绝对路径 1.相对路径访问和绝对路径访问 当前处于home目录下,访问a.txt文件 相对路径访问:kim/better/a.txt,从当前位置开始定位 绝对路径访问:/home…

Kafka可视化工具EFAK(Kafka-eagle)安装部署

Kafka Eagle是什么? Kafka Eagle是一款用于监控和管理Apache Kafka的开源系统,它提供了完善的管理页面,例如Broker详情、性能指标趋势、Topic集合、消费者信息等。 源代码地址:https://github.com/smartloli/kafka-eagle 前置条件…

蓝桥杯之日期题

文章目录 1.蓝桥杯必备知识点2. 题型13.需求2 1.蓝桥杯必备知识点 蓝桥杯是一个面向全国高校计算机相关专业学生的学科竞赛,涵盖多个赛道,常见的有软件类(如 C/C 程序设计、Java 软件开发、Python 程序设计)和电子类(…

【算法基础篇】-字符串

字符串篇 一、最长回文子串二、二进制求和三、字符串相乘今日分享这里 一、最长回文子串 最长回文子串 给你一个字符串 s,找到 s 中最长的 回文 子串。 讲解: 我们这里使用的是中心扩展方法,其实类似于暴力枚举,但是时间复杂度…

清华大学DeepSeek文档下载,清华大学deepseek下载(完成版下载)

文章目录 前言一、清华大学DeepSeek使用手册下载二、清华大学DeepSeek使用手册思维导图 前言 这是一篇关于清华大学deepseek使用手册pdf的介绍性文章,主要介绍了DeepSeek的定义、功能、使用方法以及如何通过提示语设计优化AI性能。以下是对这些核心内容的简要概述&…

DeepSeek技术提升,Linux本地部署全攻略

文章目录 1.Ollama部署1.1 安装Ollama1.2 配置Ollama1.3 下载deepseek模型 2.安装MaxKB可视化页面2.1 下载镜像2.2 运行容器2.3 配置MaxKB 3.配置Chatbox AI可视化页面 1.Ollama部署 Ollama下载地址 根据自己需求选择版本下载 1.1 安装Ollama 下载安装脚本并执行 curl -fs…

QSNCTF-WEB做题记录(2)

[第一章 web入门]常见的搜集 来自 <天狩CTF竞赛平台> 1&#xff0c;首先就是对网站进行目录枚举爆破 dirsearch -u http://challenge.qsnctf.com:31616 -x 404,403 得到如下的目录&#xff0c;分别查看一下内容 /.DS_Store /inde…

网络空间安全(1)web应用程序的发展历程

前言 Web应用程序的发展历程是一部技术创新与社会变革交织的长卷&#xff0c;从简单的文档共享系统到如今复杂、交互式、数据驱动的平台&#xff0c;经历了多个重要阶段。 一、起源与初期发展&#xff08;1989-1995年&#xff09; Web的诞生&#xff1a; 1989年&#xff0c;欧洲…

pandas读取数据

pandas读取数据 导入需要的包 import pandas as pd import numpy as np import warnings import oswarnings.filterwarnings(ignore)读取纯文本文件 pd.read_csv 使用默认的标题行、逗号分隔符 import pandas as pd fpath "./datas/ml-latest-small/ratings.csv" 使…

SSL 证书是 SSL 协议实现安全通信的必要组成部分

SSL证书和SSL/TLS协议有着密切的关系&#xff0c;但它们本质上是不同的概念。下面是两者的区别和它们之间的关系的表格&#xff1a; 属性SSL/TLS 协议SSL证书英文全称SSL&#xff08;Secure Sockets Layer&#xff09;&#xff0c;TLS&#xff08;Transport Layer Security&am…

蓝桥杯单片机基础部分——1.5基础模块代码升级

前言 之前的蓝桥杯单片机基础部分——1、基础模块代码发现有的同学不太会使&#xff0c;这样的话就给他们都封装一下函数&#xff0c;额外封装一下蜂鸣器和继电器&#xff0c;这就全了&#xff0c;到时候的逻辑只要没问题就没啥事了 LED灯模块 现在&#xff0c;给这里封装一个…

PCB设计常用布局布线方法

PCB设计常用布局布线方法 **1.模块化布局&#xff0c;**先放大器件再放小器件。 立创在原理图框完后&#xff0c;在PCB快捷shiftp 2.布局对齐美观 3.重要信号线优先处理 分类再画 4.减少Stub布线&#xff1a;就是避免为连接的线段&#xff0c;防止产生“天线效应”&#xff…

基于C++“简单且有效”的“数据库连接池”

前言 数据库连接池在开发中应该是很常用的一个组件&#xff0c;他可以很好的节省连接数据库的时间开销&#xff1b;本文基使用C实现了一个简单的数据库连接池&#xff0c;代码量只有400行只有&#xff0c;但是压力测试效果很好&#xff1b;欢迎收藏 关注&#xff0c;本人将会…

LangChain大模型应用开发:LangGraph快速构建Agent工作流应用

介绍 大家好&#xff0c;博主又来给大家分享知识了。今天给大家分享的内容是使用LangChain进行大规模应用开发中的LangGraph快速构建Agent工作流应用。 通过对前几次对LangChain的技术分享。我们知道LangChain作为一个强大的工具集&#xff0c;为开发者们提供了丰富的资源和便…

基于 IMX6ULL 的环境监测自主调控系统

文章目录 前言一、项目介绍二、前台QT界面1. 界面设计2. 代码示例 三、后台硬件驱动四、JsonRPC 实现前后台分离1. 为什么要拆分&#xff1f;2. 如何拆分&#xff1f; 五、总结 前言 项目完整代码&#xff1a;基于 IMX6ULL 的环境监测自主调控系统完整代码 该项目的源代码适用…

洛谷:花神的数论题--数位dp

求乘积 const int N 1e2 10,T 20;LL n; LL a[N]; LL dp[N][N];//枚举的第i位,没有任何限制,已经填写了j个1的数的乘积 //表示在[pos 1, len]中已经填写了cnt个1&#xff0c;[1, pos]任意填写数&#xff0c;所有合法方案的乘积LL mo(LL x) {return (x % mod mod) % mod; }…

【Linux探索学习】第三十一弹——线程互斥与同步(下):深入理解确保线程安全的机制

线程互斥与同步&#xff08;上&#xff09;&#xff1a;【Linux探索学习】第三十弹——线程互斥与同步&#xff08;上&#xff09;&#xff1a;深入理解线程保证安全的机制-CSDN博客 Linux探索学习&#xff1a; https://blog.csdn.net/2301_80220607/category_12805278.html?…

UVM_CALLBACK 应用举例

UVM_CALLBACK是一种基于回调函数的设计模式&#xff0c;允许用户在特定事件发生时插入自定义的行为。UVM提供了uvm_callback类作为基类&#xff0c;用户可以通过继承该类来定义自己的回调行为。采用uvm_callback基类&#xff0c;用户可以在不更改原始代码的情况下轻松插入调试代…

优选算法大集合(待更新)

1.双指针 1.1.移动零 leetcode链接&#xff1a;283. 移动零 - 力扣&#xff08;LeetCode&#xff09;​​​​​​ 移动零的问题我们可以将它归类为数组划分的问题&#xff0c;我们将数组划分为非零部分和零部分。我们会使用到双指针的算法&#xff0c;在这里&#xff0c;我…