ollama本地部署大模型(纯CPU推理)实践

文章目录

  • 说明
  • Ollama和Ollama WebUI简介
  • Ollama模型硬件要求
    • 内存要求
  • Ollama容器部署
  • Ollama容器内模型下载和对话
  • Ollama WebUI部署
  • Ollama WebUI下载模型和对话
  • 轻量模型推荐
    • 机器硬件信息概览
    • qwen:0.5b推理体验
    • gemma:7b推理体验

说明

  • 本文旨在分享在linux(centos8)平台使用docker部署轻量化大模型,仅供学习和体验,无法适用于生产环境
  • 运维面板使用飞致云的开源面板1panel,使用ollamadocker方案快速部署大模型,总共需要两个dcoker环境:ollama 容器环境和ollama WebUI容器环境

Ollama和Ollama WebUI简介

  • Ollama :一个开源的大型语言模型服务提供类似 OpenAI 的 API 接口和聊天界面,可以非常方便地部署最新版本的 GPT 模型并通过接口使用。支持热加载模型文件,无需重新启动即可切换不同的模型。
  • Open WebUI:针对 LLM 用户友好的 WebUI,支持的 LLM 运行程序包括 Ollama、OpenAI 兼容的 API。

Ollama模型硬件要求

  • Ollama 支持 ollama.com/library 上提供的一系列模型

内存要求

  • 注意:运行 7B 型号至少需要 8 GB 可用 RAM (内存),运行 13B 型号至少需要16 GB可用 RAM (内存) ,运行 33B 型号至少需要32 GB 可用 RAM (内存)。
  • 示例模型
ModelParametersSizeDownload
Llama 27B3.8GBollama run llama2
Mistral7B4.1GBollama run mistral
Dolphin Phi2.7B1.6GBollama run dolphin-phi
Phi-22.7B1.7GBollama run phi
Neural Chat7B4.1GBollama run neural-chat
Starling7B4.1GBollama run starling-lm
Code Llama7B3.8GBollama run codellama
Llama 2 Uncensored7B3.8GBollama run llama2-uncensored
Llama 2 13B13B7.3GBollama run llama2:13b
Llama 2 70B70B39GBollama run llama2:70b
Orca Mini3B1.9GBollama run orca-mini
Vicuna7B3.8GBollama run vicuna
LLaVA7B4.5GBollama run llava
Gemma2B1.4GBollama run gemma:2b
Gemma7B4.8GBollama run gemma:7b

Ollama容器部署

  1. 在1Panel应用商店中选择Ollama进行安装
    在这里插入图片描述
  2. 配置容器的启动配置:容器名称、端口,最后,点击启动即可
    在这里插入图片描述

Ollama容器内模型下载和对话

  1. 根据机器内存和CPU性能可以进入容器,下载示例模型
ModelParametersSizeDownload
Llama 27B3.8GBollama run llama2
Mistral7B4.1GBollama run mistral
Dolphin Phi2.7B1.6GBollama run dolphin-phi
Phi-22.7B1.7GBollama run phi
Neural Chat7B4.1GBollama run neural-chat
Starling7B4.1GBollama run starling-lm
Code Llama7B3.8GBollama run codellama
Llama 2 Uncensored7B3.8GBollama run llama2-uncensored
Llama 2 13B13B7.3GBollama run llama2:13b
Llama 2 70B70B39GBollama run llama2:70b
Orca Mini3B1.9GBollama run orca-mini
Vicuna7B3.8GBollama run vicuna
LLaVA7B4.5GBollama run llava
Gemma2B1.4GBollama run gemma:2b
Gemma7B4.8GBollama run gemma:7b
  1. 按照操作,进入容器终端
    在这里插入图片描述
  2. 点击连接进入容器内部,输入ollama run qwen:0.5b下载模型,下载成功后,自动启动对话
    在这里插入图片描述
    在这里插入图片描述
  • 存在的缺点:需要进入容器进行对话,只能在终端进行,不方便,不优雅

Ollama WebUI部署

  • 有关ollama WebUI镜像拉取缓慢的问题和部署的内容,请阅读一下两篇文章
    • docker配置github仓库ghcr国内镜像加速
    • 使用1panel部署Ollama WebUI(dcoekr版)浅谈

Ollama WebUI下载模型和对话

  1. 选择模型进行下载,然后刷新页面
    在这里插入图片描述
  2. 然后,选择模型进行对话,这效果(只能图一乐)🤣😂🤣
    在这里插入图片描述

轻量模型推荐

机器硬件信息概览

在这里插入图片描述

  • linxu系统内核和cpu信息如下(CPU确实垃圾)
[root@yang ~]# uname -a
Linux yang 4.18.0-348.7.1.el8_5.x86_64 #1 SMP Wed Dec 22 13:25:12 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
[root@yang ~]# cat /proc/cpuinfo
processor   : 0
vendor_id   : AuthenticAMD
cpu family  : 21
model       : 96
model name  : AMD A10-8780P Radeon R8, 12 Compute Cores 4C+8G
stepping    : 1
microcode   : 0x600610b
cpu MHz     : 2000.000
cache size  : 1024 KB
physical id : 0
siblings    : 4
core id     : 0
cpu cores   : 2
apicid      : 16
initial apicid  : 0
fpu     : yes
fpu_exception   : yes
cpuid level : 13
wp      : yes
flags       : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good acc_power nopl nonstop_tsc cpuid extd_apicid aperfmperf pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 movbe popcnt aes xsave avx f16c rdrand lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs xop skinit wdt lwp fma4 tce nodeid_msr tbm topoext perfctr_core perfctr_nb bpext ptsc mwaitx cpb hw_pstate ssbd vmmcall fsgsbase bmi1 avx2 smep bmi2 xsaveopt arat npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold avic v_vmsave_vmload vgif overflow_recov
bugs        : fxsave_leak sysret_ss_attrs null_seg spectre_v1 spectre_v2 spec_store_bypass
bogomips    : 3992.38
TLB size    : 1536 4K pages
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm 100mhzsteps hwpstate cpb eff_freq_ro acc_power [13]
  • 如果你的机器CPU不同、也没有较好的显卡,这里推荐使用通义千问 开源Qwen的轻量化模型,ollama qwen模型以来指导
    # 推理的最低内存要求小于 2GB
    ollama run qwen:0.5b
    ollama run qwen:1.8b
    ollama run qwen:4b
    # 推理的最低内存要求8GB
    ollama run qwen:7b
    
  • 参数越大,回答普遍会越智能,当然对CPU和内存的要求也会越高,性能较低的机器体验也会很差

qwen:0.5b推理体验

  • qwen:0.5b对机器要求最低,推理很快,体验还算可以,先不说代码对不对,就这个速度还是可以的,简单的问题体验还可以,复杂的不想了
    在这里插入图片描述
  • 推理过程系统负载如下:
    在这里插入图片描述

gemma:7b推理体验

  • 参数越多的模型,对机器的运行要求较高,例如:gemma:7b (4.8GB)的推理下我的机器就无法承受了😭😭😭真就一个一个字算出来的
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/510189.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ry - vue项目 docker部署

一、创建网络 1.搭建net-ry局域网 用于部署若依项目 docker network create net-ry --subnet172.68.0.0/16 --gateway172.68.0.1查看一下。 2、关闭防火墙 1)、关闭防火墙 systemctl stop firewalld如果不关闭防火墙,容器内部的mysql、redis等服务…

“一起华裔洗钱案震惊全球”,涉案6.1万枚比特币!英国欲将其“充公”?中方:赃款为潜逃资金,有权追回!

最近,英国警方公布了一桩国际洗钱大案,查获超过6.1万枚比特币,这些资金由华裔英国女子Jian Wen(温简)涉嫌协助被中国通缉的诈骗集团首脑Zhimin Qian(钱志敏)而获得,据悉她将于5月10日…

正大国际:安全合规的外盘期货途径

“外盘期货”一词是指在中国大陆以外建立的期货交易市场。交易所基于国内期货和外盘期货的全球定价、价格权威、巨大的外部交易量、成熟的交易市场和交易机制、强大的流动性、巨大的市场容量、在中国大陆没有控制和强劲的趋势。然而,许多人被引诱进入非法甚至非法平…

函数调用实现小米汽车智能语音助手

上周小米汽车发布,其中有一个特色功能就是智能语音,小爱同学整合了语音大模型,实现智能座舱体验。 雷老板的PPT也演示了,一些口语化的对话就能触发各种指令,无论是开空调、播放音乐,还是找手机、识别前方汽…

Python学习:面相对象

面向对象 面向对象技术简介 类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。方法:类中定义的函数。类变量:类变量在整个实例化的对象中是公用的。类变量定义在类中且在函数体之外。类变量通常不作为实…

测试打工仔的5年职场感悟:软件测试还有未来吗?

工作过程 目前坐标广州,从毕业至今五年一直在当前的公司工作着,从部门最开始的十几人团队发展到现在的将近两百号人,几年了没换工作不是因为习惯舒适区,相反这一路过来都是不断的突破,因为团队在快速壮大,…

RK3568驱动指南|第十四篇 单总线-第158章DS18B20编写字符设备驱动框架

瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码,支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU,可用于轻量级人工…

南达股份携手数环通iPaaS,打造统一的接口集成管理平台

01 客户背景 南达股份成立于2004年,专注农业种植、畜牧养殖、精深加工为一体的生态循环产业发展。以乳制品、特色林果产品和特色食品为主营业务;优选源自帕米尔高原纯净区域的生态物产,精心打造一、二、三产业融合的大健康产业。 南达股份是农…

1区、TOP、CCF推荐,最快16天录用!4月刊源表已更新!

毕业推荐 SSCI • 社科类,分区稳步上升(最快13天录用) IEEE: • 计算机类,1区(TOP),CCF推荐 SCIE • 计算机工程类,CCF推荐(最快16天录用) 2024年4月 SCI/SSCI/EI…

Vue基础配置、组件通信、自定义指令

基础配置 Vue框架已经集成了webpack配置 小注意点 vbase 快速生成vue模板 组件名必须是多词格式(驼峰模式) 具体三种写法: ①小驼峰:abcDef.vue ②大驼峰:AbcDef.vue ③中横线:abc-def.vue 假如文件名不符合多次格式的补救办法: 导出重命名…

回溯算法|90.子集II

力扣题目链接 class Solution { private:vector<vector<int>> result;vector<int> path;void backtracking(vector<int>& nums, int startIndex, vector<bool>& used) {result.push_back(path);for (int i startIndex; i < nums.si…

clickhouse sql使用2

1、多条件选择 multiIf(cond_1, then_1, cond_2, then_2, …, else) select multiIf(true,0,1) 当第一条件不成立看第二条件判断 第一个参数条件参数&#xff0c;第二参数条件成立时走 2、clickhouse 在计算时候长出现NaN和Infinity异常处理 isNaN()和isInfinite()处理

某金融单位微软AD国产化替代方案分享与收获

某金融单位是宁盾长期服务的老客户&#xff0c;一直使用宁盾的2FA双因子认证&#xff08;OTP动态口令&#xff09;及网络准入服务。近日&#xff0c;该公司 IT 经理找到宁盾咨询关于微软 AD&#xff08;活动目录&#xff09;替代事宜。在与客户当面交流后&#xff0c;宁盾将客户…

Runes 生态一周要览 ▣ 2024.3.25-3.31|Runes 协议更新 BTC 减半在即

Runes 生态大事摘要 1、Casey 发布了 Runes 协议文档 RUNES HAVE DOCS&#xff0c;Github 代码库更新到 ord 0.17.0 版本&#xff0c;Casey 表示符文是一个“严肃”的代币协议。 2、Casey 公布了第一个硬编码的创世符文「UNCOMMONGOODS」 3、4月7日香港沙龙&#xff5c;聚焦「…

Linux:入门篇

文章目录 前言1. Linuxd的安装环境2.Linux的简单介绍2.1 新建目录2.2 新建文件 3.指令到底是什么&#xff1f;4.shell命令以及运行原理5.总结 前言 很多人对于Linux的学习总是感觉无法下手&#xff0c;不知道从何开始学习&#xff0c;相信这篇文章将会为你提供一个清晰的思路。…

基于PHP的校园招聘管理系统

有需要请加文章底部Q哦 可远程调试 基于PHP的校园招聘管理系统 一 介绍 此校园招聘管理系统基于原生PHP开发&#xff0c;数据库mysql&#xff0c;前端bootstrap。系统角色分为个人用户&#xff0c;企业和管理员三种。 技术栈&#xff1a;phpmysqlbootstrapphpstudyvscode 二…

实现3D模型无变形的减面渲染方法---模大狮模型网

在进行3D模型渲染时&#xff0c;减面(或降面)是一种常用的优化技术&#xff0c;用于降低模型的复杂度&#xff0c;提高渲染效率。然而&#xff0c;在减面过程中&#xff0c;若不小心可能会引起模型的形变或细节丢失。模大狮将介绍一些方法和技巧&#xff0c;帮助您在减面渲染时…

算法错题本

这里写目录标题 错题本注意数据的耦合性对于无解情况的处理思路一组数据以0为结束标记&#xff0c;如何输入到数组中&#xff0c;并计数多个数据进行比较链表删除重复元素的启发循环体里谨慎写类型定义并初始化&#xff08;一般写上就是错&#xff09;队列中读取队尾元素数组当…

AE——重构数字(Pytorch+mnist)

1、简介 AE&#xff08;自编码器&#xff09;由编码器和解码器组成&#xff0c;编码器将输入数据映射到潜在空间&#xff0c;解码器将潜在表示映射回原始输入空间。AE的训练目标通常是最小化重构误差&#xff0c;即尽可能地重构输入数据&#xff0c;使得解码器输出与原始输入尽…

篮球竞赛预约平台的设计与实现|Springboot+ Mysql+Java+ B/S结构(可运行源码+数据库+设计文档)

本项目包含可运行源码数据库LW&#xff0c;文末可获取本项目的所有资料。 推荐阅读300套最新项目持续更新中..... 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 2024年56套包含ja…