本地运行大模型效果及配置展示

本地运行大模型效果及配置展示

article2025/3/3 17:36:32/文章来源:https://blog.csdn.net/qq_38198098/article/details/145407949

电脑上用ollama安装了qwen2.5:32b，deepseek-r1:32b，deepseek-r1:14b，llama3.1:8b四个模型，都是Q4_K_M量化版。
在这里插入图片描述
运行过程中主要是cpu和内存负载比较大，qwen2.5:32b大概需要22g，deepseek-r1：32b类似。显卡的运行状态在使用nouveau驱动的情况下使用cpu-x没有读取到。前段时间换成NVIDIA驱动后又试了下qwen2.5：32b，使用nvidia-smi读取到了运行状态，之前会占用大量内存的情况现在也没有再出现，但输出速度几乎不变，不太确定正不正常。考虑到切换NVIDIA驱动后我的两块屏幕无法显示，加上其他一些arch用户在更新系统时遇到的和NVIDIA驱动相关的问题，我又切换回了nouveau。

运行效果方面的话，两个32b的模型的效果是最好的，一些复杂问题的准确性也比两个要高，但是速度也是最慢的，对我来说属于勉强能用，如果速度能达到10 tokens/s的话，用起来就比较流畅了。

环境及配置

系统:：Arch Linux
CPU: AMD Ryzen 7 5800H with Radeon Graphics (16) @ 4.463GHz
GPU: AMD ATI Radeon Vega Series / Radeon Vega Mobile Series
GPU: NVIDIA GeForce RTX 3050 Ti Mobile / Max-Q
GPU驱动：nouveau
内存: 64G (32x2) DDR4 3200MHZ

qwen2.5:32b
在这里插入图片描述
deepseek-r1:32b

llama3.1:8b

一些术语解释

Total Duration:
The total time it took the model to complete the task. This includes all processing time.

Load Duration:
The model’s time to load or initialize before starting the task.

Prompt Eval Count:
The number of tokens (individual words or sub-word units) in the input prompt given to the model.

Prompt Eval Duration:
he model’s time to process and understand the input prompt.

Prompt Eval Rate:
The speed at which the model processed the input prompt, measured in tokens per second.

Eval Count:
The total number of tokens the model processes during the entire task, including both the prompt and the generated output.

Eval Duration:
The model’s time to process all the tokens during the task.

Eval Rate:
The overall processing speed of the model during the task, measured in tokens per second.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/962405.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

新一代搜索引擎，是 ES 的15倍？

新一代搜索引擎，是 ES 的15倍？

Manticore Search介绍 Manticore Search 是一个使用 C 开发的高性能搜索引擎，创建于 2017 年，其前身是 Sphinx Search 。Manticore Search 充分利用了 Sphinx，显着改进了它的功能，修复了数百个错误，几乎完全重写了代码…

阅读更多...

从0开始，来看看怎么去linux排查Java程序故障

从0开始，来看看怎么去linux排查Java程序故障

一，前提准备最基本前提：你需要有liunx环境，如果没有请参考其它文献在自己得到local建立一个虚拟机去进行测试。有了虚拟机之后，你还需要安装jdk和配置环境变量 1. 安装JDK（以OpenJDK 17为例） 下载JDK…

阅读更多...

MFC开发，给对话框添加垂直滚动条并解决鼠标滚动响应的问题

MFC开发，给对话框添加垂直滚动条并解决鼠标滚动响应的问题

无论在使用QT或者MFC进行界面开发时，都会出现在一个对话框里面存在好多的选项，导致对话框变得非常长或者非常大，就会显现的不美观，在这种情况下通常是添加一个页面的滚动条来解决这个问题，下面我们就来介绍给MFC的对话…

阅读更多...

（二）QT——按钮小程序

（二）QT——按钮小程序

目录前言按钮小程序 1、步骤 2、代码示例 3、多个按钮 ①信号与槽的一对一 ②多对一（多个信号连接到同一个槽） ③一对多（一个信号连接到多个槽） 结论前言按钮小程序 Qt 按钮程序通常包含三个核心文件： m…

阅读更多...

QT简单实现验证码(字符）

QT简单实现验证码(字符）

0） 运行结果 1） 生成随机字符串 Qt主要通过QRandomGenerator类来生成随机数。在此之前的版本中，qrand()函数也常被使用，但从Qt 5.10起，推荐使用更现代化的QRandomGenerator类。在头文件添加void generateRandomNumb…

阅读更多...

受击反馈HitReact、死亡效果Death Dissolve、Floating伤害值Text(末尾附客户端RPC )

受击反馈HitReact、死亡效果Death Dissolve、Floating伤害值Text(末尾附客户端RPC )

受击反馈HitReact 设置角色受击标签 (GameplayTag基本了解待补充) 角色监听标签并设置移动速度创建一个受击技能，并应用GE 实现设置角色的受击蒙太奇动画实现角色受击时播放蒙太奇动画，为了保证通用性，将其设置为一个函数，并…

阅读更多...

C++，STL 命名空间：理解 std 的作用、规范与陷阱

C++，STL 命名空间：理解 std 的作用、规范与陷阱

文章目录引言一、为什么需要 std 命名空间？二、std 命名空间的组成三、使用 std 命名空间的正确姿势1. 显式作用域限定2. 谨慎使用 using 声明3. 头文件中禁止 using namespace std 四、常见陷阱与解决方案陷阱 1：与第三方库命名冲突陷阱 2：…

阅读更多...

第11章：根据 ShuffleNet V2 迁移学习医学图像分类任务：甲状腺结节检测

第11章：根据 ShuffleNet V2 迁移学习医学图像分类任务：甲状腺结节检测

目录 1. Shufflenet V2 2. 甲状腺结节检测 2.1 数据集 2.2 训练参数 2.3 训练结果 2.4 可视化网页推理 3. 下载 1. Shufflenet V2 shufflenet v2 论文中提出衡量轻量级网络的性能不能仅仅依靠FLOPs计算量，还应该多方面的考虑，例如MAC(memory acc…

阅读更多...

【ArcGIS遇上Python】批量提取多波段影像至单个波段

【ArcGIS遇上Python】批量提取多波段影像至单个波段

本案例基于ArcGIS python，将landsat影像的7个波段影像数据，批量提取至单个波段。相关阅读：【ArcGIS微课1000例】0141：提取多波段影像中的单个波段文章目录一、数据准备二、效果比对二、python批处理1. 编写python代码2. 运行代码一、数据准备实验数据及完整的python位…

阅读更多...

HTB：Administrator[WriteUP]

HTB：Administrator[WriteUP]

目录连接至HTB服务器并启动靶机信息收集使用rustscan对靶机TCP端口进行开放扫描将靶机TCP开放端口号提取并保存使用nmap对靶机TCP开放端口进行脚本、服务扫描使用nmap对靶机TCP开放端口进行漏洞、系统扫描使用nmap对靶机常用UDP端口进行开放扫描使用nmap对靶机…

阅读更多...

vscode+WSL2(ubuntu22.04)+pytorch+conda+cuda+cudnn安装系列

vscode+WSL2(ubuntu22.04)+pytorch+conda+cuda+cudnn安装系列

最近在家过年闲的没事，于是研究起深度学习开发工具链的配置和安装，之前欲与天公试比高，尝试在win上用vscodecuda11.6vs2019的cl编译器搭建cuda c编程环境，最后惨败，沦为笑柄，痛定思痛，这次直接和…

阅读更多...

亚博microros小车-原生ubuntu支持系列：17 gmapping

亚博microros小车-原生ubuntu支持系列：17 gmapping

前置依赖先看下亚博官网的介绍 Gmapping简介 gmapping只适用于单帧二维激光点数小于1440的点，如果单帧激光点数大于1440，那么就会出【[mapping-4] process has died】这样的问题。 Gmapping是基于滤波SLAM框架的常用开源SLAM算法。 Gmapping基于RBp…

阅读更多...

FreeRTOS从入门到精通第十六章（任务通知）

FreeRTOS从入门到精通第十六章（任务通知）

参考教程：【正点原子】手把手教你学FreeRTOS实时系统_哔哩哔哩_bilibili 一、任务通知简介 1、概述 （1）任务通知顾名思义是用来通知任务的，任务控制块中的结构体成员变量ulNotifiedValue就是这个通知值。 （2&#…

阅读更多...

数据结构选讲（更新中）

数据结构选讲（更新中）

参考 smWCDay7 数据结构选讲2 by yyc 。可能会补充的： AT_cf17_final_j TreeMST 的 F2 Boruvka算法目录 AT_cf17_final_j Tree MSTP5280 [ZJOI2019] 线段树 AT_cf17_final_j Tree MST link 题意给定一棵 n n n 个点的树，点有点权 w i w_i wi&am…

阅读更多...

【01】共识机制

【01】共识机制

BTF共识拜占庭将军问题拜占庭将军问题是一个共识问题起源 Leslie Lamport在论文《The Byzantine Generals Problem》提出拜占庭将军问题。核心描述军中可能有叛徒，却要保证进攻一致，由此引申到计算领域，发展成了一种容错理论。随着…

阅读更多...

春晚舞台上的人形机器人：科技与文化的奇妙融合

春晚舞台上的人形机器人：科技与文化的奇妙融合

文章目录人形机器人Unitree H1的“硬核”实力传统文化与现代科技的创新融合网友热议与文化共鸣未来展望：科技与文化的更多可能结语 2025 年央视春晚的舞台，无疑是全球华人目光聚焦的焦点。就在这个盛大的舞台上，一场名为《秧BOT》的创意融合…

阅读更多...

.NET Core缓存

目录缓存的概念客户端响应缓存 cache-control 服务器端响应缓存内存缓存（In-memory cache） 用法 GetOrCreateAsync 缓存过期时间策略缓存的过期时间解决方法： 两种过期时间策略： 绝对过期时间滑动过期时间两…

阅读更多...

如何从客观角度批判性阅读分析博客

如何从客观角度批判性阅读分析博客

此文仅以个人博客为例，大量阅读朋友反馈给我的交流让我得知他们所理解我的博客所表达的意思并非我所想表达的，差异或大或小，因人而异。观点与事实只有从客观角度反复批判性阅读和分析，才能逐渐清晰观点和事实。观点不等于事实…

阅读更多...

【力扣】49.字母异位词分组

【力扣】49.字母异位词分组

AC截图题目思路由于互为字母异位词的两个字符串包含的字母相同，因此对两个字符串分别进行排序之后得到的字符串一定是相同的，故可以将排序之后的字符串作为哈希表的键。可以遍历strs，将其中每一个str排序，然后用unodered_ma…

阅读更多...

【4Day创客实践入门教程】Day4 迈向高手之路——进一步学习！

【4Day创客实践入门教程】Day4 迈向高手之路——进一步学习！

Day4 迈向高手之路——进一步学习！ 目录 Day4 迈向高手之路——进一步学习！更多的开发板外壳制作 Day0 创想启程——课程与项目预览Day1 工具箱构建——开发环境的构建Day2 探秘微控制器——单片机与MicroPython初步Day3 实战演练——桌面迷你番茄钟Day4…

阅读更多...

最新文章