(2025)深度分析DeepSeek-R1开源的6种蒸馏模型之间的逻辑处理和编写代码能力区别以及配置要求,并与ChatGPT进行对比(附本地部署教程)

(2025)通过Ollama光速部署本地DeepSeek-R1模型(支持Windows10/11)_deepseek猫娘咒语-CSDN博客文章浏览阅读1k次,点赞19次,收藏9次。通过Ollama光速部署本地DeepSeek-R1(支持Windows10/11)_deepseek猫娘咒语 https://blog.csdn.net/m0_70478643/article/details/145486626?spm=1001.2014.3001.5501在上一篇文章中我们完成了DeepSeek-R1的光速本地部署。

我对几种可以本地部署的、个人电脑可以带得动蒸馏模型的性能进行了测试,并测试了各模型的大概配置需求。以便在本地部署时选择合适的模型。

DeepSeek-R1模型简介

首先,DeepSeek-R1开源的模型一共有以下几种:

"Distill": 意味着这些模型是通过蒸馏(knowledge distillation)的方法进行优化的。蒸馏是一种模型压缩技术,主要用于在不显著降低性能的前提下减少模型的大小和复杂度。

"Qwen"代表通义千问(阿里巴巴),可以简单理解为针对中文进行了优化适配。

"Llama"代表Meta(Facebook),也可以简单理解成是针对英文进行了优化适配。

"B"代表这个模型的规模(Model Size),x B代表这个模型使用了x十亿个参数,可以简单理解为数字越大 内存/显存 需求越高,推理效果越好(越聪明)。

我下载了全部的中文版模型进行测试。

分别测试模型性能

1.5b

1.5b逻辑推理能力测试

首先是测试1.5b模型常用的几个问题。

可以看出,1.5b非常的蠢,大略等同于2019年的GPT2.0,属于几乎不能用的状态。

1.5b硬件配置要求

优点是显存占用非常非常的少,并且可以秒回,适合硬件性能很差但仍然想尝试一下本地部署的用户。(测试用GPU是4080,本地跑模型对CPU几乎没要求,i7-9700都可以无压力跑,大模型对内存有一定要求)

7b

7b逻辑推理能力测试

对于这种问题7b可以精准回答并且不需要思考很多(占用很多token)。

但经典的数r问题就露馅了。

 和GPT当前最先进的版本4o差不多。

 因为GPT,没有对中文做适配优化,出于公平考虑,我们用英文并开启推理功能再问一遍(GPT只有o3-mini可以推理)

最终得出结论,自然语言处理能力上,7b约等于GPT 4o/o3-mini。

7b硬件配置要求

7b的显存占用也不算高,约4-5GB,1060显卡也可以跑得动,属于是性价比非常高的模型!

14b

14b逻辑推理能力测试

接下来让我们看看14b的表现

虽然正确的数出了有三个r,但是处理的并不轻松,推理过程巨长

 限于篇幅,这只是一小部分思考,它全篇检查并重新数了五次,但总算是成功数出来了。

其他常用的测试题也可以成功输出。

 14b逻辑推理能力进阶测试

 这种对人类都有些绕的题14b也能解决,反观GPT

14b的NLP能力已经远超GPT,各种AI逻辑测试题没有任何一道可以难住它。

14b代码编写能力测试

接下来测试它的代码编写能力

 完整代码如下

import cv2
import math

def find_yellow_circles(image_path):
    # 读取图像
    img = cv2.imread(image_path)
    
    if img is None:
        print("无法加载图像")
        return
    
    # 转换为HSV颜色空间
    hsv = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)
    
    # 定义黄色范围(可以根据需要调整)
    lower_yellow = (10, 50, 50)
    upper_yellow = (30, 255, 255)
    
    # 创建掩膜
    mask = cv2.inRange(hsv, lower_yellow, upper_yellow)
    
    # 应用形态学操作以消除噪声和连接区域
    kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (3, 3))
    mask = cv2.erode(mask, kernel, iterations=1)
    mask = cv2.dilate(mask, kernel, iterations=2)
    
    # 查找连通区域
    contours, _ = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    
    # 初始化结果图像
    result = img.copy()
    
    for contour in contours:
        # 计算包围圆的参数
        (x, y), radius = cv2.minEnclosingCircle(contour)
        
        # 计算面积
        area = cv2.contourArea(contour)
        
        # 计算圆形度:实际面积与理论圆形面积的比例
        circularity = area / (math.pi * radius**2)
        
        # 过滤非圆形区域(可以根据需要调整阈值)
        if circularity > 0.5:
            # 绘制检测到的圆圈
            cv2.circle(result, (int(x), int(y)), int(radius), (0, 255, 0), 2)
    
    # 显示结果图像
    cv2.imshow("Yellow Circles Detected", result)
    cv2.waitKey(0)
    cv2.destroyAllWindows()

# 示例用法:将 image_path 替换为实际的图像路径
image_path = "path_to_your_image.jpg"
find_yellow_circles(image_path)

让我们来测试一下这个代码,原始图像如下

代码执行结果如下

 可以看出,14b的代码编写能力已经非常非常的夸张了,领先GPT至少一个大版本。

14b硬件配置要求

缺点是需要8-9GB显存,用朋友的4060 8GB版跑会超出显存,占用内存,这会导致CPU占用飙升且回答速度非常慢,但仍然可以输出。

32b

到这里几乎就是普通个人设备的终点了,接下来是32b模型。语言推理能力对于32b来说已经是无需测试了,直接测试他的代码编写能力。

32b代码编写能力测试

同样的问题32b给出的代码:

import cv2
import numpy as np

def find_yellow_circles(image_path):
    # 读取图像
    image = cv2.imread(image_path)
    if image is None:
        print("无法读取图像")
        return
    
    # 转换为HSV颜色空间
    hsv_image = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)
    
    # 定义黄色的范围(H在15到40之间)
    lower_yellow = np.array([15, 70, 70])
    upper_yellow = np.array([40, 255, 255])
    
    # 创建掩膜,提取黄色区域
    mask = cv2.inRange(hsv_image, lower_yellow, upper_yellow)
    
    # 使用形态学操作去除噪声
    kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5, 5))
    mask = cv2.morphologyEx(mask, cv2.MORPH_CLOSE, kernel)
    
    # 应用掩膜到原图像
    yellow_image = cv2.bitwise_and(image, image, mask=mask)
    
    # 转换为灰度图并进行边缘检测
    gray = cv2.cvtColor(yellow_image, cv2.COLOR_BGR2GRAY)
    edges = cv2.Canny(gray, 50, 150)
    
    # 使用霍夫圆变换检测圆形
    circles = cv2.HoughCircles(edges, cv2.HOUGH_GRADIENT, dp=1, minDist=20,
                               param1=50, param2=30, minRadius=10, maxRadius=100)
    
    if circles is not None:
        # 将检测到的圆转换为整数坐标
        circles = np.round(circles[0]).astype(int)
        
        for (x, y, r) in circles:
            # 绘制圆形边界和中心点
            cv2.circle(image, (x, y), r, (0, 255, 0), 2)
            cv2.rectangle(image, (x - 5, y - 5), (x + 5, y + 5), (0, 128, 255), -1)
        
        # 显示结果
        cv2.imshow("Yellow Circles", image)
        cv2.waitKey(0)
        cv2.destroyAllWindows()
        
        return circles
    
    print("未检测到黄色圆圈")
    return None

# 使用示例
image_path = "your_image.jpg"  # 替换为你的图像路径
find_yellow_circles(image_path)

 测试结果如下

 奇怪,效果为什么还不如14b,公平起见,再重新生成一次!

这次倒是成功了,我又测试了大概五次,发现32b的代码编写能力并没有显著强于14b。

32b硬件配置要求

然而32b对硬件要求很高,我的4080的16GB显存已经无法满足

 需要像4060跑14b那样借用内存来处理参数

会借用7GB内存,借用内存的同时也会消耗CPU性能,会导致回答输出奇慢无比。

也就是需要显存大于24GB才可以流畅运行32b模型,但性能又和14b拉不开差距,所有32b对于普通用户而言性价比较低。

70b

很抱歉,70b的能力测试我无法进行,因为它对配置要求太高了,不光会GPU会占满,甚至会占29个G内存,就算这种情况下,也完全无法正常提问。

最简单的问题都要经过长达5分钟的思考(还没思考成功),这一级别已经脱离了家用电脑的范畴,我推测最少需要两张A100 40GB才有可能流畅运行。

至于未蒸馏的DeepSeek-R1-Zero,671B的模型可以想象配置要求有多夸张。

总结

1.5b可以说完全无法使用,只适合电脑配置很差又想体验本地部署的用户,不如去官网直接问,虽然会经常无响应,大概等于2019年的GPT2.0。

7b的逻辑推理能力有一定进步,但仍然不足以应对较难的问题,综合性价比不高,适合老显卡用户问一些简单的问题,自然语言处理能力大概等于最新的GPT4o/o3-mini。

14b就已经非常强大了,NLP能力和代码编写能力都远远高于GPT,完全可以满足日常使用需求,配置要求也不高,是所有蒸馏模型里性价比最高的。

32b的综合能力没有显著强于14b,而配置要求飙升,已经接近个人电脑的极限,性价比很低不建议使用。

70b是蒸馏模型中最高版本,很遗憾我的设备性能不足不能进行详细测试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/968614.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习入门实战】基于Keras的手写数字识别实战(附完整可视化分析)

​ 本人主页:机器学习司猫白 ok,话不多说,我们进入正题吧 项目概述 本案例使用经典的MNIST手写数字数据集,通过Keras构建全连接神经网络,实现0-9数字的分类识别。文章将包含: 关键概念图解完整实现代码训练过程可视化模型效果深度分析环境准备 import numpy as np impo…

kafka生产端之架构及工作原理

文章目录 整体架构元数据更新 整体架构 消息在真正发往Kafka之前,有可能需要经历拦截器(Interceptor)、序列化器(Serializer)和分区器(Partitioner)等一系列的作用,那么在此之后又会…

docker compose部署flink集群

本次部署2个jobmanager和3个taskmanager 一、部署zookeeper集群 flink使用zookeeper用作高可用 部署集群参考:docker compose部署zookeeper集群-CSDN博客 二、创建目录及配置文件 创建timezone文件,内容填写Asia/Shanghai 手动创建目录&#xff1a…

3dtiles——Cesium ion for Autodesk Revit Add-In插件

一、说明: Cesium已经支持3dtiles的模型格式转换; 可以从Cesium官方Aesset中上传gltf等格式文件转换为3dtiles; 也可以下载插件(例如revit-cesium插件)转换并自动上传到Cesium官方Aseet中。 Revit转3dtiles插件使用…

html文件怎么转换成pdf文件,2025最新教程

将HTML文件转换成PDF文件,可以采取以下几种方法: 一、使用浏览器内置功能 打开HTML文件:在Chrome、Firefox、IE等浏览器中打开需要转换的HTML文件。打印对话框:按下CtrlP(Windows)或CommandP(M…

Linux(socket网络编程)TCP连接

Linux(socket网络编程)TCP连接 基础文件目录函数系统进程控制函数fork()exec系列函数void abort(void)void assert(int expression)void exit(int status)void _exit(int status)int atexit(void (*func)(void))int on_exit(void (*function)(int,void*)…

GeekPad智慧屏编程控制(二)

前面已经实现了智慧屏开关的控制了,接下来再继续实现消息的订阅。 先如下图所示增加几个控件,一个按钮,2个文本框,其中右下角的文本框显示的内容会比较多,需要打开多行和右侧滚动条。 然后添加订阅消息的事件&#xf…

Postgresql 开发环境搭建指南(WindowsLinux)

一、Postgresql 简介 PostgreSQL 是一个免费的对象-关系数据库服务器(ORDBMS),在灵活的BSD许可证下发行。 RDBMS 是关系数据库管理系统,是建立实体之间的联系,最后得到的是关系表。 ORDBMS在原来关系数据库的基础上,增加了一些新…

设备智能化无线通信,ESP32-C2物联网方案,小尺寸芯片实现大功能

在科技飞速发展的当下,我们的生活正被各类智能设备悄然改变,它们如同一位位无声的助手,渗透到我们生活的每一个角落,让生活变得更加便捷和丰富多彩。 智能插座、智能照明和简单家电设备在家居领域的应用,为我们的生活…

Unity 编辑器热更C# FastScriptReload

工具源码:https://github.com/handzlikchris/FastScriptReload 介绍 用于运行时修改C#后能快速重新编译C#并生效,避免每次改C#,unity全部代码重新编译,耗时旧且需要重启游戏。 使用 需要手动调整AssetPipeline自动刷新模式&…

kbengine服务器和 数据库 系统路径配置

一、服务器 系统路径配置 二、mysql5.7.44 系统路径配置 mysql 压缩包安装方式 解压压缩包,将解压路径加入 系统环境。 或者 系统变量新增 变量名:MYSQL_HOME 变量值:C:\MyPrograms\mysql-8.0.12-winx64修改系统变量的 path 变量&#xff…

AI代码生成器如何重塑前端开发的工作环境

近年来,人工智能(AI)技术迅猛发展,深刻地改变着各行各业的工作方式。在软件开发领域,AI写代码工具的出现更是掀起了一场革命,尤其对前端开发工程师的工作环境和协作方式产生了深远的影响。本文将深入探讨AI…

前端可以不用依赖后端实现导出大数据了

theme: channing-cyan hightlight: channing-cyan 前言 在我们公司表格数据导出都是前端去处理。一开始数据量不大,倒没什么问题。但随着数据量的加大,问题也逐渐暴露出来。 一天的数据量有一来万条,导出一定时间范围的数据,30…

本地部署DeepSeek Nodejs版

目录 1.下载 Ollama 2.下载DeepSeek模型 3.下载 ollama.js 1.下载 Ollama https://ollama.com/ 下载之后点击安装,等待安装成功后,打开cmd窗口,输入以下指令: ollama -v 如果显示了版本号,则代表已经下载成功了。…

C++ Primer 迭代语句

欢迎阅读我的 【CPrimer】专栏 专栏简介:本专栏主要面向C初学者,解释C的一些基本概念和基础语言特性,涉及C标准库的用法,面向对象特性,泛型特性高级用法。通过使用标准库中定义的抽象设施,使你更加适应高级…

你需要提供管理员权限才能删除此文件夹解决方法

立即高级启动 windows10 搜索“设置”,然后“更新和安全””->“恢复”->“立即重新启动” windows11 搜索“设置”,然后“Windows更新”->“更新历史记录”->“恢复”->“立即重新启动” 疑难解答 点击“疑难解答” 高级选项 启…

408-数据结构

数据结构在学什么? 1.用代码把问题信息化 2.用计算机处理信息 ch1 数据:数据是信息的载体,是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。 ch2 //假设线性表…

神经网络常见激活函数 9-CELU函数

文章目录 CELU函数导函数函数和导函数图像优缺点pytorch中的CELU函数tensorflow 中的CELU函数 CELU 连续可微指数线性单元:CELU(Continuously Differentiable Exponential Linear Unit),是一种连续可导的激活函数,结合了 ELU 和 …

Ceph集群搭建2025(squid版)

squid版本维护年限 apt install -y cephadmecho >> "deb http://mirrors.163.com/ceph/debian-squid/ bookworm main" echo >> "deb-src http://mirrors.163.com/ceph/debian-squid/ bookworm main"#安装源 cephadm install #开始初始化一个最…

详解电子邮箱工作原理|SMTP、POP3、IMAP、SPF、MIME

写在前面 电子邮件(Email)是一种通过互联网进行异步通信的技术,工作原理涉及多个协议、服务器和客户端协同工作。 接下来我们来介绍一下电子邮箱的工作原理 1. 电子邮件的核心组成部分 邮件客户端:用户直接交互的软件&#xf…