DeepSeek R1学习

0.回顾:

https://blog.csdn.net/Together_CZ/article/details/144431432?ops_request_misc=%257B%2522request%255Fid%2522%253A%25226574a586f0850d0329fbb720e5b8d5a9%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=6574a586f0850d0329fbb720e5b8d5a9&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_ecpm_v1~rank_v31_ecpm-1-144431432-null-null.142v101control&utm_term=%E5%A6%82%E4%BD%95%E5%88%A9%E7%94%A8o1%E8%BF%9B%E8%A1%8C%E8%92%B8%E9%A6%8F&spm=1018.2226.3001.4187
https://blog.csdn.net/m0_56172605/article/details/144786447?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522bef2e5d19abe2bcdf2e986e45b1ef9b9%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=bef2e5d19abe2bcdf2e986e45b1ef9b9&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2blogfirst_rank_ecpm_v1~rank_v31_ecpm-23-144786447-null-null.nonecase&utm_term=%E5%A6%82%E4%BD%95%E5%88%A9%E7%94%A8o1%E8%BF%9B%E8%A1%8C%E8%92%B8%E9%A6%8F&spm=1018.2226.3001.4450
https://blog.csdn.net/m0_59164304/article/details/144774756

1.使用 DeepSeek-R1 作为蒸馏模型:

调用费用大约为 o1 模型的 1/50。
百万Token输出耗费约16元。
蒸馏一轮:百元左右。
在这里插入图片描述

2. Pipeline:

在这里插入图片描述
比如目前的DeepSeek-R1:
在这里插入图片描述

3.结果:

在这里插入图片描述
3.比较厉害的模型架构:
在这里插入图片描述
Gemini 2.0-Flash-thinking:
在这里插入图片描述

4.回顾蒸馏

目的就是给Base模型进行后训练,从而产生高性能数据集模型的某些性能。
在这里插入图片描述

5.1.5B模型蒸馏

1.环境配置:
显存要求:80G
pytorch 2.5.1
cuda 12.4
python 3.11
在这里插入图片描述
安装 WandB
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2.下载qwen1.5B
在这里插入图片描述
3.下载llama-factory
在这里插入图片描述
4.主流的推理数据集:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
5.标记:
在这里插入图片描述
6.数据清洗:
在这里插入图片描述
在这里插入图片描述

7.训练参数:
在这里插入图片描述
8.结果:
在MMLU涨点10~15.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/961166.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

能说说MyBatis的工作原理吗?

大家好,我是锋哥。今天分享关于【Redis为什么这么快?】面试题。希望对大家有帮助; 能说说MyBatis的工作原理吗? MyBatis 是一款流行的持久层框架,它通过简化数据库操作,帮助开发者更高效地与数据库进行交互。MyBatis…

2024年记 | 凛冬将至

放弃幻想,准备斗争! 考研or就业? 上大学以来,考研上名校在我的心里一直是一颗种子,2024年初,当时的想法是考研和就业两手抓。买了张宇的高数现代,想要死磕! 也记了挺多笔记... 如果…

关联传播和 Python 和 Scikit-learn 实现

文章目录 一、说明二、什么是 Affinity Propagation。2.1 先说Affinity 传播的工作原理2.2 更多细节2.3 传播两种类型的消息2.4 计算责任和可用性的分数2.4.1 责任2.4.2 可用性分解2.4.3 更新分数:集群是如何形成的2.4.4 估计集群本身的数量。 三、亲和力传播的一些…

21款炫酷烟花合集

系列专栏 《Python趣味编程》《C/C趣味编程》《HTML趣味编程》《Java趣味编程》 写在前面 Python、C/C、HTML、Java等4种语言实现18款炫酷烟花的代码。 Python Python烟花① 完整代码:Python动漫烟花(完整代码) ​ Python烟花② 完整…

汇编基础语法及其示例

1.汇编指令 1.1汇编指令的基本格式 <opcode>{<cond>}{s} <Rd> , <Rn> , <shifter_operand> <功能码>{<条件码>}{cpsr影响位} <目标寄存器> , <第一操作寄存器> , <第二操作数> 注&#xff1a;第一操作寄存器…

GWO优化决策树分类预测matlab

本次研究采用的是 Excel 格式的分类数据集。将该数据集按照 8:1:1 的比例&#xff0c;精准划分为训练集、验证集和测试集。 数据处理流程完备&#xff0c;涵盖了数据加载、划分以及标准化等关键步骤&#xff0c;对数据进行了全面的预处理&#xff0c;显著提升了模型的训练效果与…

RAG技术:通过向量检索增强模型理解与生成能力

网罗开发 &#xff08;小红书、快手、视频号同名&#xff09; 大家好&#xff0c;我是 展菲&#xff0c;目前在上市企业从事人工智能项目研发管理工作&#xff0c;平时热衷于分享各种编程领域的软硬技能知识以及前沿技术&#xff0c;包括iOS、前端、Harmony OS、Java、Python等…

菜鸟之路Day10一一集合进阶(三)

菜鸟之路Day10一一集合进阶&#xff08;三&#xff09; 作者&#xff1a;blue 时间&#xff1a;2025.1.28 文章目录 菜鸟之路Day10一一集合进阶&#xff08;三&#xff09;0.概述1.双列集合概述2.Map2.1Map的常见API2.2Map的遍历方式 3.HashMap4.LinkedHashMap5.TreeMap 0.概…

2001-2021年 全国各地级市宽带接入用户统计数据

2001-2021年 全国各地级市宽带接入用户统计数据.zip 2001-2021年 全国各地级市宽带接入用户统计数据.ziphttps://download.csdn.net/download/2401_84585615/89575921 2001-2021年全国各地级市宽带接入用户统计数据反映了中国各地宽带接入服务的发展趋势。随着互联网的普及和…

深入探讨数据库索引类型:B-tree、Hash、GIN与GiST的对比与应用

title: 深入探讨数据库索引类型:B-tree、Hash、GIN与GiST的对比与应用 date: 2025/1/26 updated: 2025/1/26 author: cmdragon excerpt: 在现代数据库管理系统中,索引技术是提高查询性能的重要手段。当数据量不断增长时,如何快速、有效地访问这些数据成为了数据库设计的核…

C基础寒假练习(3)

一、求数组中的第二大值 #include <stdio.h> int main() {int arr[] {12, 35, 1, 10, 34, 1};int size sizeof(arr) / sizeof(arr[0]);if (size < 2) {printf("数组元素不足两个\n");return 0;}int first -2147483648, second -2147483648; // 使用IN…

Vue 响应式渲染 - 待办事项简单实现

Vue 渐进式JavaScript 框架 基于Vue2的学习笔记 - Vue 响应式渲染 - 待办事项简单实现 目录 待办事项简单实现 页面初始化 双向绑定的指令 增加留言列表设置 增加删除按钮 最后优化 总结 待办事项简单实现 页面初始化 对页面进行vue的引入、创建输入框和按钮及实例化V…

计算机毕业设计Django+Tensorflow音乐推荐系统 机器学习 深度学习 音乐可视化 音乐爬虫 知识图谱 混合神经网络推荐算法 大数据毕设

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…

新增文章功能

总说 过程参考黑马程序员SpringBoot3Vue3全套视频教程&#xff0c;springbootvue企业级全栈开发从基础、实战到面试一套通关_哔哩哔哩_bilibili 之前又偷懒几天。回老家没事干&#xff0c;玩也玩不好&#xff0c;一玩老是被家里人说。写代码吧还是&#xff0c;他们都看不懂&a…

Oracle PMON进程清洗功能

PMON进程 简介 1&#xff0c;在进程非正常中断后&#xff0c;做清理工作。例如&#xff1a;dedicated server失败了或者因为一些原因被杀死&#xff0c;这是PMON的工作分两种。第一&#xff0c;是对dedicated server所做的工作进行恢复或撤销。第二&#xff1a;是释放dedicate…

2025美赛数学建模C题:奥运金牌榜,完整论文代码模型目前已经更新

2025美赛数学建模C题&#xff1a;奥运金牌榜&#xff0c;完整论文代码模型目前已经更新&#xff0c;获取见文末名片

【数据结构】空间复杂度

目录 一、引入空间复杂度的原因 二、空间复杂度的分析 ❥ 2.1 程序运行时内存大小 ~ 程序本身大小 ❥ 2.2 程序运行时内存大小 ~ 算法运行时内存大小 ❥ 2.3 算法运行时内存大小 ❥ 2.4 不考虑算法全部运行空间的原因 三、空间复杂度 ❥ 3.1空间复杂度的定义 ❥ 3.2 空…

[Java]快速入门

java是什么 Java是美国的sun 公司(Stanford University Network)在1995年推出的一门计算机高级编程语言 sun公司于2009年被Oracle(甲骨文)公司收购。 普遍认同lava的联合创始人之一: 詹姆斯高斯林(James Gosling)为Java之父。 Java是世界上最流行的编程语言之一&#xff0c;…

数据分析系列--②RapidMiner导入数据和存储过程

一、下载数据 点击下载AssociationAnalysisData.xlsx数据集 二、导入数据 1. 在本地计算机中创建3个文件夹 2. 从本地选择.csv或.xlsx 三、界面说明 四、存储过程 将刚刚新建的过程存储到本地 Congratulations, you are done.

【源码+文档+调试讲解】基于springboot的高校实验室预约系统

摘 要 高校实验室预约系统是一款专为高等教育机构设计的在线管理工具&#xff0c;旨在简化实验室资源的分配和使用。通过该系统&#xff0c;学生和教师可以轻松查看实验室的空闲时间&#xff0c;并进行实时预约。系统支持不同用户权限设置&#xff0c;确保资源合理分配&#x…