DeepSeek R1 学习笔记

DeepSeek为了方便大众的使用，同时提供了6个蒸馏版本

DeekSeek使用方式

1.大众方式：

网页版：DeepSeek

App版：手机各大应用商店下载安装DeepSeek-AI智能对话助手

2.专业用户

开发者：调用API + DeepSeek服务器网址：DeepSeek

接口文档地址：首次调用 API | DeepSeek API Docs

第三方平台：

硅基流动，是一家AI模型服务商，提供R1、V3满血版以及DS多尺寸模型。当然，也包括GLM、Qwen、Hunyuan、Yi、FLUX、Llama、SD等知名模型。

硅基流动统一登录

超算互联网：由科技部牵头，供全民免费使用，目前提供了7B、14B和32B的蒸馏版

智能助手

一些云：

百度智能云：千帆大模型平台-百度智能云千帆

华为云：硅基流动统一登录

阿里云：阿里云登录 - 欢迎登录阿里云，安全稳定的云计算服务平台

华为昇腾社区：共建智能世界云底座-华为云

腾讯云：腾讯云产业智变·云启未来 - 腾讯

火山引擎：DeepSeek R1 模型部署快速指南--机器学习平台-火山引擎

联通云：联通云—安全数智云

京东云：京东云

总结：

想要满血版，推荐官网、硅基，就是有点卡；

想要稳定，推荐纳米、秘塔、超算、小艺、英伟达，速度很快，很流畅；

想练动手能力，API keys+Chatbox，你值得拥有；

手里有魔法，推荐Poe、Lambda、Perplexity，好用、耐用，大佬都在用。

3.高阶版

在GitHub直接拉模型，本地算力布署.

特点：小模型的蒸馏; 离线使用，数据安全，完全免费

工具：Ollama + ChatBox / Anything LLM

对话使用一些细节：DeepSeek

1.深度思考：

只简单的了解时，不用点深度思考，比如一些显尔易见的，平时生活中的一过程，或数学题解答等，这时使用的模型是V3。如有复杂的思维过程，创意或策划等很复杂的过程时，点击"深度思考(R1)",可和"联网搜索"联合使用等，

2.模型需要数据训练，如果问的问题与时间有关的，可能数据还没有训练，点击"联网搜索"效果比较好，如果时间比较靠前，已训练过的话，只用"深度思考(R1)"模型比较好

3.专属问题：通过上传附件，来生成专属的结果，如AI个人简历，个人知识库，公司财表，企业报表分析等。

DeepSeek-R1提示词的使用原则、技巧、避坑与场景

提示词的两个关键问题：

首先：真正理清脑海中的想法：

其次：是否能够通过文字准确传达这个想法

推理模型的提示词的共识：

共识1：清空之前的提示词模板

DeepSeek 特点是没有提示词技巧

共识2：仍需要告诉AI足够多的背景信息

干什么？

给谁干？

目的是？(要什么)

约束是？(不要什么)

共识3：用乔哈里视窗分析你到底该告诉AI多少信息

1.人知道,AI知道的---简单说，如能表明身份职业等的限写定词，就没有必要再对其进行补充说明，不包含新兴的，

2.人知道，AI不知道的-------喂模式

几种典型方式：

1.举例法：最常见的是通过举例来实现，展示一个具体例子时，实际上是在让AI感知这个例子中的模式(pattern),并期待它能够通过自身的泛化能力来理解和应用这个模式。

2.定义字典：在待定场景中，比如需要使用15个独有术语时(比如一些"业里黑话")，可以专门设置一下定义模块，将这个“定义字典”输入给AI，这也是输入模式。

3.RAG(检索增强生成)技术：面对AI未知的数据时，使用t先检索(本地+联网查资料)-->再生成(写答案)的方式，本质上也是在输入模式。

3.人不知道，AI知道----提问题

提示词的核心技巧就在于如何提出好问题

"提问"本身完全可以作为一门独立的学科来研究。提问能力，也将为一项核心竞争力。

4.人不知道，AI也不知道----开放聊

如科研前沿

共识4：可以用大白话方式交流，注意提供足额的信息

共识5: 是否需要指定思考步骤，取决于你是否希望AI严格执行. 原则：给模型目标，而不是任务。

DeepSeek使用技巧

技巧1：要求明确; 万能提示词模板你是谁 + (背景信息) + 你的目标

你是谁：非常的有用

背景信息：告诉他你为什么做这件事，你面临的现实背景是什么或问题是什么。

你的目标: 说清楚它帮你做什么，做到什么程度。

核心：用人话清晰的表达出你的需求。

技巧2：不要定义过程

技巧3：明确受众

技巧4：联网功能 DeepSeek-R1，是为数不多的，可以联网的推理大模型。

技巧5：补充额外信息上传PDF/PPT作为知识基底.(最多不超过50个，每个不超过100MB)。

推理 + 上传附件，可心做更多本地化、私密化的东西，比发你自己的知识库或者内部资料。让其基于自有知识库进行推理和思考。

技巧6：上下文的联系 vs 清除记忆

上下文记忆：DeepSeek R1目前提供的上下文只有64k token长度(官方API文档的说明，实际聊天对话的长度待确认)，对应到中文字符大概是3-4万字。适用于文档分析、长对话等场景。

三点注意：

注意1：上下文记忆有限

注意2：输出长度有限，多数大模型会将输出长度控制在4k或者8k,也就是单次对话最多2-4千中文字符

注意3：如何清除之前的记忆

解决方法：开启新的对话

输入：回复此条对话前，请忽略前面所有的对话。

技巧7：反馈与迭代优化

情况1：对初始的回答进一步追问、优化。

情况2：针对某一个问题，挑毛病或辩证思考，评估方案和决策。

技巧8：复杂问题，分步拆解

DeepSeek使用避坑

1.冗长提示词污染关键词过长的描述可能导致焦点偏移，过度思考，甚至逻辑凌乱。推理模型时代，只需要命中那个关键词即可。

2.避免复杂句式和模糊词语否定句式增加理解成本，未指定处理方式和精度要求。

3.避免“分步骤思考”要求 R1模型通过强化学习，自动生成完整思维链。

4.过度角色扮演 R1本身就是专家模型&专家思维

DeepSeek使用场景

场景1：数学&物理题 (R1强于理工科)

场景2：代码能力涵盖：代码编写、代码优化、分析和解释代码(加注释)、调试代码&修复问题等

场景3：写作&文案能力

场景4: 文本摘要

场景5：指定输出格式 mermaid、svg、Xmind等可以通过文本表示的图表可以通过AI生成，在提问时明确要求以某种图表的语法格式回复即可。如生成流程图、甘特图、xmind、ppt

场景6：日常生活

场景7：不同职业场景

场景8：简历生成

场景9: 模拟面试

5.指令模型 vs 推理模型

理解大语言模型的工作原理与局限，能更好的知道AI可完成任务的边界。

指令模型(通用模型、传统模型、instruct model)

依赖用户指令来生成内容或执行任务。

代表： DeepSeek - v3, GTP-4o、豆包、Qwen2.5、Llama-3.1

特点：step by step

推理模型(reasoning model):专注于逻辑推理、问题解决的模型、能够自主处理需要多步聚分析、因果推断或复杂决策的任务。比如数学、编程、科学问题。

代表：DeepSeek-R1、 OpenAI-o1、OpenAI-o3-mini

特点：大模型更像是一个“职场精英"，给出明确的目的，提供丰富的上下文，剩下的让模型自行发挥(向模型要结果)

DeepSeek-R1 目前是唯一联网的推理模型。

AI综合比较：

DeepSeek：功能全面，操作简单，响应快，普通用户的首先

GPT-4: 功能强大，但更适合专业人士，普通用户用起来有点浪费

文心一言：中文理解能力不错，适合写作文，总结文章，但功能相对单一，

豆包：说话打娱乐和社交，适合聊天，讲笑话，实用性弱。

4大部署方案详解

方式1：调用API + DeepSeek服务器

创建自己的应用的方式

或者

直接使用某客户端访问(官方推荐)：awesome-deepseek-integration/README_cn.md at main · deepseek-ai/awesome-deepseek-integration · GitHub

方式2：第三方平台

DeepSeek R1 学习笔记

相关文章

《从零构建企业级容器镜像生态：Harbor与Registry双星架构实战手记》

FPGA之USB通信实战：基于FX2芯片的Slave FIFO回环测试详解

mysql中in和exists的区别?

Unity摄像机跟随物体

springcloud sentinel教程

【Tools】Windows下Git 2.48安装教程详解

【Linux系统编程】初识系统编程

神经网络|(十四)|霍普菲尔德神经网络-Hebbian训练

Hive八股

Docker 部署 Graylog 日志管理系统

im即时聊天客服系统SaaS还是私有化部署：成本、安全与定制化的权衡策略

MySQL(单表)知识点

同为科技智能PDU在数据中心场景的应用与解决方案

基于Asp.net的零食购物商城网站

Redis｜Springboot集成Redis

【编译器】VSCODE编译C语言

信息安全访问控制、抗攻击技术、安全体系和评估（高软42）

1 、六气概念-六气内涵

svn删除所有隐藏.svn文件，文件夹脱离svn控制

【Python 数据结构 10.二叉树】