23. AI-大语言模型-DeepSeek简介

文章目录

  • 前言
  • 一、DeepSeek是什么
    • 1. 简介
    • 2. 产品版本
      • 1. 类型
      • 2. 版本
      • 3. 参数规模与模型能力
    • 3. 特征
    • 4. 三种访问方式
      • 1. 网页端和APP
      • 2. DeepSeek API
  • 二、DeepSeek可以做什么
    • 1. 应用场景
    • 2. 文本生成
      • 1. 文本创作
      • 2. 摘要与改写
      • 3. 结构化生成
    • 3. 自然语言理解与分析
      • 1. 语义分析
      • 2. 文本分类
      • 3. 知识推理
    • 4. 编程与代码相关
      • 1. 代码生成
      • 2. 代码调试
      • 3. 技术文档处理
    • 5. 常规绘图
      • 1. SVG矢量图
      • 2. Mermaid图表
      • 3. React图表
  • 三、DeepSeek 多场景应用
    • 1. 三种模式
    • 2. 职场应用-PPT
      • 1. DeepSeek+Kimi
    • 3. 职场应用-其它
    • 4. 开发AI应用?
    • 5. 人机高效协作
    • 6. 行业赋能


前言

DeepSeek

  DeepSeek 在今年春节期间迅速爆红,并凭借强劲的性能,获得了大量开发者的关注,它最大的特点是开源、使用成本低,并且性能不输 ChatGPT。

DS太香了


一、DeepSeek是什么

1. 简介

  DeepSeek 是国内一款开源的大模型,主打通用 AI 能力,类似于 OpenAI 的 GPT 系列,目标是打造国产的、强大的、开放的大语言模型

  • DeepSeek大模型 的研发及开源,0->1,科研成果的重大突破
  • DeepSeek大模型 的应用,1->100,可以做什么,如何赋能哪些产业,属于国人的擅长领域。可以期待百花齐放。从互联网,到移动互联网,到现在的AI时代,2025AI应用元年,风口已经来了。

LLM(Large Language Model,大语言模型)‌是指使用大量文本数据训练的深度学习模型,能够生成自然语言文本或理解语言文本的含义。
LLM的核心思想是通过大规模无监督训练学习自然语言的模式和结构,模拟人类的语言认知和生成过程‌。

ai.com 这个域名之前跳转的是 ChatGPT,现在跳到 DeepSeek,可知 DeepSeek 的火爆程度。也从侧面反映了DeepSeek在全球范围内的影响力。

超级产品增长1亿用户用时

2. 产品版本

1. 类型

  1. 推理模型

推理模型: 指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它 们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。

例如:DeepSeek-R1、OpenAI-o1,在逻辑推理、数学推理和实时问题解决方面表现突出。

通用模型: 适用于大多数任务,一般侧重于语言生成、上下文理解和自然语言处理,而不强调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像 推理模型那样复杂的推理和决策能力。

例如:DeepSeek-V3、GPT-4o(OpenAI),主要用于语言生成、语言理解、文本分类、翻译 等任务。

维度推理模型通用模型
优势领域数学推导、逻辑分析、代码生成、复杂问题拆解文本生成、创意写作、多轮对话、开放性问答
劣势领域发散性任务(如诗歌创作)需要严格逻辑链的任务(如数学证明)
性能本质专精于逻辑密度高的任务擅长多样性高的任务
强弱判断并非全面更强,仅在其训练目标领域显著优于通用模型通用场景更灵活,但专项任务需依赖提示语补偿能力

2. 版本

DeepSeek 主要有以下几个大模型:

  • DeepSeek R1
  • DeepSeek V3
  • DeepSeek Coder V2
  • DeepSeek VL
  • DeepSeek V2
  • DeepSeek Coder
  • DeepSeek Math
  • DeepSeek LLM

以 DeepSeek-R1 为例,满血版本为:671B,性能最强,也就是官网部署的版本。还有几个蒸馏版本:

DS-R1版本

3. 参数规模与模型能力

  1. 参数规模

模型规格后面的数字代表模型的参数规模,表示模型的复杂度和学习能力,参数规模越大,通常理解和生成能力越强。

B 则是指 Billion 十亿

  • 1.5B 有 15 亿个参数;
  • 671B 是 6710 亿个参数。

参数规模与模型能力成正比,一般来说:

  • 参数规模越大: 代表模型越聪明,对复杂问题的处理能力越强,生成内容的质量越高,但对算力和硬件资源的要求也越高。
  • 参数规模越小: 代表模型越轻量化,对算力和硬件的要求越低,适合资源受限的设备。
  1. 模型能力

DeepSeek-R1 系列模型的规格划分主要是为了适应不同场景的需求,从小到大覆盖了轻量化应用到高算力推理的各种场景。在实际应用中,我们需要根据算力、成本、业务需求等综合因素来选择合适的模型。适合自己的,才是最好的!

  • 1.5B - 14B:轻量级模型,适合基础任务(文本生成、简单问答)。
  • 32B - 70B:中等规模,平衡性能与资源消耗,适合复杂任务(逻辑推理、代码生成)。

本地部署后跑的就是本地算力了,叠加知识库,可以实现内部的资料对话式查询,资料不上网,更加安全可靠。不同模型需要的硬件配置,以下可供参考:

  • 1.5B:CPU最低4核,内存8GB+,硬盘3GB+存储空间,显卡非必需,适合低资源设备部署等场景。

  • 7B:CPU 8核以上,内存16GB+,硬盘8GB+,显卡8GB+显存,可用于本地开发测试等场景。

  • 8B:硬件需求与7B相近略高,适合需更高精度的轻量级任务。

  • 14B:CPU 12核以上,内存32GB+,硬盘15GB+,显卡16GB+显存,可用于企业级复杂任务等场景。

  • 32B:CPU 16核以上,内存64GB+,硬盘30GB+,显卡24GB+显存,适合高精度专业领域任务等场景。

  • 70B:CPU 32核以上,内存128GB+,硬盘70GB+,显卡需多卡并行,适合科研机构等进行高复杂度生成任务等场景。

3. 特征

DeepSeek 之所以能迅速崛起,主要是因为它在技术上有一些独特的优势。

DeepSeek 采用了 Mixture of Experts(MoE,混合专家模型),这一架构让它可以在计算资源相对有限的情况下,仍然保持高性能,实现了它对 OpenAI 的弯道超车。

混合专家模型(MoE,Mixture of experts)是一种机器学习方法,它将人工智能(AI)模型划分为单独的子网络(或 专家 experts),每个子网络专攻输入数据的一个子集,以共同执行任务。
核心思想是,不是所有参数都在每次推理时被激活,而是只有一部分专家在工作,这样可以减少计算成本,同时提高模型的推理效率。也就是说,它通过选择性地激活特定任务所需的特定专家来实现这种效率,而不是为每个任务激活整个神经网络。

相比于 OpenAI 的 Transformer 模型架构,DeepSeek 的 MoE 版本可以用更少的计算量,获得接近的性能。与OpenAI-o1(mini)的性能对比:

模型对比
DeepSeek 是国产大模型,和 OpenAI的区别在哪里?

对比项DeepSeekOpenAI
是否开源✅ 开源❌ 闭源
中文优化✅ 很强✅ 强
代码能力✅ 强✅ 更强
推理速度✅ 轻量级 MoE 优势❌ 需要更大计算资源
本地部署✅ 可以❌ 不能
使用限制✅ 自由可商用❌ 需要 API 访问

DeepSeek 的最大优势是 开源中文优化好,更适合 本地部署 和 企业使用,所以它特别适合 中文 AI 应用、代码辅助开发 等场景。

4. 三种访问方式

DeepSeek的R1和V3模型现已在网页端APP,以及API上全面推出,为用户提供多样化的访问途径。这三种访问方式各具特色,适用于不同的使用场景。

DeepSeek的网页端是一个用户友好的在线平台,用户只需通过浏览器即可轻松访问。该平台设计直观,即使是非技术背景的用户也能迅速上手,享受DeepSeek带来的便捷服务

专为移动设备打造的DeepSeek APP,则让用户体验更加便捷和个性化。用户可以在智能手机或平板电脑上安装并使用该APP,随时随地访问DeepSeek平台,享受与网页端相似,但更加贴合移动场景的功能和服务

同时,DeepSeek还为开发者提供了强大的API工具。通过API,开发者可以轻松地将DeepSeek平台的功能集成到自己的应用程序或系统中,实现与平台的无缝对接。利用DeepSeek提供的各种算法和模型,开发者可以高效地处理数据、生成对话、实现其他创新功能

DeepSeek的API也是大语言模型(LLM)的三板斧,
CoT(思维链)、Prompt Engineering(提示工程)、Function Calling(函数调用)。

1. 网页端和APP

  1. 开启DeepSeek网页端对话,只需访问官网并点击“开始对话”按钮,登录后即可与AI进行即时交流。

访问网址

DS网页端
2. 开启DeepSeek APP的访问,只需在智能手机或平板电脑上下载安装后,打开应用并登录即可。

DS移动端
3. 深度思考(R1)和联网搜索是什么?

DeepSeek的深度思考(R1)和联网搜索是其两大核心功能,这两大功能相辅相成,共同构筑了其强大的功能框架。

  • 深度推理(R1):R1模型擅长逻辑推理和复杂问题解答,能够处理需要深度思考的任务。

  • 联网搜索:允许DeepSeek实时访问互联网上的信息,从而为用户提供最新、最准确的内容。

2. DeepSeek API

  1. DeepSeek的API是什么?

DeepSeek的API是为开发者提供的一种工具,它允许开发者将DeepSeek提供的能力集成到自己的应用程序中。

调用API,需要提供如下三个请求参数。

api_key: "<DeepSeek API Key>"
base_url: "https://api.deepseek.com"
model: ""
  1. DeepSeek的API能力有哪些?

DeepSeek API支持调用其平台上的多种模型,如深度思考(R1)和 智能对话(V3)等,并具备多轮对话能力和对话生成与理解功能,为开发者提供强大的智能对话与交互体验。

二、DeepSeek可以做什么

1. 应用场景

  直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。

DS能力图谱

2. 文本生成

1. 文本创作

  • 文章/故事/诗歌写作
  • 营销文案、广告语生成
  • 社交媒体内容(如推文、帖子)
  • 剧本或对话设计

2. 摘要与改写

  • 长文本摘要(论文、报告)
  • 文本简化(降低复杂度)
  • 多语言翻译与本地化

3. 结构化生成

  • 表格、列表生成(如日程安排、菜谱)
  • 代码注释、文档撰写

3. 自然语言理解与分析

1. 语义分析

  • 语义解析
  • 情感分析(评论、反馈)
  • 意图识别(客服对话、用户查询)
  • 实体提取(人名、地点、事件)

2. 文本分类

  • 文本分类
  • 主题标签生成(如新闻分类)
  • 垃圾内容检测

3. 知识推理

  • 知识推理
  • 逻辑问题解答(数学、常识推 理)
  • 因果分析(事件关联性)

4. 编程与代码相关

1. 代码生成

  • 根据需求生成代码片段(Python、JavaScript)
  • 自动补全与注释生成

2. 代码调试

  • 错误分析与修复建议
  • 代码性能优化提示

3. 技术文档处理

  • API文档生成
  • 代码库解释与示例生成

5. 常规绘图

1. SVG矢量图

  • 基础图形
  • 图标
  • 简单插图
  • 流程图
  • 组织架构图

2. Mermaid图表

  • 流程图
  • 时序图
  • 类图
  • 状态图
  • 实体关系图
  • 思维导图

3. React图表

  • 折线图
  • 柱状图
  • 饼图
  • 散点图
  • 雷达图
  • 组合图表

三、DeepSeek 多场景应用

‌从提示语技巧到多场景应用

1. 三种模式

  • 基础模型(V3):通用模型(2024.12),高效便捷,适用于绝大多数任务,“规范性”任务

  • 深度思考(R1):推理模型,复杂推理和深度分析任务,如数理逻辑推理和编程代码,“开放性”任务

  • 联网搜索:RAG(检索增强生成),知识库更新至2024年7月

2. 职场应用-PPT

1. DeepSeek+Kimi

  1. DeepSeek搞定ppt文案

我们用DeepSeek来生成ppt文稿的提纲文案,比如,我要做一个有关人工智能发展的报告,帮我做一个提纲。
DeepSeek联网思考后,生成一个ppt的大纲。
等待几分钟,整个ppt的框架就好了,下面copy到kimi中。

  1. Kimi搞定ppt

在Kimi中有一个关于ppt制作的神器,ppt助手。
我们点进去,把用DeepSeek生成的ppt提纲输入进去。
输入完毕后,Kimi会帮我们自动再次排版,最后点击“一键生成PPT‘,选择一个模板。
生成ppt。
生成完毕后,点击”去编辑“,点击”下载“,就可以把ppt下载到本地了。

至此,这个ppt就生成好了。

3. 职场应用-其它

  • 可视化图表
  • 设计海报
  • 生成视频
  • 生成新媒体文案
  • 市场调查

4. 开发AI应用?

5. 人机高效协作

基本操作技巧:提示词、追问逻辑、插件使用

人机协作意识:优势不足、取长补短、选择性采纳

能动意识:千人千面、洞察能力、思维深度

边界意识:学术伦理、新闻伦理、伦理规范

6. 行业赋能

行业赋能


本文的引用仅限自我学习如有侵权,请联系作者删除。
参考知识
DeepSeek 是什么?|扫盲贴
清华大学第一弹:DeepSeek从入门到精通
清华大学第二弹DeepSeek赋能职场
一文搞懂DeepSeek - DeepSeek的三种访问方式


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/975055.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于WebRTC与AI大模型接入EasyRTC:打造轻量级、高实时、强互动的嵌入式音视频解决方案

随着物联网和嵌入式技术的快速发展&#xff0c;嵌入式设备对实时音视频通信的需求日益增长。然而&#xff0c;传统的音视频解决方案往往存在体积庞大、实时性差、互动体验不佳等问题&#xff0c;难以满足嵌入式设备的资源限制和应用场景需求。 针对以上痛点&#xff0c;本文将介…

Linux 驱动入门(6)—— IRDA(红外遥控模块)驱动

文章目录 一、编译替换内核和设备树二、IRDA&#xff08;红外遥控模块&#xff09;1. 红外遥控简介2. 红外遥控器协议3. 编程思路 三、驱动代码1. GPIO 实现1.1 驱动层代码1.2 应用层代码 2. 设备树实现2.1 修改设备树2.2 驱动层代码2.3 应用层代码 3. 上机测试 一、编译替换内…

hot100_139. 单词拆分

hot100_139. 单词拆分 思路 给你一个字符串 s 和一个字符串列表 wordDict 作为字典。如果可以利用字典中出现的一个或多个单词拼接出 s 则返回 true。 注意&#xff1a;不要求字典中出现的单词全部都使用&#xff0c;并且字典中的单词可以重复使用。 示例 1&#xff1a; 输入:…

ath9k(Atheros芯片)开源驱动之wifi连接

为什么会推荐这个wifi 驱动进行学习&#xff1f; ath9k&#xff08;Atheros芯片&#xff09;&#xff1a;代码结构清晰&#xff0c;适合学习实践 为什么我只在开篇写了一个wifi连接的操作&#xff1f; 先让一个开源驱动在你的硬件上跑起来&#xff0c;再逐步修改&#xff0c…

win10把c盘docker虚拟硬盘映射迁移到别的磁盘

c盘空间本身就比较小、如果安装了docker服务后&#xff0c;安装的时候没选择其他硬盘&#xff0c;虚拟磁盘也在c盘会占用很大的空间&#xff0c;像我的就三十多个G&#xff0c;把它迁移到其他磁盘一下子节约几十G 1、先输入下面命令查看 docker 状态 wsl -l -v 2、如果没有停止…

PHP课程预约小程序源码

&#x1f4f1; 课程预约小程序&#xff1a;为您专属定制的便捷预约新体验 在这个快节奏的时代&#xff0c;我们深知每一位瑜伽爱好者、普拉提追随者以及培训机构管理者对高效、便捷服务的迫切需求。因此&#xff0c;我们匠心独运&#xff0c;推出了一款基于PHPUniApp框架开发的…

Docker实战-使用docker compose搭建博客

docker run 部署 创建blog网络 [rootk8s-master ~]# docker network create blog 8f533a5a1ec65eae3f98c0ae5a76014a3ab1bf3c087ad952cdc100cc7a658948 [rootk8s-master ~]# docker network ls NETWORK ID NAME DRIVER SCOPE 8f533a5a1ec6 blog bridge …

javaEE-SpringBoot日志

一.日志的用途 平时我们使用日志,就是通过控制台打印一些信息,或者程序运行保存,查看控制台报错原因. 随着项⽬的复杂度提升, 我们对⽇志的打印也有了更⾼的需求, ⽽不仅仅是定位排查问题. ⽐如需要记录⼀些⽤⼾的操作记录(⼀些审计公司会要求), 也可能需要使⽤⽇志来记录⽤…

DeepSeek vs ChatGPT:AI 领域的华山论剑,谁主沉浮?

一、引言 在当今科技飞速发展的时代&#xff0c;人工智能&#xff08;AI&#xff09;已然成为推动各领域变革的核心力量。而在人工智能的众多分支中&#xff0c;自然语言处理&#xff08;NLP&#xff09;因其与人类日常交流和信息处理的紧密联系&#xff0c;成为了最受瞩目的领…

LangChain-基础(prompts、序列化、流式输出、自定义输出)

LangChain-基础 我们现在使用的大模型训练数据都是基于历史数据训练出来的&#xff0c;它们都无法处理一些实时性的问题或者一些在训练时为训练到的一些问题&#xff0c;解决这个问题有2种解决方案 基于现有的大模型上进行微调&#xff0c;使得它能适应这些问题&#xff08;本…

数据库面试知识点总结

目录 1. MySQL 基础题1.1 执行⼀条 select / update 语句&#xff0c;在 MySQL 中发生了什么&#xff1f;1.2 MySQL 一行记录是怎么存储的&#xff1f; 2. 三大范式3. 数据库引擎3.1 Innodb3.2 MyISAM 4. 数据库索引4.1 索引分类4.2 索引优缺点4.3 索引使用场景4.4 优化索引方法…

Spring事务原理 二

在上一篇博文《Spring事务原理 一》中&#xff0c;我们熟悉了Spring声明式事务的AOP原理&#xff0c;以及事务执行的大体流程。 本文中&#xff0c;介绍了Spring事务的核心组件、传播行为的源码实现。下一篇中&#xff0c;我们将结合案例&#xff0c;来讲解实战中有关事务的易…

使用 C++ 和 gRPC 的常见陷阱及解决方案

文章目录 1. 环境配置的陷阱1.1 依赖版本冲突或混淆1.2 gRPC 工具缺失 2. 编译和链接的陷阱2.1 运行时库不匹配&#xff08;/MT vs /MD&#xff09;2.2 未解析的外部符号 3. Protobuf 文件生成的陷阱3.1 工具版本不匹配3.2 生成文件运行时库不一致 4. 运行时的陷阱4.1 缺少 DLL…

《深度学习实战》第2集:卷积神经网络(CNN)与图像分类

《深度学习实战》第2集&#xff1a;卷积神经网络&#xff08;CNN&#xff09;与图像分类 引言 卷积神经网络&#xff08;Convolutional Neural Network, CNN&#xff09;是深度学习在计算机视觉领域的核心工具。从早期的 LeNet 到现代的 ResNet 和 Vision Transformer&#xf…

创建Linux虚拟环境并远程连接

目录 下载VMware软件 下载CentOS 创建虚拟环境 远程连接Linux系统 下载VMware软件 不会的可以参考 传送门 下载CentOS 不会的可以参考 传送门 创建虚拟环境 打开VMware软件&#xff0c;创建虚拟机 选择典型安装 找到我们安装好的centOS文件&#xff0c;之后会自动检…

RV1126解码(5) read_vdec_thread线程

read_vdec_thread线程的用处 read_vdec_thread线程主要是获取每一帧VDEC解码数据&#xff0c;并打印出来每一帧数据的具体信息。 代码&#xff1a; //用于从 VDEC 解码器获取每一帧解码后的图像数据 void *read_vdec_thread(void *args) {pthread_detach(pthread_self());MED…

verilog笔记

Verilog学习笔记&#xff08;一&#xff09;入门和基础语法BY电棍233 由于某些不可抗拒的因素和各种的特殊原因&#xff0c;主要是因为我是微电子专业的&#xff0c;我需要去学习一门名为verilog的硬件解释语言&#xff0c;由于我是在某西部地区的神秘大学上学&#xff0c;这所…

Three.js 快速入门教程【六】相机控件 OrbitControls

系列文章目录 Three.js 快速入门教程【一】开启你的 3D Web 开发之旅 Three.js 快速入门教程【二】透视投影相机 Three.js 快速入门教程【三】渲染器 Three.js 快速入门教程【四】三维坐标系 Three.js 快速入门教程【五】动画渲染循环 Three.js 快速入门教程【六】相机控件 Or…

抗辐照加固CAN FD芯片的商业航天与车规级应用解析

在工业自动化、智能汽车、航空航天及国防装备等关键领域&#xff0c;数据传输的安全性、可靠性与极端环境适应能力是技术升级的核心挑战。国科安芯推出全新一代CANFD&#xff08;Controller Area Network Flexible Data Rate&#xff09;芯片&#xff0c;以高安全、高可靠、断电…

经验分享—WEB渗透测试中遇到加密内容的数据包该如何测试!

经验分享—WEB渗透测试中遇到加密内容的数据包该如何测试&#xff01; 01 加解密的意义 现阶段的渗透测试让我发现越来越多的系统不只是在漏洞修补方面做了功夫&#xff0c;还对一些参数进行加密&#xff0c;干扰爬虫或者渗透测试的进行。 在我小白阶段看到下图这种加密方式…