【深度学习】DeepSeek模型介绍与部署

原文链接:DeepSeek-V3

1. 介绍

DeepSeek-V3,一个强大的混合专家 (MoE) 语言模型,拥有 671B 总参数,其中每个 token 激活 37B 参数。
为了实现高效推理和成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。
此外,DeepSeek-V3 首次提出了无辅助损失的负载平衡策略,并设置了多 token 预测训练目标,以增强性能。
我们在 14.8 万亿多样且高质量的 token 上预训练了 DeepSeek-V3,之后进行了监督微调和强化学习阶段,以充分发挥其能力。
全面评估表明,DeepSeek-V3 超越了其他开源模型,并且在性能上与领先的闭源模型相当。
尽管性能卓越,DeepSeek-V3 的完整训练仅需要 2.788M H800 GPU 小时。
此外,其训练过程非常稳定。在整个训练过程中,我们没有遇到任何无法恢复的损失峰值,也没有执行任何回滚操作。

2. 模型总结


架构:创新的负载平衡策略与训练目标

  • 在 DeepSeek-V2 高效架构的基础上,我们首次提出了一种无辅助损失的负载平衡策略,最小化了由于负载平衡而导致的性能下降。
  • 我们研究了多 token 预测(MTP)目标,并证明它对模型性能有益。
    它还可用于推理加速的推测解码。

预训练:追求极致的训练效率

  • 我们设计了一个 FP8 混合精度训练框架,并首次验证了在极大规模模型上使用 FP8 训练的可行性和有效性。
  • 通过算法、框架和硬件的共同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了计算与通信的完全重叠。
    这大大提高了我们的训练效率,并减少了训练成本,使我们能够在不增加额外开销的情况下进一步扩展模型规模。
  • 在仅需 2.664M H800 GPU 小时的经济成本下,我们完成了 DeepSeek-V3 在 14.8T tokens 上的预训练,生产出当前最强大的开源基础模型。预训练后的后续训练阶段仅需 0.1M GPU 小时。

后训练:从 DeepSeek-R1 中蒸馏知识

  • 我们引入了一种创新的方法,从长链思维(CoT)模型中提取推理能力,特别是从 DeepSeek R1 系列模型中,将其蒸馏到标准 LLM,特别是 DeepSeek-V3。我们的流程巧妙地将 R1 的验证和反思模式整合到 DeepSeek-V3 中,显著提高了其推理能力。同时,我们也控制了 DeepSeek-V3 输出的风格和长度。

3. 模型下载

模型总参数激活参数上下文长度下载
DeepSeek-V3-Base671B37B128K🤗 Hugging Face
DeepSeek-V3671B37B128K🤗 Hugging Face

[!NOTE]
DeepSeek-V3 模型在 Hugging Face 上的总大小为 685B,其中包含 671B 的主模型权重和 14B 的多 token 预测(MTP)模块权重。

为了确保最佳的性能和灵活性,我们与开源社区和硬件供应商合作,提供了多种方式以在本地运行模型。有关详细的步骤,请参阅第 6 节:如何在本地运行。

对于希望深入了解的开发者,我们建议查看 README_WEIGHTS.md,了解有关主模型权重和多 token 预测(MTP)模块的更多细节。请注意,MTP 支持目前仍在社区开发中,我们欢迎您的贡献和反馈。

4. 评估结果

基础模型

标准基准测试
基准(指标)样本数量DeepSeek-V2Qwen2.5 72BLLaMA3.1 405BDeepSeek-V3
架构-MoEDenseDenseMoE
激活参数-21B72B405B37B
总参数-236B72B405B671B
英文Pile-test (BPB)-0.6060.6380.5420.548
BBH (EM)3-shot78.879.882.987.5
MMLU (Acc.)5-shot78.485.084.487.1
MMLU-Redux (Acc.)5-shot75.683.281.386.2
MMLU-Pro (Acc.)5-shot51.458.352.864.4
DROP (F1)3-shot80.480.686.089.0
ARC-Easy (Acc.)25-shot97.698.498.498.9
ARC-Challenge (Acc.)25-shot92.294.595.395.3
HellaSwag (Acc.)10-shot87.184.889.288.9
PIQA (Acc.)0-shot83.982.685.984.7
WinoGrande (Acc.)5-shot86.382.385.284.9
RACE-Middle (Acc.)5-shot73.168.174.267.1
RACE-High (Acc.)5-shot52.650.356.851.3
TriviaQA (EM)5-shot80.071.982.782.9
NaturalQuestions (EM)5-shot38.633.241.540.0
AGIEval (Acc.)0-shot57.575.860.679.6
编程HumanEval (Pass@1)0-shot43.353.054.965.2
MBPP (Pass@1)3-shot65.072.668.475.4
LiveCodeBench-Base (Pass@1)3-shot11.612.915.519.4
CRUXEval-I (Acc.)2-shot52.559.158.567.3
CRUXEval-O (Acc.)2-shot49.859.959.969.8
数学GSM8K (EM)8-shot81.688.383.589.3
MATH (EM)4-shot43.454.449.061.6
MGSM (EM)8-shot63.676.269.979.8
CMath (EM)3-shot78.784.577.390.7
中文CLUEWSC (EM)5-shot82.082.583.082.7
C-Eval (Acc.)5-shot81.489.272.590.1
CMMLU (Acc.)5-shot84.089.573.788.8
CMRC (EM)1-shot77.475.876.076.3
C3 (Acc.)0-shot77.476.779.778.6
CCPM (Acc.)0-shot93.088.578.692.0
多语言MMMLU-non-English (Acc.)5-shot64.074.873.879.4

[!NOTE]
最佳结果用粗体显示。得分差距不超过 0.3 的被认为在同一水平上。DeepSeek-V3 在大多数基准测试中都取得了最佳表现,特别是在数学和编程任务上。
有关更多评估详情,请查阅我们的论文。

上下文窗口

在“Needle In A Haystack”(NIAH)测试中的评估结果。DeepSeek-V3 在所有上下文窗口长度(最多 128K)上表现良好。

聊天模型

标准基准(大于 67B 的模型)
基准(指标)DeepSeek V2-0506DeepSeek V2.5-0905Qwen2.5 72B-Inst.Llama3.1 405B-Inst.Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3
架构MoEMoEDenseDense--MoE
激活参数21B21B72B405B--37B
总参数236B236B72B405B--671B
英文MMLU (EM)78.280.685.388.688.387.288.5
MMLU-Redux (EM)77.980.385.686.288.988.089.1
MMLU-Pro (EM)58.566.271.673.378.072.675.9
DROP (3-shot F1)83.087.876.788.788.383.791.6
IF-Eval (Prompt Strict)57.780.684.186.086.584.386.1
GPQA-Diamond (Pass@1)35.341.349.051.165.049.959.1
SimpleQA (Correct)9.010.29.117.128.438.224.9
FRAMES (Acc.)66.965.469.870.072.580.573.3
LongBench v2 (Acc.)31.635.439.436.141.048.148.7
编程HumanEval-Mul (Pass@1)69.377.477.377.281.780.582.6
LiveCodeBench (Pass@1-COT)18.829.231.128.436.333.440.5
LiveCodeBench (Pass@1)20.328.428.730.132.834.237.6
Codeforces (Percentile)17.535.624.825.320.323.651.6
SWE Verified (Resolved)-22.623.824.550.838.842.0
Aider-Edit (Acc.)60.371.665.463.984.272.979.7
Aider-Polyglot (Acc.)-18.27.65.845.316.049.6
数学AIME 2024 (Pass@1)4.616.723.323.316.09.339.2
MATH-500 (EM)56.374.780.073.878.374.690.2
CNMO 2024 (Pass@1)2.810.815.96.813.110.843.2
中文CLUEWSC (EM)89.990.491.484.785.487.990.9
C-Eval (EM)78.679.586.161.576.776.086.5
C-SimpleQA (Correct)48.554.148.450.451.359.364.8

[!NOTE]
所有模型均在限制输出长度为 8K 的配置下进行评估。包含不到 1000 个样本的基准测试进行了多次测试,使用不同的温度设置以得出可靠的最终结果。DeepSeek-V3 是表现最好的开源模型,也在与前沿闭源模型的性能对比中表现出色。

开放式生成评估
模型Arena-HardAlpacaEval 2.0
DeepSeek-V2.5-090576.250.5
Qwen2.5-72B-Instruct81.249.1
LLaMA-3.1 405B69.340.5
GPT-4o-051380.451.1
Claude-Sonnet-3.5-102285.252.0
DeepSeek-V385.570.0

[!NOTE]
英文开放式对话评估。对于 AlpacaEval 2.0,我们使用长度控制的胜率作为评估指标。

5. 聊天网站与 API 平台

你可以在 DeepSeek 官方网站与 DeepSeek-V3 进行聊天:chat.deepseek.com

我们还在 DeepSeek 平台提供了兼容 OpenAI 的 API:platform.deepseek.com

6. 如何在本地运行

DeepSeek-V3 可以通过以下硬件和开源社区软件在本地部署:

  1. DeepSeek-Infer Demo:我们提供了一个简单且轻量的演示,支持 FP8 和 BF16 推理。
  2. SGLang:完全支持 DeepSeek-V3 模型,支持 BF16 和 FP8 推理模式,且多 token 预测 即将推出。
  3. LMDeploy:支持本地和云部署的高效 FP8 和 BF16 推理。
  4. TensorRT-LLM:目前支持 BF16 推理和 INT4/8 量化,FP8 支持即将推出。
  5. vLLM:支持 DeepSeek-V3 模型,支持 FP8 和 BF16 模式的张量并行和流水线并行。
  6. AMD GPU:通过 SGLang 在 AMD GPU 上运行 DeepSeek-V3 模型,支持 BF16 和 FP8 模式。
  7. 华为 Ascend NPU:支持在华为 Ascend 设备上运行 DeepSeek-V3。

由于 FP8 训练已在我们的框架中原生采用,因此我们仅提供 FP8 权重。如果需要 BF16 权重进行实验,您可以使用提供的转换脚本进行转换。

以下是将 FP8 权重转换为 BF16 的示例:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

[!NOTE]
Hugging Face 的 Transformers 目前尚不直接支持。

6.1 使用 DeepSeek-Infer 演示进行推理(仅为示例)

系统要求

[!NOTE]
仅支持 Linux 和 Python 3.10,Mac 和 Windows 不支持。

依赖项:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
模型权重和演示代码准备

首先,克隆我们的 DeepSeek-V3 GitHub 仓库:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

进入 inference 文件夹并安装 requirements.txt 中列出的依赖项。最简单的方式是使用 condauv 等包管理工具创建新的虚拟环境并安装依赖。

cd DeepSeek-V3/inference
pip install -r requirements.txt

从 Hugging Face 下载模型权重,并将其放入 /path/to/DeepSeek-V3 文件夹中。

模型权重转换

将 Hugging Face 模型权重转换为特定格式:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
运行

然后您可以与 DeepSeek-V3 进行对话:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

或批量推理给定的文件:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

6.2 使用 SGLang 进行推理(推荐)

SGLang 目前支持 MLA 优化,DP Attention,FP8(W8A8),FP8 KV 缓存和 Torch Compile,提供了业内领先的延迟和吞吐量性能。

特别是,SGLang v0.4.1 完全支持在 NVIDIA 和 AMD GPU 上运行 DeepSeek-V3,使其成为一个高度通用且强大的解决方案。

SGLang 还支持 多节点张量并行,使您能够在多台网络连接的机器上运行此模型。

多 token 预测(MTP)正在开发中,进展可以通过 优化计划进行跟踪。

以下是 SGLang 团队提供的启动说明:https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3

6.3 使用 LMDeploy 进行推理(推荐)

LMDeploy,一个灵活且高效的推理和服务框架,现已支持 DeepSeek-V3。它提供了离线管道处理和在线部署功能,能够无缝集成 PyTorch 基础的工作流。

有关如何使用 LMDeploy 运行 DeepSeek-V3 的详细步骤,请参阅:https://github.com/InternLM/lmdeploy/issues/2960

6.4 使用 TRT-LLM 进行推理(推荐)

TensorRT-LLM 现在支持 DeepSeek-V3 模型,提供 BF16 和 INT4/INT8 权重选项。目前 FP8 支持正在进行中,将很快发布。您可以通过以下链接访问专为 DeepSeek-V3 支持的 TRTLLM 自定义分支,直接体验新功能:https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3

6.5 使用 vLLM 进行推理(推荐)

vLLM v0.6.6 支持在 NVIDIA 和 AMD GPU 上运行 DeepSeek-V3 推理,支持 FP8 和 BF16 模式。除了标准技术,vLLM 还提供了 流水线并行,使您能够在多台通过网络连接的机器上运行此模型。有关详细指导,请参阅 vLLM 指南。您还可以关注 增强计划。

6.6 使用 AMD GPU 进行推理(推荐)

与 AMD 团队的合作使我们实现了对 AMD GPU 的首日支持,完全兼容 FP8 和 BF16 精度。有关详细指导,请参阅 SGLang 指南。

6.7 使用华为 Ascend NPU 进行推理(推荐)

华为 Ascend 社区的 MindIE 框架已成功适配 DeepSeek-V3 的 BF16 版本。有关 Ascend NPU 的逐步指导,请参阅 此处的说明。

7. 许可

此代码库采用 MIT 许可协议。DeepSeek-V3 Base/Chat 模型的使用受 模型许可协议 的约束。DeepSeek-V3 系列(包括 Base 和 Chat)支持商业用途。

8. 引用

@misc{deepseekai2024deepseekv3technicalreport,
      title={DeepSeek-V3 Technical Report}, 
      author={DeepSeek-AI and Aixin Liu and Bei Feng and Bing Xue and Bingxuan Wang and Bochao Wu and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Daya Guo and Dejian Yang and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Haowei Zhang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Li and Hui Qu and J. L. Cai and Jian Liang and Jianzhong Guo and Jiaqi Ni and Jiashi Li and Jiawei Wang and Jin Chen and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and Junxiao Song and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Lei Xu and Leyi Xia and Liang Zhao and Litong Wang and Liyue Zhang and Meng Li and Miaojun Wang and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Mingming Li and Ning Tian and Panpan Huang and Peiyi Wang and Peng Zhang and Qiancheng Wang and Qihao Zhu and Qinyu Chen and Qiushi Du and R. J. Chen and R. L. Jin and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and Runxin Xu and Ruoyu Zhang and Ruyi Chen and S. S. Li and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shaoqing Wu and Shengfeng Ye and Shengfeng Ye and Shirong Ma and Shiyu Wang and Shuang Zhou and Shuiping Yu and Shunfeng Zhou and Shuting Pan and T. Wang and Tao Yun and Tian Pei and Tianyu Sun and W. L. Xiao and Wangding Zeng and Wanjia Zhao and Wei An and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and X. Q. Li and Xiangyue Jin and Xianzu Wang and Xiao Bi and Xiaodong Liu and Xiaohan Wang and Xiaojin Shen and Xiaokang Chen and Xiaokang Zhang and Xiaosha Chen and Xiaotao Nie and Xiaowen Sun and Xiaoxiang Wang and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xingkai Yu and Xinnan Song and Xinxia Shan and Xinyi Zhou and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and Y. K. Li and Y. Q. Wang and Y. X. Wei and Y. X. Zhu and Yang Zhang and Yanhong Xu and Yanhong Xu and Yanping Huang and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Li and Yaohui Wang and Yi Yu and Yi Zheng and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Ying Tang and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yu Wu and Yuan Ou and Yuchen Zhu and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yukun Zha and Yunfan Xiong and Yunxian Ma and Yuting Yan and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Z. F. Wu and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhen Huang and Zhen Zhang and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhibin Gou and Zhicheng Ma and Zhigang Yan and Zhihong Shao and Zhipeng Xu and Zhiyu Wu and Zhongyu Zhang and Zhuoshu Li and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Ziyi Gao and Zizheng Pan},
      year={2024},
      eprint={2412.19437},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.19437}, 
}

9. 联系方式

如果您有任何问题,请提交问题或通过 service@deepseek.com 联系我们。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/963461.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32 PWM驱动舵机

接线图: 这里将信号线连接到了开发板的PA1上 代码配置: 这里的PWM配置与呼吸灯一样,呼吸灯连接的是PA0引脚,输出比较单元用的是OC1通道,这里只需改为OC2通道即可。 完整代码: #include "servo.h&quo…

51单片机 02 独立按键

一、独立按键控制LED亮灭 轻触按键&#xff1a;相当于是一种电子开关&#xff0c;按下时开关接通&#xff0c;松开时开关断开&#xff0c;实现原理是通过轻触按键内部的金属弹片受力弹动来实现接通和断开。 #include <STC89C5xRC.H> void main() { // P20xFE;while(1){…

本地部署 DeepSeek-R1:简单易上手,AI 随时可用!

&#x1f3af; 先看看本地部署的运行效果 为了测试本地部署的 DeepSeek-R1 是否真的够强&#xff0c;我们随便问了一道经典的“鸡兔同笼”问题&#xff0c;考察它的推理能力。 &#x1f4cc; 问题示例&#xff1a; 笼子里有鸡和兔&#xff0c;总共有 35 只头&#xff0c;94 只…

[EAI-027] RDT-1B,目前最大的用于机器人双臂操作的机器人基础模型

Paper Card 论文标题&#xff1a;RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文作者&#xff1a;Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu 论文链接&#xff1a;https://arxiv.org/ab…

DeepSeek为什么超越了OpenAI?从“存在主义之问”看AI的觉醒

悉尼大学学者Teodor Mitew向DeepSeek提出的问题&#xff0c;在推特上掀起了一场关于AI与人类意识的大讨论。当被问及"你最想问人类什么问题"时&#xff0c;DeepSeek的回答直指人类存在的本质&#xff1a;"如果意识是进化的偶然&#xff0c;宇宙没有内在的意义&a…

在 crag 中用 LangGraph 进行评分知识精炼-下

在上一次给大家展示了基本的 Rag 检索过程&#xff0c;着重描述了增强检索中的知识精炼和补充检索&#xff0c;这些都是 crag 的一部分&#xff0c;这篇内容结合 langgraph 给大家展示通过检索增强生成&#xff08;Retrieval-Augmented Generation, RAG&#xff09;的工作流&am…

UE5.3 C++ CDO的初步理解

一.UObject UObject是所有对象的基类&#xff0c;往上还有UObjectBaseUtility。 注释&#xff1a;所有虚幻引擎对象的基类。对象的类型由基于 UClass 类来定义。 这为创建和使用UObject的对象提供了 函数&#xff0c;并且提供了应在子类中重写的虚函数。 /** * The base cla…

知识库管理在提升企业决策效率与知识共享中的应用探讨

内容概要 知识库管理是指企业对内部知识、信息进行系统化整理和管理的过程&#xff0c;其重要性在于为企业决策提供了坚实的数据支持与参考依据。知识库管理不仅能够提高信息的获取速度&#xff0c;还能有效减少重复劳动&#xff0c;提升工作效率。在如今快速变化的商业环境中…

Linux:线程池和单例模式

一、普通线程池 1.1 线程池概念 线程池&#xff1a;一种线程使用模式。线程过多会带来调度开销&#xff0c;进而影响缓存局部性和整体性能。而线程池维护着多个线程&#xff0c;等待着监督管理者分配可并发执行的任务。这避免了在处理短时间任务时创建与销毁线程的代价&…

AJAX笔记原理篇

黑马程序员视频地址&#xff1a; AJAX-Day03-01.XMLHttpRequest_基本使用https://www.bilibili.com/video/BV1MN411y7pw?vd_source0a2d366696f87e241adc64419bf12cab&spm_id_from333.788.videopod.episodes&p33https://www.bilibili.com/video/BV1MN411y7pw?vd_sour…

ComfyUI安装调用DeepSeek——DeepSeek多模态之图形模型安装问题解决(ComfyUI-Janus-Pro)

ComfyUI 的 Janus-Pro 节点&#xff0c;一个统一的多模态理解和生成框架。 试用&#xff1a; https://huggingface.co/spaces/deepseek-ai/Janus-1.3B https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B https://huggingface.co/spaces/deepseek-ai/JanusFlow-1.3B 安装…

3D图形学与可视化大屏:什么是材质属性,有什么作用?

一、颜色属性 漫反射颜色 漫反射颜色决定了物体表面对入射光进行漫反射后的颜色。当光线照射到物体表面时&#xff0c;一部分光被均匀地向各个方向散射&#xff0c;形成漫反射。漫反射颜色的选择会直接影响物体在光照下的外观。例如&#xff0c;一个红色的漫反射颜色会使物体在…

JVM方法区

一、栈、堆、方法区的交互关系 二、方法区的理解: 尽管所有的方法区在逻辑上属于堆的一部分&#xff0c;但是一些简单的实现可能不会去进行垃圾收集或者进行压缩&#xff0c;方法区可以看作是一块独立于Java堆的内存空间。 方法区(Method Area)与Java堆一样&#xff0c;是各个…

租赁管理系统在促进智能物业运营中的关键作用和优化策略分析

租赁管理系统在智能物业运营中的关键作用与优化策略 随着科技的飞速发展&#xff0c;租赁管理系统在智能物业运营中扮演着越来越重要的角色。这种系统不仅提高了物业管理的效率&#xff0c;更是促进了资源的优化配置和客户关系的加强。对于工业园、产业园、物流园、写字楼和公…

LLMs之DeepSeek:Math-To-Manim的简介(包括DeepSeek R1-Zero的详解)、安装和使用方法、案例应用之详细攻略

LLMs之DeepSeek&#xff1a;Math-To-Manim的简介(包括DeepSeek R1-Zero的详解)、安装和使用方法、案例应用之详细攻略 目录 Math-To-Manim的简介 1、特点 2、一个空间推理测试—考察不同大型语言模型如何解释和可视化空间关系 3、DeepSeek R1-Zero的简介&#xff1a;处理更…

【课题推荐】基于t分布的非高斯滤波框架在水下自主导航中的应用研究

水下自主导航系统在海洋探测、环境监测及水下作业等领域具有广泛的应用。然而&#xff0c;复杂的水下环境常常导致传感器输出出现野值噪声&#xff0c;这些噪声会严重影响导航信息融合算法的精度&#xff0c;甚至导致系统发散。传统的卡尔曼滤波算法基于高斯噪声假设&#xff0…

Arduino大师练成手册 -- 控制 AS608 指纹识别模块

要在 Arduino 上控制 AS608 指纹识别模块&#xff0c;你可以按照以下步骤进行&#xff1a; 硬件连接 连接指纹模块&#xff1a;将 AS608 指纹模块与 Arduino 连接。通常&#xff0c;AS608 使用 UART 接口进行通信。你需要将 AS608 的 TX、RX、VCC 和 GND 引脚分别连接到 Ardu…

深度学习深度解析:从基础到前沿

引言 深度学习作为人工智能的一个重要分支&#xff0c;通过模拟人脑的神经网络结构来进行数据分析和模式识别。它在图像识别、自然语言处理、语音识别等领域取得了显著成果。本文将深入探讨深度学习的基础知识、主要模型架构以及当前的研究热点和发展趋势。 基础概念与数学原理…

享元模式——C++实现

目录 1. 享元模式简介 2. 代码示例 1. 享元模式简介 享元模式是一种结构型模式。 享元模式用于缓存共享对象&#xff0c;降低内存消耗。共享对象相同的部分&#xff0c;避免创建大量相同的对象&#xff0c;减少内存占用。 享元模式需要将对象分成内部状态和外部状态两个部分…

ResNet--深度学习中的革命性网络架构

一、引言 在深度学习的研究和应用中&#xff0c;网络架构的设计始终是一个关键话题。随着计算能力和大数据的不断提升&#xff0c;深度神经网络逐渐成为解决复杂任务的主流方法。然而&#xff0c;随着网络层数的增加&#xff0c;训练深度神经网络往往面临梯度消失或梯度爆炸的…