文章目录
- 前言
- 第一部分:相关知识点
- 一、基础铺垫层(必须掌握的核心基础)
- 1. 数学基础
- • 线性代数
- • 微积分
- • 概率与统计
- 2. 编程基础
- 3. 机器学习基础
- 二、深度学习核心层(神经网络与训练机制)
- 1. 神经网络基础
- 2. 激活函数(Activation Function)
- 3. 损失函数(Loss Function)
- 4. 优化算法(Optimization)
- 5. 反向传播(Backpropagation)
- 6. 正则化与调优
- 三、进阶模型层(主流网络架构)
- 1. 卷积神经网络(CNN)
- 2. 循环神经网络(RNN)
- 3. Transformer与注意力机制
- 4. 生成对抗网络(GAN)
- 四、前沿与应用层(领域专精与实战)
- 1. 自然语言处理(NLP)
- 2. 计算机视觉(CV)
- 3. 强化学习(RL)
- 4. 自监督学习与元学习
- 五、工具与工程层(落地与部署)
- 1. 深度学习框架
- 2. 模型部署
- 3. 分布式训练
- 关键名词含义
- 机器学习(Machine Learning)
- 1.监督学习(Supervised Learning):
- 2.无监督学习(Unsupervised Learning):
- 3.半监督学习(Semi-supervised Learning):
- 4.强化学习(Reinforcement Learning):
- 5.特征工程(Feature Engineering):
- 6.交叉验证(Cross-Validation):
- 7.过拟合(Overfitting):
- 8.欠拟合(Underfitting):
- 9.损失函数(Loss Function):
- 10.梯度下降(Gradient Descent):
- 深度学习(Deep Learning)
- 1.神经网络(Neural Network):
- 2.感知机(Perceptron):
- 3.前馈神经网络(Feedforward Neural Network):
- 4.反向传播(Backpropagation):
- 5.激活函数(Activation Function):
- 6.卷积神经网络(Convolutional Neural Network, CNN):
- 7.递归神经网络(Recurrent Neural Network, RNN):
- 8.长短期记忆网络(Long Short-Term Memory, LSTM):
- 9.门控循环单元(Gated Recurrent Unit, GRU):
- 10.生成对抗网络(Generative Adversarial Network, GAN):
- 11.自编码器(Autoencoder):
- 12.正则化(Regularization):
- 13.Dropout:
- 14.批量归一化(Batch Normalization):
- 15.优化算法(Optimization Algorithm):
- 16.注意力机制(Attention Mechanism):
- 17.迁移学习(Transfer Learning):
- 总结
前言
以上就是今天要讲的内容,本文简单介绍了深度学习\机器学习的相关知识点以及关键名词的含义。
第一部分:相关知识点
一、基础铺垫层(必须掌握的核心基础)
1. 数学基础
• 线性代数
◦ 矩阵运算:矩阵乘法、转置、逆矩阵(如权重矩阵的更新)。
◦ 特征值与特征向量:用于理解数据降维(如PCA)。
◦ 张量(Tensor):深度学习中的核心数据结构(如三维张量表示图像)。
• 微积分
◦ 梯度(Gradient):函数变化最快的方向(优化模型的关键)。
◦ 链式法则(Chain Rule):反向传播算法的数学基础。
• 概率与统计
◦ 概率分布:高斯分布、伯努利分布(如输出层的概率建模)。
◦ 贝叶斯定理:模型参数的后验概率推断。
2. 编程基础
• Python:深度学习的主流语言,需掌握函数、类、文件操作。
• NumPy:矩阵运算(如np.dot实现矩阵乘法)。
• Pandas:数据清洗与预处理(处理CSV/表格数据)。
• Matplotlib/Seaborn:数据可视化(绘制损失曲线、特征分布)。
3. 机器学习基础
• 监督学习:分类(如猫狗识别)、回归(如房价预测)。
• 无监督学习:聚类(K-Means)、降维(PCA、t-SNE)。
• 模型评估:
◦ 交叉验证(Cross-Validation):防止过拟合。
◦ 混淆矩阵(Confusion Matrix):分类任务的精度、召回率计算。
二、深度学习核心层(神经网络与训练机制)
1. 神经网络基础
• 感知机(Perceptron):单层网络,解决线性可分问题。
• 多层感知机(MLP):引入隐藏层,解决非线性问题。
◦ 全连接层(Dense Layer):每层神经元与下一层全连接。
2. 激活函数(Activation Function)
• Sigmoid:输出范围**(0,1),用于二分类**(梯度消失问题严重)。
• ReLU(Rectified Linear Unit):解决梯度消失,加速训练(如f(x)=max(0,x))。
• Softmax:多分类任务的输出层激活函数(输出概率分布)。
3. 损失函数(Loss Function)
• 均方误差(MSE):回归任务(如预测房价)。
• 交叉熵损失(Cross-Entropy):分类任务(如图像分类)。
4. 优化算法(Optimization)
• 梯度下降(Gradient Descent):全局更新权重。
• 随机梯度下降(SGD):小批量数据更新,加速训练。
• Adam:自适应学习率(结合动量与RMSProp)。
5. 反向传播(Backpropagation)
• 计算图(Computational Graph):跟踪计算过程(如TensorFlow/PyTorch自动微分)。
• 链式求导:从输出层到输入层逐层计算梯度。
6. 正则化与调优
• L1/L2正则化:防止过拟合(添加权重惩罚项)。
• Dropout:随机丢弃神经元,增强泛化能力。
• 批量归一化(Batch Normalization):加速训练,稳定梯度。
三、进阶模型层(主流网络架构)
1. 卷积神经网络(CNN)
• 核心组件:
◦ 卷积层(Convolutional Layer):提取局部特征(如边缘、纹理)。
◦ 池化层(Pooling Layer):降低维度(如Max Pooling保留显著特征)。
• 经典模型:
◦ LeNet-5:手写数字识别(MNIST数据集)。
◦ ResNet:残差连接解决深层网络退化问题。
2. 循环神经网络(RNN)
• 时序建模:处理序列数据(文本、语音、时间序列)。
• LSTM(Long Short-Term Memory):门控机制(输入门、遗忘门、输出门)解决长依赖问题。
• GRU(Gated Recurrent Unit):简化版LSTM,计算效率更高。
3. Transformer与注意力机制
• 自注意力(Self-Attention):计算序列中每个位置的重要性(如“猫追老鼠”中“追”的关联度)。
• Transformer架构:编码器-解码器结构(如BERT、GPT的基础)。
◦ 多头注意力(Multi-Head Attention):并行学习多种语义关系。
4. 生成对抗网络(GAN)
• 生成器(Generator):生成逼真数据(如图像生成)。
• 判别器(Discriminator):区分真实数据与生成数据。
• 对抗训练:生成器与判别器博弈优化(如DCGAN、StyleGAN)。
四、前沿与应用层(领域专精与实战)
1. 自然语言处理(NLP)
• 词嵌入(Word Embedding):
◦ Word2Vec:基于上下文的词向量(Skip-Gram/CBOW模型)。
◦ BERT:双向Transformer预训练模型(Masked Language Modeling)。
• 文本生成:GPT系列模型(自回归生成文本)。
2. 计算机视觉(CV)
• 目标检测:YOLO、Faster R-CNN(定位与分类结合)。
• 图像分割:U-Net(医学图像分割)、Mask R-CNN(实例分割)。
3. 强化学习(RL)
• 马尔可夫决策过程(MDP):状态、动作、奖励的数学框架。
• 深度Q网络(DQN):Q-Learning与神经网络结合(如玩Atari游戏)。
4. 自监督学习与元学习
• 对比学习(Contrastive Learning):SimCLR、MoCo(无需人工标注学习特征)。
• 元学习(Meta-Learning):模型快速适应新任务(如MAML算法)。
五、工具与工程层(落地与部署)
1. 深度学习框架
• PyTorch:动态图优先,适合研究与快速原型开发。
• TensorFlow:静态图优化,适合工业部署(如TF Serving)。
• PaddlePaddle:百度开发的深度学习框架。
2. 模型部署
• ONNX:跨框架模型转换格式。
• TensorRT:NVIDIA的推理优化引擎(加速GPU推理)。
3. 分布式训练
• 数据并行:多GPU分割数据(如PyTorch的DataParallel)。
• 模型并行:拆分模型到不同设备(如训练超大规模模型)。
关键名词含义
机器学习(Machine Learning)
1.监督学习(Supervised Learning):
定义:一种学习方式,其中模型通过输入数据和对应的正确标签来学习,目标是预测新的数据的标签。
2.无监督学习(Unsupervised Learning):
定义:一种学习方式,其中模型仅通过输入数据学习,没有标签,目标是发现数据中的模式或结构。
3.半监督学习(Semi-supervised Learning):
定义:结合了监督学习和无监督学习,使用部分标记的数据来训练模型。
4.强化学习(Reinforcement Learning):
定义:一种学习方式,其中智能体通过与环境的交互来学习达到目标,通常涉及奖励和惩罚。
5.特征工程(Feature Engineering):
定义:使用专业知识和技巧来创建特征,这些特征可以提高机器学习模型的性能。
6.交叉验证(Cross-Validation):
定义:一种评估模型泛化能力的技术,通过将数据集分为多个子集进行多次训练和验证。
7.过拟合(Overfitting):
定义:模型在训练数据上表现很好,但在新数据上表现不佳,通常是因为模型太复杂。
8.欠拟合(Underfitting):
定义:模型在训练数据和测试数据上都表现不佳,通常是因为模型太简单。
9.损失函数(Loss Function):
定义:用于量化模型预测值与实际值之间差异的函数,用于指导模型的训练。
10.梯度下降(Gradient Descent):
定义:一种优化算法,用于通过迭代调整模型参数以最小化损失函数。
深度学习(Deep Learning)
1.神经网络(Neural Network):
定义:一种模拟人脑神经元连接的计算模型,由多层节点(或神经元)组成。
2.感知机(Perceptron):
定义:一种简单的线性二分类器,是神经网络的基本单位。
3.前馈神经网络(Feedforward Neural Network):
定义:信息在网络中单向传播,没有循环连接。
4.反向传播(Backpropagation):
定义:一种训练神经网络的算法,通过计算损失函数关于网络参数的梯度来更新权重。
5.激活函数(Activation Function):
定义:用于给神经元引入非线性因素的函数,如ReLU、Sigmoid、Tanh等。
6.卷积神经网络(Convolutional Neural Network, CNN):
定义:主要用于图像识别,通过卷积层和池化层来提取特征。
7.递归神经网络(Recurrent Neural Network, RNN):
定义:适用于序列数据,具有循环结构,能够处理变长输入。
8.长短期记忆网络(Long Short-Term Memory, LSTM):
定义:RNN的一种,能够学习长期依赖信息,解决了梯度消失问题。
9.门控循环单元(Gated Recurrent Unit, GRU):
定义:LSTM的简化版本,同样用于处理序列数据。
10.生成对抗网络(Generative Adversarial Network, GAN):
定义:由生成器和判别器组成,通过对抗过程生成新的数据。
11.自编码器(Autoencoder):
定义:一种无监督学习模型,用于数据编码和重建。
12.正则化(Regularization):
定义:用于防止过拟合的技术,如L1和L2正则化。
13.Dropout:
定义:一种正则化方法,通过随机丢弃网络中的神经元来防止过拟合。
14.批量归一化(Batch Normalization):
定义:一种技术,用于加速训练过程,通过归一化每个小批量数据的激活。
15.优化算法(Optimization Algorithm):
定义:用于更新模型参数以最小化损失函数的方法,如Adam、RMSprop等。
16.注意力机制(Attention Mechanism):
定义:一种机制,允许模型专注于输入数据的重要部分,常用于自然语言处理。
17.迁移学习(Transfer Learning):
定义:利用在某个任务上学到的知识来解决另一个相关任务的技术。
总结
以上就是今天要讲的内容,本文仅仅简单介绍了深度学习\机器学习的相关知识点以及关键名词的含义。