LAMDA面试准备(2024-05-23)

  • 有没有学习过机器学习,提问了 FP-Growth 相比 Apriori 的优点
    • 1. 更高的效率和更少的计算量(时间)

      FP-Growth 通过构建和遍历 FP-树 (Frequent Pattern Tree) 来挖掘频繁项集,而不需要像 Apriori 那样生成和测试大量的候选项集。具体来说:

      • 减少候选项集的生成:Apriori 需要生成大量的候选项集并进行多次扫描数据集以计算候选项集的支持度。FP-Growth 通过 FP-树结构直接挖掘频繁项集,避免了候选项集的生成过程。
      • 单次数据扫描:FP-Growth 只需要两次扫描数据集:第一次扫描用于计算各项的频次,第二次扫描用于构建 FP-树。而 Apriori 在每次生成新的候选项集时都需要重新扫描数据集。
    • 2. 更低的内存消耗(空间)

      FP-Growth 通过 FP-树结构紧凑地表示数据集中的所有项和它们之间的关联关系,从而减少了内存消耗:

      • 压缩数据集:FP-树能够有效地压缩数据集,将共享的频繁项组合在一起,以树的形式存储,从而减少了冗余数据。
      • 减少存储空间:由于 FP-树紧凑地存储了所有频繁项集,所需的存储空间远小于 Apriori 算法中需要存储的所有候选项集。【适合大数据集
  • 调模型怎么 debug
    • 1. 数据预处理和输入检查

      • 数据正确性:确保数据预处理步骤正确无误,包括数据归一化、标准化、缺失值处理等。
      • 数据分布:检查训练数据和测试数据的分布是否一致,是否存在数据泄漏。
      • 数据可视化:使用可视化工具检查数据输入是否符合预期(如图像、文本等)。
    • 2. 模型架构和实现验证

      • 逐层检查:逐层检查模型架构,确保每层的输入和输出维度正确。
      • 单元测试:对模型的各个组件(如卷积层、全连接层等)进行单元测试,确保它们的功能正确。
      • 对比基准:将实现与已知正确的基准模型(如官方实现)进行对比,确保实现无误。
    • 3. 超参数和训练过程调试

      • 学习率调整:尝试不同的学习率,观察模型的收敛情况。过高或过低的学习率都会影响模型性能。
      • 批次大小:调整批次大小,观察其对训练速度和模型性能的影响。
      • 正则化:使用正则化技术(如Dropout、L2正则化)防止过拟合,调试其参数。
    • 4. 损失函数和梯度检查

      • 损失曲线:绘制损失函数值随训练迭代次数的变化曲线,观察损失是否正常下降。
      • 梯度检查:检查梯度值是否合理,是否存在梯度爆炸或梯度消失问题。
      • 数值稳定性:确保计算过程中没有数值不稳定的问题,如NaN或Inf值。
    • 5. 输出和中间结果检查

      • 输出可视化:可视化模型的输出,检查是否符合预期。
      • 中间激活值:提取和检查中间层的激活值,确保模型在各层的行为符合预期。
      • 错误案例分析:分析模型在错误样本上的表现,找出模型的薄弱环节。
    • 6. 调试工具和框架

      • 调试器:使用调试工具(如TensorFlow的tfdbg或PyTorch的pdb)进行逐步调试。
      • 日志记录:记录训练过程中的重要信息(如损失值、精度等),方便后续分析。
      • Profiler:使用性能分析工具(如TensorFlow的Profiler或PyTorch的torch.utils.bottleneck)检测性能瓶颈。
    • 7. 迁移学习和微调

      • 预训练模型:使用预训练模型作为起点,通过微调减少训练时间和数据需求。
      • 逐层微调:逐层解冻模型进行微调,从高层特征到低层特征逐步调整模型。
    • 8. 集成学习和模型对比

      • 集成方法:使用集成方法(如Bagging、Boosting)提高模型性能。
      • 模型对比:对比不同模型的性能,选择最优模型进行部署。
    • 9. 合作与咨询

      • 代码审查:与团队成员进行代码审查,寻找潜在问题。
      • 社区支持:利用开源社区资源(如论坛、讨论组)寻求帮助和建议。
  •  机器学习中FP、TP是什么?
    • 混淆矩阵

      • TP(True Positive,真正例)

        • 定义:模型预测为正类(Positive),且实际也是正类。
        • 示例:在癌症检测中,模型预测某人患有癌症,且实际该人确实患有癌症。
      • FP(False Positive,假正例)

        • 定义:模型预测为正类,但实际是负类。
        • 示例:在癌症检测中,模型预测某人患有癌症,但实际该人没有患癌症。这种情况也被称为“误报”。
      • TN(True Negative,真负例)

        • 定义:模型预测为负类(Negative),且实际也是负类。
        • 示例:在癌症检测中,模型预测某人没有癌症,且实际该人确实没有癌症。
      • FN(False Negative,假负例)

        • 定义:模型预测为负类,但实际是正类。
        • 示例:在癌症检测中,模型预测某人没有癌症,但实际该人患有癌症。这种情况也被称为“漏报”。
      • T/F为判断正误,P/N为模型预测



  • 线代中的矩阵的秩和矩阵的关系?

    • 1. 秩的定义

      • 行秩(Row Rank):矩阵中线性无关的行向量的最大数目。
      • 列秩(Column Rank):矩阵中线性无关的列向量的最大数目。
      • 对于一个矩阵 A,行秩和列秩是相等的,这个共同的值就称为矩阵的秩。

    • 2. 秩与线性无关

      • 矩阵的秩表示矩阵中最大线性无关向量的数量。
      • 如果一个矩阵的秩等于其行数,则行向量线性无关。
      • 如果一个矩阵的秩等于其列数,则列向量线性无关。



  • 讲一讲线代中的矩阵的特征值

  • 了解科研前瞻用什么工具
  • 有哪几种常见的神经网络
    • MLP,CNN,RNN,AutoEncoder,GAN,GNN,Transformer...
  • RNN有哪些常见的问题?如何解决这些问题
    • 常见问题
      • 梯度消失和梯度爆炸问题

        • 梯度消失:在反向传播过程中,梯度逐层缩小,导致前面的层几乎无法更新。
        • 梯度爆炸:在反向传播过程中,梯度逐层增大,导致模型参数变得非常大,训练不稳定
      • 长期依赖问题

        • RNN 在处理长序列数据时,难以捕捉远距离的依赖关系,即早期输入信息对后续输出的影响较弱。
      • 计算效率

        • RNN 的序列处理是逐步进行的,不能并行处理,导致训练时间较长,特别是在处理长序列时。
      • 训练过程不稳定

        • 由于梯度问题和参数初始化问题,RNN 的训练过程可能会非常不稳定。
    • 改进方法
      • 长短期记忆网络 (Long Short-Term Memory, LSTM) 和门控循环单元 (Gated Recurrent Unit, GRU)

        • LSTM 和 GRU 是两种改进的 RNN 架构,通过引入门控机制,能够有效地解决梯度消失和梯度爆炸问题,并捕捉长期依赖关系。
        • LSTM:通过引入输入门、遗忘门和输出门来控制信息的流动。
        • GRU:类似于 LSTM,但结构更简单,仅包含更新门和重置门。
      • 梯度裁剪 (Gradient Clipping)

        • 为了解决梯度爆炸问题,可以设置一个阈值,当梯度超过这个阈值时,将其裁剪到阈值范围内。
        • 这种方法可以防止梯度值变得过大,导致训练不稳定。
      • 使用更高级的优化算法

        • 使用自适应学习率的优化算法,如 Adam、RMSprop 等,可以在一定程度上缓解梯度消失和梯度爆炸问题。
      • 序列的截断反向传播 (Truncated Backpropagation Through Time, TBPTT)

        • 对于非常长的序列,可以将序列分割成较短的子序列,分别进行反向传播。这种方法能够在不影响捕捉长期依赖的前提下,提高计算效率。
      • 正则化技术

        • 使用正则化技术(如 Dropout、权重惩罚等)可以提高 RNN 的泛化能力,减轻过拟合问题。
        • Dropout:在训练过程中随机丢弃一部分神经元,防止过拟合。
      • 使用预训练模型和迁移学习

        • 使用预训练模型(如 BERT、GPT 等)和迁移学习技术,可以充分利用已有的大规模数据和训练好的模型参数,提高训练效率和模型性能。
      • 引入注意力机制 (Attention Mechanism)

        • 注意力机制可以动态地为输入序列中的不同部分分配权重,从而更好地捕捉长距离依赖关系。
        • 自注意力 (Self-Attention):在变换器 (Transformer) 中得到广泛应用,通过计算输入序列内部各个位置之间的注意力权重,提升序列建模能力。
      • 双向 RNN (Bidirectional RNN)

        • 双向 RNN 通过在正向和反向两个方向上处理序列数据,能够更全面地捕捉序列中的依赖关系。
        • 双向 LSTM 和 GRU:结合双向处理和门控机制,进一步增强对长序列的建模能力。
  • 中心极限定理
    • 独立同分布随机变量的均值分布在样本数量趋于无穷大时接近于正态分布的性质。
  • 等价类的定义



参考:(视频超好)

【五分钟机器学习】随机森林(RandomForest):看我以弱搏强_哔哩哔哩_bilibili

【五分钟机器学习】Adaboost:前人栽树后人乘凉_哔哩哔哩_bilibili

 随机森林:(这个画风很爱哈哈哈,已投币orz)

以弱博强(整个模型是由多个弱监督模型组成),bagging

 

xgboost:(自适应增强算法,前人栽树、后人乘凉,错题本)


寄了寄了寄了,,,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/638670.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

这种电脑原来这么耗电……震惊了粉丝小姐姐

前言 在今年1月份的时候,一位来自重庆的小姐姐加了小白,咨询电脑的问题: 哦豁,这个电脑看着确实闪闪发光,是真的很漂亮~(嗯,小姐姐也很漂亮) 电脑无法开机,按…

Vue从入门到实战Day12

一、Pinia快速入门 1. 什么是Pinia Pinia是Vue的最新状态管理工具,是Vuex的替代品 1. 提供更加简单的API(去掉了mutation) 2. 提供符合组合式风格的API(和Vue3新语法统一) 3. 去掉了modules的概念,每一…

LiveGBS流媒体平台GB/T28181用户手册-用户管理:添加用户、编辑、关联通道、搜索、重置密码

LiveGBS流媒体平台GB/T28181用户手册-用户管理:添加用户、编辑、关联通道、搜索、重置密码 1、用户管理1.1、添加用户1.2、编辑用户1.3、关联通道1.4、重置密码1.5、搜索1.6、删除 2、搭建GB28181视频直播平台 1、用户管理 1.1、添加用户 添加用户,可以配置登陆用户…

自动驾驶---Tesla的自动驾驶技术进化史(PerceptionPlanning)

1 前言 笔者在专栏《自动驾驶Planning模块》中已经详细讲解了传统自动驾驶Planning模块的内容:包括行车的Behavior Planning和Motion Planning,以及低速记忆泊车的Planning(最开始有15篇,目前逐渐更新到17篇)。读者对整…

linux:信号深入理解

文章目录 1.信号的概念1.1基本概念1.2信号的处理基本概念1.3信号的发送与保存基本概念 2.信号的产生2.1信号产生的五种方式2.2信号遗留问题(core,temp等) 3.信号的保存3.1 信号阻塞3.2 信号特有类型 sigset_t3.3 信号集操作函数3.4 信号集操作函数的使用 4.信号的处理4.1 信号的…

SSRF攻击技术

1、SSRF形成原因 SSRF(Server-Side Request Forgery:服务器端请求伪造) 是一种由攻击者构造形成由服务端发起请求的一个安全漏洞。一般情况下,SSRF是要目标网站的内部系统。(因为他是从内部系统访问的,所有可以通过它攻击外网无法访问的内部系…

人类交互2 听觉处理和语言中枢

人类听觉概述 人类听觉是指通过耳朵接收声音并将其转化为神经信号,从而使我们能够感知和理解声音信息的能力。听觉是人类五种感觉之一,对我们的日常生活和交流至关重要。 听觉是人类交流和沟通的重要工具。通过听觉,我们能够听到他人的语言…

inventor 2021 Inventor 无法访问您的许可。网络许可不可用 也会出现在其他软件上

错误提示一般如下图 Inventor 无法访问您的许可。 无法访问您的许可 最常见的原因有: 未连接到 Internet许可服务器不工作许可服务器找不到有效许可 您可以执行以下操作: 检查是否连接到 Intemnet停止/重新启动许可服务器 如需进一步帮助,您可以: -与 CAD或IT管理…

2:硬件产品经理面试

流程: 市场评估: 组织立项:项目的交付时问,项目资金预算,项目组成员的确定及责任划分,开发和测试。 名种设计:外观材质的工业设计,硬件的架构设计,软件的功能设计&#x…

Go源码--sync库(1)sync.Once和

简介 这篇主要介绍 sync.Once、sync.WaitGroup和sync.Mutex sync.Once once 顾名思义 只执行一次 废话不说 我们看源码 英文介绍直接略过了 感兴趣的建议读一读 获益匪浅 其结构体如下 Once 是一个严格只执行一次的object type Once struct {// 建议看下源码的注解&#xf…

(Askchat.ai、360智脑、鱼聪明、天工AI、DeepSeek)

目录 1、Askchat.ai - 梦想为蓝图,ChatGPT为笔。 2、360智脑 — 以人为本,安全可信 3、鱼聪明AI - 做您强大的AI助手 (yucongming.com) 4、天工AI-搜索、对话、写作、文档分析、画画、做PPT的全能AI助手 (tiangong.cn) 5、DeepSeek | 深度求索 1、Askch…

字符函数:分类函数与转换函数

字符函数 一.字符分类函数二.字符转换函数 在编程的过程中,我们经常要处理字符和字符串,为了方便操作字符和字符串,C语⾔标准库中提供了一系列库函数,接下来我们就学习⼀下这些函数。 一.字符分类函数 C语言中有⼀系列的函数是专门…

allegro 无法删除Xnet

allegro 无法删除Xnet Orcad中打开Constraint Manager之后,再生成网表,导入PCB后就会出现一堆Xnet网络。无法去除Xnet。 解决办法 在原理图ORCAD中, 1、打开Edit Object properties 2、选择Filter by:Capture 3、点击New Property 4、设置…

头歌openGauss-存储过程第2关:修改存储过程

任务描述 本关任务&#xff1a; 修改存储过程pro0101&#xff0c;并调用&#xff1b; --修改sel_course表中成绩<60的记录为成绩10&#xff0c;然后将计算机学院所有学生的选课成绩输出&#xff1b; --a、需要先删除存储过程pro0101&#xff1b; drop procedure if exists p…

第七节 ConfigurationClassParser 源码分析

tips&#xff1a; ConfigurationClassParser 是 Springframework 中的重要类。 本章主要是源码理解&#xff0c;有难度和深度&#xff0c;也枯燥乏味&#xff0c;可以根据实际情况选择阅读。 位置&#xff1a;org.springframework.context.annotation.ConfigurationClassPars…

景源畅信:小白做抖音运营难吗?

在数字化时代&#xff0c;社交媒体已成为人们生活的一部分&#xff0c;而抖音作为其中的翘楚&#xff0c;吸引了众多希望通过平台实现自我价值和商业目标的用户。对于刚入门的小白来说&#xff0c;运营抖音账号可能会遇到不少挑战。接下来&#xff0c;我们将详细探讨这一话题&a…

由于找不到mfc140u.dll怎么办,介绍5种靠谱有效的解决方法

当您的电脑显示“mfc140u.dll丢失”的错误时&#xff0c;通常是因为系统中缺少了某个必要的动态链接库文件。这个问题可能会导致某些应用程序无法正常运行&#xff0c;给用户带来困扰。下面我将详细介绍解决该问题的五种方法。 一&#xff0c;关于mfc140u.dll文件的概述 mfc14…

数据防泄漏系统哪个好用,给文件加密的软件

数据防泄露&#xff08;Data Leakage Prevention&#xff0c;DLP&#xff09;是指通过一定的技术手段&#xff0c;防止组织指定&#xff08;重要或敏感的&#xff09;数据或信息资产以违反安全策略规定的形式流出组织的一种策略。 信息防泄露以文档加密技术为核心&#xff0c;…

【代码随想录 二叉树】二叉树前序、中序、后序遍历的迭代遍历

文章目录 1. 二叉树前序遍历&#xff08;迭代法&#xff09;2. 二叉树后序遍历&#xff08;迭代法&#xff09;3. 二叉树中序遍历&#xff08;迭代法&#xff09; 1. 二叉树前序遍历&#xff08;迭代法&#xff09; 题目连接 &#x1f34e;因为处理顺序和访问顺序是一致的。所…

SpringBoot入门教程:Word模板生成docx文件

一:处理docx 自己写一个docx文档,然后另存为选择格式 Word XML 文档(*.xml),然后使用thymeleaf语法将实际值使用表达式代替。 二:pom <dependency><groupId>org.springframework.boot</groupId>