算法金 | A - Z,115 个数据科学 机器学习 江湖黑话(全面)

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」

机器学习本质上和数据科学一样都是依赖概率统计,今天整整那些听起来让人头大的机器学习江湖黑话

A - C

A/B Testing (A/B 测试) A/B测试是一种在线实验,通过对比测试两个版本的不同效果,来找出哪个更符合我们的需求。

  1. Accuracy (准确率) 在统计学中,准确率是指分类正确的样本数占总样本数的比例。
  2. Adaboost (Adaboost 算法) Adaboost是一种提高机器学习模型性能的方法,它通过组合多个弱分类器来构建一个强分类器。
  3. Algorithm (算法) 算法是解决特定问题的一系列步骤。
  4. AIOps (Artificial Intelligence for IT Operations, 人工智能运维) AIOps是利用人工智能来自动化和增强IT运维的工具和方法。
  5. Analytics (分析学) 分析学是对我们收集的数据进行深入研究,以提取有价值的信息和洞察的过程。
  6. Anomaly Detection (异常检测) 异常检测是识别数据集中的异常或不寻常模式的过程。
  7. ANOVA (Analysis of Variance, 方差分析) 方差分析是一种统计方法,用于分析数据中的变异性,并确定不同组之间的差异是否具有统计学意义。
  8. API (Application Programming Interface, 应用程序编程接口) API是软件之间的桥梁,它允许不同的程序之间相互通信,共享数据和功能。
  9. AUC-ROC (Area Under the ROC Curve, 接收者操作特征曲线下面积) AUC-ROC是一个衡量分类模型好坏的指标,它表示模型在所有可能的分类阈值下的性能。
  10. Batch Gradient Descent (批量梯度下降) 批量梯度下降是一种优化算法,通过在整个数据集上计算误差梯度来更新模型的参数。
  11. Bayesian Statistics (贝叶斯统计) 贝叶斯统计是一种统计学方法,它使用概率来更新对一个假设的信念。
  12. BI (Business Intelligence, 商业智能) 商业智能是使用数据、数据分析和业务洞察来支持商业决策的一系列方法。
  13. Bias (偏差) 偏差是指模型预测值与真实值之间的系统性差异。
  14. Bias-Variance Tradeoff (偏差-方差权衡) 偏差-方差权衡是机器学习中的一个基本概念,描述了模型复杂度与泛化能力之间的平衡。
  15. Big Data (大数据) 大数据指的是数据量巨大、类型多样、处理速度快的数据集合。
  16. Binary Classification (二元分类) 二元分类是将数据分为两个类别的任务。
  17. Bootstrap Sampling (自助采样法) 自助采样法是一种统计方法,通过从数据集中随机抽取样本并重复这个过程来估计统计量。
  18. Categorical data (分类数据) 分类数据是将数据分为不同的类别或组,这些类别是互斥的。
  19. Chi-Square Test (卡方检验) 卡方检验是一种统计检验,用于判断分类变量之间是否独立。
  20. Classification (分类) 分类是将数据点分配到预定义类别的过程,是监督学习的一种。
  21. Clustering (聚类) 聚类是将数据点分组的过程,使得同一组内的数据点比其他组的数据点更相似。
  22. Confidence Interval (置信区间) 置信区间是一个区间估计,用于表示对一个参数的估计有多可靠。
  23. Confusion Matrix (混淆矩阵) 混淆矩阵是一个表格,用于描述分类模型的性能,包括真正例、假正例、真负例和假负例。
  24. Correlation (相关性) 相关性是衡量两个变量之间关系强度和方向的统计指标。
  25. Covariance (协方差) 协方差是衡量两个随机变量变化趋势的统计量。
  26. Cross-Entropy Loss (交叉熵损失) 交叉熵损失是一个常用于分类问题的损失函数,用于衡量模型预测的概率分布与真实分布之间的差异。
  27. Cross-Validation (交叉验证) 交叉验证是一种将数据集分成多个子集,然后在每个子集上进行训练和验证的方法。
  28. Cost Function (成本函数) 成本函数是衡量模型预测与实际值差异的函数,优化算法通过最小化成本函数来训练模型。

D - F

  1. Data Warehouse (数据仓库) 数据仓库是一个集中的数据存储系统,用于报告和数据分析。
  2. Data Cleaning (数据清洗) 数据清洗是识别并修正数据中的错误或不一致的过程。
  3. Data Lake (数据湖) 数据湖是一个存储原始数据的大型仓库,通常是非结构化的。
  4. Data Mining (数据挖掘) 数据挖掘是从大量数据中通过算法和统计分析来发现模式和知识的过程。
  5. Data Preprocessing (数据预处理) 数据预处理是将原始数据转换成适合进行分析的格式的过程。
  6. Data Visualization (数据可视化) 数据可视化是将数据以图形或视觉格式展示出来,以帮助理解数据。
  7. Decision Boundary (决策边界) 决策边界是决策模型中用来区分不同类别的界限。
  8. Decision Tree (决策树) 决策树是一种直观的决策支持工具,通过树状结构来表示决策过程。
  9. Dimensionality Reduction (降维) 降维是从数据中减少变量数量的技术,同时尽可能保留原始数据的信息。
  10. Eigenvalue and Eigenvector (特征值和特征向量) 特征值和特征向量是线性代数中的概念,常用于降维技术如主成分分析。
  11. Elastic Net (弹性网络) 弹性网络是一种正则化方法,结合了L1和L2正则化。
  12. Ensemble Learning (集成学习) 集成学习是通过构建并结合多个学习器来提高模型的性能。
  13. Exploratory Data Analysis (EDA, 探索性数据分析) 探索性数据分析是在没有明确假设的情况下对数据集进行的一种分析,旨在发现数据的内在规律。
  14. F1 Score (F1 分数) F1分数是精确度和召回率的调和平均,用于衡量分类器的性能。
  15. False Positive and False Negative (假阳性和假阴性) 在分类问题中,假阳性是指错误地将负类判为正类,而假阴性是指错误地将正类判为负类。
  16. Feature (特征) 特征是数据集中的一个可测量的属性,用于帮助机器学习模型做出决策。
  17. Feature Engineering (特征工程) 特征工程是创建新特征或修改现有特征以提高模型性能的过程。
  18. Feature Extraction (特征提取) 特征提取是从原始数据中提取出有助于模型理解的关键信息。
  19. Feature Importance (特征重要性) 特征重要性是指一个特征对于模型预测的贡献程度。
  20. Feature Selection (特征选择) 特征选择是从所有特征中选择对模型最有用的特征的过程。

G - J

  1. Gaussian Distribution (高斯分布) 高斯分布,也称为正态分布,是一种在自然和社会科学中常见的连续概率分布。
  2. Geospatial Analysis (地理空间分析) 地理空间分析是分析和解释地理数据的模式和关系。
  3. Gradient Boosting (梯度提升) 梯度提升是一种集成学习技术,通过组合多个弱预测模型来提高预测性能。
  4. Gradient Descent (梯度下降) 梯度下降是一种优化算法,通过调整参数来最小化损失函数。
  5. Grid Search (网格搜索) 网格搜索是一种超参数优化方法,通过遍历给定的参数网格来寻找最佳的参数组合。
  6. Heteroscedasticity (异方差性) 异方差性是指数据中误差项的方差不相等。
  7. Hierarchical Clustering (层次聚类) 层次聚类是一种创建层次结构的聚类方法,可以生成一个聚类树。
  8. Hyperparameter (超参数) 超参数是在训练开始之前设置的参数,用于控制学习过程。
  9. Hypothesis Testing (假设检验) 假设检验是一种统计方法,用于基于样本数据判断某个假设是否成立。
  10. Imputation (插补) 插补是处理缺失数据的方法,通过估计来填补缺失的值。
  11. Inferential Statistics (推断统计学) 推断统计学是统计学的一个分支,它使用样本数据来推断总体的特征。
  12. Information Gain (信息增益) 信息增益是在决策树算法中用来评估特征对分类结果的贡献大小的一种指标。
  13. Interquartile Range (IQR, 四分位数范围) 四分位数范围是描述统计学中衡量数据分散程度的一个方法。
  14. Joint Plot (联合图) 联合图是一种数据可视化技术,用于展示两个变量之间的关系以及它们的边际分布。
  15. Joint Probability (联合概率) 联合概率是指两个或多个事件共同发生的概率。
  16. Jupyter Notebook (Jupyter 笔记本) Jupyter Notebook 是一个交互式的计算环境,支持超过40种编程语言。

K - N

  1. K-Means Clustering (K-均值聚类) K-均值聚类是一种将数据分为K个集群的无监督学习算法。
  2. K-Nearest Neighbors (KNN, K-最近邻) K-最近邻是一种监督学习算法,根据一个点的K个最近邻居进行预测。
  3. L1 Regularization (L1 正则化) L1正则化是一种在损失函数中加入正则项的方法,促使模型稀疏化。
  4. L2 Regularization (Ridge, L2 正则化) L2正则化是另一种正则化方法,通过惩罚系数的平方来防止模型过拟合。
  5. Linear Regression (线性回归) 线性回归是一种统计学方法,用于建立自变量与因变量之间的线性关系。
  6. Log Likelihood (对数似然) 对数似然是在统计学中用于估计模型参数的一种方法,特别是在最大似然估计中。
  7. Logistic Function (逻辑函数) 逻辑函数是一种S形曲线,常用于逻辑回归中将线性回归的结果映射到概率上。
  8. Logistic Regression (逻辑回归) 逻辑回归是一种分类方法,它预测事件发生的概率。
  9. Loss function (损失函数) 损失函数是衡量模型预测值与实际值差异的函数,模型训练的目标是最小化损失函数。
  10. Machine Learning (机器学习) 机器学习是人工智能的一个分支,它使计算机能够从数据中学习并做出决策或预测。
  11. Mean Absolute Error (MAE, 平均绝对误差) 平均绝对误差是衡量预测值与实际值之间差异的指标之一。
  12. Mean Squared Error (MSE, 均方误差) 均方误差是另一种衡量预测误差的方法,它计算预测值与实际值之差的平方的平均。
  13. Mean (平均值) 平均值是所有数据点的总和除以数据点的数量。
  14. Median (中位数) 中位数是将一组数据排序后位于中间位置的数值。
  15. Metrics (指标) 指标是用于评估机器学习模型性能的标准。
  16. Model Evaluation (模型评估) 模型评估是使用各种指标来评价模型的性能。
  17. Multicollinearity (多重共线性) 多重共线性是指模型中的两个或多个预测变量高度相关。
  18. Multi-Label Classification (多标签分类) 多标签分类是为每个实例分配一个以上的类别标签的分类方法。
  19. Multivariate Analysis (多变量分析) 多变量分析是涉及两个或更多变量的统计分析方法。
  20. Naive Bayes (朴素贝叶斯) 朴素贝叶斯是一种基于贝叶斯定理的简单概率分类器。
  21. Normalization (标准化) 标准化是一种将数据按比例缩放,使之落入一个小的特定区间的数据处理方法。
  22. Null Hypothesis (零假设) 零假设是在假设检验中预先设定的假设,通常表示没有效应或者没有差异。

O - Z

  1. One-Hot Encoding (独热编码) 独热编码是一种将分类变量转换为机器学习算法可以更好处理的形式的方法。
  2. Ordinal Variable (序数变量) 序数变量是一种不仅包含类别信息,还包含类别顺序的信息的变量。
  3. Outlier (异常值) 异常值是数据集中显著偏离其他数据点的值。
  4. R-squared (R², 决定系数) 决定系数是回归分析中衡量模型拟合优度的一个统计指标。
  5. Sampling Bias (抽样偏差) 抽样偏差是指由于抽样方法不当导致的样本不能代表总体的情况。
  6. Sampling (抽样) 抽样是从大量数据中选择一部分数据进行分析的过程。
  7. Scalability (可扩展性) 可扩展性是指系统能够适应增长的用户数量或数据量的能力。
  8. Sigmoid Function (Sigmoid 函数) Sigmoid函数是一种常用于二分类问题的数学函数,它将线性输出映射到(0,1)区间。
  9. Silhouette Score (轮廓系数) 轮廓系数是一种衡量聚类效果的指标,基于样本与自身聚类和其他聚类之间的距离。
  10. Singular Value Decomposition (SVD, 奇异值分解) 奇异值分解是一种数学方法,用于将矩阵分解为三个特定的矩阵。
  11. Spearman Rank Correlation (斯皮尔曼秩相关) 斯皮尔曼秩相关是一种非参数的相关性度量,用于衡量两个变量的单调关联性。
  12. Standard Deviation (标准差) 标准差是衡量数据集中数值分散程度的一个统计量。
  13. Stationarity (平稳性) 平稳性是指时间序列数据的统计特性在时间上保持不变的特性。
  14. Stratified Sampling (分层抽样) 分层抽样是一种抽样技术,它将总体分为不同的子群,然后从每个子群中进行简单随机抽样。
  15. Supervised Learning (监督学习) 监督学习是一种机器学习类型,模型从标记的训练数据中学习。
  16. Support Vector Machine (SVM, 支持向量机) 支持向量机是一种强大的分类算法,通过找到最优的分割超平面来最大化样本的分类边界。
  17. t-Distribution (t 分布) t分布是一种在统计学中用于小样本数据的分布。
  18. Time Series Analysis (时间序列分析) 时间序列分析是一种分析按时间顺序排列的数据点的方法。
  19. t-test (t 检验) t检验是一种统计检验,用于比较两组数据的均值是否有显著差异。
  20. Two-sample t-test (双样本 t 检验) 双样本t检验是用来比较两个独立样本群体的均值是否相等的检验方法。
  21. Underfitting (欠拟合) 欠拟合是指模型过于简单,无法捕捉到数据中的复杂特征。
  22. Univariate Analysis (单变量分析) 单变量分析是只涉及单个变量的统计分析。
  23. Unsupervised Learning (无监督学习) 无监督学习是机器学习的一种,它从未标记的数据中发现模式和结构。
  24. Validation Set (验证集) 验证集是机器学习过程中用于评估模型性能的独立数据集。
  25. Variance (方差) 方差是衡量数据点与均值之间差异的统计量。
  26. XGBoost (XGBoost) XGBoost是一种高效的梯度增强框架,用于解决各种机器学习任务。
  27. Zero-shot Learning (零样本学习) 零样本学习是一种机器学习技术,它允许模型在没有直接的样本学习的情况下识别新的类别。
  28. Z-Score (标准分数) 标准分数表示一个数据点与数据集均值的距离,用标准差的单位来衡量。

[ 抱个拳,总个结 ]

欢迎留言区补充

日更时间紧任务急,难免有疏漏之处,还请各位大侠海涵

本篇内容仅供学习交流之用,部分素材来自网络,侵联删

[ 算法金,碎碎念 ]

南京特种部队训练

梅花山上梅花鹿

“金陵狮子林” - 愚园

全网同名,日更万日,让更多人享受智能乐趣

如果觉得内容有价值,烦请大侠多多 分享、在看、点赞,助力算法金又猛又持久、很黄很 BL 的日更下去;

同时邀请大侠 关注、星标 算法金,围观日更万日,助你功力大增、笑傲江湖

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/696300.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

电子电器架构——智能座舱设备终端

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节…

电路笔记 : 嘉立创EDA 导入、查找、设计管理器(快速寻找网络标签)功能+DRC错误检查和处理

导入功能 查找功能 可查找多种类型,如原件名称、网络标签等 设计管理器 图层查看 DRC错误 规则设置 线距问题 大多数PCB制造商能够可靠地生产5 mil间距的走线和间隙。这是一个常见的标准,适合大多数消费级和工业级电子产品。在5 mil以上的间距&#xff…

设计软件有哪些?照明工具篇,渲染100邀请码1a12

阴影和照明涉及到图片的真实感和氛围,所以熟练使用照明工具是设计师的必备能力,这次我们介绍一些照明工具。 1、VRaySun VRaySun是VRay渲染器中的一个功能,用于模拟太阳光源。它是一种方便易用的光源类型,能够产生逼真的日光效果…

MySQL与PostgreSQL关键对比三(索引类型)

目录 索引类型 B-tree 索引 Hash 索引 Full-text 索引 GiST 索引 GIN 索引 BRIN 索引 索引创建示例 MySQL PostgreSQL 结论 以下SQL语句的执行如果需要开发工具支持,可以尝试使用SQLynx或Navicat来执行。 MySQL和PostgreSQL在索引方面有许多相似之处&am…

Puppeteer实战案例:自动化抓取社交媒体上的媒体资源

在当今数字化时代,社交媒体已成为人们获取信息、分享生活和进行商业推广的重要平台。随着社交媒体内容的爆炸性增长,自动化抓取社交媒体上的媒体资源变得尤为重要。本文将介绍如何使用Puppeteer这一强大的自动化工具来实现这一目标。 1. Puppeteer简介 …

从零开始理解AdaBoost算法:设计思路与算法流程(二)【权值更新与加权表决、数学公式】

设计思路 AdaBoost算法属于Boosting算法家族中的一种,其基本思路是将多个弱分类器组合成一个强分类器。 “强分类器”是指一个分类准确率较高的模型“弱分类器”则是指分类准确率略高于随机猜测的简单模型。 AdaBoost的核心思想是通过 加权 的方式逐步提高分类器…

在Modelarts上微调量化Llama3,并用docker部署

本文概述 本文先使用llama-factory去微调llama3大模型,然后使用llama.cpp去量化模型并打包为docker部署到服务器上让qq机器人能够调用服务,实现qq群内问答。 效果展示 环境准备 本文使用华为云的Modelarts的notebook去进行的模型微调 ubuntu20.04&#x…

黑马es学习

es 0. 基础概念0.1 倒排索引0.2 文档、索引0.3 与mysql对比 1 基本操作1.1 mapping 索引库操作1.2 单个文档CRUD 3. DSL查询3.1 查询所有3.2 全文检索3.3 精确查询3.4 复合查询-相关性得分3.5 分页3.6 高亮3.7 总结 2. RestClientmysql与es数据同步es集群去重 黑马视频 官方使…

【李宏毅-生成式 AI】Spring 2024, HW5:LLM Fine-tuning 实验记录

文章目录 1. Task Overview2. Overall Workflow3. Dataset 介绍4. 代码介绍4.1 环境介绍4.2 下载 dataset4.3 下载并加载模型4.2 Notebook 代码1)import 部分2)固定 seed3)加载 LLM4)加载 tokenizer5)设置解码参数6&am…

【Linux系统化学习】传输层——TCP协议

目录 预备知识 全双工协议 协议缓冲区 TCP协议 TCP协议格式 六个标志位 两个问题 确认应答机制 流量控制 超时重传机制 连接管理机制 CLOSE_WAIT状态 TIME_WAIT状态 滑动窗口 拥塞控制 延迟应答 捎带应答 粘包问题 TCP的异常情况 TCP小结 TCP/UDP协议对比…

数据结构:插入排序和希尔排序

插入排序 逆序的情况下: 时间复杂度:O(N^2) 空间复杂度:O(1) 顺序的情况下: 时间复杂度:O(N) 空间复杂度…

【教程】怎么获取IPV6,我教你

1.png 所以IPV6诞生了 IPV6拥有超大的地址空间 IPv4 采用 32 位地址长度,可以为我们提供 2^32 大约 43 亿个地址,而 IPv6 采用 128 位地址长度,为我们提供了 2^128 个地址 博主的家里用的宽带是移动宽带,众所周知,…

【qt】绘图

绘图 一.画家二.绘图事件三.坐标体系四.画笔1.setColor2.setWidth3.setStyle4.setCapStyle5.setJoinStyle6.给画家配置笔 五.画刷1.setColor2.setStyle3.给画家设置刷子 六.用到的类汇总1.QRect 矩形2.QPoint 点3.QImage 图片4.QPixmap 图片5.QLine 线6.QPainterPath 路径 七.开…

关于用宽带(拨号)连接VPN无法上网,但是wifi或者热点就可以的问题

参考链接:https://zhuanlan.zhihu.com/p/580929250https://zhuanlan.zhihu.com/p/580929250 https://blog.csdn.net/Yaoyao2024/article/details/132245249文章浏览阅读10w次,点赞161次,收藏515次。很多同学在学习访问学校提供的资源时或者一…

selenium自动化测试入门 —— 上传文件

selenium无法识别非web的控件,上传文件窗口为系统自带,无法识别窗口元素。 上传文件有两种场景:input控制上传和非input控件上传。 大多数情况都是input控件上传文件,只有非常少数的使用自定义的非input上传文件。 一、input控…

python实践笔记(一): 模块和包

1. 写在前面 最近在重构之前的后端代码,借着这个机会又重新补充了关于python的一些知识, 学习到了一些高效编写代码的方法和心得,比如构建大项目来讲,要明确捕捉异常机制的重要性, 学会使用try...except..finally&…

mathematica中针对三维图中的颜色和填充透明度进行指定

颜色指定使用的命令为:PlotStyle 填充的透明度使用的命令为:FillingStyle 示例代码: Clear["Global*"] Plot3D[{Sin[x^2 y], Sin[x^2 - y]}, {x, -2, 2}, {y, -2, 2}, PlotStyle -> {Directive[Red, Specularity[White, 100…

车联网安全入门——CAN总线模糊测试

文章目录 车联网安全入门——CAN总线模糊测试介绍主要特点使用场景 模糊测试(Fuzz Testing)CAN 总线模糊测试(CAN Packet Fuzzing)主要步骤工具和软件主要目标 Can-Hax安装使用获得指纹模糊测试 SavvyCAN 总结参考 车联网安全入门…

监听DB配置变更之go-broadcast简单实现

文章目录 1. 前言2. 分析3. 实现4. 问题5. 小结6. 参考 1. 前言 之前遇到一个需求,因为配置的查找是基于db的,而db的更改却无法实时通知到具体利用到这条数据的使用方,为了实现db数据变动时,能够尽快让使用方知道这条数据发生了变…

数仓建模中的一些问题

​​​在数仓建设的过程中,由于未能完全按照规范操作, 从而导致数据仓库建设比较混乱,常见有以下问题: 数仓常见问题 ● 数仓分层不清晰:数仓的分层没有明确的逻辑,难以管理和维护。 ● 数据域划分不明确…