机器学习模型—K最近邻(KNN)
K最近邻 (KNN) 算法是一种用于解决分类和回归问题的监督机器学习方法。Evelyn Fix 和 Joseph Hodges 于 1951 年开发了该算法,随后 Thomas Cover 对其进行了扩展。本文探讨了 KNN 算法的基本原理、工作原理和实现。
虽然 k近邻算法 (KNN) 可以用于回归或分类问题,但它通常用作分类算法,假设可以在彼此附近找到相似点。
什么是 K 最近邻算法?
KNN 是机器学习中最基本但最重要的分类算法之一。它属于监督学习领域,在模式识别、数据挖掘和入侵检测中有广泛的应用。
它在现实生活中被广泛使用,因为它是非参数的,这意味着它不会对数据的分布做出任何基本假设(与 GMM 等其他算法不同,GMM 假设给定数据的高斯分布)。我们获得了一些先验数据(也称为训练数据),它将坐标分类为由属性标识的组。
作为示例,请考虑下表包含两个特征的数据点:
现在,给定另一组数据点(也称为测试数据),通过分析训练集将这些点分配到一组。请注意,未分类的点标记为“白色”。
KNN 算法背后的原理
如果我们将这些点绘制在图表上,我们也许能够找到一些簇或组。现在,给定一个未分类的点,我们可以通过观察其最近邻居属于哪个组来将其分配给一个组。这意味着靠近被分类为“红色”的点簇的点被分类