多项式回归的实现
多项式回归是一种线性回归,其中独立变量 x 和因变量 y 之间的关系被建模为n 次多项式。多项式回归拟合 x 的值与 y 的相应条件均值之间的非线性关系,表示为 E(y | x)。在本文中,我们将深入探讨多项式回归。
目录
- 什么是多项式回归?
- 为什么采用多项式回归?
- 多项式回归如何起作用?
- 多项式回归真实示例
- 使用 Python 实现多项式回归
- 过度拟合与欠拟合
- 多项式回归的应用
- 使用多项式回归的优点和缺点
什么是多项式回归?
- 有些关系研究人员会假设是曲线关系。显然,这类情况会包含多项式项。
- 残差检验。如果我们尝试将线性模型拟合到曲线数据,则预测变量(X 轴)上的残差(Y 轴)散点图将在中间出现许多正残差块。因此,在这种情况下,这是不合适的。
- 通常的多元线性回归分析中的一个假设是所有独立变量都是独立的,而在多项式回归模型中,这一假设不得到满足。
为什么采用多项式回归?
多项式回归是统计学和机器学习中用于分析自变量(输入)和因变量(输出)之间非线性关系的一种回归分析。简单线性回归将关系建模为直线,而多项式回归通过将多项式方程拟合到数据中,可以提供更大的灵活性。
当变量之间的关系用曲线而不是直线更好地表示时,多项式回归可以捕捉数据中的非线性模式。
多项式回归如何起作用?
如果我们仔细观察,就会发现从线性回归演变为多项式回归。我们只需要在特征空间中添加依赖特征的高阶项。这有时也称为特征工程,但不完全是。
当关系是非线性的时,多项式回归模型会引入高次多项式项。
n 次多项式回归方程的一般形式为:y = a0 + a1*x + a2*x^2+...+an*x^n + e
这里,
- y 是因变量。
- x 是自变量。
- a0..an 是多项式项的系数。
- n 是多项式的次数。
- e 是残差
回归分析的基本目标是根据独立变量 x 的值对因变量 y 的预期值进行建模。在简单线性回归中,我们使用以下方程 -
y = a + bx + e
这里 y 是因变量,a 是 y 截距,b 是斜率,e 是残差。在许多情况下,这种线性模型不起作用。例如,如果我们根据合成发生的温度来分析化学合成的生产,在这种情况下,我们使用二次模型。
y = a + b1*x + b2*x^2 + e
这里,
- y 是 x 的因变量
- a 是 y 截距,e 是残差。
一般来说,我们可以为第 n 个值建模。
y = a + b1^*x + b2*x^2+...+bn*x^n
由于回归函数对于未知变量而言是线性的,因此从估计的角度来看这些模型是线性的。因此,通过最小二乘技术,可以计算响应值(y)。
通过纳入高次项(二次、三次等),该模型可以捕捉数据中的非线性模式。
- 多项式阶数 ( n )的选择是多项式回归的一个重要方面。较高的阶数可使模型更紧密地拟合训练数据,但也可能导致过度拟合,尤其是阶数过高时。因此,应根据数据中底层关系的复杂性来选择阶数。
- 训练多项式回归模型以找到最小化训练数据中的预测值和实际值之间差异的系数。