线性回归模型是一种用于建模因变量与一个或多个自变量之间线性关系的统计模型。它被广泛应用于回归分析中,用于预测或解释连续型因变量的取值。
线性回归模型假设因变量(或称响应变量) y 与自变量(或称特征) x 之间存在线性关系,可以用以下数学形式表示:
其中,yy 是因变量的值, 是自变量的值,
是模型的参数(系数),\epsilonϵ 是误差项。误差项表示了模型无法捕捉到的随机误差或噪声。
线性回归模型的目标是通过拟合数据集来估计模型的参数 ,使得模型预测值与观测值之间的残差(观测值与模型预测值的差异)最小化。通常采用最小二乘法来估计模型参数,即通过最小化残差平方和来确定参数的值。
线性回归模型有许多不同的变体,包括简单线性回归(只包含一个自变量)、多元线性回归(包含多个自变量)、岭回归、Lasso 回归等。这些变体可以根据数据的特点和建模需求进行选择。
线性回归模型的优点包括简单易用、计算速度快、可解释性强等。然而,它也有一些局限性,例如对数据中的非线性关系敏感、容易受到异常值的影响等。因此,在应用线性回归模型时,需要对数据进行适当的预处理,并根据实际情况选择合适的模型和特征。
假设有一组房屋数据,包括每个房屋的面积(平方英尺)、卧室数量、浴室数量、房屋的建造材料、周围环境、交通便利性和价格(美元)。希望使用线性回归模型来建立一个模型,预测房屋的价格。
import numpy as np
from sklearn.linear_model import LinearRegression
# 假设我们有一些房屋数据
# 房屋面积(平方英尺)
X_area = np.array([1000, 1500, 2000, 2500, 3000, 3500, 4000, 4500, 5000]).reshape(-1, 1)
# 卧室数量
X_bedrooms = np.array([2, 3, 3, 4, 4, 4, 5, 5, 6]).reshape(-1, 1)
# 浴室数量
X_bathrooms = np.array([1, 2, 2, 2.5, 3, 3.5, 3.5, 4, 4.5]).reshape(-1, 1)
# 房屋年龄(年)
X_age = np.array([5, 10, 15, 20, 25, 30, 35, 40, 45]).reshape(-1, 1)
# 房屋建造材料(假设使用独热编码表示)
X_material = np.array([[1, 0, 0], [0, 1, 0], [0, 0, 1], [1, 0, 0], [0, 1, 0], [0, 0, 1], [1, 0, 0], [0, 1, 0], [0, 0, 1]])
# 房屋周围环境(假设使用独热编码表示)
X_environment = np.array([[1, 0], [0, 1], [1, 0], [0, 1], [1, 0], [0, 1], [1, 0], [0, 1], [1, 0]])
# 交通便利性(假设使用独热编码表示)
X_transportation = np.array([[1, 0], [0, 1], [1, 0], [0, 1], [1, 0], [0, 1], [1, 0], [0, 1], [1, 0]])
# 房屋价格(美元)
y = np.array([300000, 400000, 500000, 600000, 700000, 800000, 900000, 1000000, 1100000])
# 创建线性回归模型
model = LinearRegression()
# 拟合模型
X = np.hstack((X_area, X_bedrooms, X_bathrooms, X_age, X_material, X_environment, X_transportation)) # 合并特征
model.fit(X, y)
# 打印模型参数
print("斜率(系数):", model.coef_)
print("截距:", model.intercept_)
# 使用模型进行预测(假设预测一间面积为2500平方英尺,3个卧室,2.5个浴室,房龄为20年,使用砖石建造,周围环境优美,交通便利的房屋价格)
new_data = np.array([[2500, 3, 2.5, 20, 1, 0, 0, 1, 0, 1]])
predicted_price = model.predict(new_data)[0]
print(f"房屋预测价格为 ${predicted_price:.2f}")
当模型参数更多时,可以考虑使用更复杂的特征工程方法,例如多项式特征、交互项和其他高阶特征转换方法。下面是一个示例代码,展示了如何使用多项式特征和交互项来建立线性回归模型:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
# 假设我们有一些房屋数据
# 房屋面积(平方英尺)
X_area = np.array([1000, 1500, 2000, 2500, 3000, 3500, 4000, 4500, 5000]).reshape(-1, 1)
# 卧室数量
X_bedrooms = np.array([2, 3, 3, 4, 4, 4, 5, 5, 6]).reshape(-1, 1)
# 浴室数量
X_bathrooms = np.array([1, 2, 2, 2.5, 3, 3.5, 3.5, 4, 4.5]).reshape(-1, 1)
# 房屋年龄(年)
X_age = np.array([5, 10, 15, 20, 25, 30, 35, 40, 45]).reshape(-1, 1)
# 房屋价格(美元)
y = np.array([300000, 400000, 500000, 600000, 700000, 800000, 900000, 1000000, 1100000])
# 创建线性回归模型
model = make_pipeline(PolynomialFeatures(degree=2), LinearRegression())
# 拟合模型
X = np.hstack((X_area, X_bedrooms, X_bathrooms, X_age)) # 合并特征
model.fit(X, y)
# 打印模型参数
print("截距:", model.named_steps['linearregression'].intercept_)
print("系数:", model.named_steps['linearregression'].coef_)
# 使用模型进行预测(假设预测一间面积为2500平方英尺,3个卧室,2.5个浴室,房龄为20年的房屋价格)
new_data = np.array([[2500, 3, 2.5, 20]])
predicted_price = model.predict(new_data)[0]
print(f"房屋预测价格为 ${predicted_price:.2f}")
在这个示例中,使用了 PolynomialFeatures 类来生成二次多项式特征,然后将这些特征与之前的特征合并到一个矩阵中。然后,使用带有多项式特征的线性回归模型来拟合数据,并使用模型对一个新的房屋数据进行了预测。