机器学习中的线性回归

线性回归

概念

利用 回归方程(函数) 对 一个或多个自变量(特征值)和因变量(目标值)之间 关系进行建模的一种分析方式。

分类     

一元线性回归:y = wx +b 目标值只与一个因变量有关系

多元线性回归: y= w_1x_1+ w_2x_2 + w_3x_3 + …  + b 目标值只与多个因变量有关系

线性回归的API

# 创建线性回归对象
estimator = LinearRegression()
# 使用数据训练线性回归模型
estimator.fit(x,y)
# 利用训练好的模型 做预测
estimator.predict([[176]]) # 利用训练好的线性方程, 把特征值带进去, 计算目标值

训练好的线性回归模型对象有两个重要的属性

estimator.intercept_  # 截距  x = 0 y 的取值
estimator.coef_ # 回归系数 (线性方程的斜率)

线性回归求解的基本思路

线性回归 最终的目的是为了得到一个线性方程, 要来表示特征和目标之间的关系, 这一类模型目的是为了得到一个数学公式, 这种问题的解决有固定的套路

        确定假设函数 如果线性回归 y = KX +b 认为特征和目标之间满足线性关系

        确定损失函数 如果是回归问题一般使用均方误差

      对损失函数求解, 找到损失函数的极小值, 所对应的系数, 数学关系就确定下来, 模型也就搞定了

      对于线性回归来说, 就是要找到是损失最小的那一组 K 和 b        

      求解损失函数的极小值 就是优化方法

损失函数最小化方式

正规方程

线性回归最小而成损失函数            

J(w) =  ‖Xw−y‖_2^2 取值最小     

其解为: w = (X^TX)^−1 X^Ty

梯度下降

顾名思义:沿着梯度下降的方向求解极小值

举个例子:坡度最陡下山法,梯度下降过程就和下山场景类似 可微分的损失函数,代表着一座山 寻找的函数的最小值,也就是山底

公式: 循环迭代求当前点的梯度,更新当前的权重参数\

α: 学习率(步长)  不能太大, 也不能太小. 机器学习中:0.001 ~ 0.01

梯度是上升最快的方向, 我们需要是下降最快的方向, 所以需要加负号

梯度下降几种算法

全梯度下降

  • 使用全部样本进行计算, 当样本量较大的时候, 计算的速度可能比较慢

  • 想优化计算的速度, 可以考虑使用下面几种梯度下降算法

随机梯度下降

        每一轮随机挑选一个样本

小批量梯度下降

        每一轮随机挑选一小批样本

随机平均梯度下降

        每一轮随机挑选一个样本 , 会把这个样本记录下来

        下一轮再挑选一个样本, 计算两个样本梯度的平均值

线性回归模型评估

均方误差 Mean Squared Error MSE

平均绝对误差 Mean Absolute Error MAE

均方根误差 Root Mean Squared Error (RMSE)

指标使用

        MSE 均方误差, 是模型误差的平方, 不能反应真是的误差情况

        MAE / RMSE 基本可以反应真实的平均误差

        MAE / RMSE

                 一般情况下 对同一个模型, 同一份测试数据计算上面两个指标, RMSE > MAE

                RMSE 会对预测误差较大的点比较敏感

                可以综合两个指标来看最终模型的结果

波斯顿房价预测案例

加载数据

import pandas as pd
boston = pd.read_csv('/root/code/波士顿房价xy.csv')
y = boston['target']
x = boston.drop('target',axis=1) # 从数据中去掉 target这一列, 剩下的都是特征值 axis = 1 删除的数据指定的是列名

正规方程

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression # 正规方程
from sklearn.metrics import mean_squared_error # 均方误差
from sklearn.metrics import mean_absolute_error # 绝对平均误差
# 训练集测试集划分  test_size 默认值 0.25
X_train, X_test, y_train, y_test = train_test_split(x,y,random_state=22)
# 特征工程 标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
# 模型训练  正规方程
estimator = LinearRegression()
estimator.fit(X_train_scaled,y_train)
y_train_pred = estimator.predict(X_train_scaled)
y_test_pred = estimator.predict(X_test_scaled)
# 模型评估
print('训练集,mse',mean_squared_error(y_train_pred, y_train))
print('测试集,mse',mean_squared_error(y_test_pred, y_test))

print('训练集,mae',mean_absolute_error(y_train_pred, y_train))
print('测试集,mae',mean_absolute_error(y_test_pred, y_test))

梯度下降

from sklearn.linear_model import SGDRegressor #随机梯度下降
# 训练集测试集划分
X_train, X_test, y_train, y_test = train_test_split(x,y,random_state=22)
# 特征工程 标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
# 模型训练  随机梯度下降
estimator = SGDRegressor()
estimator.fit(X_train_scaled,y_train)
y_train_pred = estimator.predict(X_train_scaled)
y_test_pred = estimator.predict(X_test_scaled)
# 模型评估
print('训练集,mse',mean_squared_error(y_train_pred, y_train))
print('测试集,mse',mean_squared_error(y_test_pred, y_test))

print('训练集,mae',mean_absolute_error(y_train_pred, y_train))
print('测试集,mae',mean_absolute_error(y_test_pred, y_test))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/322365.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

什么是WhatsApp Business?WhatsApp和WhatsApp Business区别?

什么是WhatsApp Business? WhatsApp Business账号是Meta专为企业设计的WhatsApp账号。不同于消费者层次的应用,WhatsApp Business旨在为企业提供更好的服务支持,方便企业与消费者建立更好的双向沟通渠道。 WhatsApp和WhatsApp Business有什…

Vulnhub靶机:Deathnote

一、介绍 运行环境:Virtualbox 攻击机:kali(10.0.2.15) 靶机:Deathnote(10.0.2.16) 目标:获取靶机root权限和flag 靶机下载地址:https://www.vulnhub.com/entry/dea…

【Golang】go编程语言适合哪些项目开发?

文章目录 **前言****Go 编程语言适合哪些项目开发?****1. 网络编程项目:****2. 大数据处理项目:****3. 云计算项目:****4. Web开发项目:****5. 嵌入式系统项目:****6.API开发**:**1. 并发性能:*…

数字孪生+人工智能突破复杂地形和气候提供可靠的电力

利用 Bentley 应用程序实现数字化交付,大大缩短了项目时间和成本,降低了碳排放量 Kalpataru Projects International Limited (KPIL) 正在扩展喀麦隆的电力网络,以改善该国 13% 人口的电网连接和电力供应。根据其项目管理方法,KPI…

11-适配器模式(Adapter)

意图 将一个类的接口转换成客户希望的另一个接口。Adapter模式使得原本由于接口不兼容而不能在一起工作的那些类可以一起工作。 适配器模式属于结构模式。 类适配器模式(通过继承的方式实现适配器模式) Adapter类,通过继承src类&#xff0…

日处理100立方污水的污水成套设备需要哪些

对于处理100立方污水的污水成套设备,我们可以选择以下几种设备来完成任务。首先,我们需要一个污水处理设备,它可以帮助我们去除污水中的固体悬浮物和污染物。这个设备可以将污水中的固体物质过滤掉,使水变得清澈透明。同时&#x…

架构师-软件系统架构图学习总结

--- 后之视今,亦犹今之视昔! 目录 早期系统架构图 早期系统架构视图 41视图解读 41架构视图缺点 现代系统架构图的指导实践 业务架构 例子 使用场景 画图技巧 客户端架构、前端架构 例子 使用场景 画图技巧 系统架构 例子 定义 使用场…

gcd得最大公约数,辗转相除法理解

欧几里得算法_百度百科 (baidu.com) —————— 百度百科证法一的一些便于理解的细节: 我们求 a 和 b 的最大公约数。 (如果a是b的倍数,那么b就是最大公约数。) a>b,a可以表示为 a kb r 设d为a和b的最大公约…

关于中考英语的一些刷题建议

怎么提高英语成绩? 对于英语,我个人认为只需要会刷题,多刷题就能提高,至于你们老师布置的关于直接背单词/语法,我认为提高效果并不是很明显。 为什么你从初一写到现在初三刷了这么多题,英语成绩还是没提高呢…

突破界限:首个国产DeepSeek MoE的高效表现

前言 在人工智能技术的快速发展过程中,国产首个开源MoE(Mixture of Experts)大模型——DeepSeek MoE的推出,不仅标志着中国在全球AI领域的重大突破,而且在计算效率和模型性能上展现了显著的优势。这款160亿参数的模型…

Python 中的字符串匹配识别文本中的相似性

更多Python学习内容:ipengtao.com 字符串匹配是自然语言处理(NLP)和文本处理中的一个重要任务,它可以识别文本之间的相似性、找到相同或相似的模式,以及进行文本分类和信息检索等应用。本文将深入探讨Python中的字符串…

D1380/D1381串行计时芯片,2.0V~5.5V 工作电流: 2V时 与TTL 兼容,采用DIP8、SOP8封装

D1380/D1381是一个带秒、分、时、日、日期、月、年的串行时钟保持芯片,每个月多少天以及闰年能自动调节, D1380/D1381低功耗工作方式, D1380/D1381用若干寄存器存储对应信息,一个32.768kHz 的晶振校准时钟,为了使用最小弓|脚,D1380/D1381使用…

【Java】JDBC 数据库连接 (JDK17+MySQL8)

文章目录 JDBC 是什么?导入JDBC jar包一、JDBC的核心API和使用路线二、基于 statement 演示 查询三、基于 statement 查询的改进与问题四、基于 preparedStatement 方式优化五、基于 preparedStatement 演示 CRUDC 、增加数据R、查询数据U、修改/更新 数据D、删除数…

抖音小店2024年创业新趋势,新手找项目,不要再错过这次的机会了

大家好,我是电商花花。 现在的抖音小店完全是电商创业中的一个优秀代名词和最轻便的创业项目,更是以独特的直播达人带货的优势将店铺激发出来。 今天给大家介绍下抖音小店的运作方式,并分析互联网创业的机遇,并提供相关的再做点…

华为交换机配置NQA DNS检测IP网络DNS解析速度

华为HCIA视频教程:超级实用,华为VRP系统文件详解 华为HCIA视频教程:不会传输层协议,HCIA都考不过 华为HCIA视频教程:网络工程师的基本功:网络地址转换NAT 华为HCIP视频教程:DHCP协议原理与配…

IDEA、CLion代码智能提示功能忽略大小写

代码提示和补充功能有一个特性:区分大小写。 如果想不区分大小写的话,就把这个对勾去掉。建议去掉勾选。

acwing BFS

BFS BFS 重点就是要使用 队列 进行每一层的搜索不同题目 队列中保存的元素形式都各不相同,并且也会用到其他辅助结构走迷宫一题,队列中存的是每一层(当前步能走的所有坐标)的坐标,并保存了每一层对应走过的步数八数码一题,队列中…

使用CLIP和LLM构建多模态RAG系统

在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标,这样可以避免更多的框架依赖。 什么是RAG 在人工智能领域,检索增强生成(re…

【html+css+js】实例自习笔记–前端基础知识–绝对定位的盒子水平居中

【htmlcssjs】实例自习笔记–前端基础知识–绝对定位的盒子水平居中 【CSS面试题】绝对定位的盒子水平居中 问题&#xff1a; 代码如图 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"view…

Spring上下文之support模块MessageSourceAccessor

博主介绍&#xff1a;✌全网粉丝5W&#xff0c;全栈开发工程师&#xff0c;从事多年软件开发&#xff0c;在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战&#xff0c;博主也曾写过优秀论文&#xff0c;查重率极低&#xff0c;在这方面有丰富的经验…