【python】python基于机器学习与数据分析的二手手机特性关联与分类预测(源码+数据集)【独一无二】

请添加图片描述


👉博__主👈:米码收割机
👉技__能👈:C++/Python语言
👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。


python基于机器学习与数据分析的二手手机特性关联与分类预测(源码+数据集)【独一无二】


目录

  • python基于机器学习与数据分析的二手手机特性关联与分类预测(源码+数据集)【独一无二】
  • 一、设计要求
  • 二、设计思路
      • **1. 数据读取与预处理**
      • **2. 描述性统计与分布分析**
      • **3. 分类变量分布分析**
      • **4. 热力图分析(RAM与内核搭配特征)**
      • **5. 线性回归模型**
      • **6. 聚类分析**
  • 三、可视化分析


一、设计要求

本项目的目标是分析智能手机数据,揭示其特性与价格区间的联系,并利用机器学习技术进行预测和聚类。设计涵盖数据预处理、探索性分析、模型构建与性能评估:

  1. 数据预处理

    • 读取多个数据源,清理缺失值、重复值和异常值。
    • 新增业务特征 “屏幕尺寸”,提升数据分析深度。
  2. 数据分析与可视化

    • 基于核心数值特征(如手机重量、电池容量等)进行统计特征分析。
    • 利用饼图、直方图、热力图等方式展现变量分布和关联。
  3. 监督学习

    • 应用线性回归模型预测价格区间(连续变量)。
    • 使用 SVM 进行价格区间分类,并分析特征重要性。
  4. 无监督学习

    • 对手机特性进行聚类分析,揭示潜在分组模式。
    • 利用肘部法选择最佳聚类数,并评估聚类效果(轮廓系数等)。
  5. 可视化与解读

    • 通过高质量图表展示分析结果,为决策提供支持。
    • 输出模型性能指标(如准确率、决定系数)并解释结果的商业意义。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


二、设计思路

1. 数据读取与预处理

目的:

  • 利用 pandas 读取 Excel 文件,合并数据集,并进行清洗与扩展,以生成干净、可信的数据供后续使用。

关键环节:

  • 加载两个 Excel 数据集。
  • 检查缺失值并填充(使用bfill策略填充)。
  • 删除重复数据行。
  • 删除特定非法值(如 m_dep 非正数的非法行)。
  • 创建业务衍生字段 “屏幕尺寸”,计算公式为屏幕宽高的欧几里得长度。
import pandas as pd

# 读取 Excel 文件
file1 = "phone1.xlsx"
file2 = "phone2.xlsx"

# 使用 openpyxl 引擎读取数据
df1 = pd.read_excel(file1, engine='openpyxl')
df2 = pd.read_excel(file2, engine='openpyxl')

# 合并数据集
merged_df = pd.concat([df1, df2], ignore_index=True)

# 代码略...至少10行
# 代码略...至少10行
# 代码略...至少10行

# 新增字段“屏幕尺寸”
if 'px_height' in merged_df.columns and 'px_width' in merged_df.columns:
    merged_df['屏幕尺寸'] = (merged_df['px_height']**2 + merged_df['px_width']**2) ** 0.5

核心作用:

  • 数据预处理旨在防止后续分析因数据空值、重复值或非法值而产生报错或异常结果。
  • “屏幕尺寸” 字段的添加是基于业务逻辑拓展的重要步骤,为模型提供了额外的特征支持。

2. 描述性统计与分布分析

目的:

  • 对特定数值变量(如 mobile_wtbattery_power)进行数据分布的探索,以及统计特征(均值、中位数、众数)的提取。

代码实现:

  • 显示均值、中位数和众数:
# 核心数值特征的统计描述
print("描述性统计分析 - 手机基本属性")
for col in ['mobile_wt', 'battery_power', 'pc']:
    if col in merged_df.columns:
# 代码略...至少10行
# 代码略...至少10行
# 代码略...至少10行
        mode = merged_df[col].mode()[0] if not merged_df[col].mode().empty else None
        print(f"{col} - 平均值: {mean:.2f}, 中位数: {median}, 众数: {mode}")
  • 绘制数据分布:
    通过直方图 + 核密度估计展示数据分布,便于判断变量的分布是否对称,是否存在偏态。
    在这里插入图片描述
import matplotlib.pyplot as plt

# 分布特征:带核密度估计的直方图
fig, axes = plt.subplots(3, 1, figsize=(8, 12))

for i, col in enumerate(['mobile_wt', 'battery_power', 'pc']):
    if col in merged_df.columns:
        axes[i].hist(merged_df[col], bins=20, density=True, alpha=0.6, label=f'{col}直方图')
        merged_df[col].plot.kde(ax=axes[i], color='red', label=f'{col}核密度估计')
# 代码略...至少10行
# 代码略...至少10行
# 代码略...至少10行
        axes[i].legend()

plt.tight_layout()

输出如下:

  • 从分布图可以直观查看特征数据的分布形状:
    • 若为双峰形态或偏态分布,可考虑使用对数变换等手段消除偏态。
    • 若为近似正态分布,则适合直接用于建模。

3. 分类变量分布分析

目的:

  • 分析手机特征(如是否支持双卡、是否支持 4G)的类别分布,展示百分比占比。

代码实现:

  • 利用饼状图显示不同类别型特征的分布比例。
# 分类特征分布分析 - 饼图
categorical_cols = ['dual_sim', 'four_g', 'three_g', 'touch_screen']

for col in categorical_cols:
    if col in merged_df.columns:
        # 统计频数
        value_counts = merged_df[col].value_counts(normalize=True) * 100  # 计算百分比
        labels = value_counts.index.map(lambda x: f"{x} ({value_counts[x]:.2f}%)")
# 代码略...至少10行
# 代码略...至少10行
# 代码略...至少10行
        plt.show()

特点:

  • 各类别的比例直接反映了特征倾斜性。例如,若 dual_sim 中某类占比远超50%,则该变量可能对模型贡献不足。

在这里插入图片描述

4. 热力图分析(RAM与内核搭配特征)

目的:

  • 使用交叉表和热力图分析不同运行内存与核心数的分布特征,观察变量是否存在某种偏好模式。

代码实现:

import seaborn as sns

# RAM、内核分组后统计频次,绘制热力图
# 代码略...至少10行
# 代码略...至少10行
# 代码略...至少10行

plt.figure(figsize=(8, 6))
sns.heatmap(group_counts, annot=True, fmt="d", cmap="YlGnBu")
plt.title("运行内存与内核分组统计热力图")
plt.xlabel("处理器内核数分组")
plt.ylabel("运行内存分组")
plt.show()

分析:

  • 热力图便于观察分组统计结果。若某些分组对应的频数特别高,表明这些分组有更高的用户偏好或商业价值。

5. 线性回归模型

目的:

  • 预测 price_range,并解读特征对价格的线性贡献。

代码实现:

  • 建模:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 提取特征及目标变量
X = merged_df[['battery_power', 'ram', 'n_cores']]  # 自变量
# 代码略...至少10行
# 代码略...至少10行
# 代码略...至少10行

# 数据集拆分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 线性回归模型
model = LinearRegression()
# 代码略...至少10行
# 代码略...至少10行
# 代码略...至少10行


# 模型评估
print("线性回归模型的系数:", model.coef_)
print("线性回归模型的截距:", model.intercept_)
# 代码略...至少10行
# 代码略...至少10行
# 代码略...至少10行
print(f"均方误差(MSE):{mse:.2f}")
print(f"决定系数(R²):{r2:.2f}")
  • 分析结果:
    • 若 R² 接近 1,说明模型有较强的拟合能力。
    • 若某些特征系数(model.coef_)的值很小或负数,表明这些特征对预测贡献甚微或为负面影响。

在这里插入图片描述

6. 聚类分析

目的:

  • 用无监督学习了解手机特性分组行为。

代码实现:

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# 特征标准化
features = merged_df[['px_height', 'px_width', '屏幕尺寸', 'four_g']].copy()
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

# K 均值聚类分析
optimal_k = 4
# 代码略...至少10行
# 代码略...至少10行
# 代码略...至少10行
features['Cluster'] = clusters

# 聚类评价
from sklearn.metrics import silhouette_score
# 代码略...至少10行
# 代码略...至少10行
# 代码略...至少10行
print(f"轮廓系数 (Silhouette Score): {silhouette_avg:.2f}")

输出:

  • 聚类标签反映了不同组群手机可能对应的特性偏好。

这段代码从数据清洗到回归、分类和聚类,每一步都设计得合理、高效,且充分考虑了数据和任务特点,为分析智能设备提供了系统支持。


三、可视化分析

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

---

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/960294.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习】深入探索SVM:支持向量机的原理与应用

目录 🍔 SVM引入 1.1什么是SVM? 1.2支持向量机分类 1.3 线性可分、线性和非线性的区分 🍔 小结 学习目标 知道SVM的概念 🍔 SVM引入 1.1什么是SVM? 看一个故事,故事是这样子的: 在很久以前的情人节&#xf…

WPF基础 | WPF 布局系统深度剖析:从 Grid 到 StackPanel

WPF基础 | WPF 布局系统深度剖析:从 Grid 到 StackPanel 一、前言二、Grid 布局:万能的布局王者2.1 Grid 布局基础:构建网格世界2.2 子元素定位与跨行列:布局的精细操控2.3 自适应布局:灵活应变的秘诀 三、StackPanel…

性能测试网络风险诊断有哪些?

目录 一、网络定位分析手段 二、sar命令 三、netstat命令 以下是几种常见的网络风险诊断方法 网络连通性检查 带宽与延迟测量 丢包率分析 网络拓扑结构审查 安全设备影响评估 协议层面上的优化 负载均衡器效能检验 云化服务架构下的特殊考量 系统应用之间的交换&am…

ios打包:uuid与udid

ios的uuid与udid混乱的网上信息 新人开发ios,发现uuid和udid在网上有很多帖子里是混淆的,比如百度下,就会说: 在iOS中使用UUID(通用唯一识别码)作为永久签名,通常是指生成一个唯一标识&#xf…

微服务学习-服务调用组件 OpenFeign 实战

1. OpenFeign 接口方法编写规范 1.1. 在编写 OpenFeign 接口方法时,需要遵循以下规范 1.1.1.1. 接口中的方法必须使用 RequestMapping、GetMapping、PostMapping 等注解声明 HTTP 请求的类型。 1.1.1.2. 方法的参数可以使用 RequestParam、RequestHeader、PathVa…

开源项目Umami网站统计MySQL8.0版本Docker+Linux安装部署教程

Umami是什么? Umami是一个开源项目,简单、快速、专注用户隐私的网站统计项目。 下面来介绍如何本地安装部署Umami项目,进行你的网站统计接入。特别对于首次使用docker的萌新有非常好的指导、参考和帮助作用。 Umami的github和docker镜像地…

研究 Day.js 及其在 Vue3 和 Vue 框架中的应用详解

前言 在前端开发中,日期和时间处理是一个常见需求。随着技术的发展,我们有了更多高效、灵活的日期库可供选择。Day.js 就是一个轻量级、易于使用的 JavaScript 日期库,其灵感来源于 Moment.js,但体积更小,速度更快。本…

python基础语法(3) -------- 学习笔记分享

目录: 1. 函数 1.1 语法格式 1.2 函数参数 1.3 函数返回值 1.4 变量的作用域 1.5 函数的执行过程 1.6 函数的链式调用 1.7 函数的嵌套调用 1.8 函数递归 1.9 参数默认值 1.10 函数的关键字传参 2. 列表和元组 2.1 列表和元组是啥 2.2 创建列表 2.3 访问下标 2.…

ceph新增节点,OSD设备,标签管理(二)

一、访问客户端集群方式 方式一: 使用cephadm shell交互式配置 [rootceph141 ~]# cephadm shell # 注意,此命令会启动一个新的容器,运行玩后会退出! Inferring fsid c153209c-d8a0-11ef-a0ed-bdb84668ed01 Inferring config /var/lib/ce…

解决查看服务器ESN(许可证管理)

服务器的ESN(许可证管理)和SN码是两个东西。 查看步骤如下: 进入服务器的iBMC管理系统(一般为机房运维人员可以查看) 选择“许可证管理” 红框中即可看到信息。

《深入解析:DOS检测的技术原理与方法》

DDOS入侵检测与防御 一、实现Linux下DDOS的入侵检测与防御 利用Python编程实现对wrk的泛洪攻击检测,并让程序触发调用Linux命令实现防御: 1、泛洪攻击的检测,可以考虑使用的命令,这些命令可以通过Python进行调用和分析 (1) netstat -ant …

论文笔记(六十三)Understanding Diffusion Models: A Unified Perspective(四)

Understanding Diffusion Models: A Unified Perspective(四) 文章概括学习扩散噪声参数(Learning Diffusion Noise Parameters)三种等效的解释(Three Equivalent Interpretations) 文章概括 引用&#xf…

1.23 补题 寒假训练营

E 一起走很长的路! 输入描述 第一行输入两个整数 n,q(1≤n,q≤210^5),代表多米诺骨牌的个数和询问次数。 第二行输入 n 个整数 a1,a2,…,an​(1≤ai≤10^9),表示多米诺骨牌的重量。 此后输入…

dmfldr实战

dmfldr实战 本文使用达梦的快速装载工具,对测试表进行数据导入导出。 新建测试表 create table “BENCHMARK”.“TEST_FLDR” ( “uid” INTEGER identity(1, 1) not null , “name” VARCHAR(24), “begin_date” TIMESTAMP(0), “amount” DECIMAL(6, 2), prim…

在深度Linux (Deepin) 20中安装Nvidia驱动

文章创作不易,麻烦大家点赞关注收藏一键三连。 在Deepin上面跑Tensorflow, pytorch等人工智能框架不是一件容易的事情。特别是如果你要使用GPU,就得有nvidia的驱动。默认情况下Deepin系统自带的是nouveau开源驱动。这是没办法用tensorflow的。下面内容是…

【Linux】IPC:匿名管道、命名管道、共享内存

⭐️个人主页:小羊 ⭐️所属专栏:Linux 很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~ 目录 1、管道2、进程池3、命名管道4、共享内存 1、管道 我们知道进程具有独立性,但是在一些场景中进程间也需要通信&#…

Pyside6(PyQT5)中的QTableView与QSqlQueryModel、QSqlTableModel的联合使用

QTableView 是QT的一个强大的表视图部件,可以与模型结合使用以显示和编辑数据。QSqlQueryModel、QSqlTableModel 都是用于与 SQL 数据库交互的模型,将二者与QTableView结合使用可以轻松地展示和编辑数据库的数据。 QSqlQueryModel的简单应用 import sys from PySid…

DeepSeek学术题目选择效果怎么样?

论文选题 一篇出色的论文背后,必定有一个“智慧的选题”在撑腰。选题足够好文章就能顺利登上高水平期刊;选题不行再精彩的写作也只能“当花瓶”。然而许多宝子们常常忽视这个环节,把大量时间花在写作上,选题时却像抓阄一样随便挑一…

Linux的权限和一些shell原理

目录 shell的原理 Linux权限 sudo命令提权 权限 文件的属性 ⽂件类型: 基本权限: chmod改权限 umask chown 该拥有者 chgrp 改所属组 最后: 目录权限 粘滞位 shell的原理 我们广义上的Linux系统 Linux内核Linux外壳 Linux严格…

【HarmonyOS之旅】基于ArkTS开发(三) -> 兼容JS的类Web开发(一)

目录 1 -> 概述 1.1 -> 整体架构 2 -> 文件组织 2.1 -> 目录结构 2.2 -> 文件访问规则 2.3 -> 媒体文件格式 3 -> js标签配置 3.1 -> pages 3.2 -> window 3.3 -> 示例 4 -> app.js 4.1 -> 应用生命周期 4.2 -> 应用对象6…