数据挖掘入门项目二手交易车价格预测之特征工程

文章目录

  • 目标
  • 常见的特征工程
  • 具体步骤
    • 1. 导入数据
    • 2. 删除异常值
    • 3. 特征构造
      • 3.1 为树模型构造特征
      • 3.2 为LR NN 之类的模型构造特征
    • 4. 特征筛选
      • 过滤式
      • 包裹式
      • 嵌入式
    • 5. 总结

本文数据集来自阿里天池:https://tianchi.aliyun.com/competition/entrance/231784/information
主要参考了Datawhale的整个操作流程:https://tianchi.aliyun.com/notebook/95501
小编也是第一次接触数据挖掘,所以先跟着Datawhale写的教程操作了一遍,不懂的地方加了一点点自己的理解,感谢Datawhale!

目标

  • 将数据转换为能更好地表示潜在问题的特征,从而提高机器学习的性能

常见的特征工程

  1. 异常处理:
  • 通过箱线图(或 3-Sigma)分析删除异常值
    ①比如在使用箱线图分析删除异常值时,我们可以将大于或小于1/4分位数的值都删掉;
    ②3-Sigma分析假设数据服从正态分布,根据3-Sigma法则,异常值通常被定义为距离均值超过3个标准差的数据点。因此,可以计算上下阈值,即均值加减3倍标准差
  • BOX-COX 转换(处理有偏分布)
    Box-Cox转换是一种统计方法,用于使数据集更接近于正态分布。它通过对数据进行幂变换来实现这一目的,可以处理偏态分布或方差不稳定的数据
  • 长尾截断
  1. 特征归一化/标准化:
  • 标准化(转换为标准正态分布)
  • 归一化(抓换到 [0,1] 区间)
  • 针对幂律分布,可以采用公式
  1. 数据分桶:
  • 等频分桶
    等频分桶的基本思想是根据数据的频率分布将数据均匀地划分为指定数量的桶。每个桶中包含的数据数量大致相等,因此每个桶中的数据密度相对均匀。这有助于减少数据的离散性,使得数据分析更加稳定和可靠
  • 等距分桶
    等距分桶的基本思想是将数据范围划分成相等宽度的区间,每个区间称为一个桶
  • Best-KS 分桶(类似利用基尼指数进行二分类)
    KS统计量(Kolmogorov-Smirnov statistic)通常用于评估两个概率分布的差异性。Best-KS分桶的目标是在保持数据分布的情况下,将连续型数据分成若干个桶(bin),使得每个桶内的数据尽可能服从同一种分布,并且不同桶之间的分布差异尽可能大
  • 卡方分桶
    用于对连续型特征进行分桶(binning)或分箱(binning)。它通过最大化特征与目标变量之间的卡方统计量来确定最优的分桶方案。
  1. 缺失值处理:
  • 不处理(针对类似 XGBoost 等树模型);
  • 删除(缺失数据太多);
  • 插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等;
  • 分箱,缺失值一个箱;
  1. 特征构造:
  • 构造统计量特征,报告计数、求和、比例、标准差等;
  • 时间特征,包括相对时间和绝对时间,节假日,双休日等;
  • 地理信息,包括分箱,分布编码等方法;
  • 非线性变换,包括 log/ 平方/ 根号等;
  • 特征组合,特征交叉;
  • 仁者见仁,智者见智。
  1. 特征筛选
  • 过滤式(filter):先对数据进行特征选择,然后在训练学习器,常见的方法有 Relief/方差选择发/相关系数法/卡方检验法/互信息法;
  • 包裹式(wrapper):直接把最终将要使用的学习器的性能作为特征子集的评价准则,常见方法有 LVM(Las Vegas Wrapper) ;
  • 嵌入式(embedding):结合过滤式和包裹式,学习器训练过程中自动进行了特征选择,常见的有 lasso 回归;
  1. 降维
  • PCA/ LDA/ ICA;
  • 特征选择也是一种降维。

具体步骤

1. 导入数据

# 导入数据
train_data=pd.read_csv(train_path,sep=' ')
test_data=pd.read_csv(test_path,sep=' ')
# 查看数据
train_data.head()
# 查看数据形状
train_data.shape
# 查看数据的列
train_data.columns

2. 删除异常值

# 这里包装了一个异常值处理的代码,可以随便调用。
def outliers_proc(data, col_name, scale=3):
    """
    用于清洗异常值,默认用 box_plot(scale=3)进行清洗
    :param data: 接收 pandas 数据格式
    :param col_name: pandas 列名
    :param scale: 尺度
    :return:
    """

    def box_plot_outliers(data_ser, box_scale):
        """
        利用箱线图去除异常值
        :param data_ser: 接收 pandas.Series 数据格式
        :param box_scale: 箱线图尺度,
        :return:
        """
        # 计算四分位距,并通过box_scale进行缩放
        iqr = box_scale * (data_ser.quantile(0.75) - data_ser.quantile(0.25))
        # 计算下边缘值,即下四分位数减去四分位距
        val_low = data_ser.quantile(0.25) - iqr
        # 计算上边缘值,即上四分位数加上四分位距
        val_up = data_ser.quantile(0.75) + iqr
        # 创建一个布尔序列,指示哪些数据点低于下边缘值
        rule_low = (data_ser < val_low)
        # 创建一个布尔序列,指示哪些数据点高于上边缘值
        rule_up = (data_ser > val_up)
        return (rule_low, rule_up), (val_low, val_up)

    data_n = data.copy()
    data_series = data_n[col_name]
    rule, value = box_plot_outliers(data_series, box_scale=scale)
    # 使用布尔数组来选择索引,返回满足条件的索引值数组,即找到异常值所在对的索引位置
    index = np.arange(data_series.shape[0])[rule[0] | rule[1]]
    print("Delete number is: {}".format(len(index)))
    data_n = data_n.drop(index)
    # reset_index重新设置 DataFrame 的索引
    # 参数 drop=True 表示重置索引后丢弃原来的索引列
    # inplace 参数用于指定是否在原始 DataFrame 上进行修改
    data_n.reset_index(drop=True, inplace=True)
    print("Now column number is: {}".format(data_n.shape[0]))
    # 查看低于下界的数据
    index_low = np.arange(data_series.shape[0])[rule[0]]
    outliers = data_series.iloc[index_low]
    print("Description of data less than the lower bound is:")
    print(pd.Series(outliers).describe())
    # 查看高于上界的数据
    index_up = np.arange(data_series.shape[0])[rule[1]]
    outliers = data_series.iloc[index_up]
    print("Description of data larger than the upper bound is:")
    print(pd.Series(outliers).describe())
    # 创建一个包含两个子图的画布。参数 1, 2 表示创建一个1行2列的子图网格,figsize=(10, 7) 表示画布的大小为宽10英寸,高7英寸
    # fig 是整个画布对象,ax 是一个包含两个子图对象的数组
    fig, ax = plt.subplots(1, 2, figsize=(10, 7))
    # 画出去除异常值前后的子图
    sns.boxplot(y=data[col_name], data=data, palette="Set1", ax=ax[0])
    sns.boxplot(y=data_n[col_name], data=data_n, palette="Set1", ax=ax[1])
    return data_n

结果展示:
在这里插入图片描述

3. 特征构造

3.1 为树模型构造特征

  • 训练集和测试集放在一起,方便构造特征
train_data['train']=1
test_data['train']=0
data = pd.concat([train_data, test_data], ignore_index=True)
  • 加入使用时间:data[‘creatDate’] - data[‘regDate’],反应汽车使用时间,一般来说价格与使用时间成反比
# 注意,数据里有时间出错的格式,所以我们需要 errors='coerce',表示如果出现无法转换的情况,将会将其转换为 NaT(Not a Time)值,而不是抛出错误
data['used_time'] = (pd.to_datetime(data['creatDate'], format='%Y%m%d', errors='coerce') - pd.to_datetime(data['regDate'], format='%Y%m%d', errors='coerce')).dt.days
  • 查看空数据
# 看一下空数据,发现有 15k 个样本的时间是有问题的,可以选择删除,也可以选择放着。
# 但是这里不建议删除,因为删除缺失数据占总样本量过大,7.5%
# 如果使用 XGBoost 之类的决策树,其本身就能处理缺失值,所以可以不用管;
data['used_time'].isnull().sum()
  • 加入从邮编中提取城市信息,相当于加入了先验知识
data['city'] = data['regionCode'].apply(lambda x : str(x)[:-3])
data = data
  • 加入某品牌的销售统计量
# 对数据按brand分组,结果是每个分组结果组成的结果
train_gb = train_data.groupby("brand")
all_info = {}
# 对分组进行循环
for kind, kind_data in train_gb:
    info = {}
    kind_data = kind_data[kind_data['price'] > 0]
    # 计算每个品牌汽车的数量、最高价、中位数、最低价、价格总和、价格方差、价格平均值
    info['brand_amount'] = len(kind_data)
    info['brand_price_max'] = kind_data.price.max()
    info['brand_price_median'] = kind_data.price.median()
    info['brand_price_min'] = kind_data.price.min()
    info['brand_price_sum'] = kind_data.price.sum()
    info['brand_price_std'] = kind_data.price.std()
    info['brand_price_average'] = round(kind_data.price.sum() / (len(kind_data) + 1), 2)
    all_info[kind] = info
# 因为字典的键对应的是dataframe的列,所以我们要进行转置
brand_fe = pd.DataFrame(all_info).T.reset_index().rename(columns={"index": "brand"})
# 将结果合并到我们的原数据中,这里采用的是左连接,连接条件是brand
# 左连接就是说,data表显示所有,brand_fe表只显示brand值相匹配的行
data = data.merge(brand_fe, how='left', on='brand')

同理,我们还可以加入不同车型、不同燃油类型、不同变速箱、不同地区的销售统计量,这里不再一一列举

  • 对power数据进行分桶

为什么要做数据分桶呢?

    1. 离散后稀疏向量内积乘法运算速度更快,计算结果也方便存储,容易扩展;
    1. 离散后的特征对异常值更具鲁棒性,如 age>30 为 1 否则为 0,对于年龄为 200 的也不会对模型造成很大的干扰;
    1. LR 属于广义线性模型,表达能力有限,经过离散化后,每个变量有单独的权重,这相当于引入了非线性,能够提升模型的表达能力,加大拟合;
    1. 离散后特征可以进行特征交叉,提升表达能力,由 M+N 个变量编程 M*N 个变量,进一步引入非线形,提升了表达能力;
    1. 特征离散后模型更稳定,如用户年龄区间,不会因为用户年龄长了一岁就变化
    1. 当然还有很多原因,LightGBM 在改进 XGBoost 时就增加了数据分桶,增强了模型的泛化性
# 创建了一个包含31个元素的列表,每个元素是按照10的倍数递增的数字。这个列表将用作分桶的边界
bin = [i*10 for i in range(31)]
# 第一个参数是要分箱的数据,
# 第二个参数是分箱的边界,
# 第三个参数labels=False表示我们希望返回的结果是分箱后每个样本所在的箱的索引而不是标签。
# 这一行代码的结果将是一个新的Series,其中每个元素表示对应样本所在的箱的索引。
data['power_bin'] = pd.cut(data['power'], bin, labels=False)
  • 导出数据
# 删除不需要的数据
data = data.drop(['creatDate', 'regDate', 'regionCode'], axis=1)
# 目前的数据已经可以给树模型使用了,所以先导出一下
data.to_csv('data_for_tree.csv', index=0)

3.2 为LR NN 之类的模型构造特征

注:不同模型对数据集的要求不同所以分开构造

  • 对数值特征做归一化
    这里先以power列为例
    查看power的分布:
data['power'].plot.hist()

在这里插入图片描述
可以发现,直方图只有0-2500这一列,且该列的值很大,猜测数据可能分布不均匀,这里我们可以先log(数据平滑处理)一下再归一化:

data['power'] = np.log(data['power'] + 1) 
data['power'] = ((data['power'] - np.min(data['power'])) / (np.max(data['power']) - np.min(data['power'])))
data['power'].plot.hist()

在这里插入图片描述
其他列这里不再一一列举
这里可以定义一个归一化函数,将其他列传入即可

def max_min(x):
    return (x - np.min(x)) / (np.max(x) - np.min(x))
  • 对类别特征进行 OneEncoder
# get_dummies是pandas库中用于进行独热编码(One-Hot Encoding)的函数
data = pd.get_dummies(data, columns=['model', 'brand', 'bodyType', 'fuelType',
                                     'gearbox', 'notRepairedDamage', 'power_bin'])
# 参数
# data: 这是一个DataFrame或者类似于DataFrame的数据结构,包含需要进行独热编码的数据。
# columns: 这是一个列表,包含需要进行独热编码的列名。函数将对这些列进行独热编码处理

查看一下形状,发现多了很多列,这里需要理解一下get_dummies是怎么进行one-hot编码的,比如brand有A,B两个类型,那么data里面就会把brand转化为A,B两个列,该行数据属于A类型,那么A类型这一列就为1否则为0

print(data.shape)
print(data.columns)

在这里插入图片描述

  • 保存特征
data.to_csv('data_for_lr.csv', index=0)
# index=0表示不在文件中写入行索引

4. 特征筛选

过滤式

  • 可单独计算某列特征和标签之间的相关性
# 相关性分析
print(data['power'].corr(data['price'], method='spearman'))
print(data['kilometer'].corr(data['price'], method='spearman'))
print(data['brand_amount'].corr(data['price'], method='spearman'))
print(data['brand_price_average'].corr(data['price'], method='spearman'))
print(data['brand_price_max'].corr(data['price'], method='spearman'))
print(data['brand_price_median'].corr(data['price'], method='spearman'))

在这里插入图片描述

  • 也可以通过画相关性热力图来看各个特征之间的相关性
data_numeric = data[['power', 'kilometer', 'brand_amount', 'brand_price_average', 
                     'brand_price_max', 'brand_price_median']]
# corr() 方法会计算特征之间的皮尔逊相关系数,生成一个相关性矩阵
correlation = data_numeric.corr()

f , ax = plt.subplots(figsize = (7, 7))
# 这行代码给图形添加了标题,标题内容为 'Correlation of Numeric Features with Price', 
# y=1 参数将标题的位# 置设置在图形顶部,size=16 参数指定了标题的字体大小为16号
plt.title('Correlation of Numeric Features with Price',y=1,size=16)
#使用Seaborn库中的 heatmap 函数绘制了热力图。热力图展示了相关性矩阵 correlation 中各特征之间的相关性。
# square=True 参数确保热力图是正方形的,vmax=0.8 参数设置了颜色映射的最大值,这有助于突出显示高相关性
sns.heatmap(correlation,square = True,  vmax=0.8)

在这里插入图片描述
可以看出上述对角线颜色是最浅的,因为对角线是特征自己跟自己的相关性,power跟brand_price_average, brand_price_max, brand_price_median之间的相关性比跟kilometer, brand_amount之间的相关性更强

包裹式

小编这里这一部分没有跑通,暂时没有排查出是哪里出问题了???

from mlxtend.feature_selection import SequentialFeatureSelector as SFS
from sklearn.linear_model import LinearRegression
sfs = SFS(LinearRegression(),
           k_features=10,
           forward=True,
           floating=False,
           scoring = 'r2',
           cv = 0)
x = data.drop(['price'], axis=1)
x = x.fillna(0)
y = data['price']
sfs.fit(x, y)
sfs.k_feature_names_ 
# 画出来,可以看到边际效益
from mlxtend.plotting import plot_sequential_feature_selection as plot_sfs
import matplotlib.pyplot as plt
fig1 = plot_sfs(sfs.get_metric_dict(), kind='std_dev')
plt.grid()
plt.show()

嵌入式

待补充——

5. 总结

  • 特征工程的主要目的还是在于将数据转换为能更好地表示潜在问题的特征,从而提高机器学习的性能。比如,异常值处理是为了去除噪声,填补缺失值可以加入先验知识等
  • 特征构造也属于特征工程的一部分,其目的是为了增强数据的表达
  • 有些比赛的特征是匿名特征,这导致我们并不清楚特征相互直接的关联性,这时我们就只有单纯基于特征进行处理,比如装箱,groupby,agg 等这样一些操作进行一些特征统计,此外还可以对特征进行进一步的 log,exp 等变换,或者对多个特征进行四则运算(如上面我们算出的使用时长),多项式组合等然后进行筛选。
  • 对于知道特征含义(非匿名)的特征工程,特别是在工业类型比赛中,会基于信号处理,频域提取,丰度,偏度等构建更为有实际意义的特征,这就是结合背景的特征构建,在推荐系统中也是这样的,各种类型点击率统计,各时段统计,加用户属性的统计等等,这样一种特征构建往往要深入分析背后的业务逻辑或者说物理原理,从而才能更好的找到 magic。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/505755.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Debian linux版本下运行的openmediavault网盘 千兆网卡升级万兆

一、适用场景 1、使用vmware ESXi虚拟化平台运行多种不同应用服务器时&#xff0c;其中网盘服务器采用开源的openmediavault搭建&#xff1b; 2、将老专业服务器升级千兆网为万兆网&#xff1b; 3、需要转移的数据量大的企业或用户&#xff1b; 4、从服务器到服务器的数据转移…

LeetCode刷题【链表,图论,回溯】

目录 链表138. 随机链表的复制148. 排序链表146. LRU 缓存 图论200. 岛屿数量994. 腐烂的橘子207. 课程表 回溯 链表 138. 随机链表的复制 给你一个长度为 n 的链表&#xff0c;每个节点包含一个额外增加的随机指针 random &#xff0c;该指针可以指向链表中的任何节点或空节…

基于知识图谱的个性化学习推荐系统的设计与实现(论文+源码)_kaic

摘 要 Abstract 1 绪 论 1.1 研究背景及意义 1.2 国内外现状研究 1.3 研究工作和论文结构 2 相关技术 2.1 HTML 语言 2.2 Python 语言 2.3 数据库技术 2.4 Django 框架 3 系统分析 3.1 需求概述 3.2 系统可行性分析 3.2.1 技术可行性 3.2.2 经济可行性 3.2.3 操作可行性 3.3 功…

网络基础二补充——json与http协议

五、市面上常用序列化和反序列化工具 ​ 常用的有&#xff1a;json、protobuf、xml三种方案&#xff1b; 5.1json的使用 1.安装jsoncpp库&#xff0c;是一个第三方的开发库文件&#xff1b; sudo yum install -y jsoncpp-devel2.使用json ​ 经常使用的头文件是json.h&…

Python之Opencv教程(2):图像边缘检测

1、什么是边缘检测 OpenCV中的边缘检测是一种常见的图像处理技术&#xff0c;用于检测图像中物体边缘的位置。常用的边缘检测算法包括Sobel算子、Scharr算子、Laplacian算子和Canny边缘检测算法等。下面将介绍使用OpenCV实现这些边缘检测算法的方法。 2、边缘检测的作用 边缘…

C语言---自定义类型:联合体和枚举

文章目录 前言1. 联合体类型的声明1.1 联合体类型的声明1.2 联合体的特点1.4 联合体大小的计算1.5 联合的一个练习 2.枚举2.1 枚举类型的声明2.2 枚举类型的优点 前言 上一篇我们学习了自定义类型—结构体&#xff0c;大家会发现&#xff0c;构建一个结构体时&#xff0c;有些…

程序数据模型由OS还是硬件架构决定?

文章目录 前言硬件架构的作用OS的作用编译器的角色OS的数据模型参考 前言 在文章 1>>32的结果是1还是0 中提到了数据模型 L P 64 LP64 LP64 &#xff0c;并提出这个数据模型主要是由 U n i x Unix Unix 以及类 U n i x Unix Unix 的操作系统使用居多&#xff0c;例如…

macOS Catalina for mac (macos 10.15系统)v10.15.7正式版

macOS Catalina是苹果公司专为麦金塔电脑推出的桌面操作系统&#xff0c;是macOS的第16个主要版本。它继承了苹果一贯的优雅与高效&#xff0c;不仅引入了分割视图和侧边栏&#xff0c;还带来了全新的音乐和播客应用&#xff0c;极大地提升了用户体验。在隐私保护和安全性方面&…

java学习总结以及考试总结

1.对象的this引用 this引用用于区分成员变量和局部变量&#xff0c;this引用的一定的指的是成员变量 所以说this语句的作用就是区分成员变量和局部变量&#xff08;如何呢&#xff09; package com.temo.test1;public class student{private String name;//成员变量private …

Optimizer神经网络中各种优化器介绍

1. SGD 1.1 batch-GD 每次更新使用全部的样本&#xff0c;注意会对所有的样本取均值&#xff0c;这样每次更新的速度慢。计算量大。 1.2 SGD 每次随机取一个样本。这样更新速度更快。SGD算法在于每次只去拟合一个训练样本&#xff0c;这使得在梯度下降过程中不需去用所有训…

OpenEuler华为欧拉系统安装教程及联网配置

OpenEuler简介 openEuler是一款开源操作系统。当前openEuler内核源于Linux&#xff0c;支持鲲鹏及其它多种处理器&#xff0c;能够充分释放计算芯片的潜能&#xff0c;是由全球开源贡献者构建的高效、稳定、安全的开源操作系统&#xff0c;适用于数据库、大数据、云计算、人工智…

【Laravel】07 快速套用一个网站模板

【Laravel】07 快速套用一个网站模板 1. 新增post表2.补充 &#xff1a;生成Model、Controller、迁移文件3. 使用php artisan tinker4. 网站模板下载 课程地址 1. 新增post表 在Model中创建Post (base) ➜ example-app php artisan make:model Post Model created successfu…

力扣 1035. 不相交的线

题目来源&#xff1a;https://leetcode.cn/problems/uncrossed-lines/description/ C题解&#xff1a;经过细细一推导&#xff0c;就发现跟力扣 1143. 最长公共子序列-CSDN博客 换汤不换药。 直线不能相交&#xff0c;说明元素顺序不能改变&#xff0c;求可以绘制的最大连线数…

相机显示储存卡未格式化怎么回事?怎么办

在摄影的学习和实践中&#xff0c;相机是我们记录美好瞬间的得力助手。然而&#xff0c;当相机突然提示储存卡未格式化时&#xff0c;这往往会让我们感到困惑和焦虑。本文将探讨相机显示储存卡未格式化的可能原因&#xff0c;并提供相应的解决方案。 图片来源于网络&#xff0c…

游戏引擎中的大气和云的渲染

一、大气 首先和光线追踪类似&#xff0c;大气渲染也有类似的渲染公式&#xff0c;在实际处理中也有类似 Blinn-Phong的拟合模型。关键参数是当前点到天顶的角度和到太阳的角度 二、大气散射理论 光和介质的接触&#xff1a; Absorption 吸收Out-scattering 散射Emission …

汇编语言第四版-王爽第1章 基础知识

前言 基础知识 &#xff08;1&#xff09;换成bit&#xff0c;1KB1024B&#xff0c;1Byte8bit&#xff1b;1KB1024*8bit&#xff0c;即2的13次方&#xff0c;宽度为13. &#xff08;2&#xff09;1个存储单元只能放1个字节&#xff0c;1KB1024B&#xff1b;编号从0到1023. &a…

web前端面试题----->VUE

Vue的数据双向绑定是通过Vue的响应式系统实现的。具体原理&#xff1a; 1. Vue会在初始化时对数据对象进行遍历&#xff0c;使用Object.defineProperty方法将每个属性转化为getter、setter。这样在访问或修改数据时&#xff0c;Vue能够监听到数据的变化。 2. 当数据发生变化时…

书生 浦语大模型全链路开源体系

通用大模型成为发展通用人工智能的重要途径 书生 浦语大模型的开源历程 书生 浦语 2.0体系&#xff0c;面向不同的使用需求&#xff0c;每个规格包含三个模型版本&#xff0c;&#xff08;7B、20B&#xff09;InternLM2-Base、InternLM2、InternLM2-Chat。 大模型是回归语言建…

python通过shapely 的 valid 判断aoi图形是否有效

测试aoi坐标&#xff1a; 116.527712,39.924304;116.527123,39.924353;116.52707,39.923985;116.527685,39.92397;116.527712,39.924304 如图所示是一个有效的坐标&#xff0c;使用python代码判断是否有效&#xff1a; 代码&#xff1a; from shapely.geometry import Polyg…

数字孪生|山海鲸可视化快速入门

哈喽,你好啊,我是雷工! 今天继续学习山海鲸可视化软件,以下为学习记录。 (一)新建项目 1.1、打开软件后,默认打开我的项目界面,初次打开需要注册,可以通过手机号快速注册。 点击“新建”按钮,新建一个项目。 1.2、根据项目需要选择一个快捷的项目模板,填写项目名称…