目录
- 准备工作
- 导入csv数据集
- 选择前200行作为数据集
- 展示数据集的前/后几N行
- 宏观分析
- 删除缺失值
- 构建直方图
- 导出为图片
- R语言常见图像类型
- 例1:散点图
- 例2:散点矩阵图
准备工作
- 安装教程: R语言和RStudio的下载安装(非常简便舒适)
导入csv数据集
- 右上角导入数据集。
选择前200行作为数据集
data <- BOOK_TEST[1:200,c(1,2,3)]
展示数据集的前/后几N行
head(data)
tail(data,10)
宏观分析
summary(data)
删除缺失值
- 这个测试数据集中并没有缺失值。
data = na.omit(data)
构建直方图
- 第三列数据是对书籍的打分。
hist(data$V3)
导出为图片
R语言常见图像类型
- 散点图(Scatter plot)、折线图(Line plot)、条形图(Bar plot)、直方图(Histogram)、箱线图(Box plot)、饼图(Pie chart)、热力图(Heatmap)、散点矩阵图(Scatterplot matrix)
例1:散点图
# 创建示例数据
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 6, 8, 10)
# 创建散点图
plot(x, y, main = "Scatter Plot", xlab = "X", ylab = "Y", pch = 16, col = "blue")
例2:散点矩阵图
- 散点矩阵图(Scatterplot Matrix)是一种用于可视化多个变量之间关系的图表。它展示了数据集中多个变量两两之间的散点图,每个格子代表了两个变量之间的关系。散点矩阵图可以帮助我们观察和理解变量之间的相关性、分布情况以及可能存在的模式。
- 散点矩阵图的主要作用和使用场景如下:
- 变量关系探索:散点矩阵图可以帮助我们直观地观察多个变量之间的关系,特别是在变量较多时。通过观察散点图的分布和趋势,我们可以发现变量之间的线性或非线性关系,以及可能存在的异常值或离群点。
- 相关性分析:散点矩阵图可以帮助我们评估变量之间的相关性。通过观察散点图中点的分布情况,我们可以判断变量之间的相关性强弱、正负相关以及可能存在的非线性关系。
- 变量选择:散点矩阵图可以帮助我们在多个变量中选择与目标变量相关性较高的变量。通过观察散点图中与目标变量相关性较强的变量,我们可以选择最具有预测能力的变量进行进一步分析。
- 数据预处理:散点矩阵图可以帮助我们发现数据中的异常值、缺失值或其他数据质量问题。通过观察散点图中的异常点或缺失值模式,我们可以进行相应的数据清洗和预处理操作。
总之,散点矩阵图是一种强大的数据可视化工具,适用于探索性数据分析、相关性分析和变量选择等场景。它可以帮助我们更好地理解数据集中多个变量之间的关系,从而支持数据分析和决策过程。
# 创建示例数据
data <- iris[, 1:4]
# 创建散点矩阵图
pairs(data, main = "Scatterplot Matrix")