文章目录
- 某保险医疗事故赔偿因素分析
- 源码
- 源文件下载
某保险医疗事故赔偿因素分析
我们分析数据集“诉讼”的第一个方法是确定样本数量、变量类型、缩放/编码约定(如果有)用于验证数据清理。 接下来,数据集看起来很干净,没有缺失值,并且对于分类变量,将编码约定替换为实际值,以便更好地理解它们。 因此,私人律师、严重程度和性别变量编码约定已更新。
如下所示,首先安装并加载分析所需的库。 在本例中,我们使用了“tidyverse”、“funModeling”和“Hmisc”。 这些软件包专为探索性数据分析、数据准备、数据操作、探索和可视化而设计。 将数据集文件读入 R 以访问数据并进行分析。
最好了解样本数、列数及其相应的数据类型,如下所示。
下图显示了零的数量(q_zeros)、零的百分比(p_zeros)、无限值的数量(q_inf)、无限值的百分比(p_inf)、NA的数量(q_na)、NA的百分比(p_na)的摘要, 数据类型(type),数据集文件中每一列的唯一值(unique)的数量。 考虑此输出的原因是具有大量