基本的数据分析工作通常包含以下几个方面的内容:
- 确定目标(输入):理解业务,确定指标口径。
- 获取数据:数据仓库(SQL提数)、电子表格、三方接口、网络爬虫、开放数据集等。
- 清洗数据:包括对缺失值、重复值、异常值的处理以及相关的预处理(格式化、离散化、二值化等)。
- 数据透视:排序、统计、分组聚合、交叉表、透视表等 。
- 数据呈现(输出):数据可视化,发布工作成果(数据分析报告)。
- 分析洞察(后续):解释数据的变化,提出对应的方案。
深入的数据挖掘工作通常包含以下几个方面的内容:
- 确定目标(输入):理解业务,明确挖掘目标。
- 数据准备:数据采集、数据描述、数据探索、质量判定等。
- 数据加工:提取数据、清洗数据、数据变换、特殊编码、降维、特征选择等。
- 数据建模:模型比较、模型选择、算法应用。
- 模型评估:交叉检验、参数调优、结果评价。
- 模型部署(输出):模型落地、业务改进、运营监控、报告撰写。