什么是数据湖?
数据湖是一个以原始格式(通常是对象块或文件)存储数据的系统或存储库。数据湖通常是所有企业数据的单一存储。用于报告、可视化、高级分析和机器学习等任务。数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、pdf)和二进制数据(图像、音频、视频)。
数据湖与数据仓库的区别
与数据仓库不同,数据湖是所有数据(包括结构化和非结构化数据)的中央存储库。数据仓库利用针对分析进行了优化的预定义Schema。数据湖中未定义 Schema,支持其他类型的分析,例如大数据分析、全文搜索、实时分析和机器学习。
数据中台要解决的问题
- 数据问题:存储类型和数据类型多样化、数据高频变化、海量数据存储和计算。
- 治理问题:数据规范执行、数据标准制定、数据质量监控、数据变更管理、数据清洗加工。
- 运用问题:数据资产运营、数据开放共享、数据价值挖掘、数据智慧赋能。
基于数据湖的数据中台构建企业智能
企业发展到一定程度时常会出现数据孤岛问题,数据中台产品能打通和连接企业内部各个部