2024年大数据方向的发展趋势

最近事情较多,因为临近年底,在做总结和后续规划,在这一年中,数据开发方向仍然在快速发展,新概念和新技术层出不穷。

并且2023年是各大公司新技术大规模落地的一年,相比2022年及以前空中楼阁似的讨论和不接地气,2023年更加贴近实际,无论公司规模大小,大家都有了一些最佳实践。

下面是我观察到的行业内的一些发展和未来方向,视角较小,互相讨论。

1. 数据体系迭代加速,离线计算继续保持稳定高效,未来以稳定为主

经过10年多迭代和发展,离线计算侧各大小公司建设都比较完善,并且稳定性都很高,技术平台的周边能力开始普及,行业内形成了较为统一的标准和实践。受益于阿里在数据领域的最佳实践和方法论(OneData)的贡献,即使很小规模的公司都可以基于这些成功实践建设完善的数据仓库和数据体系,少走了很多很多弯路。一部分中小公司直接采购云平台的产品,在平台能力上直接对标一线公司的能力,是一个很好的选择。

这部分未来发展以稳定为主,离线计算作为大数据计算的基石,无论从场景丰富度,业务复杂度上都远超其他方向,也是绝大多数公司和业务的基石。但是由于这部分相对门槛较低,自闭环,所以在招聘市场上竞争力较低,相信大家有所体会。对于大多数同学,如果面向未来换工作等,可以减少对这方面的精力投入,把更多时间投到更新的领域,增强个人市场竞争力。

2. 全面拥抱实时计算,数据湖方案在头部公司全面落地,行业标准初露端倪

这两年最热最火的方向集中在实时计算和湖仓领域,大家应该都能感觉到。目前实时计算方向在行业内部没有统一的行业标准,各个大小公司对实时计算和湖仓的需求差异极大,所以大家会看到公开分享中实时架构百花齐放(菜鸡互啄)。根本原因可能是因为不同公司技术能力差异极大,业务场景差异也极大,没有可以参考的标准做法。好处是快速支持需求,坏处是未来某个节点问题会集中爆发,一定会推倒重来。所以实时计算领域的架构师/技术负责人要求很高,当然大家也会是市场上的「抢手货」。

另外,2023年及以前实时计算领域行业标准初露端倪,在数据开发的蛮荒时代,阿里承担了这个角色,贡献了很多最佳实践和方法论,成功的实践经验被行业内其他公司快速吸收。并且至今在实时计算的平台开发领域都保持一定的技术领先优势。但是在实时业务支持上,字节跳动和快手是最有可能诞生行业标准的。他们的业务形态、规模、场景都更天然贴近实时需求。并且在组织架构设计上优势明显,平台侧和业务开发同学配合更加紧密、反应更加敏捷。大家可以关注一下这两家公司的技术分享和开源产品。在未来1-3年内,一定会有一些行业最佳实践和方法论诞生,到时行业内会重新洗牌。

3. 技术分层趋势更加明显,上升通道变窄,传统公司自成一派

目前整个数据开发领域,互联网方向的大公司得益于更强大的技术优势和更复杂、丰富的业务场景,在开发应用领域明显领先规模较小的公司,尤其是在新兴的技术领域。这种分层导致大小公司在使用的技术框架、方案上产生明显分歧,未来对大家换工作并没有好处。说的直白一点,在简单业务场景下的技术方案在面对一些中大型公司的技术面试中不会被看好。

另外这其实对整个行业的同学提出了较高要求,尤其是TL这个岗位的同学,新兴技术领域不接触一线的开发和细节,会很快脱离生产实践,未来市场竞争力也会较弱,至少要保障个人对项目核心技术方案/核心难点的关注;对于较少进行一线开发的做数据治理、项目管理的同学,也要保持对一线编码的强力关注,这批同学的技术能力荒废最快,未来竞争力下降非常明显,因为过去已有的丰富经验在新领域并不适用。

传统公司在数据开发领域自称一派,例如一些国企、银行、新能源等等,他们在各自的垂直方向上有自己独特的数据开发和交付标准,并且有较高的行业门槛,和互联网形成了较为明显的差异。这些公司的同学有独有的打怪升级路径,未来会有更多的行业内的开发标准和架构方案从这些公司产生,并且对开发同学的「复合型」发展提出了要求,例如不追求很高的技术深度,对业务理解、开发流程、数据治理等方向同样看重,大家可以按照行业内的要求谋求个人发展。

以上是我对过去2023年的一些发展的思考总结,和对2024年的一些展望。一家之言大家可以参考。未来会如何发展持续关注。

2df1a3dc6665d3a52bd43d01b0a57dd5.png300万字!全网最全大数据学习面试社区等你来!

如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

f498121587d711b8969499b37048f1e9.png

823dfed7a919257cb547617ffb5fa44b.jpeg

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学,大数据专业

我们在学习Flink的时候,到底在学习什么?

193篇文章暴揍Flink,这个合集你需要关注一下

Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点

我们在学习Spark的时候,到底在学习什么?

在所有Spark模块中,我愿称SparkSQL为最强!

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么?「硬刚Hive续集」

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/364232.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

qt学习:停车场管理系统+摄像头+http识别车牌+sqlite3数据库

目录 参考前面发的几篇文章http识别车牌,sqlite3数据库、摄像头的文章 步骤 部分代码 新建一个项目,加入前面用到的http和image两个文件,和加入用到的模块和头函数和成员,加入前面用到的全局变量 配置ui界面 在构造函数中初…

Tomcat 部署项目时 war 和 war exploded区别

在 Tomcat 调试部署的时候,我们通常会看到有下面 2 个选项。 是选择war还是war exploded 这里首先看一下他们两个的区别: war 模式:将WEB工程以包的形式上传到服务器 ;war exploded 模式:将WEB工程以当前文件夹的位置…

Linux下Docker搭建部署Typecho博客【详细版】

Linux下Docker搭建部署Typecho博客【详细版】 一、环境准备1.1.准备阿里云服务器【新用户免费使用三个月】1.2.准备远程工具【FinalShell】1.3.系统信息1.4.安装所需软件包1.5.设置docker镜像源1.6.更新yum软件包索引1.7.确认停用selinux 二、安装Docker2.1.安装Docker-Ce2.2.查…

智能预测:数字化时代的服装企业如何实现准确的需求规划

在数字化时代,智能预测成为服装企业实现准确需求规划的关键。通过充分利用先进的技术手段,企业能够更精准地洞察市场动态、了解消费者行为,从而使生产计划更加敏捷、高效。以下是数字化时代服装企业实现准确需求规划的关键步骤和策略。 1.数…

探索组合模式的魅力:探索树形结构的艺术与科学

设计模式专栏:http://t.csdnimg.cn/nolNS 在面对层次结构和树状数据结构的软件设计任务时,我们如何优雅地处理单个对象与组合对象的一致性问题?组合模式(Composite Pattern)为此提供了一种简洁高效的解决方案。通过本…

InfluxDB数据的导入导出

Background influxdb支持将时序数据导出到文件,然后再将文件导入到数据库中,以此实现数据的迁移。 1、数据导出 语法: 示例: influx_inspect export -datadir "/var/lib/influxdb/data" -waldir "/var/lib/influ…

kubekey网页版安装k8s集群操作流程

kubekey可以一键拉起k8s集群并完成kubesphere的部署,以后kubekey简称kk。kk 3.2版本以前都是在宿主机上完成对应的创建集群、添加节点、升级等操作的,3.2版本后开始往页面操作的方向演进,kk 3.2版本现在还是alpha,所以不推荐在生产…

flowable 设置自定义属性教程

概述 由于工作需要给flowable工作流设计器添加自定义属性,以满足功能实现。所以这篇文章介绍下用flowable 开源的的flowable-ui 前端添加自定义属性,后端解析属性值的例子。 技术栈 序号技术点名称版本1Flowable6.8.0 使用的是flowable6.8.0 版的代码…

Flink 1.18.1的基本使用

系统示例应用 /usr/local/flink-1.18.1/bin/flink run /usr/local/flies/streaming/SocketWindowWordCount.jar --port 9010nc -l 9010 asd asd sdfsf sdf sdfsdagd sdf单次统计示例工程 cd C:\Dev\IdeaProjectsmvn archetype:generate -DarchetypeGroupIdorg.apache.flink -…

单元测试实践

一、写在开始写单元测试前 1.1 背景 我们开发都知道单元测试的重要性,而且每个开发都有要写单元测试的意识单元测试和代码编写结构息息相关,业界常用专业名词TDD(测试驱动开发),言外之意我们开始编写代码的时候就已经…

开发板——X210开发板的SD卡启动方式

以下内容源于朱有鹏嵌入式课程的学习与整理,如有侵权请告知删除。 参考博客: S5PV210 SD卡启动 - 简书 关于存储器的相关基础知识,见博文: 外存——SD卡/iNand芯片与S5PV210的SD/MMC/iNand控制器-CSDN博客 RAM、ROM和FLASH三…

Qt6入门教程 15:QRadioButton

目录 一.简介 二.常用接口 三.实战演练 1.径向渐变 2.QSS贴图 3.开关效果 4.非互斥 一.简介 QRadioButton控件提供了一个带有文本标签的单选按钮。 QRadioButton是一个可以切换选中(checked)或未选中(unchecked)状态的选项…

Flink 流式读取 Debezium CDC 数据写入 Hudi 表无法处理 -D / Delete 消息

问题场景是:使用 Kafka Connect 的 Debezium MySQL Source Connector 将 MySQL 的 CDC 数据 (Avro 格式)接入到 Kafka 之后,通过 Flink 读取并解析这些 CDC 数据,然后以流式方式写入到 Hudi 表中,测试中发现…

Java Springboot解决很多页面Whitelabel Error Page(404)问题

前言 最近接手了一个前后端一体的项目,发现其默认路径不是主机端口(如:http://localhost:3453/)的形式。很多页面的访问是加了一个层级。只要访问就会出现如下提示: Whitelabel Error Page This application has no …

双目相机立体匹配基础

双目匹配就是用左相机和右相机去拍摄同一个点,目的是找到三维世界的同一个点,也就是在左相机和右相机中的成像点之间的像素差(视差),根据视差去求解深度,那么找到左相机点到右相机的同一个对应点这个过程就…

草图导入3d后模型贴材质的步骤?---模大狮模型网

3D模型在导入草图大师后出现混乱可能有多种原因,以下是一些可能的原因和解决方法: 模型尺寸问题:如果3D模型的尺寸在导入草图大师时与画布尺寸不匹配,可能导致模型混乱。解决方法是在3D建模软件中调整模型的尺寸,使其适…

【NodeJS】005- MongoDB数据库

1.简介 1.1 Mongodb 是什么 MongoDB 是一个基于分布式文件存储的数据库,官方地址 https://www.mongodb.com/ 1.2 数据库是什么 数据库(DataBase)是按照数据结构来组织、存储和管理数据的 应用程序 1.3 数据库的作用 数据库的主要作用就是…

目标检测:1预备知识

开始涉及目标检测内容,总结一下学习记录 1、目标检测的基本概念 (一)什么是目标检测 目标检测(Object Detection) 的任务是找出图像中所有感兴趣的目标(物体),不同于分类和回归问题…

react-virtualized实现行元素不等高的虚拟列表滚动

前言: 当一个页面中需要接受接口返回的全部数据进行页面渲染时间,如果数据量比较庞大,前端在渲染dom的过程中需要花费时间,造成页面经常出现卡顿现象。 需求:通过虚拟加载,优化页面渲染速度 优点&#xff1…

如何批量删除文件名里的多余文字?

如何批量删除文件名里的多余文字?删除文件名中多余的文字可以提高文件管理的效率和可读性。简洁性:删除多余的文字可以使文件名更简洁,减少冗余信息。这样可以更轻松地浏览和识别文件,尤其是当文件数量较多时。可读性:…