Datadog Dash 2024 新功能解析

Datadog 2024 年的 Dash 刚刚落下帷幕,作为正在与 Datadog 开始竞争的观测云,我们认真仔细的分析了 Datadog 的每一个新功能,发现一些很有意思的事情,今天就给大家做一次全面的分析。(所有 Datadog 的 Dash 的最新功能介绍均来自于 DASH 2024: Guide to Datadog's Newest Announcements | Datadog ,大家可以参考原始说明。)

Part 1: DASH 2024 Keynote Roundup

观测能力

1、LLM Observability

不出意外,Agent 开发相关的可观测性必然被引入,相较于 LangSmith 只能调试 Agent 而言,Datadog 引入整个功能可以将全生命周期的观测延展到 Agent 开发,而不仅仅局限于 Agent 开发中的调试,这个价值必然大于单纯的 LangSmith。

这个能力,观测云也开发了一段时间了,预期会在近期就跟大家见面~

2、更好的兼容了 Otel 的 Collector 的 DDAgent

Datadog 终于正式的完整的将 Otel 纳入到了自己的体系内,现在 Otel 的标准化趋势已经无法撼动,任何的 Instrumentor,无论是用什么技术,从数据结构上也必然向 Otel 靠拢,这也是商业公司的一个妥协吧,所以未来的观测世界用什么手段获取数据,用什么手段观测不重要,但大家都不约而同的选择了统一的数据结构和范式。Datadog 很早就支持了 Otel 的数据结构,只不过这一次更是可以用 DDAgent 来作为 Otel Collector 了。

对于观测云来说,可能这是第一天就支持的,尤其在中国这种大环境,还存在注入 skywalking,早期 zipkin,jaeger 等等方案,所以观测云从第一天不仅仅是 Otel 的 Collector,还是其他各种技术方式的 Collector,这也意味着至少在兼容性方面,观测云比 Datadog 更广泛。

3、强大的数据分析能力的 LogWorkspaces

日志永远是可观测性数据的一个重要的组成部分,对日志能力的支持也是 Datadog 一直补强的重点。 这次推出了基于 SQL 的日志分析工作台。

观测云本身提供了统一的数据语言 DQL,意味着本身不仅仅对于日志,对于所有的数据都可以通过 DQL 进行非常个性化的分析。当然观测云目前并没有公开支持 SQL 分析,但观测云本身就是一个 MPP 数据仓库,我们没有暂时没有把 SQL 能力开放出来,不过其实使用 DQL 就能实现类似的效果,并且可分析的数据种类远远超过 Datadog。

4、Live Debug

对于程序员来说神级功能,某种程度上观测监控平台并不是一个仅仅面向运维的平台,与传统的监控系统相比最大差异也在其更被定位成一个远程的调试平台,所以能够对生产环境进行 Live Debug 对每个程序员来说都是非常幸福的事情。

观测云目前掌握相关技术,短期内没有产品化的想法,另外对于大家来说,能够让研发直接在线注入代码进行 Debug 这种功能,是怎么看的?

5、面向产品交互设计的分析能力

这个功能是在原来的 Rum 基础上的增强,包括增加了 Session Replay,Heatmap,桑基分析等能力,看来 Datadog 本身作为优秀的交互性产品,真的对宠爱前端开发工程师。

观测云本身也是非常宠前端开发工程师的,相关能力我们也正在补充中~期待在后续的更新中看到我们的 Heatmap 和桑基分析等能力。

安全能力

Datadog 不断地补强他的安全能力,在这部分由于观测云目前没有任何进军安全的想法,故不做解读,有兴趣的朋友可以自己查看原文。

行动/执行

从这里看,Datadog 的手开始变得长了,除了观测以外,也开始进入到控制领域了,只不过和传统中国式运维控制不同,Datadog 更强调的是通过数据来控制。

1、自动为 Kubernetes 机器进行扩缩容

Datadog 目前可以通过费用数据,或者监控数据直接根据你的策略,手动或者自动对你的 Kubernetes 集群进行管理了。

观测云也提供了控制能力,通过 Func 平台,观测云也可以提供相应的控制能力,只不过和 Datadog 比,我们并没有直接提供这种能力,想想在中国市场,一个云端应用可以直接管理你的基础设施和应用,还是蛮可怕的,不知道大家接受的了吗?

2、将变更情况与告警结合起来

Datadog 支持将发生告警的时候追溯上次变更情况,并可以观测代码的变化,快速协助工程师定位问题。这又是一个很好用的站在研发视角下的功能,大家就不用出问题自己再找版本去翻代码了。

观测云目前并没有这个功能,但其实已经在日程上了。

3、大模型自动根因分析 Bits.AI

这是 Datadog 自身与大模型结合的一个能力,通过对可观测性数据综合的 RAG,来出局一定指导意义的分析。

目前观测云也在调整 Prompt 和 Workflow 以获取更好的效果。

4、提升 OnCall 的可观测性分析体验

Datadog 有自己的 APP,最近进行增强,让移动端收到 OnCall 的工程师获得更好的体验以及更好的数据分析的体验。

观测云也有自己的 APP,但坦白来说,整体能力还是距离 Datadog 比较远。

Part 2: DASH 2024 Infrastructure Roundup

云费用管理

Datadog 加强了其云费用管理的功能,包括了以下这些能力:

1、将所有云服务的费用管理集中分析,包括一些 SaaS 服务的费用统计支持

2、可以监控管理云费用的变化

3、提供面向 AWS的费用建议

4、支持 Twilio(云通信)的费用

对观测云来说,云费用管理更是已经类似解决方案的能力,我们目前并没有直接将这个能力封装成功能,但是由于观测云强大的配置能力,实际上我们不少用户就在使用观测云对自己的阿里云华为云 AWS 的费用进行分析管理和监控,未来我们考虑可以将这一部分能力设计的更好,向 Datadog 学习。

Serverless 监控

1、远程插桩 Lambda 的应用

2、提供全面的 AWS Step Functions 的可视化支持

3、自动插桩 Azure App Service Linux Web Apps

4、自动插桩 Google Cloud Run services

可以看出 Datadog 不断加强对于 Lambda 类型的函数计算的能力的支持,同时也看到 Datadog 对于多云的广泛支持。对于观测云来说,这部分是落后的,我们目前针对 AWS 还只是通过 AWS 的开源 Lambda Layer Extension 实现对 AWS Lambda 的支持,自己的 Layer Extension 正在开发中。所以这部分追赶尚需时日。

日志管理

1、通过 DDAgent 进行采集数据时的脱敏

2、提供更廉价的日志存储方案 Flex Logs

对于日志管理这两块的增强,首先第一个能力,观测云在一开始大量的技术都是放在客户端侧,因此端侧脱敏从一开始观测云通过 Pipeline 就支持了。 和 Datadog 相反,我们恰恰刚刚提供了中心侧的处理能力包括脱敏能力。

而日志本身提供更廉价分层,也是观测云努力的目标,期待在今年内看到我们有趣的存储方案。

网络监控

1、找到网络路径中的问题

2、从 IP 库 了解 IP 地址的信息

3、网络性能的监控能力

4、为自定义发现的网络设备追加 Tag

和观测云一样,Datadog 对本地网络监控能力也是后期追加的,也算在 npm 领域的追赶着,可能观测云在网络设备监控相关能力还比较弱,相较于 Zabbix,目前我们也在抓紧这部分能力的补全。

分析能力

1、DDSQL Editor

2、快速基于图形的根因分析

3、更好的告警分析面板

4、基础设施故障与变更关联

这两个分析能力对于观测云来说,第一个是基于 DQL 现在就有的能力,除了不是 SQL,我们早就可以做类似的自主分析,当然其实也可以基于 SQL,如果使用我们部署版本的客户,其实是可以打开 SQL 入口的。

第二个功能,又是一个结合大模型的功能,对我们非常有启发,期待后续提供类似的能力。

第三个功能非常值得借鉴,我们会尽快研究推出类似的能力。

第四个变更的关联分析这种能力也是 Datadog 完整变更观测的一部分,我们在整体的变更观测分析功能推出的时候会体现出来。

平台能力

1、Datadog Disaster Recovery

2、通过 Fleet Automation 管理 DDAgent

3、支持了美国政府专有云

关于这些,Datadog Disaster Recovery 是 Datadog 作为一个 SaaS 给到管理员一个超级权限进行行为兜底,显然是为了取得大企业的信任,当然这一点上观测云本身提供 OP 模式,在 OP 模式下的控制台就有这个能力。

而 Fleet Automation 对应的是观测云的 DCA(Datakit Control Administer),可以帮你轻松的管理所有的 Agent。

关于支持美国政府专有云这点我想说得是观测云刚刚取得了阿里云飞天专有云的兼容和适配认证,可以全方位的为所有的阿里云专有云用户提供服务。当然我们同时也支持包括华为云的 HCS 和腾讯云的 TCS。

Part 3: DASH 2024 Applications Roundup

APM 和持续追踪的增强

1、提升了 apm 的探针的配置简易度

这块用户体验部分 Datadog 加强了,观测云之前和 Datadog 一样是配置流,而不是 Newrelic Dynatrace 这种简易安装流的,当然看到 Datadog 妥协了,我们也会尽快妥协。(但确实这种建议流在实际使用中会有很多问题,更适合一开始获取用户的好感和简单应用,关于这一点后面会写文章展开解释)

2、了解服务的健康度

3、支持分布式链路追踪的瀑布流形态

这个能力观测云差不多两年前就支持了,很高兴看到 2024 年的 Datadog 才支持,而且居然整体设计和我们近乎一样。

4、分析运行时 Profiling 能力

目前观测云正在支持 Profiling 数据的指标提取功能,会增加更多的分析指标时间线(当然也会增加费用),至于后续是否要提供这样一个分析能力,我们会先对客户做一番了解(主要会增加不少成本),Datadog 当然是卖得非常贵。

5、Go 语言的 Profiling CPU Cost 显著下降 14%

观测云兼容 ddtrace 的 Profiling 的组件,如果用这个组件,天然会获得这个能力。

6、自动分析内存泄漏趋势的应用

非常好的能力,观测云将尽快跟进。

数据服务可观测

1、Data Jobs Monitoring 监控大数据传输处理

2、Data Streams Monitoring 支持更多的数据产品(Spark jobs, S3 buckets, Snowflake tables)

3、跟踪下游数据消费

4、通过 Datadog USM 自动发现 PostgresQL 和 Kafka

5、直接监控管理 Snowflake

6、 PG 的 Schema 可观测的支持

对于 Data 的整体监控观测方案,观测云确实落后 Datadog 不少,因为海外技术生态,不管数据库和大数据系统都相对统一,没有那么多的七七八八的开源分支,使得 Datadog 在这件事情上做起来相对标准,可以提供标准化产品。当然观测云本身也没在这部分做过多的投入,我们目前也在思考注入和 AutoMQ,Oceanbase 等中国自己的产品合作,共同打造一整套的面向数据处理过程的全面观测方案。

数字体验分析加强

1、更强大的前端性能分析辅助

观测云也在不断优化自己的 Rum 页面分析能力,这个能力非常好,我们会尽快引入。

2、使用真实用户流量数据来揭示代码中的问题

这又是一个非常提升前端工程师体验的功能,将所有 Rum 元素整合起来方便工程师分析,我们会考虑支持这个能力。

3、支持 Rum session Replay的尾部采样

这个功能观测云早就支持了,可以通过 Datakit 对获取的 Session Replay 进行采样,比如只采集有错误的Replay。

4、支持 Unity SDK

又一个观测云更早支持的能力,观测云早就支持了 Unity 应用。

5、混合编程应用的 Crash 报表整合

这块能力 Datadog 一致做得体验非常好,我们加油吧。

6、优化浏览器 SDK 的集成

这块网页版的 SDK 注入方便程度,观测云也非常简单易用。

7、通过 VScode 插件重现错误

又是一个宠程序员的功能,Datadog 真的非常宠程序员,相信大家对这个能力都很有兴趣,但公司愿意多付费吗?

DASH 2024: Guide to Datadog's newest announcements for security

Datadog 不断地补强他的安全能力,在这部分由于观测云目前没有任何进军安全的想法,故不做解读,有兴趣的朋友可以自己查看原文。

DASH 2024: Guide to Datadog's newest announcements for teams

服务可靠性与交付相关

1、团队 Dora 指标观测

这个功能也是治理方面的,算是一个集成 Dashboard,如果哪位有需要,观测云可以也提供类似的看板,当然也可以提供更多的看板。

2、整体 SLO 的观测大屏

这个能力同上,也是一个整合的 Dashboard,观测云针对 SLO 也有自己的看板,风格不同。

团队数据访问能力

1、Datadog CoTerm

Datadog 收购了 CoTerm 以后,将 CoTerm 的能力整合进来了,但第一个能力居然是协同的终端,同时相当于提供了一个类似堡垒机的能力。

2、跨组织的数据分析

这个能力观测云估计已经有了超过一年了,而且观测云还可以将不同组织的数据 union 查询,希望 Datadog 尽快跟上,毕竟已经开始提供 DDSQL 了。

3、Datadog App Builder

Datadog 的 Dashboard 可以通过 AppBuilder 构建交互式应用,关于这个能力其实观测云也有,当然用户体验稍逊,大家如果需要了解的话可以在观测云的 Dashboard 中选择命令空间,然后在观测云的 Func 中编写对应的执行函数,就可以将 Dashboard 化身为一个带交互的应用。

在线 sheet 分析能力

这是个非常友好的功能。支持将导出的 CSV 文件不用本地 Excel 分析,Datadog 提供了一个在线的 Excel 分格的 CSV 分析能力。

管理敏感数据

这两个功能我们去年就完全支持了。给观测云提出这个需求的是非常注重安全合规的世界五百强头部公司,他们同时也是 Datadog 的大用户。

总结

Datadog 作为目前全球监控观测领域的领导者,是非常值得观测云这样的后来者学习的,大家如果仔细看了Datadog Dash 2024 展示的一些新的功能和改进后就会发现几个点:

  • Datadog 试图不断的将企业的 IT 团队的人通过一个平台整合起来
  • Datadog 非常注重讨好工程师,非常关注用户体验,传递了尊重每一个工程师的理念
  • Datadog 开始扩展自己的边界,包括没有提的安全部分

另外我们非常自豪的表示,观测云整体的设计思路和理念是和 Datadog 近乎一样的,所以才会出现很多功能甚至观测云更早的支持,因为我们相信很多功能需求是来源于最终用户的,我们面对的用户是一种用户,那么大家才会出现很多相似的想法。(包括去年 Datadog 发布的 Case Management 几乎和观测云的异常追踪功能是同月上线的)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/774096.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【解码现代 C++】:实现自己的智能 【String 类】

目录 1. 经典的String类问题 1.1 构造函数 小李的理解 1.2 析构函数 小李的理解 1.3 测试函数 小李的理解 1.4 需要记住的知识点 2. 浅拷贝 2.1 什么是浅拷贝 小李的理解 2.2 需要记住的知识点 3. 深拷贝 3.1 传统版写法的String类 3.1.1 拷贝构造函数 小李的理…

Pspice添加新的元器件

1.下载好的Pspice的模型文件。 2.将模型文件的,识别类型修改为 lib 选择Pspice的模型路径 会立马跳出,下面的这个窗口。 核实元器件图形,没问题。 添加Pspic仿真模型文件 验证,是否添加模型文件成功 使用模型文件

学会python——用python制作一个登录和注册窗口(python实例十八)

目录 1.认识Python 2.环境与工具 2.1 python环境 2.2 Visual Studio Code编译 3.登录和注册窗口 3.1 代码构思 3.2 代码实例 3.3 运行结果 4.总结 1.认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可读…

扫地机器人如何利用图算法来进行避障策略和优化清扫路径的?

前言 扫地机器人是现代家庭中最常见的智能设备。其基本的核心组件由主控系统(大脑)、传感器等控制系统(感知系统)、动力供应系统(心脏)、清扫系统(四肢)组成。 扫地机器人的智能、高…

【中项第三版】系统集成项目管理工程师 | 第 9 章 项目管理概论② | 9.4 - 9.5

前言 第 9 章对应的内容选择题和案例分析都会进行考查,这一章节理论性较强,学习要以教材为准。本章分值预计在4-5分。 目录 9.4 项目生命周期和项目阶段 9.4.1 定义与特征 9.4.2 生命周期类型 9.5 项目立项管理 9.5.1 项目建议与立项申请 9.5.2 …

交换数字00

题目链接 交换数字 题目描述 注意点 numbers.length 2-2147483647 < numbers[i] < 2147483647 解答思路 不适用临时变量&#xff0c;可以先将numbers[0]和numbers[1]的信息都存到某个位置&#xff08;可以相加可以相减或其他位操作&#xff09;&#xff0c;然后另一…

昇思MindSpore学习笔记4-02生成式--DCGAN生成漫画头像

摘要&#xff1a; 记录了昇思MindSpore AI框架使用70171张动漫头像图片训练一个DCGAN神经网络生成式对抗网络&#xff0c;并用来生成漫画头像的过程、步骤。包括环境准备、下载数据集、加载数据和预处理、构造网络、模型训练等。 一、概念 深度卷积对抗生成网络DCGAN Deep C…

MMSC物料库位扩充

MMSC物料库位扩充 输入事务码MMSC&#xff1a; 回车后添加新的库位即可&#xff1a; 代码实现&#xff0c;使用BDC *&------------------------------------------------* *&BDC的定义 *&------------------------------------------------* DATA gt_bdcdata T…

【UE5.1】Chaos物理系统基础——03 炸开几何体集

目录 步骤 一、通过径向向量将几何体集炸开 二、优化炸开效果——让破裂的碎块自然下落 三、优化炸开效果——让碎块旋转起来 四、优化炸开效果——让碎块旋转的越来越慢 步骤 一、通过径向向量将几何体集炸开 1. 打开上一篇中&#xff08;【UE5.1】Chaos物理系统基础—…

百度出品_文心快码Comate提升程序员效率

1.文心快码 文心快码包含指令、插件 和 知识三种功能&#xff0c; 1&#xff09;指令包含Base64编码、Base64解码、JSON转TS类型、JSON转YAML、JWT解码喂JSON。 2&#xff09;插件包含 3&#xff09;指令包含如下功能&#xff1a; 官网链接

Jenkins 强制杀job

有时候有的jenkins job运行时间太长&#xff0c;在jenkins界面点击x按钮进行abort&#xff0c;会失败&#xff1a; 这时候点击&#xff1a; “Click here to forcibly terminate running steps” 会进一步kill 任务&#xff0c;但是也还是有杀不掉的可能性。 终极武器是jenkin…

Aigtek电压放大器参数有哪些

电压放大器是广泛应用于电子电路中的一种重要电路元件&#xff0c;它主要用于将输入信号的电压放大到所需的输出电压水平。在设计和使用电压放大器时&#xff0c;我们需要了解并考虑一系列的参数和特性。本文将详细介绍电压放大器的主要参数&#xff0c;包括放大倍数、带宽、输…

springboot校园购物网站APP-计算机毕业设计源码041037

摘 要 21世纪的今天&#xff0c;随着社会的不断发展与进步&#xff0c;人们对于信息科学化的认识&#xff0c;已由低层次向高层次发展&#xff0c;由原来的感性认识向理性认识提高&#xff0c;管理工作的重要性已逐渐被人们所认识&#xff0c;科学化的管理&#xff0c;使信息存…

【国产开源可视化引擎Meta2d.js】图层

独立图层 每个图元都有先后绘画顺序&#xff0c;即每个图元拥有一个独立图层&#xff0c;即meta2d.data().pens的数组索引。 可以通过meta2d.top/bottom/up/down等函数改变独立图层顺序。 分组图层 通过标签可以标识一个分组图层&#xff0c;通过meta2d.find(图层标签)获取…

己内酰胺纯化除杂的最佳工艺

己内酰胺纯化除杂的最佳工艺包括结晶法、离子交换树脂法、精馏法和萃取法等&#xff0c;每种方法都有其特定的应用场景和优缺点。以下是对这些方法的详细介绍&#xff1a; 最佳工艺介绍 ● 结晶法&#xff1a;通过调节pH值&#xff0c;使己内酰胺在特定条件下结晶&#xff0…

yolov8环境安装(可修改代码版本,源代码安装)

下载下来源文件以后&#xff0c;进去文件目录&#xff0c;然后输入pip指令&#xff0c;即可安装yolov8 cd ultralytics-main pip install -e . 直接使用pip安装的情况 当你使用pip install ultralytics这样的命令安装YOLOv8时&#xff0c;你实际上是在从Python包索引&#x…

C#实战|账号管理系统:通用登录窗体的实现。

哈喽,你好啊,我是雷工! 本节记录登录窗体的实现方法,比较有通用性,所有的项目登录窗体实现基本都是这个实现思路。 一通百通,以下为学习笔记。 01 登录窗体的逻辑 用户在登录窗输入账号和密码,如果输入账号和密码信息正确,点击【登录】按钮,则跳转显示主窗体,同时在固…

AI提示词:一个能让你的AI提升10倍逻辑能力的提示词,只有这几个字,Kimi和GPT都适用!

昨天晚上和朋友聊天&#xff0c;聊到AI提示词在实际使用过程中的逻辑能力问题。 他也是一个AI提示词的重度使用者&#xff0c;但是会经常遇到一个问题&#xff1a;明明觉得自己的提示词描述的很清楚了&#xff0c;可是AI输出的内容还是达不到自己想要的效果。 今天给大家分享…

认识不-物联网“六域模型”有哪些有什么作用

如下参考源于苏州稳联授权可见认知域-感知域-网络域-应用域-管理域-安全域-物联网六域模型 苏州稳联 (iotrouter.cn) 认识物联网“六域模型”&#xff1a;构成与作用 “六域模型”是一个有效的框架。这个模型通过将物联网划分为六个相互关联的域&#xff0c;帮助我们更好地理…

【网络安全】漏洞挖掘之Spring Cloud注入漏洞

漏洞描述 Spring框架为现代基于java的企业应用程序(在任何类型的部署平台上)提供了一个全面的编程和配置模型。 Spring Cloud 中的 serveless框架 Spring Cloud Function 中的 RoutingFunction 类的 apply 方法将请求头中的“spring.cloud.function.routing-expression”参数…