一、前言
前面给大家梳理了一下大数据领域领先厂商 snowflake 和 databricks 的最新进展,还挺受欢迎,都是大几千的阅读量。没有看过的可以翻看下面的链接:
大模型时代最懂数据的公司 databricks
snowflake 不再是个数据仓库公司了
应该说大数据公司和 AI 结合是理所应当,No Data No AI,接下来再完整梳理下常见的大数据公司和 AI 的进展,供大家参考,相信可以启发大家对这个行业有了解,对正在从事相关工作的同事肯定就更有帮助。
百度智能云云数据库,开启了特惠专场!热销规格新用户免费使用,欢迎参与!
二、先上总结
惯例,先给结论,详细的慢慢到来!
大数据厂商和大模型结合,大的分类可以分两类:
-
一类是 AI fox BigData,利用大模型本身的能力改造已有的业务,从结合的深浅,可以分为解决方案层面宣传,简单叠加,以及深度改造。其中Palantir AIP 和帆软算结合的比较深入。
-
一类是 BigData for AI,给大模型提供配套的工具链,基础设施等。分两大类,一类是做一些垂直领域的,比如做数据治理,数据提取或者提供向量能力。一类是提供比较全的工具链,如星环,databricks。星环甚至还切入了应用领域。
1、AI for BigData
1.1 解决方案层面宣传
1.1.1 科杰
和 AI 结合主要还是强调自身底座的数据能力可以支撑 AI,属于解决方案层面,没有看到具体的AI和产品结合的部分。
1.1.2 邦盛科技
专注实时数据处理,暂未看到和大模型结合的产品。
1.1.3 博睿数据
已有产品应用算力调度观测。(Bonree ONE可以对任务执行、算力调度过程、算力调优结果进行观测分析,以评估算力调度的可行性,为各类数字化应用提供稳定、高效的算力支持)。
1.2 简单叠加大模型能力
1.2.1 观远
chat2answer,通过问问题直接出答案。
智能化应用,帮助用户智能总结,智能决策。有点类似 AIP。
1.2.2 思迈特
AI for BI
对话式 BI ,提问直接出结果(表格,图表),看 demo 像是直接依赖大模型的能力。
对AI 的利用较浅,结合也不算深入。
1.2.3 永洪
能力类似chat2answer,做得比较浅。
1.3 深度改造已有产品
1.3.1 帆软
主要思路是 AI for BI,利用 AI 的能力深度改造当前 BI 产品线。(数据编辑,生成公式,生成图表,智能解读,智能美化等。
1.3.2 Palantir AIP
大模型能力和原有平台进行了深度融合,包括提供了决策能力等。(观远的智能化应用有点类似,但是观远应该做的比较浅)
2、BigData for AI
2.1 垂直领域产品赋能大模型
2.1.1 亿信华辰
AI 的能力融合到了BI 和数据治理两方面。
- AI for BI
- AI for 数据治理:智能关系构建,扫描敏感信息,智能映射元数据等。
2.1.2 Unstructured
做数据提取等工作,给 RAG 或者大模型 SFT 准备语料。
2.1.3 ES
提供向量能力,AI search。
2.2 提供基础大模型配套工具链
2.2.1 星环
- 发布知识平台,包括知识管理,语料清洗加工,大模型基础服务几部分。
- 其中语料清洗加工服务,支持20+主流文档格式、数据化学公式、复杂语料处理、语料自动标注及筛选、多视角体系化资产编目和数据治理等。
- 大模型运营平台,提供一站式大模型生产应用全流程开发工具链。
- 垂直领域问答产品(RAG+垂直领域知识),类似我们的 DBSC 包含了数据库知识
- 继续更新大数据平台,分布式数据库等。
2.2.2 Databricks
- 通过统一元数据,统一存储格式,开放的 data lake 架构解决数据治理的问题。
- 收购 moscaic ai 补齐 AI 全链条能力,数据平台和 AI 平台两者有融合的趋势(元数据打通)
AI4DB 深度结合产品,包括在编辑框,语法层面结合,不是简单的对话框。
三、各厂商详细说明
下面是各个厂商的一些更详细说明,没耐心的可以看上面的简介就够了,可以跳过到最后面。
3.1 帆软
- BI 厂商,收入 14.6 亿
- 三个产品:FineReport(大屏,报表)、FineBI(敏捷 BI 产品)、简道云(低代码平台,在线表单,业务流程,仪表盘)
- 推 AI for BI 概念
FineChatBI,三大能力组件,五大 AI 价值场景,其中三大能力组件:
三大组件分别是数据编辑能力、模型构建能力、分析函数能力,在实现可视化能力和分析能力并行的同时,进一步降低数据分析的使用门槛。
五大 AI 价值场景:
- 智能数据编辑,可以按照用户的描述进行数据编辑;
- 智能生成公式,根据用户的问题,由AI撰写复杂的def函数或其他函数;
- 智能生成图表:根据用户需求,生成图表;
- 智能解读,将已有的分析结论,自动生成「分析文档」供阅读;
- 智能美化,AI辅助进行仪表板布局、样式调整。
总结:主要思路是 AI for BI,利用 AI 的能力深度改造当前 BI 产品线。(数据编辑,生成公式,生成图表,智能解读,智能美化等)
3.2 思迈特
- BI 厂商,主要能力:基于传统BI上的智能问数
- 思迈特主要聚焦在BI能力层,项目实施中底层的数据治理基本都是与第三方合作,在传统数据治理方面可以合作
- 提供对话式分析能力
- 总结:对话式 BI ,提问直接出结果(表格,图表),看 demo 像是直接依赖大模型的能力。对AI 的利用较浅,结合也不算深入。
3.3 亿信华辰
BI 和数据治理厂商,两个产品:
首先是数据治理平台
- 睿治-智能数据治理平台:十大产品模块可独立或组合使用,打通数据治理全过程,适应各类不同的数据治理场景应用。
- 数据治理:在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。
- AI 和数据治理的结合:
- 基于存储过程、SQL、数据库定义自动理解数据关系
- 智能扫描识别、标记敏感数据
- 内置常规数理统计算法,支持绑定机器学习算法
国产化BI工具
- 覆盖数据分析完整流程,提供从数据接入,到数据整合与处理、指标管理、再到数据分析和应用等一系列功能。
- BI 里面加了 AI 的能力
总结:AI 的能力融合到了 BI 和数据治理两方面。其中 AI for 数据治理包括智能关系构建,扫描敏感信息,智能映射元数据等
3.4 观远
BI 厂商,SaaS 化产品,相比帆软主要特点在易用性,底层数据引擎分布式能力,性能上有优势(帆软新版本也优化较大)
当前,观远数据已进入零售与消费、金融、高科技、互联网等近 10 个行业,标杆客户包括联合利华、LVMH、招商银行、宁波银行、安踏、元气森林、小红书、蜜雪冰城、扬子江药业、华润集团等 400 多家企业。
和 AI 结合,主要是观远数据 BI Copilot 和 智能化应用:帮助智能总结,智能决策,找出问题和预警。
其中智能化应用主要是内置一些 AI 算子,可以做智能预警,时序预测,趋势分析,归因分析,评分卡等功能(可能是小模型做的)。
总结:chat2answer和 智能化应用(帮助用户智能总结,智能决策。有点类似 AIP)
3.5 永洪
- 借助 LLM 智能,革新 SQL 查询与分析方式,自然语言交互零门槛,自动化优化性能,灵活处理复杂需求,高效完成数据分类、翻译等任务,助力企业实现深度洞察与决策提速。
- 直接转成 SQL 查询,给结果,依赖大模型能力,能力比较弱。
3.6 星环
星环科技的定位从 Data Infra 进一步延伸到 AI Infra,为企业客户打造 AI 基础设施,打造从语料处理、模型训练、知识库建设等的一整套的工具链,帮助企业快速建立行业大模型,快速使用AIGC。
星环科技整合大数据、人工智能等技术,推出知识平台 Transwarp Knowledge Hub(TKH),为企业提供一个全面、高效、智能的数据处理和知识管理解决方案。
星环的知识平台 TKH 包括知识存储与服务、语料开发与知识构建、大模型基础服务等几个重要部分。
星环科技发布了一站式多场景语料平台 Transwarp Corpous Sudio(TCS),覆盖了语料获取、清洗、加工、治理、应用和管理的全生命周期,支持 20+ 主流文档格式、数据化学公式、复杂语料处理、语料自动标注及筛选、多视角体系化资产编目和数据治理等。
星环科技推出大模型运营平台 Transwarp Sophon LLMOps,提供一站式企业级大模型生产及应用全流程开发工具链,助力企业构建自己的专属大模型。
基于无涯大模型,星环知识平台 TKH 打造了无涯·问知、无涯·问数、无涯·金融、无涯·工程等AI原生应用,可应用于金融、能源、制造、工程等多个领域,通过数据分析和知识管理,满足企业不同类型的知识应用需求,提升企业业务效率和竞争力。
星环大数据云平台推出 TDC 5.0,将原来的多个 TDH 集群统一纳管,统管多个 TDH 集群,形成物理上分散、逻辑上统一的企业级一体化大数据平台。
星环科技推出了分布式交易型数据库 KunDB 4.0,高可用能力与Oracle兼容性提升,支持跨系统多租户部署。
星环大数据开发工具 TDS 4.0,增加了数据实时同步、数据入湖向导、智能化数据资产盘点、数据资产门户、数据服务编排等功能。
星环大数据安全与隐私保护工具软件 Transwarp Defensor 是星环科技自主研发的大数据安全与隐私保护安全管理平台,致力于帮助企业建设以数据为中心的数据安全防护体系。
星环数据要素流通平台 Transwarp Navier 通过提供隐私计算环境,使得数据供需双方可以进行安全的数据交易。而 Transwarp Navier 3.1 则新增了全链路智能合约确保安全合规、数据流通全链路行为监控与分析、实时告警与阻断等。
总结:
- 发布知识平台,包括知识管理,语料清洗加工,大模型基础服务几部分。
- 其中语料清洗加工服务,支持20+主流文档格式、数据化学公式、复杂语料处理、语料自动标注及筛选、多视角体系化资产编目和数据治理等。
- 大模型运营平台,提供一站式大模型生产应用全流程开发工具链。
- 垂直领域问答产品(RAG+垂直领域知识),类似我们的 DBSC 包含了数据库知识
- 继续更新大数据平台,分布式数据库等
3.7 科杰
定位 dataops ,EDAP + BML + 数据标注 + 数据湖,具体产品和架构如下:
和 AI 的关系,强调自身底座能力:加速 ChatGPT AI 大模型的商业化落地其底层逻辑离不开数据基础设施和数据能力的体系化建设。自主研发的云原生湖仓一体数据智能平台 KeenData Lakehouse,采用国际领先的湖仓一体架构重复分融合了数据湖和数据仓库各自的优势,实现一套数据、一套任务在湖和仓之上无缝调度和管理,面对不同行业的 AI 大模型 KeenData Lakehouse 提供数据集成、数据标注、数据算法、数据分析、数据治理等一站式数据底座能力。
总结:和 AI 结合主要还是强调自身底座的数据能力可以支撑 AI,属于解决方案层面,没有看到具体的 AI 和产品结合的部分。
3.8 邦盛科技
金融科技发家,专注大数据实时智能领域,主要产品
- 流立方:大数据实时智能处理平台:
- 图立方:实时图指标存算一体平台
- 算立方:时序批式计算引擎
- 数据实时加工平台 PipeACE
- 三核决策平台:决策引擎
- 设备指纹 Pro
总结:专注实时数据处理,暂未看到和大模型结合的产品。
3.9 博睿数据
博睿数据是一家专注于 IT 运维管理领域的企业,主要提供应用性能监测服务、销售应用性能监测软件及提供其他相关服务。
美国类似企业,2005 年起美国相继诞生了 Dynatrace、New Relic、Datadog 等企业,产品研发方向为一体化平台。
公司是国内 APM 领域龙头,已经连续三年市占率第一(20%)。
国际电信联盟(ITU)于 2023 年 12 月正式发布智能运维(AIOps)标准,博睿数据作为参编单位参与了该国际标准的制定
总结:和大模型结合的点,已有产品应用算力调度观测。Bonree ONE 可以对任务执行、算力调度过程、算力调优结果进行观测分析,以评估算力调度的可行性,为各类数字化应用提供稳定、高效的算力支持。
3.10 Databricks
理念上:要从通用智能到数据智能,从单独的大模型到 compound AI系统,大模型时代最懂企业数据的公司,坚持企业数据的价值。
- 收购 Mosaic AI,从而实现从数据准备,模型构建,部署,评估,治理全链条有能力
- data lake 支持 JSON,解决 string 效率不高,而大模型时代半结构化数据,稀疏数据大量新增,需要新的数据结构才能处理的问题。
- 数据治理还是 AI 的难点。开放存储,开放访问,统一元数据是理想的架构
- 通过统一元数据的 metrics 实现业务到数据的映射,从而能理解业务数据
- lakehouse monitoring 支持大数据,AI两个场景,说明 lakehouse 确实做的比较深入了
- 支持用自然语言修改代码,以及在 SQL 语句里面直接插入自然语言,向量的接口等。AI4DB 体验结合得比简单的对话框更自然。
总结:
- 通过统一元数据,统一存储格式,开放的 data lake 架构解决数据治理的问题。
- 收购 moscaic ai 补齐 AI 全链条能力,数据平台和 AI 平台两者有融合的趋势(元数据打通)
- AI4DB 深度结合产品,包括在编辑框,语法层面结合,不是简单的对话框。
3.12 Unstructured
做 RAG,SFT 数据准备的:
类似的数据准备的开源产品还有很多,比如:
- OmniParse
- sparrow
总结:做数据提取等工作
3.13 ES
AI Search产品,突出 serverless 能力,所以叫 datalake
3.14 Palantir AIP
Foundry/Gotham 中的 GenAI 能力开发平台,基于 AIP 开发的 GenAI 能力可以极大拓展Foundry/Gotham 中数据分析、决策制定的范围和场景,也拓展了用户与 Foundry/Gotham 的交互方式(自然语言交互)
Foundry/Gotham 原本只支持开发基于固定业务逻辑、统计算法、优化算法、传统 AI 模型等的分析和决策能力(如库存分配算法),这些算法和模型在语义分析方面相对较弱;引入 AIP,用户可以开发基于 LLM 的分析和决策能力(如提炼客户关切点),完成更多语义相关的分析和决策任务
总结:大模型能力和原有平台进行了深度融合,包括提供了决策能力等。(观远的智能化应用有点类似,但是观远应该做的比较浅)。