数据分析场景下,企业大模型选型的思路与建议

来源/作者:爱分析

随着大模型带来能力突破,让AI与数据分析相互结合,使分析结果更好支撑业务,促进企业内部数据价值释放,成为了当下企业用户尤为关注的话题。本次分享主要围绕数据分析场景下大模型底座的选型思路,以及当下热点问题解答展开。 

分享嘉宾|张逸凡 Kyligence 研发副总裁

01 AI 对数据分析带来的变革

1.1 AI技术变革

在AI诞生以后,我们面临的变化主要在于其具备更加卓越的泛化能力。这种能力使我们能够更为准确地理解用户需求,将其转化为具体的指令,乃至进一步完成数据层面的总结和文档的撰写。此外,AI也能够灵活运用工具,例如通过AI Agent来执行一些复杂的任务。

这些都是AI实现持续迭代后带给我们的重大变化,且能明显感觉到这种变化的速度十分迅速。像是GPT4最新版本只需简短的描述就能创建一个新的Agent,如此一来,许多用户甚至可以在没有任何专业知识的情况下,创新性地开发自己的应用。

1.2 大模型+数据分析产品能力介绍

在大模型与数据分析结合的方面,目前我们已实现以下能力。

这里所呈现的是从指标的搜索到指标的展示,再到分析过程的对话式理解,最终我们能够借助对话沉淀出一个仪表盘,实际上这是将分析过程进行聚合的一种方式,其中的优点在于它能够降低我们自定义BI能力的成本,并引导用户去思考,带着数据分析的思路前行。

同时我们还提供了一些关键指标的分析,这个功能在我们公司内部使用得非常广泛。我们将很多管理的目标进行数字化,然后通过目标指标的方式进行展现、计算和归纳,最后每周都会在各个部门生成报表。

从数据化管理的角度来看,AI 确实帮我们完成了大量的信息收集,包括它能够很好地处理一些较为复杂的指标,提取其中重要的信息,然后进行总结,并给出一些建议。当然这里面的一些建议可能是基于它本身的一些通用性的判断,并不一定比我们更了解业务,但它强大的归纳能力确实能帮助我们更好地聚焦在数据的一些特征点上。除此之外,还有一些归因分析的能力。实际上归因分析有两种情况,一种是基于数据的,类似于贡献度分析,我们当前所采用的就是这种类型。另外一种是基于指标之间的相关性。

这部分实际运用的是平台自身的能力,而非大模型。平台能将这些数据进行内部的分析,因为我们采用的是让用户使用工具的方式,但整个使用的过程是通过平台能力迭代完成的,这样也就降低了大数据的使用门槛。同时,我们也提供了一些集成能力,能够与第三方的一些资源,例如数据分析系统进行联动,以及下游也可以进行聊天功能的打通。

02 大模型底座的选型思路

2.1 大模型评测的标准和目的

接下来讲讲,我们如何在数据分析场景下,挑选企业内部真正适合的大模型。

事实上,当前的大模型数量依然在呈现上涨趋势,Hugging Face大模型社区已有超过2.9万种模型。目前国内开源的及可能存在的商业化的大模型日趋繁多,因此我们面临的挑战在于如何正确选择最优模型。然而,在我们实际使用这些模型时,往往会感到茫然无措,当前可以非常明确的一点是:GPT是当下综合各方面来看最好的选择。

但是,在一些私有化解决方案中,我们应怎样选择合适的大模型来作为我们新的基座呢?实际上,我们对大模型的功能需求主要集中在以下几个方面:

第一,具有理解准确性。大模型必须能够精准地理解语义信息,不能将用户的意图解读为完全不同的意思;

第二,具有结果可读性。同时,大模型还必须能够理解结果,具有数据敏感性,能够解释和借助用户的问题和信息知识进行行业的深度理解;

第三,基于洞察拓展性。大模型需要能够协助用户发现未知的问题,并引导用户探索更多前沿的研究方向。

2.2 评测结论

在测试方法方面,我们采用了统一的数据集进行评估,评估的“裁判”是目前业界公认性能最好的GPT4。我们使用的数据集是今年7月份的,其中也包括在线上收集的大量用户的使用情况,然后经过脱敏和清洗处理,最终形成了标准的测试数据集。我们对测试过程的各个环节进行了评分,最后给出结果以供大家参考。

我们评估了包括GPT4在内的许多国内主要投入使用的大模型,可能会有所遗漏,但大多数常用大模型都涵盖在其中。

目前的评估结果显示,GPT4的表现最优,这个结论无疑是无可争议的,其次是GPT3.5。同时我们还可以看到一些国内一线的大模型厂商,尽管他们在数据洞察和输出方面表现得相当优秀,但在计算方面可能会略微不足,可能是由于他们的训练逻辑还需要更加优化。此外,一些开源的大模型也有着不错的分数。

总体而言,参数越高,大模型的表现就很可能越优秀。当然,一些模型虽然参数较小,但可能是由于它所利用的训练语料是适用于相应分析场景的,因而分数也会有很大差异。

2.3 评测维度

接着,我们进行了多个方面的尝试以希望提升评分,事实上,这样的微调确实可以显著将评分提高。正是在这样的基础之上,我们也挑选出了具有较高潜在价值的模型,并经过调整后获得了较好的测评效果。

我们在此次测试中涉及到的维度有7个,包括报告撰写、洞察生成、推表推荐、意图识别、指标匹配、代码生成SQL和代码生成指标

测试的模型中,国内的主要有智谱AI、MiniMax、百川、通义千问以及文心一言等在内,国外的Falcon和 LlaMA 也被列入了测试名单之中。我们也在不断测试新的模型,并根据垂直类别进行分类测试,例如不同的参数集与SaaS或私有化的对比。

总的来说,我们将这7个维度分为两个部分,数据计算和数据洞察。其中偏向于输出的我们称之为数据洞察,其主要功能在于将数据转化为用户易于理解的结论,同时提供一些更新的输出。

数据计算部分则更多地将用户意图理解为指令,或对该用户意图本身的适当判断。同时,还要选择适当的指标,以帮助用户了解如何使用数据进而得出结论。

从数据计算的角度来看,参数物料实际上直接决定了数据计算的能力,因此它们在专业语料方面的相关性可能较低。从理解的层面上来看,这些参数是非常重要的,但就逻辑推理、标准化代码输出的能力等方面而言,参数确实越大则效果越好,因为其复杂性较高。

从数据洞察的角度来看,我们原以为它会和参数息息相关,但实际的结果还是比较接近的。可以看到,数据洞察的输出和理解更依赖于语料,尤其是在我们这种特定的场景中,或是提供的语料涵盖了大量数据分析相关内容,特别是在测试中倾向于某些方面,例如零售或金融等行业的语料较多时,就能呈现出更好的性能。总的来看,这部分模型效果更与训练语料的质量紧密关联,反而和参数的关系没那么大。

同时,各个渠道可能会导致不同的研究结果,当平台变更导致了场景的差异,也会使最终结论有所不同,以上结果也仅代表在这个特定场景下的数据洞察结论。

事实上我们也在研究行业内的私有化方案,因此进行了许多本土大型模型的测评,同时也与众多厂商进行了深入交流。就目前而言,我们的主要思路是选择一个性价比高、能力优秀的模型,可能还会根据自身语料较为丰富的现状进行深度训练,最终形成一个符合我们场景的比较专业的垂类模型。客观而言,虽然通用大模型具备分析各式各样场景的能力,但可能并非每个方面都能达到优秀表现。

前面提到的数据计算与数据洞察,我们可以通过专项训练独立完成,并将洞察能力以另外一种形式或者采用不同的垂类模型来完成不同的任务。这其中也包括了对于用户的知识库的训练。我们会将这些逻辑进行分解,以便选择所需的不同能力加以运用,以免过度消耗资源。

以上是我们在数据分析场景下,企业大模型的一些选型建议。

03 热点问题解答

接下来针对大模型+数据分析话题下,一些企业和厂商提出的问题进行解答。

Q1:如何保证数据分析结果的准确性,避免大模型的幻觉问题?

A1:这个问题确实确实非常常见,主要是因为大模型确实存在幻觉问题,同时生成的查询结果不一定符合当时业务的场景。面对这类情形,我们有两点应对策略,第一是用户进行自查,第二是让模型介入审查。

具体来说,比如当用户遇到问题时,我们首先会创造指令,然后利用内部的某些机制进行调试,以确定其合法性和结果的有效性。如果出现错误情况,我们会对其进行修正。如果模型生成的结果与事实不符,我们也提供了可供使用者查看的查询要素展现,例如,基于何种条件,哪些维度被使用,以及排序方式和解读结论等等。在此过程中,用户可以进行干预和修改查询的选项,并对结果进行like或dislike的反馈。我们可以利用这些反馈来改善未来回答类似问题的策略,决定是采用类似的上下文回答,还是采取其他方式。

这个过程中确实无法完全保证数据分析结果正确性,但总体而言,这个过程能形成一个有益的闭环,用户可以通过不断的修正、训练来提高回答问题的准确性。随着用户反馈的增多,通过相关机制,模型就能够更好地理解并回答用户的问题。

Q2:如果用到的数据存在于多个表中,那么数据分析在进行多表和跨表时,如何保证识别和最终结果的准确率?

A2:现阶段我们的索引构建主要依赖指标平台,复杂的表关联以及结构表属性的定制化调整等工作,其实是借助指标进行抽象处理。但实际使用中不可避免地存在指标间的跨指标分析,潜在的问题或许来自于数据源。这实际涉及到前期提出来的问题,如何缩小数据范围。

这里的两个核心问题包括,第一,是否选定了正确的数据;第二,是否采用适当的SQL或分析方法关联这些指标,并依托这些关联结果进行高效的分析。此过程实际上回应了如何进行有针对性的审核,本质上并无不同,即我们构建的指标会引导用户进行确认,再进行审核。

由于我们有一套完善的数据权限控制系统,所以会适度考虑与权限相关的因素,以及用户使用该指标的频率,以便我们在进行各类模型的研发、选择以及推荐时,充分考虑这些因素,尽可能地从用户的实际应用场景中挖掘相关性较高的指标。尽管如此,我们仍不能完全保证能够发现所有的相关指标。因此,我们会通过用户可见的信息,引导用户进行确认、修正,以便我们能进一步地学习和提升。

目前普遍认为通过join操作,实现跨表数据的关联工作是很难实现的。当下市场上也有其他解决方案,主要是两类。

第一类方案,要完成多表或跨表操作,大多数情况下会选择借助小模型的帮助,因为这类表格的数据量通常不会过大,而且对速度要求更高。首先定位到数据所在的表,然后再基于单张表进行SQL的生成。

第二类方案,在数据模型的阶段就把多张表拼接成一个新的宽表,在宽表之上再进行相应的查询和生成工作。

Q3:如果企业本身已有私有化部署的大模型,是否还需要依据数据分析场景再部署垂类大模型?以及如何如何训练,能让不同大模型可以达到一致或者接近的效果?

A3:关于私有化部署大模型的主要思路,我们认为并不在于必须进行训练。训练的主要目的在于提高性价比和优化场景分析效果,但经过在众多平台上的测试,发现其中部分平台本身的模型参数较高,本身就可达到不错的效果。

如果有部分用户本身投入较大,他们训练出的模型基础优秀,那么就无需再行训练。但根据目前的用户接触经验来看,在初期很少有用户能够一开始就投入大量资源进行模型建立。如果存在这种情况,我们其实可以选择直接接入垂类大模型。

另一种思路是针对之前没有评估或接触过的模型,我们仍需要预先使用测试框架进行检验,这样的好处是避免过于盲目自信。最好在前期进行判断,发现如果有些能力欠缺,可以通过产品迭代、专项训练或者是引入企业自身模型的方式进行改善。

以上这些都是可选的解决方案,关键在于我们必须首先了解私有化大模型与产品本身是否兼容,然后再做进一步的判断。

Q4:向量知识库在数据分析场景有什么比较重要的用途吗?

A4:向量知识库在处理用户输入输出时,实际上都可视为一个参考信息,辅助AI来理解并输出适合业务知识的文本,这是最基础的应用场景之一。此外,向量知识库也可用于公司内部的流程分析沉淀,作为内部提示词演化的重要环节,这其中包括可能一些分析流程的一体化召回。在实际应用中,前者的份量会更为突出,因为一些公司工作重心主要集中在业务领域和场景业务上。

曾经有一个问题,如何让模型理解某些特别专业的词汇,其实知识库是一个不错的解决方法,即使模型在训练过程中可能并未接触到某类信息,但AI却可以通过知识库获得相应的答案。

Q5:大模型在归因分析方面有比较好的案例吗?例如借助大模型把知识库、外部因素(如天气、节日和政策)等融入到归因分析中。

A5:这个方面我们也曾考量过,假如近期出现波动或数据异常,究竟是由外部因素还是内部因素所引发。实际上,这可能需要综合考察外部数据,无论是舆论信息还是其他相关数据,都属于我们所定义的外部知识库。然而,其准确性取决于我们的分析策略,因为AI或许并不知晓这些因素之间的底层关联性。除非我们在数据中告知AI这些因素是具有相关性。

举个例子,如果我们只是说近期收入有所下滑,但却未告知最近天气转冷或附近道路正在施工等情况,AI便难以把握各种数据因素在其中的比重。因此,它需要我们提供一些分析策略,或者将所有数据都告知它,但它并不能明确揭示最为关键的因素,因为这确实需要人为的专业知识或是经验。

值得注意的是,目前GPT4只更新到了2023年4月的数据,所以对于最新数据的覆盖并不全面。因此,如何整合外部数据组件便显得尤为重要。否则,该大模型提供的结果可能存在较高的不可信度,对于时效性强的信息仍需进一步加强数据收集和分析。

Q6:哪些知识必须要微调到模型,哪些知识是通过Prompt提示词来去做传递的?

A6:我认为只要长度足够,其实Prompt能做的所有的事情都不一定要微调。微调的优势在于它能将一些固定的、常用的功能预先进行训练,例如一些常用的分析思路,以及生成的代码模式,其实都可以通过微调得到强化。不过,更重要的是通过结合当前用户的行为和一些可能的业务逻辑,进行灵活的调整来指导。当然,有些方法是值得推荐的,例如以前的Zero-Shot实际上是在告诉AI该如何回答。这个方案主要强调灵活性,可以通过提示词实现。然而有时候,由于在线服务的特性,微调可能会带来较高的成本。在此情况下,也可以选择只使用提示词而不必微调。

我认为,微调与提示词在某些方面的效果有各自的优劣,但提示词语可能更加侧重灵活性。此外,从实际案例来看,如果是一个规模较小的模型,如只有几十亿个到百亿级参数规模,有时候微调后反而可能会产生负面影响,会出现被称之为灾难性遗忘的现象;或者由于进行了微调,导致它失去了一些原本的能力。因此,我们有时会认为对于这类规模较小的模型,在企业或团队的AI技术或相关能力没有强大到可以驾驭时,甚至是不建议进行微调的。

总的来看,建议是优先考虑使用Prompt提示词的方案来解决问题,因为微调存在许多不确定性的风险。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/254741.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【海报】新年海报 制作

准备一张写好文字的图片。 模型&#xff1a; 电商\lofi_v4.safetensors [9462506675] best quality,masterpiece,8k,(soft lighting:1.2),firecrackers,Chinese new year,<lora:全网首发丨新年红包封面_v1.0:1>, 虚假&#xff0c;不真实&#xff0c;绘画&#xff0c;线条…

Rust语言基础语法使用

1.安装开发工具: RustRover JetBrains: Essential tools for software developers and teams 下载: RustRover: Rust IDE by JetBrains 下载成功后安装并启动RustRover 安装中文语言包插件 重启RustRover生效

在GeoScene产品中发布海图服务——以s57数据标准为例

在GeoScene产品中发布海图服务——以s57数据标准为例1、海图服务部署 GeoScene_Maritime_for_Server海图模块安装完之后&#xff0c;需要在server里面注册海图soe和授权海图许可&#xff0c;如下&#xff1a; 步骤&#xff1a;点击“添加扩展”&#xff0c;从GeoScene_Maritime…

开源微信商城新零售网店,多商户小程序

源码介绍 小玄猪商城是一套基于前后端分离的B2B2C商城系统&#xff0c;支持微信小程序、支付宝小程序、H5商城、APP商城。支持多商户入驻、适用于直播商城、社交电商、团购、拼团、秒杀、砍价、活动报名、客户管理、知识付费、积分商城、抽奖活动、会员卡、权益卡、成长值、预…

1U、2U、4U和42U服务器,看完秒懂!

晚上好&#xff0c;我的网工朋友。 服务器是一个很广泛的概念&#xff0c;涵盖了各种类型和规格的计算机&#xff0c;用于提供各种网络和数据服务。 而机架服务器是当前数据中心和专业计算环境中&#xff0c;使用最为广泛的服务器类型之一。 机架式服务器的外形看来不像计算…

redis:二、缓存击穿的定义、解决方案(互斥锁、逻辑过期)的优缺点和适用场景、面试回答模板和缓存雪崩

缓存击穿的定义 缓存击穿是一种现象&#xff0c;具体就是某一个数据过期时&#xff0c;恰好有大量的并发请求过来&#xff0c;这些并发的请求可能会瞬间把DB压垮。典型场景就是双十一等抢购活动中&#xff0c;首页广告页面的数据过期&#xff0c;此时刚好大量用户进行请求&…

【QT Visual Studio环境配置】error MSB8020: 无法找到 v141/v142 的生成工具(完整版)

首先要了解V**平台工具集根据你安装的Visual Studio版本不同而有所区别&#xff0c;知道这个就容易解决问题了&#xff0c;确定你安装的那个版本&#xff0c;需要使用哪个工具集。 v143–>VS2022v142–>VS2019v141–>VS2017v140–>VS2015v120–>VS2013 一、解决…

uniapp:使用fixed定位,iOS平台的安全区域问题解决

manifest.json > 添加节点 "safearea": { //iOS平台的安全区域"background": "#1C1E22","backgroundDark": "#1C1E22", // HX 3.1.19支持"bottom": {"offset": "auto"} },已解决&#xff…

数据库操作习题12.12

考虑如下的人员数据&#xff0c;其中加下划线的是主码&#xff0c;数据库模式由四个关系组成: employee (empname, street, city) works (empname, compname, salary) company(id, compname, city) managers (empname, mgrname) 其中 关系 employee 给出人员的基本信息,包括人员…

issue queue的实现方式

主要从一下几个点进行考虑&#xff1a; 集中式&#xff08;Centrallized&#xff09;或者分布式(Distributed)&#xff1b;压缩式&#xff08;Compressing&#xff09;或者非压缩式(Non-compressing)&#xff1b;数据捕捉的方式&#xff08;Data-capture&#xff09;或者非数据…

Ubuntu系统使用Nginx搭建RTMP服务器

环境&#xff1a; 推流端 rockpi s 主控rk3308 运行ubuntu系统 服务端 ubuntu 播放器 VLC播放器 服务端安装依赖&#xff1a; apt-get install build-essential libpcre3 libpcre3-dev libssl-dev创建nginx编译目录&#xff1a; mkdir my_nginx_rtmp cd my_nginx_rtmp/下载 …

Linux性能调优技术概览

Linux性能调优技术概览 概述 这里的Linux性能调优主要是关于Linux系统上程序的性能跟踪&#xff0c;因为只有收集到足够的准确的性能数据才能找到程序和系统的性能瓶颈。Linux性能调优的原理、框架、工具等内容包括三个方面&#xff1a; 信息源 通常是以“事件”的形式&#…

X86汇编语言:从实模式到保护模式(代码+注释)--c10、11(保护模式:32位x86处理器编程架构+进入保护模式)

保护模式&#xff1a;32位x86处理器编程架构 IA-32架构的基本执行环境 寄存器扩展 通用寄存器&#xff08;32&#xff09;&#xff1a;EAX EBX ECX EDX ESI EDI EBP ESP 指令寄存器&#xff08;32&#xff09;&#xff1a;EIP 标志寄存器&#xff08;32&#xff09;&#xff…

Hive学习新天地一站式掌握Hive技能,让你成为大数据领域的佼佼者!

介绍&#xff1a;Hive是一个构建在Hadoop顶层的数据仓库工具&#xff0c;起源于Facebook为了解决海量数据的统计分析需求。它能够将结构化的数据文件映射为一张数据库表&#xff0c;并提供类似于SQL的查询功能&#xff0c;可以将SQL语句转换为MapReduce任务进行运行。 Hive的出…

【企业转型】以企业架构为中心的SABOE数字化转型五环法

01 传统企业数字化转型面临诸多挑战 即将过去的2023年&#xff0c;chatGPT大模型、数据资产入表等事件的发生&#xff0c;标志着数字经济正在加速发展。数字经济是人类社会继农业经济、工业经济之后的第三种经济形态&#xff0c;将推动生产方式、生活方式和治理方式深刻变革&a…

21.Servlet 技术

JavaWeb应用的概念 在Sun的Java Servlet规范中&#xff0c;对Java Web应用作了这样定义&#xff1a;“Java Web应用由一组Servlet、HTML页、类、以及其它可以被绑定的资源构成。它可以在各种供应商提供的实现Servlet规范的 Servlet容器 中运行。” Java Web应用中可以包含如下…

教师退休享受国家规定的什么待遇

作为一名教师&#xff0c;一直致力于为学生提供最好的教育服务。然而&#xff0c;随着时间的推移&#xff0c;我们的身体和精力可能会逐渐下降&#xff0c;最终不得不退休。 那么&#xff0c;教师退休后可以享受哪些待遇呢&#xff1f;根据我所了解的情况&#xff0c;以下是一些…

2023本四前端社招面经

美团 全程问项目&#xff0c;根据项目提问&#xff0c;SEO优化方案&#xff0c;还出了一道动态规划的题 SEO优化方案 一、内部优化 META 标签优化&#xff1a;例如&#xff1a;TITLE&#xff0c;KEYWORDS&#xff0c;DESCRIPTION &#xff08;TDK&#xff09;等的优化 内部链接…

窗口看门狗和独立看门狗的异同

场景&#xff1a;工业自动化控制器 1. 独立看门狗的应用&#xff1a; 要求&#xff1a; 在一个工业自动化控制器中&#xff0c;需要确保周期性任务能够按时完成。在这个场景中&#xff0c;如果周期性任务在规定的时间内没有完成&#xff0c;可能会导致系统的不稳定。 实现&am…

黑皮诺、白皮诺与灰皮诺各自的特点?

黑皮诺在所有葡萄品种中被誉为的“公主般娇弱的身子却有着皇后的命”&#xff0c;被众多酿酒师认为是最娇弱又最名贵的葡萄品种。云仓酒庄的品牌雷盛红酒LEESON分享这么受欢迎的葡萄品种还有两个同样气质出众的妹妹&#xff0c;分别是灰皮诺和白皮诺。只是姐姐黑皮诺的名气实在…