华为大咖说 | 企业应用AI大模型的“道、法、术” —— 法:落地篇 (下)

本文作者:郑岩(华为云AI变革首席专家)全文约3554字,阅读约需9分钟


上周,我们探讨了企业应用AI大模型的“道、法、术”——法:落地篇“AI变革五阶八步法”的前四步内容(华为大咖说 | 企业应用AI大模型的“道、法、术” -- 法:落地篇 (上))。今天,我们将继续深入解析“五阶八步法”剩余的要点。


 

第4阶数据

⑤ 知识数据治理

这里的知识数据治理,完全是for AI的,大致可以分成两个部分,“垂域知识”和“标注数据”。类比一下,垂域知识相当于是课本,标注数据就是考卷。

1、垂域知识治理

为了让AI大模型能“懂行”,我们需要把我们的垂域知识整理出来,“喂给”AI大模型,不管是通过训练的方式,还是通过ICL的方式。(ICL,In-context Learning,是一种让大型语言模型(LLMs)通过少量标注样本在特定任务上进行学习的方法。)

大家都说,AI大模型需要大量的数据来训练,这里有个歧义,此“数据”非彼“数据”。AI大模型能消费的,就是语义化的数据,也就是非结构化数据,或者某种意义上的“知识”。而传统意义上的结构化数据,不能绝对地说对AI大模型啥用也没有,但是利用起来成本和效率确实非常低,需要很多额外的处理和还原,但原始的信息损失是不能弥补的。

在华为传统IT应用设计和构建中,会遵循4A集成原则,数据部分由IA(信息架构)负责。而在构建AI应用时,虽然也会涉及4A集成,但数据部分仅靠IA是远远不够的,还要加入KMer(知识经理)的力量,甚至KMer的作用相比IA更为关键,他们负责确保AI模型基于高质量、精准的数据进行训练和优化。(*4A集成原则是指在企业架构设计中,围绕业务架构(Business Architecture, BA)、信息架构(Information Architecture, IA)、应用架构(Application Architecture, AA)、技术架构(Technology Architecture, TA)四个关键方面进行集成架构的设计,以支持企业的数字化转型。)

如此一来,我们要做成一个AI大模型的应用,具体治理的方法,大致步骤如下:

  1. 梳理知识资产清单
  2. 建立KOS体系(KOS,Knowledge Organization Systems,知识组织体系)
  3. 划分知识责任田
  4. 建立知识运营机制
  5. 知识入湖、索引、切片、向量化

2、标注数据治理

反馈数据,也是AI大模型改进的关键。对于标注数据的管理,目前是没有标准方法的。

这里简单分享一下我们的做法:

1、需要有一个标注平台,来辅助AI训练师来标注,标注平台要尽可能详尽的把整个AIGC的过程体现出来,包括上下文、使用的知识片、意图理解情况、提示词等等;

2、需要对原始的标注数据进行清洗,包括错误的标注、低质量的标注,都会干扰我们非常有限的AI训练师资源。这里引入AI大模型来评估内容质量,是一种不错的方法;

3、需要对标注结果进行质量评估千万不要高估人的“一致性”,哪怕是有流程、规范、指导书,都很难让不同的人对相同的答案做出一致的判断,而且我们也没有这么多资源来交叉评分。这里有几个小经验,一个是用AI大模型对人肉书写的反馈做标准化,另一个是尽可能让人做选择题,而不是评分。

第5阶IT 

⑥ 模型训练

模型训练,其实是之前传统IT应用建设里比较少涉及的。一般哪怕是引入了AI(小模型),也都是交给专业的AI团队来完成。

但是这波AI大模型的革命,就是标准化掉了一个东西,叫Foundation Model,也就是基模型。我们所做的训练,其实就是在基模型上添砖加瓦,跑跑流水线的事儿。

当然,往细节里说,基模型也有的选,除了不同的尺寸,还有不同的能力偏好以及风格。关于基模型的选择,会涉及到对AI大模型趋势的关注、综合评估,以及IT团队对模型的选型判断。

另外,训练的过程虽然傻瓜化了,但是细节也还是很多:

  1. 怎么准备高质量的数据
  2. 怎么调超参数
  3. 怎么评估模型效果

这里如果展开,每一条也值得深究,而且这三个没有一个确定性的答案,还都在摸索的阶段。 

总之,AI大模型的训练,从工程方法上,是已经非常标准化了,但是细节还很多不确定性,适合先默认配置跑一下,慢慢迭代。

⑦ AI服务融入作业平台

这部分在上篇(华为大咖说 | 企业应用AI大模型的“道、法、术” -- 法:落地篇 (上))已经讨论过不少,大致逻辑就是要把AI的能力设计到IT系统中。

这里我们有几个做法,可以参考:

  • 触点不新增,就地升级:这里反过来思考,新增触点也就意味着新的应用入口,该应用的定位、运营、推行,都是独立的挑战。而就地升级,不仅可以直接提升到现有触点的用户体验和效率,也能够充分将AI与现有的流程和作业融合在一起,不必割裂。
  • 保持一致的体验和交互设计:整体的AI触点风格、元素和交互的设计,不仅可以避免大家自己搞重复投资,而且有助于对新的LUI(Language UI)交互的用户的心智养成。毕竟,这轮AI大潮才刚刚开始,所有人都需要时间学习和适应。

另外这里其实也是有两个流派的探讨,一个是“AI+”,一个是“+AI”。

AI+ 所谓“AI+”,就是AI Native的应用,认为AI应用应该以AI为中心,如果拿走AI,应用就不work了。这里有一堆业界大佬给这个方向站台。 

+AI 所谓“+AI”,就是在原有的触点升级,通过AI的能力来改进或改造一部分功能和体验。 

其实,我个人觉得都是噱头偏多,若不是AI大模型能力不行、场景受限,我才懒得选,肯定是全都围绕AI大模型来搞。但是现实是残酷的,你真的搞个AI驱动的XX应用,就是跑不起来,目前C端也没见到啥杀手级应用(如果ChatGPT式的问答助手算的话,也行)。所以我觉得不要较真,现阶段就是“+AI”。

不过,我们在设计的时候,因为AI大模型能力还在不断快速迭代,有个终局思维是对的,这样能看得更长远。

最后,就是,不要在AI大模型前进的车轮下“绣花”。这个事儿非常关键,现在因为AI大模型自己的能力不够,我们不得已要做很多工程的“代偿”,但是,“代偿”一时爽,一直“代偿”能不能一直爽,这里有个大大的问号。这里同样也先不过多赘述,可以参考我前面第一篇总结《认知篇》。

⑧ 持续运营

从根本上讲,持续运营不是IT这一阶的内容,而是横跨了流程、组织、数据和IT。为了排版,我就暂且放在这里。

AI应用的持续运营,甚至比AI应用本身的建设还重要。没有持续运营的规划和配套,AI应用就不应该“生”出来。我们甚至提了个说法:“无运营不开工”

因为我们在对待AI应用的时候,有个前提假定,就是AI大模型默认在大部分企业场景上,只能是及格水平。为了让AI应用做成,我们支撑持续迭代它,在不断地反馈过程中喂养它,才能使之达到80分的水平。

为了做成这件事儿,有这么几个配套:

  • 流程:首先得有个AI应用的运营机制建立并发布出来;
  • 组织:然后得有个团队对持续运营工作负责,里面的核心成员是AI训练师;
  • 数据:需要通过数据驱动、反馈驱动的方式,一方面关注业务指标和技术指标的达成情况,另一方面也关注反馈的质量;
  • IT:持续运营需要配套的运营平台和工具,包括标注的工具、AI助手各项指标的看板,这块看到Microsoft Copilot Studio也有类似的能力,可以参考。

讲到这里,“五阶八步法”正式分享完毕。“五阶八步法”整体环环相扣,又互相有部分包含。我觉得大家不要纠结这里的字面意义,更多还是理解好我们的设计思想。

最后,实操上还有两个小套路,分享给大家:“Think Big, Start Small”和“低垂的果子先摘”。

Think Big, Start Small 围绕AI使能的场景,想找到一个完美的端到端适用且价值极高的场景,是非常困难的。与其追求完美主义,不如想想,从哪儿切入,围绕一个场景,可以细分出很多个use case,这里其实又可以分个轻重缓急。

低垂的果子先摘 :就是要赢,要先胜,特别是面向AI大模型的应用,非常需要胜利来积累经验和能量,才有机会可以复制到其他场景。不然上来开一枪,哑火了,然后就没有然后了。

举个例子,当我们泛泛地说客服场景的时候,其实里面包含了非常多个细分环节,比如客户工单的分流、定级、信息收集、诊断、处置、反馈、总结,这些use case比流程活动还要细。甚至,单纯的某个use case里,又可以按不同的工单种类来细分,比如咨询类工单与故障类、备案类、投诉类工单的诊断和处置都是不一样的,数量不一样,难度不一样,方案成熟度也不一样。

如此一来,这里的业务痛点识别,会细分到一个或者多个具体可落地的范围。当然,这个范围也会发生变化,可能做着做着发现不合适,就要马上调整,或是如果效果和进度超过预期,就值得多搞点进来。

AI大模型应用的路上,还有非常多不确定性,技术路线也远远未收敛,欢迎大家留言交流,互通有无~~

更多干货,请戳这里:https://shixizhi.huawei.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/799062.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用 HttpServlet 接收网页的 post/get 请求

前期工作:部署好 idea 和 一个 web 项目 idea(2021),tomcat(9) ->创建一个空的项目 -> 新建一个空的模块 -> 右键单击模块 选择 Add..Fra.. Sup.. -> 勾选Web App...后点击OK -> 点击 file - Project Struc... -> 选择刚刚的模块 -> 点…

C++初阶:类和对象(中)

一.类的默认成员函数 默认成员函数就是用户没有显式实现,编译器会自动生成的成员函数称为默认成员函数。⼀个类,我们不写的情况下编译器会默认生成以下6个默认成员函数。默认成员函数很重要,也比较复杂: 二.构造函数 (…

GPT-4从0到1搭建一个Agent简介

GPT-4从0到1搭建一个Agent简介 1. 引言 在人工智能领域,Agent是一种能够感知环境并采取行动以实现特定目标的系统。本文将简单介绍如何基于GPT-4搭建一个Agent。 2. Agent的基本原理 Agent的核心是感知-行动循环(Perception-Action Loop)…

电脑文件误删除如何恢复?Top12电脑数据恢复软件汇总合集!(图文详解)

电脑文件误删除如何恢复?在日常使用电脑过程中,我们经常会遇到意外删除文件的情况。可能是因为按错了按键、误操作了鼠标,或者意外格式化了存储设备。这些情况都可能导致重要的文件不小心被删除。但是不用担心,有许多专业的数据恢…

从 Pandas 到 Polars 十八:数据科学 2025,对未来几年内数据科学领域发展的预测或展望

我在2021年底开始使用Polars和DuckDB。我立刻意识到这些库很快就会成为数据科学生态系统的核心。自那时起,这些库的受欢迎程度呈指数级增长。 在这篇文章中,我做出了一些关于未来几年数据科学领域的发展方向和原因的预测。 这篇文章旨在检验我的预测能力…

Js 前置,后置补零的原生方法与补字符串 padStart及padEnd

在工作中,遇到了需要将不满八位的一个字符串进行后补0的操作,所以就在网上学习了关于js原生补充字符串的方法,然后用这篇博客记录下来。 目录 前置补充字符串 String.prototype.padStart() 后置补充字符串String.prototype.padEnd() 前置补…

synchronized关键字详解

文章目录 synchronized使用示例实现原理锁的升级synchronized与可见性synchronized与原子性synchronized与有序性 synchronized synchronized是Java提供的关键字译为同步,是Java中用于实现线程同步的一种机制。它可以确保在同一时间只有一个线程能够执行某段代码&a…

STM32第十九课:FreeRTOS移植和使用

目录 需求一、FreeRtos概要二、移植FreeRtos1.复制源码2.内存空间分配和内核相关接口3.FreeRTOSConfig.h4.在工程中添加.c.h 三、任务块操作1.创建任务2.任务挂起,恢复,删除 四、需求实现代码 需求 1.将FreeRtos(嵌入式实时操作系统&#xf…

STM32 BootLoader 刷新项目 (四) 通信协议

STM32 BootLoader 刷新项目 (四) 通信协议 文章目录 STM32 BootLoader 刷新项目 (四) 通信协议1. 通信流程2. 支持指令3. 通信流程4. 指令结构5. 操作演示 前面几章节,我们已经介绍了BootLoader的整体程序框架,方案设计,以及STM32CubdeMX的配…

Kafka基本原理|特性

Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统 它的最大的特性就是可以实时的处理大量数据以满足各种需求场景…

等保五级分类详解:从自主保护到专控保护的全方位信息安全

等保,即信息安全等级保护,是一项旨在保障电子信息系统安全的重要标准。根据系统所承载的信息重要性和可能遭受的损害程度,等保将信息系统划分为五个不同的安全等级。每个等级都有其特定的安全要求和测评周期,以确保不同规模和类型…

ES13的4个改革性新特性

1、类字段声明 在 ES13 之前,类字段只能在构造函数中声明, ES13 消除了这个限制 // 之前 class Car {constructor() {this.color = blue;this.age = 2

大气热力学(8)——热力学图的应用之一(气象要素求解)

本篇文章源自我在 2021 年暑假自学大气物理相关知识时手写的笔记,现转化为电子版本以作存档。相较于手写笔记,电子版的部分内容有补充和修改。笔记内容大部分为公式的推导过程。 文章目录 8.1 复习斜 T-lnP 图上的几种线8.1.1 等温线和等压线8.1.2 干绝热…

一个老程序员对小浣熊 AI 办公助手的使用体验

我是一个老程序员,今年 42 岁,仍然在一线编程领域工作。 2022 年底以 ChatGPT 为代表的 AI 工具席卷整个业界后,我也使用了不少能提高办公效率的 AI 工具。比如程序员的好帮手,来自微软的 Copilot. 这款名叫小浣熊的 AI 办公工具…

Web 性能入门指南-1.2 分析在线零售 Web 性能及优化方向

让顾客满意是零售业成功的秘诀。事实证明,提供快速、一致的在线体验可以显著提高零售商关心的每项指标——从转化率和收入到留存率和品牌认知度。 本文大纲: 页面速度影响在线零售业务数据 如何将您的网站速度与竞争对手进行比较 性能优化入门&#xf…

怎样在 PostgreSQL 中优化对复合索引的选择性?

🍅关注博主🎗️ 带你畅游技术世界,不错过每一次成长机会!📚领书:PostgreSQL 入门到精通.pdf 文章目录 怎样在 PostgreSQL 中优化对复合索引的选择性一、理解复合索引的概念二、选择性的重要性三、优化复合索…

神经网络识别数字图像案例

学习资料:从零设计并训练一个神经网络,你就能真正理解它了_哔哩哔哩_bilibili 这个视频讲得相当清楚。本文是学习笔记,不是原创,图都是从视频上截图的。 1. 神经网络 2. 案例说明 具体来说,设计一个三层的神经网络。…

采用自动微分进行模型的训练

自动微分训练模型 简单代码实现: import torch import torch.nn as nn import torch.optim as optim# 定义一个简单的线性回归模型 class LinearRegression(nn.Module):def __init__(self):super(LinearRegression, self).__init__()self.linear nn.Linear(1, 1) …

链接追踪系列-07.logstash安装json_lines插件

进入docker中的logstash 容器内: jelexbogon ~ % docker exec -it 7ee8960c99a31e607f346b2802419b8b819cc860863bc283cb7483bc03ba1420 /bin/sh $ pwd /usr/share/logstash $ ls bin CONTRIBUTORS Gemfile jdk logstash-core modules tools x-pack …

如何预防最新的baxia变种勒索病毒感染您的计算机?

引言 在当今数字化时代,网络安全威胁层出不穷,其中勒索病毒已成为企业和个人面临的重大挑战之一。近期,.baxia勒索病毒以其高隐蔽性和破坏性引起了广泛关注。本文将详细介绍.baxia勒索病毒的特点、传播方式,并给出相应的应对策略…