成为AI产品经理——模型评估指标

目录

一、模型评估分类

1.在线评估

2.离线评估 

二、离线模型评估

1.特征评估

① 特征自身稳定性

② 特征来源稳定性

③ 特征成本

2.模型评估

① 统计性评估

覆盖度

最大值、最小值

分布形态

② 模型性能指标

分类问题

回归问题

 ③ 模型的稳定性


模型评估指标分五小节课程,这节课全局讲述模型评估指标有什么,下三节课重点讲解模型性能指标,了解他们的计算;最后一节课,详细讲解模型的稳定性指标。

一、模型评估分类

模型评估分为:离线评估和在线评估两类。

1.在线评估

在线评估通常是将模型部署上线后,使用线上真实数据对模型进行评估。通常会采取ABTest方式来评估业务的表现。

ABTest的操作方式是先导入一部分流量到模型中,使得一部分用户使用模型训练后的商品页面,而一部分用户看到原来的界面,这两部分用户互相独立,测试1周或1天,观察两者点击率或者购买转化率的差异,判断模型是否达到业务预期。

如果想继续了解ABTest,请查看详情:

产品经理需要懂的AB测试 - 知乎 (zhihu.com)

如何避免产品开发的致命陷阱?AB测试是你不可或缺的救命稻草! | 人人都是产品经理 (woshipm.com)

2.离线评估 

离线评估是模型在上线之前进行的验证和评估工作,如果验收不通过,算法同学要进行模型的调整和优化。

离线评估更关注模型指标,如:准确率、稳定性等;而上线评估更加关注业务指标,如:用户转化率、优惠劵的核销率。

接下来我们为了讲述模型指标,主要关注离线模型的评估。

二、离线模型评估

离线模型评估分为特征评估模型评估两类。

特征是模型的基础,所以我们不仅要对模型最终效果进行评估,还要对特征进行评估。

1.特征评估

对于特征评估我们并不是对所有的特征进行评估,我们只对重要特征进行评估。那么我们就需要和算法同学进行沟通,了解哪些特征比较重要。

特征评估包括三点:特征自身稳定性、特征来源稳定性、特征成本

① 特征自身稳定性

特征自身稳定性我们会使用PSI指标进行评估。PSI指标(模型随着时间推移发生变化而不稳定的指标)。特征自身稳定性会影响模型的整体效果,所以我们需要测评重要特征是否达到稳定指标。

② 特征来源稳定性

特征一般分为:内部来源和外部来源

如果特征是从集团内部接入的,那我们需要看他从哪条业务线获取的,这个业务的稳定性如何,业务方是否有可能中止共享数据或者收回数据。

如果特征是从集团外部接入的,我们需要审核外部公司的资质是否合法,技术储备是否完善

③ 特征成本

不同来源的特征可能成本也不相同,如果特征来源是集团内部业务,可能不需要成本或者需要年终进行成本均摊。如果是外部购买的特征数据,那就正常支付就好了。

作为产品经理,我们在进行评估的时候要充分考虑到付费特征在模型中产生的增益是否大于成本,如果成本过高,那么我们考虑是否可以替换特征或者使用数据缓存的方式减少调用

2.模型评估

模型评估也包括三部分:统计性评估、模型性能指标和模型的稳定性。

① 统计性评估

 在进行模型性能指标和稳定性评估之前,我们首先要对统计性能进行评估。包括:覆盖度、最大值、最小值、分布规律。

覆盖度

计算公式:打分的人数/需要打分的人数

结果越大,覆盖度越大。比如我们要做一个用户逾期还款预测的模型,如果覆盖率只有60%,那么银行就没有办法按照这个模型进行决策,这个模型就是没有用的。

最大值、最小值

我们需要对最大值和最小值进行评估。

如果最大值和最小值相隔太近,例如:0-100作为一个信用划分的区间,用户很容易集中在一个分数段,难以进行用户的区分。如果将0-100作为一个划分的总区间,相当于过去大的1份区间被细化成为现在的10份,就会更便于划分用户。

分布形态

我们的预测结果和我们的人群行为的分布应该符合一定的规律。

比如:预测用户消费能力,人群的分布情况应该满足应该满足正态分布。 

业务场景不同,需要重点观察的统计性能指标也不同。

② 模型性能指标

根据问题的差异被分为:回归问题和分类问题。

模型被分为:分类模型和回归模型。不同类型的模型评估指标不相同。

分类问题

主要指标:混淆矩阵、KS、AUC。

将混淆矩阵作为基础工具,我们可以计算出召回率、准确率。评判模型的区分能力。我们也可以计算出TPR、FPR,从而计算出AUC和KS等相关指标。

因此,混淆矩阵是二分类问题的基础工具。

回归问题

主要指标:MAE(平均绝对误差)、MSE(均方误差)、RMSE(均方根误差)、R方等。 

这些指标主要预测数值回归问题。

 ③ 模型的稳定性

最后,我们需要评估模型整体效果的稳定性。主要使用PSI指标进行评估。

这节课我们主要从全局角度了解模型评估,评估指标计算方法后面文章会详细说明。

今天的知识思维导图如下所示:

参考文献:刘海丰——《成为AI产品经理》 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/197839.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java高级技术(反射:获取类)

一,认识反射 二, 反射第一步 三,案例

数据库的增删查改(CRUD)基础版

CRUD: create增加、retrieve查询、update更新、delete删除 注意一点:MySQL对大小写是不敏感的 目录 新增(create) 全列插入 指定列插入 多行插入 查询(Retrieve) 列查询 全列查询 指定列查询 表达式查询 …

【问题解决!】OSError: [WinError 1455] 页面文件太小,无法完成操作。Error loading “c:\Anaconda3\lib

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 问题描述问题原因二、解决方法 问题描述 在使用pytorch跑深度学习的时候报错OSError: [WinError 1455] 页面文件太小,无法完成操作。Error loading “c…

vivado产生报告阅读分析27

1、设计 QoR 汇总 命令行选项 -qor_summary 可用于为流程中每个步骤生成 QoR 汇总信息。该选项只能从 Tcl 控制台使用。该选项可按两种格式生成: 基于文本的报告或 JSON 格式。 要生成基于文本的格式 , 请运行以下命令 : report_des…

0005Java程序设计-ssm基于微信小程序的校园求职系统

文章目录 摘 要目 录系统设计开发环境 编程技术交流、源码分享、模板分享、网课分享 企鹅🐧裙:776871563 摘 要 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据…

小白必知:AIGC 和 ChatGPT 的区别

原文 : https://openaigptguide.com/chatgpt-aigc-difference/ AIGC 和 ChatGPT 都是人工智能技术,但它们的功能和应用场景不同。 AIGC(AI-GeneratedContent,人工智能自动生成内容)是人工智能、计算机图形学和深度学…

dbvisual editor 显示中文乱码

打开如下的页面就可以选择中文相关的字体就可以正常显示中文了。

spring-boot对rabbitMQ的操作

一、安装rabbitMQ 1、直接使用docker拉取镜像 docker pull rabbitmq:3.82、启动容器 docker run \-e RABBITMQ_DEFAULT_USERadmin \-e RABBITMQ_DEFAULT_PASS123456 \-v mq-plugins:/plugins \--name rabbit01 \--hostname rabbit01 --restartalways \-p 15672:15672 \-p 5672:…

11-28渗透

用nmap扫描靶机1进行主机发现 已知靶机1的主机在172.16.17.0/24下 扫描结果如下 根据扫描结果看开启的服务怀疑172.16.17.177是靶机1 浏览器访问172.16.17.177页面得到如下 我们知道织梦cms系统默认管理路径是dede,登陆管理后台可以通过地址172.16.17.177/dede/i…

第六节HarmonyOS UIAbility内页面的跳转和数据传递

一、页面跳转 在一个应用包含一个UIAbility的场景下,可以通过新建多个页面来实现和丰富应用的内容。这会涉及到UIAbility内页面的新建以及UIAbility内页面的跳转和数据传递。 打开DevEco Studio,选择一个Empty Ability工程模板,创建一个工程&…

深入了解Java8新特性-日期时间API:OffsetDateTime类

阅读建议 嗨,伙计!刷到这篇文章咱们就是有缘人,在阅读这篇文章前我有一些建议: 本篇文章大概24000多字,预计阅读时间长需要20分钟。本篇文章的实战性、理论性较强,是一篇质量分数较高的技术干货文章&…

pandas教程:US Baby Names 1880–2010 1880年至2010年美国婴儿姓名

文章目录 14.3 US Baby Names 1880–2010(1880年至2010年美国婴儿姓名)1 Analyzing Naming Trends(分析命名趋势)评价命名多样性的增长“最后一个字母”的变革变成女孩名字的男孩名字(以及相反的情况) 14.3…

电荷泵升压/降压电路

一、升压\降压电路原理分析 1、升压电路 电荷泵升压电路 VoutVa5V 5V_PLUS0V时,Va给C2充电,C2上节点电压比C2下节点电压高Va; 5V_PLUS5V时,C2电压不能突变,C2上节点电压依然比C2下节点电压高Va,但C2下节点…

Redis 主从架构,Redis 分区,Redis哈希槽的概念,为什么要做Redis分区

文章目录 Redis 主从架构redis replication 的核心机制redis 主从复制的核心原理过程原理Redis集群的主从复制模型是怎样的?生产环境中的 redis 是怎么部署的?机器是什么配置?你往内存里写的是什么数据?说说Redis哈希槽的概念&…

智安网络|探索云安全合规要求:等保2.0时代的新趋势解析

随着信息技术的不断发展和应用的广泛普及,信息安全问题日益凸显,特别是在云计算时代,企业对于云平台的安全保障需求更为迫切。等级保护(等保)作为我国信息安全的基本要求,已经进入了2.0时代,对于…

ArkTS-共享元素转场动画

共享元素转场动画 在不同页面间,有使用相同的元素(例如同一幅图)的场景,可以使用共享元素转场动画衔接。为了突出不同页面间相同元素的关联性,可为它们添加共享元素转场动画。如果相同元素在不同页面间的大小有明显差异…

有没有不含亚硫酸盐的葡萄酒?

没有完全不含亚硫酸盐的葡萄酒,有机葡萄酒和生物动力葡萄酒中也会含有少量天然 亚硫酸盐。因为它是在发酵过程中产生的一种化合物,所以不可能酿造无亚硫酸盐的葡萄酒。 在大多数葡萄酒国家都有葡萄酒法律规定,如果葡萄酒超过特定的亚硫酸盐水…

【华为OD题库-043】二维伞的雨滴效应-java

题目 普通的伞在二维平面世界中,左右两侧均有一条边,而两侧伞边最下面各有一个伞坠子,雨滴落到伞面,逐步流到伞坠处,会将伞坠的信息携带并落到地面,随着日积月累,地面会呈现伞坠的信息。 1、为了…

JavaScript的学习

HTML的学习-CSDN博客 从html的学习中 其实我已经用到了 JavaScript的脚本 &#xff08;GPT&#xff09; 例如 echo <script>alert("账号密码错误"); window.location"index.html";</script>; 弹窗 然后定位到 index.html 这里能够让我们更…

C++数据结构:图

目录 一. 图的基本概念 二. 图的存储结构 2.1 邻接矩阵 2.2 邻接表 三. 图的遍历 3.1 广度优先遍历 3.2 深度优先遍历 四. 最小生成树 4.1 最小生成树获取策略 4.2 Kruskal算法 4.3 Prim算法 五. 最短路径问题 5.1 Dijkstra算法 5.2 Bellman-Ford算法 5.3 Floyd-…