成为AI产品经理——模型构建过程(上)

目录

一、背景

1.对内

2.对外

二、模型构建过程 

1.模型设计

2.特征工程

① 数据清洗

② 特征提取

数值型数据

标签/描述类数据特征

非结构化数据(处理文本特征)

网络关系型数据 

③ 特征选择 

④ 训练集/测试集


一、背景

虽然产品经理不需要参与到模型构建工作中,但是我们需要对模型构建过程有一定的了解,有点两点好处:

1.对内

配合算法同学进行数据收集、模型训练、参数调优,及时跟进项目优化,应对突发状况。

2.对外

如果模型训练过程中出现问题,我们能够使用非技术性的话语向业务方解释,帮算法同学争取更多的时间。

二、模型构建过程 

 模型构建主要包括以下五个部分:

模型设计、特征工程、模型训练、模型验证、模型融合、模型部署,接下来我们对于以下概念依次讲解。

1.模型设计

模型设计时我们需要确认以下几个问题:

① 有没有必要建立这个模型?

② 我们当前的技术和资源能不能做这个模型?(数据源够不够、样本怎么获取、目标变量怎么设定)

③ 我们需要达到怎么样的预期结果?

 不同的需求决定了模型的应用场景,决定了它能够达到的业务预期。

2.特征工程

特征工程的概念是:将其他类型的数据转化成数量化信息以供模型训练。

特征工程是模型构建过程中耗时最长的一项工作,为什么特征工程耗时最长呢?

我们知道模型训练就是从数据中提取特征,然后根据特征使用算法来建立出对于未知数据进行预测的模型。算法逼近特征,而特征决定模型的上限。

特征工程里面又细分了其他工作模块:

数据清洗、特征提取、特征选择、训练集/测试集。

① 数据清洗

我们提供的数据并不是可以直接使用的数据,因为可能会存在异常数据、不均衡数据、数据残缺、量纲不一致等问题。

此时我们需要对残缺数据进行补全;对于干扰数据进行删除;对于异常数据进行标注;对于不均衡数据:丢弃较多的数据或者补充较少的数据;对于量纲(单位)不一致的数据进行归一化处理。

② 特征提取

特征提取通常有四种常见类型:数值型特征数据,标签或描述类数据,非结构化数据,网络关系型数据。

  • 数值型数据

包含大量数值特征的数据。使用数值数据时,我们需要分两部分:主体变量特征和度量维度特征。比如京东的浏览页面次数是主体特征数据,浏览时长和浏览次数排名就是其他度量维度特征。

  • 标签/描述类数据特征

有些特征没有大小关系,无法使用数值表示,我们称为标签/描述类数据。比如:好瓜、坏瓜。这种就是标签/描述类数据,我们可以将好瓜标记为[0,1],将坏瓜标记为[1,0]。

  • 非结构化数据(处理文本特征)

 非结构化数据通常出现在UGC(User Generated Content)用户生成内容。比如用户的评论信息。现在我们需要使用用户的评论信息进行特征提取,这里需要使用到自然语言处理的方法。比如:买了一箱,孩子很喜欢。我们筛选出“孩子”,就可以知道这是一位亲子用户。

简而言之,非结构化数据(文本特征数据),我们就是进行文本清洗和挖掘,挖掘出一定的用户特征。

  • 网络关系型数据 

网络关系型数据就是通过数据信息获得用户的社交关系。比如我们可以通过同一公司地址基本确定两者是同事关系。我们可以通过用户同一家庭地址基本确定两者的亲人关系。

通常来说:算法工程师可以通过通讯录、收货地址、位置信息、好友助力等信息确定用户的关系网络,这个关系网络中的信息就可以作为我们特征提取的参考。

③ 特征选择 

第一步:跟进特征覆盖率、IV指标(信息的价值量)进行筛选。

IV:判断哪些特征进入模型,这个特征重不重要就使用IV指标。IV值就是用来衡量变量预测能力的,IV值越大,表示该变量的预测能力越强。

第二步:根据业务需求设定阈值,筛选掉一部分数据。

第三步:根据特征的稳定性筛选数据。

IV指标详解:机器学习-变量筛选之IV值和WOE - 知乎 (zhihu.com)

④ 训练集/测试集

 做完以上的工作我们就开始划分训练集和测试集了,我们通常将样本60%数据作为训练集,20%作为验证集,剩余20%用于测试集,三者数据相互独立。

训练集用于训练模型,验证集用于对训练后的模型进行验证微调,测试集用于对训练和验证后的数据进行测试,评估模型是否达到业务指标。

在模型构建过程中,因为很多因素的不确定性,导致会出现很多计划外的工作,所以你需要充分的了解模型构建流程为算法同学争取更多的时间和资源。

参考文献:刘海丰——《成为AI产品经理》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/184943.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

P7 C++指针

前言 指针是一个令很多人都很痛苦的内容,然而指针其实没有大家想象中的那么复杂。 对计算机来说内存就是一切,如果非要我说出编程中最重要的一件事,我可能会说是内存。 当你编写了一段程序并启动它时,所有的程序都被载入到内存…

IDEA必备插件!一键生成接口文档

IDEA是一款功能强大的集成开发环境(IDE),它可以帮助开发人员更加高效地编写、调试和部署软件应用程序。我们在编写完接口代码后需要进行接口调试等操作,一般需要打开额外的调试工具,而今天给大家介绍一款IDEA插件&…

网站定制开发主要分类有哪些|企业 app 软件小程序定制

网站定制开发主要分类有哪些|企业 app 软件小程序定制 网站定制开发是指根据客户需求,为其量身定制设计和开发的网站服务。目前,网站定制开发主要分为以下几个分类: 1.静态网站定制开发:静态网站是由 HTML、CSS 和 JavaScript 等静…

什么是巧克力葡萄酒,值得一试吗?

许多葡萄酒爱好者喜欢浓郁巧克力味的红酒,巧克力葡萄酒是由葡萄酒和液体巧克力制成的混合饮料,它质地厚实,非常甜,带有红色水果、焦糖或咖啡的香味。它可能会让你想起可可饮料,而不是葡萄酒饮料。只有真正含有巧克力成…

vscode项目推送到git

1、打开项目文件 打开文件后点击vs code左侧工具栏中第三个源代码管理图标,点击初始化仓库,此时会创建一个本地仓库会检查该项目中的文件变更 2、创建远程仓库 点击克隆/下载,复制HTTPS地址 3、添加远程地址 1)图形化操作 2…

【开源】基于Vue.js的农村物流配送系统的设计和实现

项目编号: S 024 ,文末获取源码。 \color{red}{项目编号:S024,文末获取源码。} 项目编号:S024,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统登录、注册界面2.2 系统功能2.2…

uni微信小程序 map 添加padding

问题背景&#xff1a; 规划驾车线路的时候&#xff0c;使用uni的include-points指定可视范围的时候&#xff0c;会很极限。导致marker不能完全显示。 解决方法 给地图显示范围添加padding (推荐) <mapid"myMap":markers"markers":polyline"pol…

【LeetCode:1410. HTML 实体解析器 | 模拟+哈希表+字符串+库函数】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

设计模式—开闭原则

1.背景 伯特兰迈耶一般被认为是最早提出开闭原则这一术语的人&#xff0c;在他1988年发行的《面向对象软件构造》中给出。这一想法认为一旦完成&#xff0c;一个类的实现只应该因错误而修改&#xff0c;新的或者改变的特性应该通过新建不同的类实现。新建的类可以通过继承的方…

Spring Cloud 版本升级遇坑记:OpenFeignClient与Gateway的恩怨情仇

Spring Cloud 版本升级遇坑记&#xff1a;OpenFeignClient与Gateway的恩怨情仇 近日&#xff0c;在对项目中的 Spring Boot、Spring Cloud 以及 Spring Cloud Alibaba 进行版本升级时&#xff0c;遭遇了一个令人头疼的问题&#xff1a;Spring Cloud Gateway 在运行时一直卡住&a…

Python web自动化测试 —— 文件上传

​文件上传三种方式&#xff1a; &#xff08;一&#xff09;查看元素标签&#xff0c;如果是input&#xff0c;则可以参照文本框输入的形式进行文件上传 方法&#xff1a;和用户输入是一样的&#xff0c;使用send_keys 步骤&#xff1a;1、找到定位元素&#xff0c;2&#…

CV计算机视觉每日开源代码Paper with code速览-2023.11.20

点击CV计算机视觉&#xff0c;关注更多CV干货 论文已打包&#xff0c;点击进入—>下载界面 点击加入—>CV计算机视觉交流群 1.【人脸识别】FRCSyn Challenge at WACV 2024:Face Recognition Challenge in the Era of Synthetic Data 论文地址&#xff1a;https://arxi…

centos系统下,docker安装sqlserver并用本地Navicat连接

文章目录 一&#xff0c;centos下安装docker二&#xff0c;docker安装sqlserver20192.1 安装遇到的问题2.1.1 修改用户名进不去数据库2.1.2 安装2022版的sqlserver发现启动失败 三&#xff0c;Navicat连接centos下的sqlserver3.1 下载ODBC Driver 参考微软网址&#xff1a; 使…

SUSE 15.2升级Openssh9.5

SUSE 15.2升级Openssh9.5 公司有部分SAP的机器用的SUSE,懒得弄rpm包了.直接编译安装 1. 添加阿里云源 zypper addrepo -f http://mirrors.aliyun.com/opensuse/distribution/leap/15.2/repo/oss/ openSUSE-15.2-Oss zypper addrepo -f http://mirrors.aliyun.com/opensuse/d…

Vatee万腾科技新高峰:Vatee前瞻性创新的数字化之力

Vatee万腾科技&#xff0c;一家以前瞻性创新为核心驱动力的数字化引领者&#xff0c;正迈向新的高峰。其在科技领域的卓越表现不仅体现在技术实力上&#xff0c;更展现在对未来的深刻洞察和独到思考上。 在Vatee的科技舞台上&#xff0c;前瞻性创新如一道独特的光芒&#xff0c…

Visual Components软件典型功能描述 衡祖仿真

1、即点即用&#xff0c;即插即用 vc提供大量的组件模块&#xff0c;组件都已经赋子行为和渲染&#xff0c;看起来复杂的模拟场景,可以通过简单拖拉组合&#xff0c;即可成为一条运动的仿真。节省更多的时间&#xff0c;让布局更灵动。 2、PLC功能 过去&#xff0c;PLC程序的…

视频服务网关的三大部署(三)

视频网关是软硬一体的一款产品&#xff0c;可提供多协议&#xff08;RTSP/ONVIF/GB28181/海康ISUP/EHOME/大华、海康SDK等&#xff09;的设备视频接入、采集、处理、存储和分发等服务&#xff0c; 配合视频网关云管理平台&#xff0c;可广泛应用于安防监控、智能检测、智慧园区…

2023年面试测试工程师一般问什么问题?

面试和项目一起&#xff0c;是自学路上的两大拦路虎。面试测试工程师一般会被问什么问题&#xff0c;总结下来一般是下面这4类&#xff1a; 1.做好自我介绍 2.项目相关问题 3.技术相关问题 4.人事相关问题 接下来&#xff0c;主要从以上四个方向分别展开介绍。为了让大家更有获…

现货黄金区间交易的两个要点

在现货黄金市场中&#xff0c;我们常碰到横盘区间行情。有区间&#xff0c;就终究会出现突破&#xff0c;因为金价不可能缺乏方向而一直在区间内运行。那既然要突破&#xff0c;我们又应当如何应对和交易呢&#xff1f;下面我们就来讨论一下。 切忌在突破发生时马上跟随突破方向…

[HCIE] IPSec-VPN (手工模式)

概念&#xff1a; A. IPSec&#xff1a;是对IP的安全性补充&#xff0c;工作在IP层&#xff0c;为IP网络通信提供安全服务。 B.安全联盟SA&#xff1a;是通信对等体之间对某些要素的协定。 C. IPSec安全联盟简称 IPSec SA.通常成对建立&#xff08;inbound和outbound&#x…