【咕咕送书 | 第八期】羡慕同学进了大厂核心部门,看懂这本书你也能行!


在这里插入图片描述

🎬 鸽芷咕:个人主页

 🔥 个人专栏:《linux深造日志》《粉丝福利》

⛺️生活的理想,就是为了理想的生活!

⛳️ 写在前面参与规则

  • 参与方式:关注博主、点赞收藏评论,任意评论(每人最多评论三次)

  • ⛳️本次送书1~3取决于阅读量,阅读量越多,送的越多

  • 📆 活动时间至:2023-1-23 10:00:00 | 随机抽取由博主动态公布抽奖结果

如有特别需要的同学可添加博主微信进入粉丝福利群发放福利哦!

🔥 注:活动结束后,会私信中奖粉丝的,各位注意查看私信哦!

⛳️ 文章末尾扫码加入粉丝群,不定期发放粉丝福利,各种专业书籍免费赠送

文章目录

  • ⛳️ 写在前面参与规则
  • 引言
  • 一、做推荐算法在大厂有多吃香?
  • 二、推荐系统是怎么工作的
  • 三、推荐算法这样学就对了
  • 四、图书介绍
    • 图书目录
  • 五、粉丝购买优惠
  • 六、粉丝福利

引言

最近听说一位做推荐算法的同学通过面试,顺利入职某大厂核心盈利部门,真是太羡慕他了。为什么会推荐算法就能在大厂这么吃香? 因为大厂要依靠推荐系统来变现。例如,电商企业要向用户推荐最需要的商品;视频流媒体平台要向用户推送最喜欢的内容;社交新闻媒体平台要让用户看到最感兴趣的信息……因此,推荐系统和企业的收入直接相关,推荐算法做得好,企业就可以更好地理解用户需求,从而精准地推荐商品,增加销售额,提高用户忠诚度。那对于技术人来说,做好推荐系统都有哪些挑战?

一、做推荐算法在大厂有多吃香?

推荐算法是一项综合性很强的技术,它需要运用多种技术手段去解决实际问题,包括机器学习、数据挖掘、自然语言处理等。技术人可能会困惑,这么多知识要学习,要学到什么程度?怎样才能学好推荐算法?有一位在大厂做推荐算法的资深技术人专门写了一本书来解答上面的疑问,这本书就是 《互联网大厂推荐算法实战》 。从书名就可以看出来,这本书讲的都是大厂的实战经验,想学推荐算法,看这本书就对了。![图片

二、推荐系统是怎么工作的

推荐系统的主要原理是通过对用户的历史行为数据(如点击、购买、评分、评论等)进行分析和挖掘,提取用户的兴趣和喜好,并将其映射到物品空间中,从而预测用户对未来物品的偏好程度,最终生成个性化推荐结果。在推荐系统中有两个最基本的角色:一个是用户(User),推荐系统要服务的对象,同时也是推荐系统的重要贡献者;另一个是物料(Item),统称为被推荐的信息和内容,例如具体商品、视频、音乐、新闻等。推荐系统会执行四个步骤,从数百万量级的物料中挑选出最优的几十个物料,最终呈现在用户面前。下面按顺序介绍这四个步骤。

· 召回: 主要依赖“离线计算+在线缓存”模式,从百万规模候选集中快速筛选。这一步可以牺牲一部分精度,换取时间。

· 粗排: 召回会以数量来弥补质量的不足,在送往下一步之前,粗排要进行一次筛选,保留最具潜力的 10% 物料。

· 精排: 精排模型会让用户信息与物料信息充分交叉,从而精选出最符合用户品味的几十个物料。

· 重排: 调整精排结果的顺序,将相似内容打散,使得用户可以看到丰富多样的推荐结果。

推荐系统的四个步骤为我们揭秘大厂推荐算法的那位资深技术人,是毕业于清华大学电气工程专业的赵传霖博士,他目前在快手担任算法专家,拥有 10 多年互联网算法从业经验,主要研究方向为推荐系统、计算广告、个性化搜索。赵博士还是知乎“机器学习”话题优秀答主,曾经 4 次获得知乎创作排行榜“知势榜·影响力榜”(科技互联网领域)第一名。有感于市面上讲推荐算法的图书要么内容老旧,要么只讲算法理论,脱离实际太远,于是赵博士决定创作 《互联网大厂推荐算法实战》 ,分享一线实战经验,帮助大家理解推荐算法并灵活组合应用,从“术”上升到“道”的层面。现在我们就跟着赵博士深入到大厂一线来学习推荐算法吧。

在这里插入图片描述

三、推荐算法这样学就对了

推荐算法应该怎么学?是不管三七二十一狠钻现在最流行的算法,然后就指望一年知识用十年?这显然是不现实的,因为新算法和新模型在未来会层出不穷,不可能每个算法都要靠大力出奇迹的方式去学习。所以赵传霖博士在书中明确反对孤立、机械地学习算法,而是提倡 “透过现象看本质” ,要充分理解算法的思想。要想在实际工作中灵活运用,就要悟透算法之道。本书将重心放在了帮助读者梳理算法的发展脉 ,指导读者由“术”入“道”,达到“举一反三”的目的。全书内容可分为三个部分,我们来了解一下各部分的内容。首先是基础知识部分。介绍了推荐系统的基础知识、推荐系统中的特征工程、推荐系统中的 Embedding 技术。图片然后介绍推荐系统的各组成模块所使用的算法技术,包括召回、粗排、精排、重排四个模块。还对推荐算法实践中经常遇到的难题给出了应对之道。这部分内容极具价值,因为书中对多任务推荐、多场景推荐、新用户冷启动**、新物料冷启动、评估模型效果等实际应用场景进行细致的分析,定位并解决问题,是作者对大厂经验的直接分享。最后一部分是写给推荐算法工程师的,涵盖工作中的注意事项、学习方法,以及一些面试求职方面的宝贵建议。毕竟赵博士面试过许多求职者,可谓“阅人无数”,有他为读者把关,进大厂的希望那是相当大的。通过以上三个部分的学习,读者可以对推荐算法知识融汇贯通,对各种实践场景了然于胸,工作时能做到举重若轻,各种难题纷纷迎刃而解。

在这里插入图片描述

四、图书介绍

赵博士的理念是 “授人以鱼,不如授人以渔” ,他希望通过自己的分享,能让读者透彻理解推荐算法,并且在工作中灵活运用解决实际问题,少走弯路。本书最大的特点是 “实战”,书中讲述的都是互联网大厂主流的推荐算法。对于“经典但过时”的协调过滤、矩阵分解算法则干脆不讲,因为大厂都不玩这些了,而且也不是面试时考察的重点,所以没有去浪费笔墨。图片
本书兼顾理论与实践,除了讲解最基本的算法原理,还聚集于算法工程师的工作实际,关注他们日常遇到的实际难题。例如下面所列问题。

· 新用户与新物料怎么冷启动?

· 如何打开模型的黑盒,以排查问题或找到下一步升级改进的方向?

· 线下 AUC 涨了,但是线上 AB 实验的指标却不涨!这到底是什么原因造成的?

学习技术不仅要“talk”,也要有“code”。 赵博士认为算法工程师也属于广义上的程序员,源代码是最清晰直接的说明文档。所以书中针对核心算法都给出了相应的源码。

书中对于核心代码还给出了说明注释,帮助读者彻底理解算法的重要细节。至此,大厂是怎么玩推荐系统的,可说是一目了然,读者诸君切莫辜负了赵博士,定要多加学习思考,勤于练习。

还在羡慕做推荐算法的同学拿到大厂的 offer 吗?与其临渊羡鱼,不如退而结网,有 《互联网大厂推荐算法实战》 的加持,也许你很快也能进大厂和同学做同事。![图片

图书目录

1章 推荐系统简介 1
1.1 推荐系统的意义 2
1.2 推荐系统是如何运行的 3
1.3 推荐系统架构 5
1.3.1 功能架构 5
1.3.2 数据架构 8
1.4 推广搜的区别与联系 10
1.4.1 三驾马车的相同点 10
1.4.2 推荐与搜索 11
1.4.3 推搜与广告 12
1.5 小结 122章 推荐系统中的特征工程 14
2.1 批判“特征工程过时”的错误论调 15
2.2 特征提取 16
2.2.1 物料画像 16
2.2.2 用户画像 18
2.2.3 交叉特征 21
2.2.4 偏差特征 22
2.3 数值特征的处理 25
2.3.1 处理缺失值 25
2.3.2 标准化 25
2.3.3 数据平滑与消偏 26
2.3.4 分桶离散化 27
2.4 类别特征的处理 28
2.4.1 类别特征更受欢迎 28
2.4.2 类别特征享受VIP服务 29
2.4.3 映射 30
2.4.4 特征哈希 31
2.5 小结 32
第3章 推荐系统中的Embedding 33
3.1 无中生有:推荐算法中的Embedding 33
3.1.1 传统推荐算法:博闻强识 33
3.1.2 推荐算法的刚需:扩展性 35
3.1.3 深度学习的核心思想:无中生有的Embedding 36
3.1.4 Embedding的实现细节 37
3.2 共享Embedding还是独占Embedding 42
3.2.1 共享Embedding 42
3.2.2 独占Embedding 43
3.3 Parameter Server:推荐算法的训练加速器 46
3.3.1 传统分布式计算的不足 46
3.3.2 基于PS的分布式训练范式 47
3.3.3 PS中的并行策略 49
3.3.4 基于ps-lite实现分布式算法 51
3.3.5 更先进的PS 57
3.4 小结 60
第4章 精排 61
4.1 推荐算法的5个维度 61
4.2 交叉结构 62
4.2.1 FTRL:传统时代的记忆大师 62
4.2.2 FM:半只脚迈入DNN的门槛 69
4.2.3 Wide & Deep:兼顾记忆与扩展 71
4.2.4 DeepFM:融合二阶交叉 74
4.2.5 DCN:不再执着于DNN 76
4.2.6 AutoInt:变形金刚做交叉 79
4.3 用户行为序列建模 86
4.3.1 行为序列信息的构成 86
4.3.2 简单Pooling 86
4.3.3 用户建模要“千物千面” 87
4.3.4 建模序列内的依赖关系 89
4.3.5 多多益善:建模长序列 91
4.4 小结 96
第5章 召回 97
5.1 传统召回算法 97
5.1.1 基于物料属性的倒排索引 98
5.1.2 基于统计的协同过滤算法 99
5.1.3 矩阵分解算法 99
5.1.4 如何合并多路召回 100
5.2 向量化召回统一建模框架 101
5.2.1 如何定义正样本 102
5.2.2 重点关注负样本 103
5.2.3 解耦生成Embedding 105
5.2.4 如何定义优化目标 106
5.3 借助Word2Vec 111
5.3.1 *简单的Item2Vec 112
5.3.2 Airbnb召回算法 116
5.3.3 阿里巴巴的EGES召回 118
5.4 “瑞士军刀”FM的召回功能 120
5.4.1 打压热门物料 121
5.4.2 增广Embedding 122
5.5 大厂主力:双塔模型 124
5.5.1 不同场景下的正样本 124
5.5.2 简化负采样 124
5.5.3 双塔结构特点 126
5.5.4 Sampled Softmax Loss的技巧 127
5.5.5 双塔模型实现举例 129
5.6 邻里互助:GCN召回 131
5.6.1 GCN基础 131
5.6.2 PinSage:大规模图卷积的*案例 134
5.6.3 异构图上的GCN 142
5.7 小结 143
第6章 粗排与重排 145
6.1 粗排 146
6.1.1 模型:双塔仍然是主力 146
6.1.2 目标:拜精排为师 154
6.1.3 数据:纠正曝光偏差 158
6.1.4 模型:轻量级全连接 159
6.2 重排 161
6.2.1 基于启发式规则 162
6.2.2 基于行列式点过程 165
6.2.3 基于上下文感知的排序学习 174
6.3 小结 180
第7章 多任务与多场景 181
7.1 多任务推荐 181
7.1.1 多任务建模的误区 182
7.1.2 并发建模 182
7.1.3 串行建模 193
7.1.4 多个损失的融合 202
7.1.5 多个打分的融合 206
7.2 多场景推荐 209
7.2.1 特征位置 210
7.2.2 模型结构 211
7.2.3 模型参数 215
7.3 小结 217
第8章 冷启动 219
8.1 Bandit算法 219
8.1.1 多臂老虎机问题 220
8.1.2 Epsilon Greedy 221
8.1.3 UCB 222
8.1.4 概率匹配 223
8.1.5 Bayesian Bandit 223
8.1.6 上下文Bandit 225
8.2 元学习 228
8.2.1 什么是元学习 228
8.2.2 什么是MAML 230
8.2.3 MAML针对推荐场景的改造 233
8.2.4 Meta-Embedding 236
8.3 对比学习 242
8.3.1 对比学习简介 242
8.3.2 对比学习在推荐系统中的作用与使用方式 244
8.3.3 辨析对比学习与向量化召回 246
8.3.4 纠偏长尾物料的实践 247
8.3.5 纠偏小众用户的实践 249
8.4 其他算法 251
8.4.1 迁移学习 251
8.4.2 预测物料消费指标 252
8.4.3 以群体代替个体 253
8.4.4 借鉴多场景推荐 254
8.5 小结 255
第9章 评估与调试 256
9.1 离线评估 256
9.1.1 评估排序算法 257
9.1.2 评估召回算法 261
9.1.3 人工评测 266
9.1.4 持续评估 267
9.2 在线评估:A/B实验 267
9.2.1 线上:流量划分 268
9.2.2 线下:统计分析 273
9.3 打开模型的黑盒 276
9.3.1 外部观察 276
9.3.2 内部剖析 277
9.4 线下涨了,线上没效果 280
9.4.1 特征穿越 280
9.4.2 老汤模型 282
9.4.3 冰山:系统的内在缺陷 284
9.4.4 链路一致性问题 285
9.5 小结 28610章 推荐算法工程师的自我修养 287
10.1 工作 287
10.1.1 重视代码的规范性 287
10.1.2 重视离线评测 288
10.1.3 重视使用工具 289
10.2 学习 290
10.2.1 坚持问题导向 290
10.2.2 重在举一反三 291
10.2.3 敢于怀疑 292
10.2.4 落实代码细节 293
10.3 面试 293
10.3.1 社招 294
10.3.2 校招 296
10.4 小结 297

五、粉丝购买优惠

这里博主给大家5折限时福利购买链接:联网大厂推荐算法实战

  • 原价80多的只需要40多哦!
  • 同时博主也会评论区抽奖赠送几本的

六、粉丝福利

  • 参与方式:关注博主、点赞收藏评论,任意评论(每人最多评论三次)

  • ⛳️本次送书1~3取决于阅读量,阅读量越多,送的越多

  • 📆 活动时间至:2023-1-23 10:00:00 | 随机抽取由博主动态公布抽奖结果

如有特别需要的同学可添加博主微信进入粉丝福利群发放福利哦!

🔥 注:活动结束后,会私信中奖粉丝的,各位注意查看私信哦!

⛳️ 文章末尾扫码加入粉丝群,不定期发放粉丝福利,各种专业书籍免费赠送

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/335489.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

git本地分支的合并

目录 第一章、本地分支的切换测试1.1)切换之前的master分支下文件内容1.2)切换到develop分支后修改文件1.3)切回master分支出现报错:1.4)报错分析 第二章、解决方式2.1)方式1:commit2.2&#xf…

LabVIEW振动筛螺栓松动故障诊断

LabVIEW振动筛螺栓松动故障诊断 概述:利用LabVIEW解决振动筛螺栓松动的故障诊断问题。通过集成的方法,不仅提高了故障检测的准确性,还优化了维护流程,为类似的机械设备故障提供了可靠的解决方案。 由于工作条件复杂,…

SSM汽车维修管理系统

工具使用情况: eclipsetomcatmysqljdk 技术架构: 后台:springspring mvcmybatis 前台:easyui 功能介绍: 汽车维修管理、车辆接待、维修项目登记、维修领料、质检完工、消费结算 配件管理、财务管理、基础数据管理…

SpringSecurity Web 权限方案

目录 一、设置登录系统的账号、密码 二、数据库查询用户名密码 三、自定义登录页面 四、基于角色或权限进行访问控制 (一)hasAuthority 方法 (二)hasAnyAuthority 方法 (三)hasRole 方法 &#xff…

九州金榜|在孩子家庭教育中放手不放任

家庭教育,是每个父母都要面临的事情,也是每个家庭都要经历的,但是在目前的家庭教育中,孩子都是由父母规划,在一定程度上会对孩子的成长产生影响,如何科学家庭教育,九州金榜家庭教育有以下观点&a…

JVM:垃圾收集器(7种)

垃圾收集器关系图: 如果两个收集器之间存在连线,就说明它们可以搭配使用。它们说在的区域则表示这个收集器属于新生代收集器还是老年代收集器。其中Serial(串行)、Parallel(并行) 1、Serial收集器 Serial收…

ASP.NET Core 对象池化技术

写在前面 Microsoft.Extensions.ObjectPool 是 ASP.NET Core 基础结构的一部分,当对象的初始化成本较高,并且可能被频繁使用时,才适合采用对象池技术;被ObjectPool管理的对象不会进入垃圾回收,使用时通过由实例对象实…

市场复盘总结 20240119

仅用于记录当天的市场情况,用于统计交易策略的适用情况,以便程序回测 短线核心:不参与任何级别的调整,采用龙空龙模式 昨日主题投资 连板进级率 11/39 28.2% 二进三: 进级率低 43% 最常用的二种方法: 方…

[AI]文心一言爆火的同时,ChatGPT-4.5的正确打开方式

前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家:https://www.captainbed.cn/z ChatGPT体验地址 文章目录 前言4.5key价格泄漏ChatGPT4.0使用地址ChatGPT正确打开方式最新功能语音助手存档…

【PICO】【VRTK】PICO项目后打包后在头盔中运行时不追踪

【背景】 PICO项目打包后可以在头盔中运行,但是画面是贴脸移动的,无法发生有效的空间追踪。 【解决办法】 我的Unity版本是2021.3.30LTS,ProjectSettings中的NetFramework默认是2.1。改到NetFramework后再打包就正常了。

安捷伦N5222A网络分析仪26.5GHz

安捷伦N5222A网络分析仪 N5222A 是 Agilent 的 26.5 GHz 网络分析仪。网络分析仪是一种功能强大的仪器,可以以无与伦比的精度测量射频设备的线性特性。许多行业使用网络分析仪来测试设备、测量材料和监控信号的完整性。 附加功能: 10 MHz 至 26.5 GHz 2…

el-table样式错乱解决方案

bug: 图片的椭圆框住的地方,在页面放大缩小之后就对不齐了。 原因: 主要原因是当你对页面放大缩小的时候,页面进行了重构,页面的宽高及样式进行了变化,但是在这个更新的过程中,table的反应并没…

git使用的常用指令

git作为一个版本控制工具,和maven并合称为实习的两大杀手工具。今天我来给大家介绍一下git的常用指令,帮助大家在实习和多人协同开发的时候提供一些帮助。 找到git管理的文件夹 命令1 git init 这个命令是为了初始化本地库 命令2 查看当前的git状态…

怎么做表单链接_从表单链接到营销策略

从表单链接到营销策略:一场无与伦比的转化之旅 在数字营销的世界里,表单链接是一种至关重要的元素。它不仅是一个简单的链接,更是企业与潜在客户之间建立联系的桥梁。如何将表单链接巧妙地融入营销策略,让潜在客户转化为真正的客…

JUC并发编程-线程和进程、Synchronized 和 Lock、生产者和消费者问题

1、什么是JUC 源码 官方文档 面试高频问! java.util 工具包、包、分类 业务:普通的线程代码 Thread Runnable Runnable 没有返回值、效率相比入 Callable 相对较低! 2、线程和进程 线程、进程,如果不能使用一句话说出来的技术…

力扣36. 有效的数独

模拟 思路: 使用三个哈希表来存储数字个数 row[r][val] 用于存储第 r 行 val 1 的个数;column[c][val] 用于存储第 c 列 val 1 的个数; subboxes[i][j][val] 用于存储第 i 行、第 j 列个小九宫格 val 1 的个数,其中&#xff1…

论文笔记:基于CLIP引导学习的多模式假新闻检测

整理了ICME2023 Multimodal Fake News Detection via CLIP-Guided Learning)论文的阅读笔记 背景模型实验 背景 对于我们这一代人来说,在线社交网络在很大程度上取代了以报纸和杂志为代表的传统信息交流方式。人们喜欢在社交媒体上寻找朋友或分享观点。然…

Linux系统安装NFS服务器

NFS是一种网络文件系统,英文全称Network File System,通过NFS可以让不同的主机系统之间共享文件或目录。通过NFS,用户可以直接在本地NFS客户端读写NFS服务端上的文件,是非常好的共享存储工具。本篇文章将介绍如何在CentOS7上安装N…

2024年【G2电站锅炉司炉】考试报名及G2电站锅炉司炉复审考试

题库来源:安全生产模拟考试一点通公众号小程序 G2电站锅炉司炉考试报名是安全生产模拟考试一点通生成的,G2电站锅炉司炉证模拟考试题库是根据G2电站锅炉司炉最新版教材汇编出G2电站锅炉司炉仿真模拟考试。2024年【G2电站锅炉司炉】考试报名及G2电站锅炉…

在WIN从零开始在QMUE上添加一块自己的开发板(一)

文章目录 一、前言二、源码编译(一)安装Msys2(二)配置GCC工具链(三)安装QEMU构建依赖(四)下载编译QEMU源码 二、QUME编程基础(一)QOM机制(二&…