实时特征框架的生产实践|得物技术

一、业务背景

使用场景

推荐系统在当今的互联网应用中扮演着至关重要的角色,它极大地丰富了用户体验,帮助用户在海量信息中发现和探索他们可能感兴趣的内容。然而,随着数据量的激增和用户需求的日益多样化,传统的离线推荐系统已经难以满足用户对于实时性和个性化推荐的需求。在这种背景下,实时推荐系统应运而生,它能够迅速响应用户的行为变化,并提供更为精准的个性化推荐。

为了实现这一目标,高效的实时推荐系统必须能够持续更新用户和物品的特征,以实时捕捉和反映它们的最新行为和兴趣变化。在这个过程中,实时特征的准确性和稳定性变得至关重要,它们直接影响到推荐系统在生产环境中的效果表现。

image.png

解决问题

目前特征体系可以分为两类:统计类型、属性类型。

image.png

在实时特征计算的实践中,如果单纯依赖Flink SQL而不进行定制开发,可能会面临一些挑战,例如处理同质滑窗特征状态的冗余性以及特征冷启动的线上问题。为了突破这些限制,需要构建一个全面的实时处理框架,以适应多样化的实时特征业务场景。

该框架旨在简化与底层组件(如Flink、Kafka、Redis、HBase等)的交互,隐藏其复杂性,让业务开发人员无需深入了解这些组件的细节。通过内置的序列特征和滑动窗口特征算子,开发人员可以专注于业务逻辑的实现,从而提升开发效率和系统的可维护性。

二、框架设计

整体构架

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

状态设计

业务上有许多同质滑窗特征,它们具有相同的计算逻辑,但查询的窗口长度各异。如果对每个滑窗特征都使用Flink原生的hopWindow,不仅会导致状态的无限膨胀,还可能在数据刷新时引发IO爆炸的风险。为了解决这一问题,我们对状态管理进行了优化重构。

根据最小的窗口单位将状态划分为多个分片,确保每个分片对齐到完整的时间粒度。例如,如果以小时为单位,就对齐到每小时的整点;如果以天为单位,则对齐到每天的0点。这样,具有相同窗口单位的特征就可以共享状态,例如,最近1小时、2小时、3小时的统计特征都可以从1小时的分片中进行统计。

当数据到达时,根据事件的时间戳(eventTime)将其合并到相应的分片中。然后,根据窗口的大小配置,查询对应的分片并进行聚合,最后刷出聚合结果。这种方法不仅提高了数据处理的效率,还降低了系统资源的消耗。

image.png

通过上面的状态重构方案,我们来解决滑动窗口的两类问题:

比如计算一个item最近1小时、2小时、3小时内的曝光数、点击数和转化数。

满足不同长度时间周期的计算

可以根据窗口单位选择对应的分片进行合并计算,这意味着,可以直接利用已经对齐到小时分片的状态,而无需为每个不同长度的窗口单独维护状态。

image.png

满足不同查询时间(滑动查询)的计算

在处理滑动查询时,如果遇到数据上报的空白期,比如11:00到12:00之间没有数据,我们利用Flink的定时器功能来应对。通过设定定时器,可以在没有新数据到达时自动触发计算,将这段时间的数据视为0,并更新状态。这样,即使数据上报出现间断,我们也能确保推荐系统的状态保持最新。

image.png

算子实现

接口定义

框架设计了三种核心算子来处理实时特征:普通序列特征算子、滑动序列特征算子和滑窗统计算子。这些算子都继承自一个公共的算子抽象类,并实现了特定的方法来执行它们的功能。

compute 方法负责根据事件时间(eventTime)来获取相应的状态分片,注册下一个触发计算的定时器,并完成聚合结果的输出。这个方法是算子处理实时数据流的核心,确保了数据的实时处理和状态的及时更新。

onTimer 方法则处理定时器触发时的逻辑。当定时器触发时,它会根据触发时间(triggerTime)扫描相应的状态分片,并输出聚合结果。这允许算子在预定的时间点进行数据的聚合和输出,即使在数据流中出现间隙或延迟的情况下也能保持计算的连续性。

// 计算特征结果,由子类实现
public abstract void compute(long processTimeInMillis, FcDataObj input, byte[] stateBytes,                             
                             StateContext context) throws InvalidProtocolBufferException;

// 定时器触发时调用的方法,由子类实现
public void onTimer(long triggerTime, byte[] currentStateBytes, StateContext context)        
        throws Exception {
}

生产逻辑

以滑窗统计为例,具体讲解下生产逻辑:

  • 根据时间轴按照指定的粒度切分不同的分片
  • 收到新的数据上报,根据eventTime合并到对应分片
  • 根据配置的窗口大小,取出对应分片合并计算特征结果,同时注册下一次触发的定时器(分片滑出窗口的时间)
  • 定时器触发按照triggerTime扫描出在窗口大小内的分片数据,进行合并计算
  • 窗口的滑入滑出均以分片为单位,因为分片为特征的最小精度

image.png

混合状态存储架构

在实时特征生产场景中,Flink任务常常需要处理大规模状态数据。生产环境中可能会遇到两个主要问题:

  • 当状态数据量达到TB级别时,在保证数据不丢失、不重复的语义下,一旦发生故障需要恢复,恢复速度会很慢,导致业务中断时间较长,通常超过10分钟
  • 目前 Flink SQL 的状态恢复机制较为严苛,在很多场景下,作业变更无法从原先状态恢复,对于新增特征的需求,希望能够在状态上直接进行更新,实现无损重启。

为了解决这些问题,框架实现了状态的冷热数据分离,热数据在FlinkState内,冷数据(包含热数据)存储在外部存储(Redis,HBase)。

在任务执行过程中,会优先从FlinkState中读取数据。如果FlinkState中没有找到所需的数据,则会从外部存储系统中加载。每次执行checkpoint操作时,会将状态的变更部分同步到外部存储中,以此确保数据的一致性。这样的设计既保证了数据的高可用性,也提高了系统的容错能力。

image.png

任务恢复时,不再将全量数据同步拉取、同步加载。而是同步加载热数据,运行时按需查询冷数据。热数据加载完毕后,整个任务即可开始运行。

image.png

若要在现有状态中添加新特征,可以采用旁路离线任务的方式,将新特征作为额外的一列写入外部存储。一旦数据同步完成,只需对现有的任务逻辑进行相应的修改,即可实现新特征的无缝集成。

image.png

特征冷启动

对于超长窗口的聚合统计,例如30天的特征,无需等待特征任务上线30天后才能使用。可以使用离线数据完成状态的补全,然后再使用增量数据进行实时特征更新。

使用混合Source完成批流任务切换的步骤如下:

  • 利用离线数据(例如ODPS表中存储的最近n-1天的历史数据)来完成状态的初始化。这一步骤中,我们将数据同步到外部存储,但不做即时的聚合结果输出。
  • 将数据源切换为Kafka,并调整偏移量,使其从当天的0点开始消费数据。这样就可以进行特征的更新和计算。

image.png

三、案例优化

测试任务:统计瀑布流场景下item最近1hour/2hour/3hour/4hour/5hour/6hour的曝光量和点击量。

使用Flink SQL的hopWindow进行多特征计算,遇到反压问题,导致checkpoint超时失败。

下面是两种计算方式的性能对比:

image.png

在相同的计算资源和处理相同量级数据的条件下,实时特征框架任务的性能优于Flink SQL任务。

四、写在最后

实时特征框架通过内置的多种算子,灵活应对不同的业务场景,并且设计多种优化方案以提升性能:

  • 通过共享状态的方式处理滑动窗口聚合特征,这样不仅减少了计算量,也减轻了IO压力。
  • 采用混合状态存储架构,使得大规模状态任务能够快速恢复,提高了系统的可靠性。
  • 支持从外部构建状态,从而实现特征的冷启动,这为新特征的快速接入提供了可能。

我们期待在未来的迭代中,这一框架能够不断进化,以适应更多场景的需求。

*文/ricky

本文属得物技术原创,更多精彩文章请看:得物技术

未经得物技术许可严禁转载,否则依法追究法律责任!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/906081.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vue3+vant实现视频播放(含首次禁止进度条拖拽,视频看完后恢复,保存播放视频进度,刷新及下次进入继续播放,判断视频有无全部看完等)

1、效果图 2、 <div><videocontrolsclass"video_player"ref"videoPlayer":src"videoSrc"timeupdate"handleTimeUpdate"play"onPlay"pause"onPause"ended"onVideoEnded"></video><…

【设计模式系列】迭代器模式(七)

一、什么是迭代器模式 迭代器模式&#xff08;Iterator Pattern&#xff09;是一种行为型设计模式&#xff0c;它提供一种方法来顺序访问一个聚合对象中的各个元素&#xff0c;而不暴露其内部的表示。迭代器模式将集合的遍历过程封装在一个独立的迭代器对象中&#xff0c;这样…

硅谷甄选(10)用户管理

用户管理模块 9.1 静态搭建 主要是el-form、el-pagination <template><el-card style"height: 80px"><el-form :inline"true" class"form"><el-form-item label"用户名:"><el-input placeholder"请…

BGP路径属性与路由反射器

前言 IBGP水平分割规则用于防止AS内部产生环路&#xff0c;在很大程度上杜绝了IBGP路由产生环路的可能性&#xff0c;但是同时也带来了新的问题&#xff1a;BGP路由在AS内部只能传递一跳&#xff0c;如果建立IBGP对等体全互联模型又会加重设备的负担。 BGP 路径属性 AS_Path …

EtherCAT转ModbusTCP相关技术

EtherCAT/Ethernet/IP/Profinet/ModbusTCP协议互转工业串口网关https://item.taobao.com/item.htm?ftt&id822721028899 MS-GW15 概述 MS-GW15 是 EtherCAT 和 Modbus TCP 协议转换网关&#xff0c;为用户提供一种 PLC 扩展的集成解决方案&#xff0c;可以轻松容易将 Modbu…

如何防止U盘盗取电脑数据?

数据安全无论是对企业还是个人都至关重要。这些用户群体随时面临着数据被窃取的风险&#xff0c;而 U 盘则成为了潜在的安全隐患。如果你想要禁止电脑上使用 这类USB 存储设备&#xff0c;看完这篇文章&#xff0c;防止 U 盘盗取数据并非难事。 禁止使用usb存储设备 打开电脑上…

二叉树选择题

一 . 相关性质 1 &#xff09; 对于任何一棵二叉树 &#xff0c; 如果度数为 0 ---> 其叶子结点个数为 , 度数为2的分支结点个数为 &#xff0c;则有 2 ) 树的结点总数 n 3 ) 有 n 个结点 &#xff0c; 则边数为 n - 1 4 ) 满二叉树 &#xff1a;&#xff08;k 层) 结…

【急救】——心肺复苏和AED使用以及海姆立克法

【急救】——心肺复苏和AED使用以及海姆立克法 法律保障成人CPR实施步骤1.确保现场环境安全和自身安全2.呼唤确认救助对象状况&#xff0c;通过轻拍肩膀&#xff0c;触摸腹部数10个数识别呼吸***3.呼喊求助***4.找到按压位置5.按照标准要求按压什么时候停止CPR(心肺复苏&#x…

【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法

目录 参考书&#xff0c;学习书 0 统计学知识大致脉络 1 个体---抽样---整体 1.1 关于个体---抽样---整体&#xff0c;这个三段式关系 1.2 要明白&#xff0c;自然界的整体/母体是不可能被全部认识的 1.2.1 不要较真&#xff0c;如果是人为定义的一个整体&#xff0c;是可…

Qgis 开发初级 《ToolBox》

Qgis 有个ToolBox 的&#xff0c;在Processing->ToolBox 菜单里面&#xff0c;界面如下。 理论上Qgis这里面的工具都是可以用脚本或者C 代码调用的。界面以Vector overlay 为例子简单介绍下使用方式。Vector overlay 的意思是矢量叠置分析&#xff0c;和arcgis软件类似的。点…

用图说明 CPU、MCU、MPU、SoC 的区别

CPU CPU 负责执行构成计算机程序的指令&#xff0c;执行这些指令所指定的算术、逻辑、控制和输入/输出&#xff08;I/O&#xff09;操作。 MCU (microcontroller unit) 不同的 MCU 架构如下&#xff0c;注意这里的 MPU 表示 memory protection unit MPU (microprocessor un…

HCIA(ACL)

第七节 ACL&#xff1a;访问控制列表 访问控制----在路由器的入或者出的接口上&#xff0c;匹配流量&#xff0c;之后产生动作---允许或拒绝 定义感兴趣流量-----帮助其他软件抓流量 匹配规则&#xff1a; 至上而下&#xff0c;逐一匹配&#xff0c;上调匹配按照上条执行…

冒泡排序和二分查找--go

冒泡排序的逻辑 二分查找的逻辑 func bubbleSort(arr *[5]int){//冒泡排序fmt.Println(*arr)temp : 0for j : len(*arr); j > 0; j-- {for i : 0; i < j-1; i {temp (*arr)[i]if((*arr)[i] > (*arr)[i1]){(*arr)[i] (*arr)[i1](*arr)[i1] temp}}} }func binaryF…

【工具分享】Pylocky勒索病毒解密工具

前言 PyLocky勒索软件首次出现在2018年&#xff0c;以模仿著名的Locky勒索软件而得名。与Locky无实际关联&#xff0c;PyLocky是用Python编写的&#xff0c;并通过PyInstaller打包成可执行文件&#xff0c;使其更难被检测。PyLocky通常通过网络钓鱼邮件传播&#xff0c;邮件伪…

SAP-FICO 月结流程

一、财务月结 1、资产会计-固定资产折旧计提AFAB 正式运行之前&#xff0c;先测试运行&#xff0c;没有问题就正式运行 可以看到&#xff0c;没有错误 因为正式系统的资产会过于庞大&#xff0c;一般都是后台运行资产的折旧 点击程序--后台执行 AFBP查看运行日志&#xff0c…

vscode | 开发神器vscode快捷键删除和恢复

目录 快捷键不好使了删除快捷键恢复删除的快捷键 在vscode使用的过程中&#xff0c;随着我们自身需求的不断变化&#xff0c;安装的插件将会持续增长&#xff0c;那么随之而来的就会带来一个问题&#xff1a;插件的快捷键重复。快捷键重复导致的问题就是快捷键不好使了&#xf…

ETLCloud怎么样?深度解析其在数据管理中的表现

在BI或数据大屏等数据分析工具中&#xff0c;经常需要从多个业务系统中提取原始数据&#xff0c;然后对数据进行清洗、处理&#xff0c;以获取高质量、有效且干净的数据以供后续的BI进行数据统计和分析使用&#xff0c;从高质量的实现企业数据的价值变现。 然而&#xff0c;在…

0xGame 2024 [Week 4] Jenkins

1.前言 由于好久没做web题了&#xff0c;所以今天来尝试来做一波web题&#xff0c;仅供刷题记录。 2.题目 这个给的提示对于小白来说实在是友好的过劲。 3.分析 上网搜到一个关于Jenkins的历史漏洞&#xff0c;下面链接可供参考 https://blog.csdn.net/2301_80127209/arti…

国标GB28181公网直播EasyGBS国标GB28181软件的应用场景

随着科技的飞速发展&#xff0c;安防视频监控技术已经成为现代社会不可或缺的一部分&#xff0c;它在保障公共安全、企业运营安全以及个人财产安全方面发挥着举足轻重的作用。国标GB28181网页直播平台EasyGBS安防视频监控平台&#xff0c;作为集高效性、稳定性与智能化于一体的…