流量反作弊算法简介

参考:流量反作弊算法实践

1. 背景

        阅读记录阿里流量作弊的风控文章。甄别阿里妈妈逾千亿商业流量中作弊 与 低质量的部分,保护广告主和平台的利益是风控团队的核心工作之一。

2. 广告风控流程

        广告主投放内容与风控团队、下游业务团队的简易交互流程如下。

        广告素材通过内容风控审核后,即可在线上进行展示。期间广告主可能会主动作弊、也可能受到其他广告主攻击。需要对无效流量进行过滤,保护广告主的利益,维护健康的广告投放环境。

3. 无效流量

        流量反作弊系统的核心能力就是清洗、过滤无效流量。但是无效流量并不等价于作弊流量,还包括低质量流量。

1. 低质量:重复点击计费策略、频率控制策略、剧烈波动策略等;

2. 作弊:转化效果概率为0的流量。

        作弊流量转化期望概率一定为0,比如爬虫产生的点击流量。但后续实际频率为0的流量不一定是作弊。比如新商品累计1万点击后仍没有转化,只能说频率为0,不能直接断定为作弊流量。常见的无效流量包括:

1. 消耗竞争对手;

2. 提升自身排名;

3. 自然宝贝刷单误伤广告主;

4. 非恶意无效流量。

3.1 消耗竞争对手 -- 恶意点击

        一些广告主,通过构造虚假流量(恶意点击),攻击其他广告主,消耗对方预算致使其广告下架(如原定计划可以投放7日的广告内容,在第2天突然被完全消耗)。这种情况下,很容易引起受害广告主的投诉,影响恶劣。

3.2 提升自身排名 -- 刷质量分

        广告排名由出价和质量评分决定。一些广告主会雇佣黑产刷单,提高广告的转化率,通过低成本获得靠前的广告排名。这些作弊利益驱动属性也很强,比较容易被平台和相关广告主感知到。对平台的影响也较为恶劣。

3.3 自然宝贝刷单 -- 货比三家

        一些广告主通过雇佣黑产提高店铺的成交数、好评数、加购收藏数等。刷手为了更好地隐藏自己,往往会装作“货比三家”,查看多个宝贝信息。该过程偶尔会误伤了广告展示宝贝。这种作弊对广告生态的影响比较弱。感知程度会偏低一些。此外,人工刷手往往伪装的更好,在流量甄别上难度比较大。

3.4 非恶意无效流量

        另外非恶意、非薅羊毛的无效流量也需要被过滤。比如:

1. 一些浏览器在打开淘宝首页时,会预加载所有的宝贝链接后续跳转网页;

2. 爬虫或浏览器劫持而产生的流量,不应该计入广告主的费用中。

3.5 淘客交易作弊

        淘客交易作弊,不满足作弊流量转化概率为0的假设。根据计费方式不同,常见的2种作弊形式为:

1. 流量劫持

        CPS计费下的主要作弊手法是流量劫持。常见的流量劫持有2种:

1. 篡改记录用户流量来源,将其他淘宝客的拉新流量据为己有。广告主会明显感知到自然流量变少,拉新流量增加。

2. 修改用户跳转链接,使得用户跳转到自己的宝贝页面,会导致用户在不知情的情况下购买了另一家店铺的商品。此时商家会在销量层面有一定感知。

2. 黑灰产淘客拉新

        CPA计费下的主要问题是虚假地址。常见的CPA通常发生在产品拉新中,如用户注册、用户下单...等。在一些淘宝客拉新场景中,需要拉新用户完成注册、下单等一系列流程。此时一些淘宝客通过批量注册,下单廉价商品来赚取拉新差价。

        除了虚拟类目以外,实体商品需要填写明确的收获地址。由于大量相同地址容易引起商家警觉,真实非本人地址可能引起快递机构的投诉,影响其后续结算。所以淘宝客往往会构造一些半真半假的虚假地址,用于收货。因此虚假地址的识别是该场景下的重点抓手之一。

3.6 下游任务影响

        虚假流量不单影响着其他广告主的权益,同时影响着阿里生态的下游业务。搜索、推荐、广告等业务的收益,强依赖于其基于用户行为数据的在线学习。如:个性化推荐、点击率预估、流量分发、广告定价等。而当这些任务中混入虚假流量时,会对其真实线上的精度造成极大影响。

4. 算法实践

        流量反作弊对于精度的要求尤其高,多过滤导致平台收益减少、少过滤引起广告主投诉,破坏投放生态。而且业务场景对实时返款的诉求越来越强烈,同时作弊对抗升级,从集中式、大规模转向分布式、稀疏化攻击,识别难度增大。亟需基于高维异常检查的新系统能力。为此,我们建立了集异常主动感知、人工洞察分析、自动处置过滤、客观评价高效循环一体的风控系统。

4.1 异常主动感知

        在历史的风控体系中,往往是Case驱动的。即遇到问题通过滞后的算法或策略迭代来覆盖风险。为了提前发现问题,尽可能减少投诉,净化投放环境,引入了感知。通过感知捕捉与常见分布不同的数据,输出异常列表。将可感知异常流量分为:

1. 受害者可感知;

2. 平台可感知;

3. 实战攻防可感知;

4. 假想攻防可感知;

5. 算法挖掘可感知。

        感知是重召回的,但并不是单纯为了更多地召回现有风险。它设计的核心是去感知所有的“异常”。以2020年初为例,由于骑行政策的调整,售卖头盔商家的访问量显著偏高,连带着必然影响到点击率、转化率等一系列指标。这些异常是商铺可感知的,需要被捕捉到,但并不属于作弊流量。所以不会被流量反作弊系统所过滤。

        那感知究竟如何来做呢?以“点击流量反作弊”来说,作弊一定会导致点击量增加。如果可以预估出一个商品每天的点击数量,则超出该值的点击一定为作弊。因此流量反作弊感知的核心之一,就是如何在大盘召回率未知的情况下,精准预估正常流量值

4.2 人工洞察分析

        为了确认感知到的异常流量哪些属于作弊,分析人员需要进行洞察分析。“洞察”的目的是从“感知”到的异常中将风险抽离出来,进而发现新的风险模式。将洞察分为:

1. 受害者洞察;

2. 攻击者洞察;

3. 套利漏洞洞察;

3. 流量实例洞察。

        传统洞察需要人工挑选可疑特征(如停留时长、注册时长),并与大盘好样本进行比较(如下图)。对领域经验有强依赖,而领域专家毕竟是少数,并且随着作弊越发高级,单一维度或少量维度下逐渐难以发现作弊。为此引入了高维数据下的可视化洞察分析技术。

         在洞察环节,首先需要对样本进行高度抽象表示(即在高维数据中选择合适的子空间投影)。确定合适的子空间后,除了和大盘比较,还引入了时间维度的分布同比(如下图)。对于分布稳定的某个广告,3月6日降维图中突然出现明显不同的一簇,很可能是新的异常模式。(图中“样本库”指最终被识别为作弊的流量)

        洞察的难点在于,如何减轻未召回的作弊对正常分布的污染(跳出既有认知去召回未知异常模式)。比如上图中蓝色线条内部分可能也存在作弊,这时通过同比就无法发现异常。

4.3 处置

        指对风险进行处置,对于不同的风险实体、风险类型,会使用不同的处置方法。

4.3.1 流量反作弊的处置

        传统的算法迭代模式,是根据洞察分析的结果,指导规则、统计模型为主的无监督过滤系统。对领域经验比较依赖,而且效率低下、难以形成沉淀。因此对于流量反作弊的处置,我们部署了实时流式、小时批处理双重防线。其逻辑如下图所示。

        在线实时过滤系统,综合了无监督、半监督的特征工程,以及监督的集成(Ensemble)异常检测器。相比于单条策略的独立决策,集成的容错性更高(召回能力下降,适用于精度高的场景)。

如: PC端反作弊策略依赖于网页采集的前端行为、鼠标点击行为等,当数据采集出错时,过渡依赖某一策略将导致大面积误差。

        尽可能使用更触及作弊本质、更具有鲁棒性的特征。和正向业务不同,不会在特征设计层面,过分聚焦于正样本的区分度。比如绝大部分爬虫流量都是PC端带来的,“是否是PC”就是一个极强的特征。但一旦这种作弊没有继续攻击,模型的效果就大打折扣。因此更多会使用各个维度上计算与Normal分布的偏差、到Normal簇的距离...等。

        实时过滤系统基本可以解决90%的问题。为了更好地拟合高级作弊,又引入了小时级别过滤系统,使用开销更大的特征与更复杂的模型。而且广告结算支持事后返款,可以使用小时级结果对实时流模型进行修正,用于结算与展示。当然,处置能力最终收敛于实时流过滤系统,会是我们更长期的追求。

4.3.2 淘客交易反作弊的处置

        对于过滤系统判定作弊的淘客,首先冻结其佣金,搜集证据后下达处罚结果。并通过“预估佣金”、“异常特征”来对待处罚淘客进行分级处置。

        此外,传统的处罚机制为月结,从媒体开始作弊到下达处罚有一定延迟。一方面不利于及时管控风险,另一方面会导致非主观恶意作弊淘客的强烈反弹,为提升管控的时效,减少淘客的损失,同时提升用户体验,在原有的月结机制基础上,增加周/天的处罚机制。

4.4 客观评价

对于整个流量反作弊系统,有4部分需要评价:

1. 在线有监督精度;

2. 在线有监督召回;

3. 离线无监督精度;

4. 离线无监督召回。

        因为没有Ground Truth,为了客观评价在线有监督过滤系统的精度召回,建立了离线无监督样本库。使用离线无监督样本库的最终结果,作为在线有监督系统的Groud truth,评估其分类效果。但也引入了无监督评价问题。

4.4.1 有监督过滤系统的评价

        在线与离线的关系如下图。基于纯无监督的挖掘体系,我们的底线是消灭上文提到的5种可感知异常流量中的作弊流量,终局则是消灭不可感知的作弊流量。通过天级别的事后信息引入,以无监督的方式对线上实时系统过滤结果进行修正,并将标签用于后续在线监督系统学习。

        基于现有标签的AUC、KS、MAX-F1...等指标,会过分高估风控模型效果。

例如,实时模型的AUC很容易高于0.99。然而这其中绝大多数的样本都来自于简单的爬虫、或傻瓜式疯狂点击,如下图离散分布的红点。在更高级的作弊上AUC可能不足0.8,如下图红圈中的样本。

        为了更客观地评价模型,引入了“样本库分级”,将“简单作弊”与“高级作弊”区分开。并通过结构化采样构造封闭评测集,指导模型迭代。

4.4.2 无监督系统的评价

        无监督系统的精准与召回评价一直是业内的难题。

1. 精准评价

        传统的评价方法是通过数据抽样,由专家进行标注进行评估,效率低下且非常主观。为此我们借助淘系生态数据,为无监督系统引入了自动化评价体系。基于无效流量转化概率为0的假设,通过统计推断,得到模型在指定置信度下的精度指数下限。另外还有基于区间估计的精度推断方法。

4.4.3 无监督召回评价

        真实环境下的召回评价,是难以定量的。除了大盘抽样巡检外,由于引入了完备的感知、洞察体系。将所有的异常流量,均归纳至一个风险池。无论何时有需要对流量进行处置(临时止血或迭代模型),都可以迅速定位到问题根源,将安全感最大化。

5. 总  结

        风控研究方向:

1. 高维数据下的异常检测;

2. 大规模图学习;

3. 机器学习可解释性;

4. 数据可视化方法等。

        风控可能是当前ML领域,对算法鲁棒性和解释性要求最高、精度要求最极致、系统规模和时效性挑战最大、最能用钱衡量的工业级业务。需要我们具备卓越的业务数据洞察能力、工程架构能力,让研究成果转换成坚实的工业级解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/566697.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ArrayList与顺序表(2)

前言~🥳🎉🎉🎉 hellohello~,大家好💕💕,这里是E绵绵呀✋✋ ,如果觉得这篇文章还不错的话还请点赞❤️❤️收藏💞 💞 关注💥&#x1…

JavaScript中的map()方法详解

1. map() 的返回值是一个新的数组,新数组中的元素为 “原数组调用函数处理过后的值” 2. 简单使用:遍历整个数组,将大于4的元素乘以2 const array [2, 3, 4, 4, 5, 6]console.log("array",array) const map array.map(x > {…

nfs网络存储配置

准备:yum install rpcbind yum install nfs-server 一台服务器:192.168.220.131 一台客户端:192.168.220.220 服务器: 先启动rpcbind服务:systemctl restart rpcbind 在启动…

B站下行CDN架构的探索与应用

本期作者 背景介绍 B站的下行CDN旧架构如下图所示,可以看到边缘CDN节点与中心调度服务有紧密协作,简单说是先由调度服务进行流量调度(负责均衡的调度到每个网关组件节点),再由回源组件进行集群内的回源收敛,最终到对应…

Rust-01 Hello Rust 10分钟上手编写第一个Rust程序 背景介绍 发展历史 环境配置 升级打怪的必经之路

背景介绍 Rust 是一种多范式、通用的编程语言,强调性能、类型安全和并发性。它通过一个称为“借用检查器”的机制在编译时追踪所有引用的对象生命周期,以强制实现内存安全,即确保所有引用都指向有效的内存,而不需要垃圾收集器。 …

Qwen1.5微调

引子 由于工作上需要,一直在用Qwen做大模型推理,有个再训练的需求,特此琢磨下Qwen的训练。OK,我们开始吧。 一、安装环境 查看显卡驱动版本 根据官网推荐 OK,docker在手,天下我有。 docker pull qwenll…

白酒:馥郁香型白酒的香气特点与生产工艺

云仓酒庄的豪迈白酒介绍到,馥郁香型白酒以其与众不同的香气特点和杰出的生产工艺赢得了消费者的青睐。馥郁香型白酒以其香气浓郁、口感醇厚、回味悠长而著称。下面云仓酒庄豪迈白酒将深入探讨馥郁香型白酒的香气特点与生产工艺。 云仓酒庄豪迈白酒讲诉,馥…

go语言并发实战——日志收集系统(六) 编写日志收集系统客户端

上节回顾 在上一篇文章中我们介绍了编写客户端的四个步骤,分别是: 读取配置文件,寻找日志路径初始化服务根据日志路径l来收集日志将收集到的日志发送Kafka中 关于上述的内容博主画了一个思维导图(有点丑,大家勉强看看&#xff0…

flutter 设置启屏页 flutter_native_splash 坑记录

flutter_native_splash | Flutter packageCustomize Flutters default white native splash screen with background color and splash image. Supports dark mode, full screen, and more.https://pub.dev/packages/flutter_native_splash 发现一直白屏 原因是 代码中 下面…

关于Developers网站的一些使用分享

Android Developers 官网使用分享 语音切换android studio 版本下载最新版本下载位置历史版本下载位置 android studio 版本和 AGP 对应关系API 和 android studio 版本和 AGP 对应关系android studio 版本android 版本API levelandroid.hardware.camera2 语音切换 Developers…

要养生也要时尚,益百分满足你的所有需求

要养生也要时尚,益百分满足你的所有需求 艾灸是个好东西,尤其是在近几年的时候,艾灸就像一阵浪潮席卷进了人们的日常生活之中,我们可以在街边看到大大小小的艾灸馆,有些评价比较高的艾灸馆门前甚至还排起了长长的队伍…

在数字化转型过程中,企业的资产管理需要做出哪些调整?

在数字化转型过程中,企业的资产管理做出调整的常见于以下几个方面: 1、提高工作效率:数字化转型能够让员工在部门与部门之间的沟通更加顺畅,节省时间,提高效率。这要求企业在资产管理中采用数字化工具和流程&#xff…

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思维链】

目录 前言一、思维链介绍1-1、指令1-2、逻辑依据1-3、示例 二、Cot一般分类2-1、Zero-Shot-CoT2-2、Few-Shot-CoT 三、Cot的好处&缺陷&适用3-1、Cot的好处3-2、Cot的缺陷3-3、Cot的适用 四、变体4-1、自我验证(self-consistency checking) 总结 …

【剪映专业版】03立体自动翻页

【剪映专业版】立体自动翻页制作 1.导入素材,图片或视频均可 2.将素材2拖动至素材1的上方,点击蒙版,选择线性蒙版,并旋转为90度。 3.复制素材1,并拖动到素材2上方,分割并删除后半部分,点击蒙版…

WebGL绘制和变换三角形

1、绘制多个点 构建三维模型的基本单位是三角形。不管三维模型的形状多么复杂,其基本组成部分都是三角形,只不过复杂的模型由更多的三角形构成而已。 gl.vertexAttrib3f()一次只能向顶点着色器传入一个顶点,而绘制三角形、矩形和立方体等&am…

【MySQL 数据宝典】【磁盘结构】- 005 Undo log 撤销日志

一、基本介绍 ​ 每当我们要对一条记录做改动时(这里的改动可以指 INSERT 、 DELETE 、 UPDATE ),都需要留一手 -> 把回滚时所需的东西都给记下来 ​ 你插入一条记录时,至少要把这条记录的主键值记下来,之后回滚的…

【Redis】set 数据类型

文章目录 常用命令sadd & smemberssismember & scardspopsmove & srem 多个集合间的交互命令交集 & sinter & sinterstore并集 & sunion & sunionstore差集 & sdiff & sdiffstore 内部编码 集合类型也是保存多个字符串类型的元素的&#x…

【电控笔记5.6】Butterworth滤波器

Butterworth滤波器 需求:在增益交越频率拥有最小的相位滞后 波器经常被使用原因是 Butterworth 滤波器对于给定阶数,拥有最倾斜的衰减率而在伯德图又不会产生凸峰,同时在低频段的相位滞后小,因此本节将为各位介绍 Butterworth 低…

基于SSM的在线家教管理系统(含源码+sql+视频导入教程)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于SSM的在线家教管理系统1拥有三种角色 管理员:学生管理、老师管理、发布管理、留言管理、回复管理、订单管理等教师:我的订单、我的关注、查看回复留言、登录注…

使用 Docker 部署 Draw.io 在线流程图系统

1)介绍 Draw.io GitHub:https://github.com/jgraph/drawio Draw.io 是一款开源的绘制流程图的工具,拥有大量免费素材和模板。程序本身支持中文在内的多国语言,创建的文档可以导出到多种网盘或本地。无论是创建流程图、组织结构图…