1. 隔离法与整体法
目标:对一个拉新邀请任务,识别出其中的作弊用户。
欺诈类的数据,黑样本不足,需要自己去找,可按IP、昵称、手机号相似性等。虽然有 会员等级、注册时长、注册地址、成交订单等特征,但分类算法很难总结出相似性特征。
思路:根据邀请关系(A-B,B-C,···),构成一颗邀请树,然后计算整颗树的特征,分分钟找出上万个作弊用户。
1. 根据邀请关系构建一棵邀请树,从第一个邀请人开始,到最后一个被邀请人,形成一颗邀请树;
2. 对邀请树整体用户指标进行分析,主要指标有邀请树的总用户数、邀请层级、负余额用户数、购买率、姓名相似性等指标进行统计;
3. 通过对单个用户进行识别,判断用户的好坏,排除树里的好人,基本准确率就百分百了整体特征就很容易构建了:树的大小、欺诈用户比例、真实姓名、聚集性IP、聚集性设备、聚集性注册邮箱等等。
排除树里的好人: 可用订单数量、是否活跃等指标,简单指标判断下
这样识别效率大大提高,且可解释性,与业务结合的合理性,可挖掘的深度与角度,都有了不一样的高度。
感觉就是局部子图,也可以认为是社群发现,提取社群特征,再加一些个人聚集性特征,比如当前用户使用的IP在近n个月的出现次数这种申请属性特征,混在一起来建个模~