GitHub黑市曝光,高档刷星6元一颗,最奇葩开源项目97%都是刷的

​梦晨 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

在黑市买GitHub星星多少钱?

最贵的高达6元一颗

有创业者Yassin Eldeeeb自掏腰包测试了一把。他足足花20欧元(约156人民币),只买到25颗“高级星星”。

图片

没错,在黑市上刷GitHub星星也是分高低贵贱的。

高级的都是注册一年以上的账号来刷,昵称头像工作地点等个人资料非常自然绝不重样。

甚至至少还有一个对其他开源项目的贡献记录等,不但算法检测不出来,肉眼看也没毛病。

图片

便宜的最低可做到0.4-0.88元一颗星星,这种就是最简单的新注册空号去刷了,默认头像,随机生成昵称的那种。

买了一个月以后发现都已经被平台封号处理,买到的星星也跟着消失了。

不过这种廉价服务最疯狂的地方在:失效了可以联系卖方,免费包重刷。

具体有多少人购买这种服务无从得知,不过Eldeeeb注意到他的账单编号是#57189,说明成交量绝对不在少数。

图片

像这样的“黑市”刷星服务,最近被频频曝光,也在开发者社区成了话题热榜的常客。

图片

大家的讨论中,有一个最奇葩的开源项目,被检测出有97%的星都是假的。

假星检测器

检测出这个奇葩项目的是另一位创业者Fraser Marlow,他偶然发现了GitHub黑市的存在。

同时他也注意到投资人越来越重视GitHub标星数,当作评估开源产品的指标了。

不过作为数据管道服务公司Dagster的增长主管,他不但没有给自己产品刷星——

反而与识别垃圾邮件的专家合作,收集数据并开发了一个假星检测器。

图片

具体分为两种算法,简单算法只能检测出那些“一眼假”的。

比如大批账号都给相同的两个项目标星,没有贡献记录,除了头像和用户名不同其他一毛一样那种。

图片

但对于开头提到的那种6元一星的高级账号,简单算法就无能为力了。

为此,Dagster还设计了一种更复杂的监督聚类算法。

原理也很简单,一批假账号会具有相似的特征,在可视化中可以聚集在一起。

而正常用户的特征应该相当独特,在统计上非常分散,不应该属于任何大的群体。

举个栗子来说,正常的GitHub账号不是每天都有活动记录,如果一群账号活跃的日期都重合,就表明它们很有可能是受同一个脚本控制的。

为验证算法可靠性,他们创建了一个靶子仓库,并真的去购买了刷星服务。

聚类算法在测试中表现非常好,接近100%的匹配率。

在更复杂的真实数据上,也达到了98%的精确度和85%的召回率。

图片

接下来,团队在Github Archive公开数据集上综合使用两种算法测试。

一测不得了,造假最严重的okcash总标星759,简单算法只发现一个疑似假星,结合聚类算法直接蹦到97%,

由于计算成本较高,测试中只分析了2022年1月1日及之后获得的星星。

也就是说,还有很多2022年之前刷星的项目没有被揪出来。

图片

与之相比,他们检测了自己的产品Dagster和几个同行,刷星率都比较低,看来数据管道这个行业还是比较健康的。

图片

在这之后,他们与GitHub团队分享了这些发现,并把检测器也开源了。

曝光48小时之内,GitHub和刷星供应商都行动起来,他们测试用的“靶子仓库”中的假星都消失了。

据GitHub方面回应,其实多年以来一直都在积极打击刷星行为,但仍旧频发,根本管不住。

之前就有学术研究,通过数据分析找出63872个可疑账号,但其中只有不到5%被GitHub平台自己检测出并封号。

图片

研究推测,刷星行业早在2018-2019年就获得了341万-437万美元的利润。

那么为什么会有人花大价钱买GitHub标星,真的能带来实际收益么?

投资人:我们就爱看星标

开源项目团队选择“刷星”的一个重要目的,就是吸引投资者的目光。

一家风险投资公司的合伙人Pratima Aiyagari 表示,做开源项目极大可能很久都赚不到钱。

既然收入情况没法拿来参考,那就要多看一看产品本身的状况了。

考察开源项目最准确的方式是查看代码,但这种方法复杂繁琐且专业性强,并没有成为投资者的首选方式。

于是投资者找出了替代方法——看星标——实际上,他们天生就会寻找快速增长的新账号。

图片

除了绝对数量,风投公司Runa还专门设计了一种名为ROSS指数的指标,依据星标数年增长率对团队进行排名。

Runa的一名合伙人Konstantin Vinogradov说,ROSS指标已经成为了开源项目遵循的重要标准,排名靠前的开源项目中有三分之一都获得了融资。

不过伴随着“刷星”现象的出现,投资者对星标数的看法也开始弱化。

投资人Kevin Zhang说,星标数可能可以成为一块“敲门砖”,但不意味着投资者会因为星标数和项目团队“第二次见面”。

这也印证了学术界的看法——加州大学圣地亚哥分校助理教授Stuart Geiger表示,随着时间的推移,指标(星标数)可能会自行失效。

图片

这就涉及到了两条社会科学定律——坎贝尔定律和古德哈特定律。

坎贝尔定律说,决策当中使用的一项指标越受重视,就越容易被操纵。

好比网络购物,实物我们看不见摸不着,自然就会参考其他买家的评价,于是“刷单”现象也就应运而生了。

古德哈特定律则认为,如果一项指标被人们刻意追逐,那就不(或不再)是一个好的指标。

但在没有更好的替代指标的情况下,就必须确保数据的真实度了,就好像在考试中要不遗余力地打击作弊一样。

图片

不过,除了想吸引投资者的团队之外,还有许多个人开发者也会“刷星”。

目的和创业团队有异曲同工之处,只不过吸引的不是投资者而是HR,希望高星项目能在求职中为他们带来优势。

事实上,也的确有企业将GitHub信息作为评价求职者的指标,甚至有人凭借套壳项目就斩获了Google的offer。

图片

图片

除了选人,在技术选型时也是同样的道理——很多人(尤其非专业人士)会倾向于使用高星项目。

图片

除了GitHub,还有综合型产品发布平台Product hunt,数据类产品平台kaggle,以及IT问答平台StackOverFlow等媒介也越来越多的受到投资人的关注。

不过如果不能建立有效的“防刷单”策略,可能最终也难逃换汤不换药的命运。

对于这种现象,有人总结是“Fake it till they make it.”——

如同“先上车后补票”一样,先假装自己已经成功,直到真的成功为止。

One More Thing

AI,特别是大模型的发展,让检测虚假账户越来越难了。

以前的造假可能只是刷刷星标和点赞,判断用户真伪的方式主要是看账户本身的特征。

但自从有了ChatGPT以后,还可以刷以假乱真而且不重样的评论。

如果一个账户命中了虚假账号的特征,但发布的回复却和真人毫无二致,该如何判断它的真伪?

参考链接:
[1]https://www.wired.com/story/github-stars-black-market-coders-cheat/
[2]https://news.ycombinator.com/item?id=37990338
[3]https://dagster.io/blog/fake-stars
[4]https://dl.acm.org/doi/10.1145/3427228.3427258

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/117858.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis03-过期策略和淘汰策略

目录 Redis数据过期策略 Redis数据淘汰策略 Redis数据过期策略 Redis使用一种基于过期策略来处理键的过期和自动失效。这种策略可以确保不再需要的数据被自动删除,以释放内存并避免数据过期后仍然在缓存中存留。 Redis的过期删除策略主要有两种: 惰性…

第一章:java类的继承

系列文章目录 文章目录 系列文章目录前言一、继承的基本概念二、继承的细节总结 前言 继承是类的重要特征之一。 一、继承的基本概念 ​​​​​​ 关键字extends,表示Sab类继承了Base类,则Sab为Base的子类,Base为Sab的父类。继承在现实中是…

【基于HTML5的网页设计及应用】——实现个人简历表格和伪类选择器应用

🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java基础:Java基础_IT闫的博客-CSDN博客 🐋c语言:c语言_IT闫的博客-CSDN博客 🐟MySQL&#xff1a…

校验验证码是否过期(定时刷新验证码)

需求: 我们在登录的时候会遇到通过接口请求验证码的操作,这里的验证码会有过期的时间,当我们验证码过期了,我们要进行重新刷新验证码。 我们这里根据后端返回的当前时间和过期时间判断,过期的时间超过了当前时间的时候…

TCP/IP协议群

TCP/IP协议群 什么是TCP/IP协议群 从字面意义上讲,有人可能会认为 TCP/IP 是指 TCP 和 IP 两种协议。实际生活当中有时也确实就是指这两种协议。然而在很多情况下,它只是利用 IP 进行通信时所必须用到的协议群的统称。具体来说,IP 或 ICMP、…

NVM安装与配置(管理node版本)

NVM安装与配置(管理node版本) 一、安装NVM 下载安装 NVM解压后点击exe文件进行安装:点击下一步安装到 D:\NVM 下先在D:\NVM 下创建nodejs文件夹,然后将路径设置如下:点击next 一直点击 完成安装;地方是非得失范德萨范德萨发![在…

共享WiFi贴码真实收益怎样?如何扩大盈利!

随着移动互联网的快速发展,共享WiFi贴码成为了一个备受关注的话题。这一模式的兴起引起了很多人的关注,因为它似乎为一些创业者提供了一种全新的获取收益的模式。然而,共享WiFi贴码的真实收益到底如何呢? 共享WiFi贴码的基本原理是…

【寒武纪(3)】媒体处理系统的系统控制、视频输入和后处理子系统

系统控制 文章目录 系统控制1、配置视频缓存池Video Pool2、配置硬件IP为在线工作(不通过DDR数据交互)/ 离线工作(写入DDR)模式3、硬IP可以使用 非Video Block (VB)内存4、配置是否启动内存传递的压缩 视频…

第二证券:破发的股票还能回升吗?

随着股票商场动摇的加重,许多投资者面临着他们所持有的股票破发的危险。破发是指股票当时价格低于发行价格,这通常是股票被很多出售的成果。关于那些买在高点的投资者而言,这或许是一场噩梦。但是,破发的股票还能上升吗&#xff1…

多模态情感分析——Twitter15和Twitter17数据集

一、原始数据集介绍 数据集链接: https://pan.baidu.com/s/1JLkaSerBgKe--GBaU0ZkFg?pwdfqyo提取码:fqyo 数据集介绍:原始的被划分为了训练集(60%)、验证集(20%)、测试集(20%&am…

若依笔记(四):代码生成器

已知使用MyBatisPlus代码生成器可以自动生成Entity、Mapper、Service、Controller代码,前提是数据库中有数据表,生成pojo类以及对于该数据表的增删改查命令的代码,若依更进一步能选择表后生成代码、预览、下载,同时可以生产前端代…

chrome 防止http自动转https的方法

1. 左上角,单击地址栏左边 2. 然后点击网站设置 3. 不安全内容改为【允许】 4. 然后以后访问此网站时,就不会再自动跳转为https了

基于社交网络算法的无人机航迹规划-附代码

基于社交网络算法的无人机航迹规划 文章目录 基于社交网络算法的无人机航迹规划1.社交网络搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要:本文主要介绍利用社交网络算法来优化无人机航迹规划。 …

关于笔记平台的使用感受分享

关于笔记平台的使用感受分享 前言我用过的笔记平台笔记平台简单评价巴拉巴拉WPS文档/OneNote/TowerNotion/语雀各种博客平台 个人使用率最高的平台 前言 最近也有部分同学问我平常用的笔记平台是什么,以及我比较推荐的平台是什么。这里不是广告哈,因为我…

【实战Flask API项目指南】之三 路由和视图函数

实战Flask API项目指南之 路由和视图函数 本系列文章将带你深入探索实战Flask API项目指南,通过跟随小菜的学习之旅,你将逐步掌握 Flask 在实际项目中的应用。让我们一起踏上这个精彩的学习之旅吧! 前言 当小菜踏入Flask后端开发的世界时&…

倒计时丨3天后,我们直播间见!

倒计时3天,RestCloud 零代码集成自动化平台重磅发布 ⏰11 月 9 日 14:00,期待您的参与! 点击报名:http://c.nxw.so/dfaJ9

【LeetCode周赛】LeetCode第370场周赛

目录 找到冠军 I找到冠军 II在树上执行操作以后得到的最大分数平衡子序列的最大和 找到冠军 I 一场比赛中共有 n 支队伍&#xff0c;按从 0 到 n - 1 编号。 给你一个下标从 0 开始、大小为 n * n 的二维布尔矩阵 grid 。对于满足 0 < i, j < n - 1 且 i ! j 的所有 i, …

Unit1_3:分治算法之排序问题

文章目录 一、归并排序二、快速排序思路伪代码流程图时间复杂度改进 三、堆排序结构插入提取最小值排序抽象 四、比较排序总结决策树模型 一、归并排序 归并排序子操作的思路和Unit1_2逆序计算一样 下面写一下伪代码 if left < right thencenter←L(left right)/2];Merge…

(1)(1.12) LeddarTech LeddarVu8

文章目录 前言 1 连接到自动驾驶仪 2 参数说明 前言 LeddarTech LeddarVu8 是一款长距离&#xff08;185m&#xff09;激光雷达&#xff0c;可在 16 度至 99 度视场范围内提供 8 个单独的距离&#xff0c;具体取决于所使用的型号。ArduPilot 始终使用所提供的 8 个距离中最…

C++编程案例讲解-基于结构体的控制台通讯录管理系统

基于结构体的控制台通讯录管理系统 通讯录是一个可以记录亲人、好友信息的工具&#xff0c;系统中需要实现的功能如下&#xff1a; 添加联系人&#xff1a;向通讯录中添加新人&#xff0c;信息包括&#xff08;姓名、性别、年龄、联系电话、家庭住址&#xff09;最多记录1000人…