研究表明:论文被大V宣传后,引用次数暴涨2~3倍!

随着AI领域的迅猛发展,学术成果的传播方式发生了显著转变。

期刊审稿周期长,当你还在和审稿人battle时,方法先过时了。而会议虽然没有期刊长,但也有几个月的时间差,为了保护成果的创新性并扩大影响力,很多有名的大组都会选择先在在线预印本平台ArXiv上首发,学术成果更迭速度越来越快。

这也导致了每天arxiv上发表的论文根本看不过来。

此时社交媒体上出现了一批论文分享者,他们挑出AI/ML领域里真正有趣、重要的东西,让大家更容易理解和接触学术成果。

比如我们“夕小瑶科技说”就经常给大家分享有趣的论文,嘿嘿~

社交媒体上的论文分享者除了帮助大家筛选论文外,其分享的行为也扩大了论文本身的影响力!

有多大呢?

今天介绍的这篇论文给出的结论是:被大V分享的论文,被引用的次数比其他的多2-3倍!

图片

论文标题
Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility

论文链接
https://arxiv.org/pdf/2401.13782.pdf

这篇文章主要选取了X(前身为Twitter)上两位非常有影响力的用户AK (@_akhaliq)和Aran Komatsuzaki (@arankomatsuzaki),追踪经由他们分享后的论文的引用次数,并设置了对照组。还深入探讨了分享者对论文作者的地理、性别和机构是否有偏好等问题。

下图是两位大V在X上的用户页面截图,可以看到粉丝众多。

图片

▲@_akhaliq

图片

▲@arankomatsuzaki

他们的分享形式一般为:论文标题+一句话总结+论文链接+论文首页截图,如下图所示。简单清晰,重点突出。

图片

▲分享形式

每天分享几篇论文,浏览量都超过上千,为其分享的论文带来不少的曝光度。所以其引用量超出未被分享的论文2-3倍,也不难理解了。

图片

当然主观分析不靠谱,还是要用数据说话,接下来我们来看看详细的图表数据以及作者的分析过程。

1. 数据集:超过8000篇论文的综合数据集

本文构建了一个包含超过8000篇论文的综合数据集,这些论文涵盖了2018年12月至2023年10月期间,两位社交媒体大V在X和Hugging Face等平台上分享的所有相关论文。

为了进行对照研究,作者还构建了一个对照组,该组由与分享论文在出版年份、出版地点和摘要主题上一一匹配的论文组成。通过这种方法,确保了两组论文在质量上的可比性,从而排除了大V只分享“高质量”论文(自然会获得更多引用)的常见假设。

2. 研究方法

作者假设论文的引用次数主要受到发表时间、论文质量和主题的影响。为了量化这些因素,我们使用发表的会议和年份作为论文质量的代理变量,并使用论文标题和摘要的文本嵌入来近似论文主题。

数据收集过程包括三个部分:

1. 收集目标集

首先找到@_akhaliq和@arankomatsuzaki两位大V所推荐的论文列表,使用Semantic Scholar API查询每个文档的标题、摘要、发表年份、发表场所和被引用次数。删除缺少所需属性的任何论文。下表是两位用户共享的前五位最常见的作者以及他们的论文数量。

图片

图片

2. 对照组首先收集了与目标集中的论文在同一会议和同一年份上发表的大规模数据集。具体而言,对于每个在会议v中年份y出版的论文实例,通过查询Semantic Scholar API来获取在会议v和年份y出版的所有论文。共得到了247,993篇唯一的论文,以及124,940篇具有所有所需属性的论文。这些数据构成了与目标集匹配的语料库。

3. 匹配算法

将目标集与对照组的论文进行匹配,对分类变量(发表会议和主题)进行精确匹配,并对连续变量(主题嵌入)使用欧几里得距离匹配。余弦相似度的截断值设定为0.6,确保目标集和对照组在主题上的高度相似性,保留了AK的推文论文的91%和Komatsuzaki的推文论文的96%。

匹配对在主题上非常相似,几乎总是涵盖相同的研究子领域(例如,应用于图像生成的扩散模型),解决相同的问题,并使用相似或相同的方法。如下图所示:

图片

4. 评审分数

此外,为了验证该方法成功控制了论文质量,还检查了目标组和对照组在六个主要机器学习会议的论文评审分数:

图片

结果发现,两组的论文的评审分数分布相似,这说明两组论文质量几乎相等,进一步证实了的匹配方法的有效性。

3. 影响力分析:引用次数与社交媒体分享的关系

作者使用直方图(a,b)和小提琴图(c,d)分别展示目标组(Experimental)和对照组(control)的引用次数分布。如下图所示

图片

结果显示,AK分享的论文的中位引用次数为24,而控制组为14;Komatsuzaki分享的论文的中位引用次数为31,而控制组为12。这些结果表明,与对照组相比,被大V分享的论文在引用次数上有显著提高

作者还使用了2-样本Q-Q图比较目标组和对照组在每个分位点上的分布情况。为了构建图表,引用计数被对数缩放,标准化为对照组的分布(z-score),并按顺序配对进行排序。虚线表示一个等分布;线上方的点表示实验组的分位数更高,反之亦然。如下图所示:

图片

图表显示,目标组的分布始终较高,尤其是靠近中位数的部分。这表明大V分享对于改变论文的引用次数等结果变量在实际上具有显著的影响。

另外作者还使用了Epps-Singleton (ES)、Kolmogorov-Smirnov (KS) 和 Mann-Whitney U (MWU) 等统计测试来确立这一差异的统计显著性,所有测试的p值都远低于严格的α = 0.001标准。如下表所示:

图片

这些检验显示了实验组和对照组分布存在显著差异。

虽然传统上,顶级会议接受(即审稿分数)一直是未来引用次数的主要指标,但该研究表明,大V的分享行为对论文的影响力也不容小觑。,这也体现了社区发现和阅读论文方式的转变。

4. 地理与性别多样性讨论

1. 地理分布的影响

鉴于AK和Aran Komatsuzaki的美国背景,作者探讨了探讨他们分享的论文是否存在地理偏见。

各国论文出版数量变化

作者参考斯坦福HAI 2023 AI指数报告中AI存储库出版物的地理分布,统计了各个国家在人工智能领域发表论文的数量。如下图所示:

图片

可以看到,美国在AI领域的论文发表数量略有下降,这可能表明人工智能领域的成熟,研究越来越分散在全球范围内。同时,欧盟和英国在2010年至2017年持续下降之后,开始出现适度增长,而中国的份额呈现持续上升姿态。

影响者分享论文的地域统计

作者使用Semantic Scholar和dblp收集每个目标集中列出的所有作者的隶属数据。然后,使用Nominatim地理编码API找到每个隶属机构的大致纬度和经度。使用在线公开可用的地址手动调整明显不准确的坐标。从这些信息中,使用Nominatim进行反向地理编码,找到每个隶属机构的国家,然后使用多数投票为每个出版物分配一个国家。结果如下图所示:

图片

▲全球影响力文献作者的地理热力图显示其独特机构的分布。

从上图中,我们可以看到两位影响者分享了来自世界各地的论文。其中美国和欧洲尤为热门。

影响者分享论文的趋势变化

最后,作者将各个国家汇总到HAI报告中使用的相同地理区域,并使用类似的格式进行绘图。

图片

影响者在2018年至2021年的分享模式,与论文发表的全球趋势明显不同。

具体来说,AK分享的出版物显示出“未知”类别的急剧下降,美国份额的戏剧性的上升。这似乎表明了隶属关系报告的改善,而不是AK分享习惯的变化,因为来自其他地区的份额相对稳定。

Komatsuzaki的数据显示了对美国隶属论文的持续关注,直到后来才开始出现其他地理区域。

总的来说,虽然AI出版物的全球格局表明多样性的增加和研究产出的更均匀分布,但我数据呈现了偏向美国的倾斜对齐

另外,作者还表示该统计不够完善:仅使用论文上显示的隶属关系可能会对美国产生固有的偏见。例如,许多隶属于跨国组织的研究人员被分配到美国(总部所在地),但他们却在另一个地区的分支机构工作。此外,还必须注意两位影响者数据中“未知”类别的突出性,未找到隶属关系。

2. 性别多样性的现状

在计算机科学和工程领域,性别多样性至关重要,这些领域历史上一直由男性主导。

首先为了了解该领域整体性别分布的情况,作者参考了2021-2022年Taulbee调查报告的美国计算机科学及相关领域博士学位获得者和教员的性别分布。

然后通过仅筛选每篇论文的第一作者,使用了AMiner Scholar Gender Prediction API,该API根据姓名和隶属关系(如果可用)将作者分类为“男性”、“女性”或“未知”。

结果显示,在@_akhaliq数据集中,可以识别性别的作者中男女比例为80:20,而在@arankomatsuzaki数据集中,该比例为81:19。

这些比例与Taulbee调查报告的计算机科学博士学位获得者中的77:23比例大致相符,与教员中的76:24比例略有偏差。

这表明女性研究者正在增加,但与男性研究者的数量还有很大差距。

总结&讨论

由此可见,社交媒体上的大V们在AI/ML研究中真的很重要。他们分享研究论文,让更多人看到这些论文。本文研究发现,被大V分享的论文,被引用的次数比其他的多2-3倍。这说明大V们不只是分享好论文,他们还能帮大家理解和关注重要的研究成果。他们的推广能力真的很强!

但也有几点内容值得我们思考:

  1. 现在信息这么多,每天arxiv上发表的论文根本看不过来,这些大V帮我们挑出AI/ML领域里真正有趣、重要的东西,让大家更容易理解和接触。不过,总是听他们说也可能让我们错过一些其他的好东西。所以,我们需要一个多样化、有竞争的在线学术环境,这样每个人都能看到更多的研究和想法

  2. 现在社交媒体上的大V们在AI/ML学术圈里越来越有影响力。这意味着我们可能需要重新考虑怎么选论文、怎么评审。希望会议和学术机构能跟上这个变化,改进他们的系统和过程,确保高质量的研究能被大家看到和传播。

  3. 社交媒体上的大V们确实帮了忙,让更多人看到了ML领域的研究。但本文的分析发现,他们分享的论文大多是关于美国的。虽然这反映了美国在AI/ML领域的领先地位,但我们也应该看到其他国家的研究。另外,ML领域里男性和女性的比例不太平衡。虽然大V们分享的内容没有明显的性别偏见,但这个差异还是提醒我们要努力增加这个领域的性别多样性。

现如今,社交媒体和学术研究在AI/ML领域越来越紧密。从论文发表者的角度来说,为了扩大论文的影响力,在arxiv发表论文后,也可以考虑多多在社交媒体上宣传自己的工作。毕竟在这个信息爆炸的时代,“酒香也怕巷子深”!

也欢迎大家多多在“夕小瑶科技说”上分享自己有趣的工作哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/372945.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

mysql-FIND_IN_SET查询优化

优化前 SELECTuser_id,user_name,real_name,PASSWORD,real_org_id,real_org_name,real_dept_id,real_dept_name, STATUS FROMsys_user WHEREis_del 0 AND find_in_set( lilong, login_user_account ) 优化后 SELECTuser_id,user_name,real_name,PASSWORD,real_org_id,real…

必须了解的mysql三大日志-binlog、redo log和undo log

背景 日志是 mysql 数据库的重要组成部分,记录着数据库运行期间各种状态信息。mysql日志主要包括错误日志、查询日志、慢查询日志、事务日志、二进制日志几大类。 作为开发,我们重点需要关注的是二进制日志( binlog )和事务日志(包括redo log 和 undo …

Linux应用开发---网络通信

Linux应用开发—网络通信 1 网络通信概述 Linux下的网络编程,我们一般称为 socket 编程,socket 是内核向应用层提供的一套网络编程接口,我们可以基于socket接口开发自己的网络相关应用程序。 1.1 socket 简介 套接字(socket&…

ReentrantLock源码分析、LockSuppor、ReentrantReadWriteLock、锁优化的方法

ReentrantLock类图 我们看一下重入锁ReentrantLock类关系图,它是实现了Lock接口的类。NonfairSync和FairSync都继承 自抽象类Sync,在ReentrantLock中有非公平锁NonfairSync和公平锁FairSync的实现。 在重入锁ReentrantLock类关系图中,我们可以…

Rust-获取随机数练习案例

文章目录 前言一、取官网示例猜数字游戏玩一玩cargo checkTOML文件 二、完整代码总结 前言 Rust学习系列-获取随机数练习案例,基于cargo 进行案例练习,过程中会使用cargo check; cargo run;等命名,同时了解基础的let …

flask_django_python五金电商网络营销的可视化分析研究

前面部分完成了系统需求分析,了解到新闻数据业务方面的需求,系统主要分为用户管理、五金信息管理、在线留言、系统管理等功能。销的可视化研究,并对这些数据进行处理, 然后对这些数据进行可视化分析和统计。 Python 爬虫技术目前来…

linux免密登录的实现

ssh免密登录使用方便,关键没有了口令验证反倒规避了暴力破解或者被探测的风险。配置得当,使用ssh免密登录更加安全。在生产环境中应用和数据库服务器之间互相设置后使用方便,并且在第三方人员配置使用时不用告知对方密码。 第一步、ssh登录发…

如何在HA智能家居系统中添加HACS集成并实现异地控制家中苹果与小米设备

文章目录 基本条件一、下载HACS源码二、添加HACS集成三、绑定米家设备 ​ 上文介绍了如何实现群晖Docker部署HomeAssistant,通过内网穿透在户外控制家庭中枢。本文将介绍如何安装HACS插件商店,将米家,果家设备接入 Home Assistant。 基本条件…

第十三篇【传奇开心果系列】Python的OpenCV库技术点案例示例:光流估计

传奇开心果短博文系列 系列短博文目录Python的OpenCV库技术点案例示例:光流估计短博文目录前言一、光流估计介绍二、Lucas-Kanade光流介绍和示例代码三、Horn-Schunck光流介绍和示例代码四、cv::calcOpticalFlowPyrLK()函数实现光流估计介绍和示例代码五、光流估计用于运动分析…

Express框架介绍—node.js

Express—Node.js 官网传送门(opens new window) 基于 Node.js 平台,快速、开放、极简的 Web 开发框架 Express 是用于快速创建服务器的第三方模块。 Express 初体验 基本使用 安装 Express: npm install express创建服务器,监听客户端请…

瑞萨RA6M3开发实践指南-UART实践

1.背景说明 本文是参考瑞萨RA6M3开发实践指南文章教程,基于瑞萨HMI-Board BSP :1.1.1 版本 RT-Thread 5.0.1 版本操作步骤进行记录,整理成的文档。 1.1 本章内容 使用RT-Thread Studio创建开发板的程序,编写UART的程序,实现串口…

跟着pink老师前端入门教程-day19

一、移动WEB开发之流式布局 1、 移动端基础 1.1 浏览器现状 PC端常见浏览器:360浏览器、谷歌浏览器、火狐浏览器、QQ浏览器、百度浏览器、搜狗浏览器、IE浏览器。 移动端常见浏览器:UC浏览器,QQ浏览器,欧朋浏览器&#xff0…

Yolo v8 进行对象数量统计示例

Yolo v8 进行对象数量统计示例 示例代码 from ultralytics import YOLO from ultralytics.solutions import object_counter import cv2def object_count_test():# 权重文件,可替换为自己训练的权重文件model YOLO("yolov8n.pt")# results model.trai…

【码农新闻】 用HTTPS,还能被查出浏览记录吗 常用且好用的在线工具......

目录 【码农新闻】 用HTTPS,还能被查出浏览记录吗 常用且好用的在线工具...... 用HTTPS,还能被查出浏览记录吗常用且好用的在线工具尤雨溪 文章所属专区 码农新闻 欢迎各位编程大佬,技术达人,以及对编程充满热情的朋友们&#xf…

锁优化的方法

减少锁持有时间 减少锁粒度 将大对象拆分成小对象,增加并行度,降低锁竞争。ConcurrentHashMap允许多个线程同 时进入 锁分离 根据功能进行锁分离ReadWriteLock在读多写少时,可以提高性能。 锁消除 锁消除是发生在编译器级别的一种锁优化…

C语言数组练习以及场景练习题

写了那么久的知识点梳理,今天来写点自己觉得不错的练习题来分享,顺便来巩固自己的知识点,和加强题型的解决方法的记忆。今天给大家带来的有数组的找数字题目,以及场景找凶手的题目,下面让我们来看看今天的第一道题目。…

一文带你读懂编码和解码

编码和解码 编码:将字符转换为对应的二进制序列的过程叫做字符编码。 解码:将二进制序列转换为对应的字符的过程叫做字符解码。 py文件的创建: 文本编辑器在内容没有保存前,内容以编辑器默认编码形式保存在内存中。pycharm默认…

我要成为嵌入式高手之2月4、5日Linux高编第二天!!

读写函数接口 1、fgetc 语法&#xff1a; 功能&#xff1a;从流中获取一个字符 练习1&#xff1a;编写程序统计文件的行数 #include <stdio.h>int main(void) {FILE *fp NULL;char ch 0;int row 0;fp fopen("file.txt","r");if (NULL fp){pe…

5 分钟让你了解什么是搜索引擎

文章目录 搜索引擎概述基于业务模式分类垂直搜索&#xff08;垂搜&#xff09;通用搜索&#xff08;通搜&#xff09;本地搜索引擎 基于技术实现分类基于关键词的搜索引擎&#xff08;Keyword-based Search Engine&#xff09;语义搜索引擎&#xff08;Semantic Search Engine&…

好用的大学生教材搜题软件?帮助大学生解决问题的实用搜题工具 #知识分享#知识分享#经验分享

对于大学生来说&#xff0c;每天面对各式各样的学习任务和问题&#xff0c;寻找合适的学习资源和工具成了我们的迫切需求。幸运的是&#xff0c;现如今有许多高效且实用的日常搜题和学习软件可以满足我们的需求&#xff0c;助力我们取得更好的学习成果。 1.Forest专注森林 Fo…