妙用OSGraph:发掘GitHub知识图谱上的开源故事

image.png
作者:范志东

1. 何为OSGraph?

OSGraph (Open Source Graph) 是一个开源图谱关系洞察工具,基于GitHub开源数据全域图谱,实现开发者行为、项目社区生态的分析洞察。可以为开发者、项目Owner、开源布道师、社区运营等提供简洁直观的开源数据视图,帮助你和你的项目制作专属的开源名片、寻求契合的开发伙伴、挖掘深度的社区价值。

简而言之:OSGraph获取了GitHub的全量数据,并以图谱的形式做了可视化分析。

OSGraph数据处理流程

2. 为何OSGraph?

既然说到GitHub数据可视化分析,为何不使用现有工具而要重新建设OSGraph?

主流的GitHub数据分析工具

这里列举了几个主流的开源分析工具的特点:

  • StarHistory:展示开源项目的star历史曲线,产品功能简洁,“秀肌肉”专用,分析指标丰富度不足。
  • OSSInsight:基于传统BI报表的理念设计了开发者/项目的报表大盘,功能丰富,满足大多数基础的洞察诉求,但部分复杂维度的报表组件直观度不够,关联性数据的下钻和洞察能力不足。
  • OpenHub:支持开发者/项目/组织的排行榜(类Gitstar Ranking)和快速检索,关联性分析能力不足。

可以看到,主流的开源分析工具还是围绕着传统BI报表的思路建设的,图表丰富度可以根据产品功能设计补充改进,但是基于二维表的思考方式在关联性数据分析能力表达上存在先天不足。

OSGraph以图谱的方式重新思考GitHub数据:既然GitHub维护了开发者和项目的行为轨迹和活动记录,涉及了大量的人与人、人与项目、项目与项目的交互关系,为何不以天然最适合描述万物联系的Graph数据结构对底层数据建模,既而实现直观的图可视化分析呢?

GitHub上人与项目的关系

3. OSGraph能做什么?

OSGraph官网(https://osgraph.com)目前提供了6张典型的开源图谱供大家使用,分别从项目和开发者维度洞察贡献、伙伴、兴趣、社区、生态。

图谱名称功能描述
项目贡献图谱发现项目核心贡献根据项目开发者开发活动信息(Issue、PR、Commit、CR等),找到项目核心贡献者。
项目生态图谱洞察项目生态伙伴提取项目间的开发活动、组织等关键信息,构建项目核心生态关系。
项目社区图谱分析项目社区分布根据项目的开发活动、开发者组织等信息,提取项目核心开发者社区分布。
开发活动图谱展示个人开源贡献根据开发者开发活动信息(Issue、PR、Commit、CR等),找到参与的核心项目。
开源伙伴图谱寻找个人开源伙伴找到开发者在开源社区中,与之协作紧密的其他开发者。
开源兴趣图谱挖掘个人开源兴趣根据参与的项目主题、标签等信息,分析开发者技术领域与兴趣。

为了更直观地表述图数据结构在开源数据洞察的优势,我们结合具体的场景案例说明。面对GitHub数据,我们多多少少会遇到如下类似的问题,这些问题可以通过上述的6类图谱很好的直观展现。

开源数据洞察需求

3.1 项目贡献图谱

发现项目核心贡献:根据项目开发者研发活动信息(Issue、PR、Commit、CR等),找到项目核心贡献者。

Q:我想看看给Apache Spark项目写代码的都有谁?
A:选择“项目贡献图谱” - 搜索spark - 选择apache/spark。可以看到HyukjinKwon、dongjoon-hyun等核心贡献者,另外还一不小心捉到两个“显眼包”,AmplabJenkins、SparkQA这两个只参与CodeReview的机器人账号。

Spark贡献图谱

项目贡献图谱可以帮助我们更好地发掘项目的关键开发者,尤其是我们不够熟悉的开源项目,可以快速地定位到关键贡献人,帮助技术运营发起合作申请和活动邀请。

3.2 项目生态图谱

洞察项目生态伙伴:提取项目间的开发活动、组织等关联信息,构建项目核心生态关系。

Q:最近很火的开源大模型Llama3周边生态大致是什么样的?
A:选择“项目生态图谱” - 搜索llama3 - 选择meta-llama3/llama3。可以看到pytorch、tensorflow、transformers等知名AI项目,当然还有上科技头条的llama.cpp。比较惊喜的发现是ray竟然和llama3有不少公共开发者,可以深度挖掘一下。

Llama3生态图谱

项目生态图谱让开源项目的挖掘变得更加轻松,我们通过分析两个开源项目的公共Stargazers和PR/CR等信息,挖掘潜在的项目关联关系,这可以帮助开发者快速熟悉开源项目的周边生态,并能做很好的技术延展探索。未来,通过引入项目间的代码依赖关系,甚至项目与科研论文的引用关系,可以帮助开发者和科研人员更快地熟悉未知的技术领域。

3.3 项目社区图谱

分析项目社区分布:根据项目的开发活动、开发者组织等信息,提取项目核心开发者社区分布。

Q:大数据引擎Flink发展这么多年后的社区现状如何?
A:选择“项目社区图谱” - 搜索flink - 选择apache/flink。可以看到项目关注者主要来自中、美、德三国,而Alibaba组织是代码贡献的中坚力量。

Flink社区图谱

项目社区图谱目前从国家和组织的维度对核心开发者进行了分组展示,可以帮助我们快速了解一个项目开发人员的地理分布和组织分布,指导开源布道师和技术运营做更优的公共关系资源配置。

3.4 开发活动图谱

展示个人开源贡献:根据开发者研发活动信息(Issue、PR、Commit、CR等),找到参与的核心项目。

Q:大神Linus Torvalds最近在参与哪些开源项目?
A:选择“开发活动图谱” - 搜索torvalds。果然linux项目是torvalds的主要工作,不过llvm、mody、libgit2也有所参与,同时也看到他在subsurface这种“潜水日志管理工具”上的大量贡献,果然大佬的爱好都很广泛。

Linus的开发活动

开发活动图谱让了解一个社区开发者的背景变得更加直观,过去我们只能在开发者的GitHub个人页面上查看“贡献雷达图”作粗粒度的了解,而开发活动图谱在统计粒度和信息展示间找到了很好的平衡点。在个人主页上使用这样的开源个人名片不失为一种更时髦的选择。

3.5 开源伙伴图谱

寻找个人开源伙伴:找到开发者在开源社区中,与之协作紧密的其他开发者。

Q:我想知道在开源社区有没有和我志同道合的人?
A:选择“开发伙伴图谱” - 搜索我的ID。让我震惊的是有那么多陌生人和我关注了同一批项目,这不得找机会认识一下,说不定就能找到新朋友了。而和我合作PR的人基本上都是我认识的朋友和同事,继续探索一下朋友们的开源伙伴,开源社区的“六度人脉”不就来了么。

我的开源伙伴

开源伙伴图谱构建了一种“人-人”关系视图,GitHub原生数据并不存在基于账户的“好友/粉丝”数据,我们通过两个人共同Star的项目以及参与的PR/CR等开发活动数据,构造了开发者之间的关系视图。通过此视图,可以发掘很多“志同道合”但未曾谋面的朋友,或许下一个合作PR就在这次“会面”之后发生。

3.6 开源兴趣图谱

挖掘个人开源兴趣:根据参与的项目主题、标签等信息,分析开发者技术领域与兴趣。

Q:GitHub上最活跃的开发者对什么技术感兴趣?
A:选择“开源兴趣图谱” - 搜索sindresorhus(GitHub用户榜 No.1)。整体来看sindresorhus对node、npm、js很感兴趣,另外他发起的awesome项目足足30W星,令人咋舌!当前的开源兴趣数据主要来自项目有限的标签信息,后续借助AI技术可能会有更好的展现。

Sindre的开源兴趣

开源兴趣图谱是对开发者技术背景的另一种形式的探索尝试,我们都知道开源项目一般都会有一些标签标注其技术领域和使用的关键技术,通过将开发者参与的项目按照标签分组汇总,得到个人的技术兴趣图谱,通过它可以快速地了解一个开发者的技术领域和视野。当然,基于项目现有的标签数据并不能做到精准的领域分类(不少项目没有标注标签数据),因此未来我们希望结合NLP技术做到更好的项目领域识别和分类。

4. 未来规划

当下OSGraph初版的功能还比较单一,未来我们想做更多有意思的事情:

  • 简单灵活的API设计,让图谱无限扩展。
  • 自由高效的画布交互,无限探索数据价值。
  • 图谱URL支持嵌入Markdown,制作我的开源名片。
  • 基于AI技术的项目主题标签分析、图谱总结、检索增强对话等。
  • 多人多项目联合分析,图谱洞察一键可达。
  • 更丰富的数据展示与多维分析。
  • 更丰富的数据来源和标签数据。

5. 合作贡献

OSGraph是蚂蚁集团的TuGraph团队、AntV团队、OSPO联合华东师范大学X-Lab实验室发起的开源生态项目,旨在通过图谱的方式赋能GitHub开源数据分析,提供更优的开源数据洞察体验,让图计算的价值惠及到社区。作为开源项目,我们后续会打通从社区贡献到生产化部署的自动化链路,让您的贡献所见即所得……

我们正在积极筹备OSGraph的源代码开放,您可以Star本项目保持关注,我们非常期待的您的加入与贡献,也欢迎提交Issue提供建议和问题反馈,未来我们开源图谱上见!

OSGraph项目地址:https://github.com/TuGraph-family/OSGraph

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/707013.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

手机如何扫描拍照?方法分享

手机如何扫描拍照?在数字化时代,手机扫描拍照软件已经成为我们日常生活和工作中不可或缺的工具。无论是快速识别纸质文档,还是将照片中的文字转化为可编辑的文本,这些软件都为我们提供了极大的便利。然而,市面上的手机…

msvcp110.dll有什么解决方案,msvcp110.dll几种方法详细步骤教程

本文旨在探讨如何应对电脑出现 vcruntime140_1.dll 无法继续执行代码错误提示的问题。同时,将阐释该文件的作用,列举常见的错误问题,并提供一些在修复 vcruntime140_1.dll 时的注意事项,以避免在解决过程中引发其他问题。接下来&a…

【网络安全】【深度学习】【入侵检测】SDN模拟网络入侵攻击并检测,实时检测,深度学习【一】

文章目录 1. 前言2. Mininet 和 Ryu 的区别2.1 Mininet2.2 Ryu2.3 总结 3. 模拟攻击3.1 环境准备3.2 创建 Mininet 网络拓扑3.2 启动 Ryu 控制器3.3 模拟网络攻击3.4 捕获流量 4. 实时异常检测4.1 在 Ryu 控制器中4.2 在 h2 机器上的实验结果4.3 深度学习模型部署上h2机器 帮助…

如何获知lib cell的用途

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 除了databook可以查询cell的用途外,还可以通过在pr工具中获取lib cell属性的方法知晓其用途。 ICC2: report_attribute -app -class lib_cell SDFFXXX 通过看is_…

【大数据】计算引擎:Spark核心概念

目录 前言 1.什么是Spark 2.核心概念 2.1.Spark如何拉高计算性能 2.2.RDD 2.3.Stage 3.运行流程 前言 本文是作者大数据系列中的一文,专栏地址: https://blog.csdn.net/joker_zjn/category_12631789.html?spm1001.2014.3001.5482 该系列会成体…

【递归、搜索与回溯】综合练习一

综合练习一 1.找出所有子集的异或总和再求和2.全排列 II3.电话号码的字母组合4.括号生成 点赞👍👍收藏🌟🌟关注💖💖 你的支持是对我最大的鼓励,我们一起努力吧!😃😃 1.找…

2024年【四川省安全员C证】免费试题及四川省安全员C证考试技巧

题库来源:安全生产模拟考试一点通公众号小程序 四川省安全员C证免费试题是安全生产模拟考试一点通总题库中生成的一套四川省安全员C证考试技巧,安全生产模拟考试一点通上四川省安全员C证作业手机同步练习。2024年【四川省安全员C证】免费试题及四川省安…

linux搭建sftp服务

1. 添加用户及用户组 使用 groupadd sftpgroup 添加sftpgroup 用户组; 使用useradd -G sftpgroup -s /sbin/nologin cmssftp给sftpgroup 添加cmssftp用户; 使用passwd cmssftp给用户cmssftp进行设置密码(默认为:654321)。具体如下图所示: 2.…

云原生Kubernetes系列项目实战-k8s集群+高可用负载均衡层+防火墙

一、Kubernetes 区域可采用 Kubeadm 方式进行安装: 名称主机部署服务master192.168.91.10docker、kubeadm、kubelet、kubectl、flannelnode01192.168.91.11docker、kubeadm、kubelet、kubectl、flannelnode02192.168.91.20docker、kubeadm、kubelet、kubectl、flan…

文心一言 VS 讯飞星火 VS chatgpt (280)-- 算法导论20.4 1题

一、假设 CONNECTED-COMPONENTS 作用于一个无向图 G(V,E),这里V{a,b,c,d,e,f,g,h,i,j,k},且 E 中的边以如下的顺序处理:(d…

在Lua解释器中注册自定义函数库

本文目录 1、引言2、注册原理3、实例4、程序验证 文章对应视频教程: 暂无,可以关注我的B站账号等待更新。 点击图片或链接访问我的B站主页~~~ 1、引言 在现代软件开发中,Lua因其轻量级、高效和可嵌入性而被广泛使用。作为一种灵活的脚本语言…

使用uniapp设置tabbar的角标和移除tabbar的角标

使用场景描述 在一进入到小程序的时候就要将用户在购物车中添加的商品总数&#xff0c;要以角标的形式显示在tababr中。 代码实现 //index.vue<script setup> import { onLoad } from dcloudio/uni-apponLoad(()>{uni.setTabBarBadge({index: 1,text: 5 //为了实现…

电商开发者必读:微店商品详情API接口全解析

微店作为一个流行的电商平台&#xff0c;提供了丰富的API接口供开发者使用。详细介绍商品详情API接口的使用方法&#xff0c;帮助开发者快速获取商品信息&#xff0c;实现商品信息的自动化展示和管理。 1. 接口简介 微店商品详情API接口允许开发者通过商品ID获取商品的详细信…

如何使用 Midjourney换脸,将一个人面部复制并粘贴到任意人身上

嘿&#xff0c;想不想将一个人的面部随意粘贴到任意人身上&#xff1f;现在开始教学如何使用 Discord 中的Midjourney Bot 实现&#xff0c;这就是“COPY A FACE”这个超酷的功能&#xff0c;它能帮你一键把脸贴到任何图片上。用到的是一个叫“InsightFace”的开源Discord机器人…

防止数据泄露的软件哪家强?四款防泄密软件助您安心守护企业机密

在信息化时代&#xff0c;企业数据安全成为了关乎生死存亡的关键因素。 数据泄露事件频发&#xff0c;选择一款高效可靠的防泄密软件变得尤为重要。 以下是六款市场上备受推崇的防泄密软件&#xff0c;它们以各自的优势为企业数据安全保驾护航。 1. 域智盾软件 软件以其全面…

Threejs-09、贴图的加载与环境遮蔽强度设置

1、创建文理加载器 let textureLoader new THREE.TextureLoader();2、加载贴图 // 加载文理 let texture textureLoader.load("./img/image.png") // 加载ao贴图 let aoMap textureLoader.load("./img/image.png");3、创建一个平面 let planeGeomet…

预告|博睿数据将受邀出席GOPS全球运维大会北京站!

GOPS全球运维大会作为国内外运维领域最具影响力的技术盛会之一&#xff0c;旨在汇聚全球运维精英&#xff0c;分享运维领域的前沿技术、实践经验与创新理念。6月28日&#xff0c;博睿数据&#xff08;bonree.com&#xff0c;股票代码688229&#xff09;将受邀出席第二十三届 GO…

cdh中的zookeeper怎么配置zoo.cfg

你手动改了zoo.cfg目录是不会生效的&#xff0c;因为是cdh在管控&#xff0c;所以只能通过cdh修改。 首先打开cdh。 xxx:7180 点击zookeeper 选配置&#xff0c;然后选高级 在右边找&#xff0c;有一个就是zoo.cfg&#xff0c;可以点击右边的感叹号。然后在里面编辑的就会直…

ChatGPT中文镜像网站分享

ChatGPT 是什么&#xff1f; ChatGPT 是 OpenAI 开发的一款基于生成预训练变换器&#xff08;GPT&#xff09;架构的大型语言模型。主要通过机器学习生成文本&#xff0c;能够执行包括问答、文章撰写、翻译等多种文本生成任务。截至 2023 年初&#xff0c;ChatGPT 的月活跃用户…

【皇帝的新衣】虚拟小组长的团队管理

团队有时候会需要设立虚拟小组长来分组帮忙管理&#xff0c;那么&#xff0c;虚拟小组的负责人应当怎么做好管理动作&#xff1f; 目前很多大厂追求团队管理上的扁平化&#xff0c;但真正有实职的领导们一般管理30人数&#xff0c;此时需要一个虚拟小组长来分组帮忙管理。 一、…