文献笔记:LINE: Large-scale Information Network Embedding

paper 看完√

code复现ing


https://arxiv.org/pdf/1503.03578v1.pdf

本文研究了将非常大的信息网络嵌入到低维向量空间的问题,这在可视化、节点分类和链路预测等许多任务中都很有用。大多数现有的图形嵌入方法无法扩展到通常包含数百万个节点的现实世界信息网络。在本文中,我们提出了一种名为“LINE”的新型网络嵌入方法,适用于任意类型的信息网络:无向、定向和/或加权。该方法优化了精心设计的目标功能,保留了本地和全球网络结构。提出了一种边缘采样算法,解决了经典随机梯度下降的局限性,并提高了推理的有效性和效率。实证实验证明了LINE在各种现实世界信息网络上的有效性,包括语言网络、社交网络和引用网络。该算法非常高效,能够在几个小时内在典型的单台机器上学习具有数百万个顶点和数十亿个边缘的网络的嵌入。LINE的源代码可在线获取。

结构:第1节介绍。第2节总结了相关工作。第3节正式定义了大规模信息网络嵌入的问题。第4节详细介绍了LINE模型。第5节介绍了实验结果。在第6节总结。

论文研读问题

1.文章在解决什么问题?

将非常大的信息网络嵌入到低维向量空间,为下游任务做准备。提出能实现以下要求的信息网络嵌入:

  • 首先,它必须能够保持顶点之间的一阶接近度和二阶接近度;
  • 其次,它必须为非常大的网络扩展,例如数百万个顶点和边缘;
  • 第三,它可以处理具有任意类型边缘的网络:有向、无向和/或加权。

2.用了什么方法?

  1. 提出了Line模型,专门为网络设计的目标,实现保留一节接近度和二阶接近度的网络嵌入
  2. 提出边缘采样算法,使用与权重成正比的概率进行采样,解决随机梯度下降存在的梯度爆炸问题。
  3. 更类似于广度优先搜索来保留二阶接近度
  4. 在现实世界的信息网络上进行了广泛的实验,用实验结果证明了不同网络下的LINE模型的有效性和效率。

Line 模型提出一阶接近度和二阶接近度的定义,并通过组合实现一阶和二阶,提出Line(1st),Line(2sd),Line(1st+2nd),还有使用梯度随即下降版本的sgd,并进行实验探究在不同信息网络中的表现。

1. 一阶接近度的求解方法:

2. 二阶接近度求解方法:

3.得出了什么结论,有什么效果?

  • line模型可以适用任何类型网络,包括语言网络、社交网络和引用网络,具有通用性,可以保留了本地和全局网络结构。
  • 提出了一种边缘采样算法,解决了经典随机梯度下降的局限性,解决随机梯度下降存在的梯度爆炸问题。
  • 算法非常高效,能够在几个小时内在典型的单台机器上学习具有数百万个顶点和数十亿个边缘的网络的嵌入。

4.没完成的/新问题有哪些?

  1. low degree vector。一个实际问题是如何用小度来嵌入顶点。由于这种节点的邻居数量非常少,因此很难准确推断其表示,特别是基于二阶接近的方法在很大程度上依赖于“上下文”的数量。 解决方法,添加高阶邻居,邻居的邻居,Line加入了二阶邻居。
  2. 如何找到新出现的顶点的表示。如果观察到新顶点和现有顶点之间没有连接,我们必须求助于其他信息,例如顶点的文本信息,并将其作为我们未来的工作。辅助信息,比如side information.

5.为什么这篇文章很重要?

优点:适用于任意类型的信息网络,提出将一阶和二阶接近度结合出来,保留了本地和全球网络结构,提出了一种边缘采样算法,算法非常高效,性能好,能快速处理大量节点,可以处理稀疏和稠密网络。

特点:说明了一阶接近度和二阶接近度是互补的。

  1. 一般图嵌入和降维方法重点特征向量的矩阵分解,处理大规模网络效率低下。
  2. 图因子分解方法的目标不为了网络设计,不一定能保留全局网络结构,重点关注一阶接近度,只适合无向图。
  3. Deep walk加入截断随机游走,未设计目标来阐明保留哪些网络属性,重点关注二阶接近度,类似深搜,只适合未加权的。
  4. 而Line专为网络设计,将一阶和二阶接近度结合出来,保留了本地和全球网络结构,操作更类似广搜,用广搜来求二阶接近度更合理。

6.数据

(1)语言网络。用维基百科页面构建了一个单词共同出现网络。每个5个单词的滑动窗口中的单词都是相互并发的。

(2)社交网络。Flickr和Youtube2。Flickr网络的密度比Youtube网络。

(3)引文网络。author引文网络和纸质引文网络。用DBLP数据集构建作者之间和论文之间的引用网络。作者引用网络记录了一位作者撰写和另一位作者引用的论文数量。这些网络的详细统计数据汇总到表1中。它们代表各种信息网络:定向和非定向、二进制和加权。每个网络至少包含50万个节点和数百万个边缘。

7.能尝试新思路

异质信息网络嵌入。

动态信息网络嵌入更新。

多模态信息网络嵌入。

相关背景知识

1.一阶和二阶接近度定义:

一阶邻近性网络中的一阶邻近性是两个顶点之间的局部成对邻近性。对于每一对由边(u, v)连接的顶点,该边的权值wuv表示u和v之间的一级接近度。如果在u和v之间没有观察到边,则它们的一阶接近度为O。

二阶邻近性:网络中一对顶点(u,v)之间的二阶邻近性是它们的邻域网络结构之间的相似性。数学上,令pu = (wu.1,…, Wu.|v|)表示u与所有其他顶点的一阶接近度,则u与v的二阶接近度由pu与py的相似度决定。如果没有一个顶点连接到u和v,则u和v之间的二阶接近度为0。

2.binary and weighted network

在网络的上下文中,"二值网络"和"加权网络"分别指的是不同的表示节点之间关系的方式。让我们详细了解每个概念:

1. **二值网络**:

- 在二值网络中,节点之间的连接以二进制方式表示,通常为存在(1)或不存在(0)。这意味着网络只捕捉连接是否存在,而不考虑连接的强度或强度。

- 二值网络通常用于关系是纯粹二进制的情况,例如在社交网络中,友谊的存在或不存在。

2. **加权网络**:

- 在加权网络中,每个节点之间的连接被赋予一个数字权重或值,以表示关系的强度或强度。权重通常传达了有关节点之间关联程度的额外信息。

- 当连接的强度很重要时,使用加权网络是有益的。例如,在交通网络中,权重可以表示位置之间的行车距离或行车时间。

总的来说,关键的区别在于连接是如何表示的。二值网络关注连接是否存在,而加权网络则考虑连接的强度或强度。选择二值或加权表示取决于建模关系的性质以及特定网络的特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/421187.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

java 正则表达式介绍

Java正则表达式是一种强大的文本处理工具,它允许你进行模式匹配、搜索和文本操作。正则表达式提供了一种简洁、灵活的方式来处理字符串,可以用于各种应用场景,如数据验证、文本解析、搜索和替换等。 正则表达式的基础知识 正则表达式…

物联网主机:为智能交通赋能

物联网(IoT)技术的发展为智能交通领域带来了许多创新的解决方案。而在物联网应用中,物联网主机起着关键的作用。本文将为大家介绍一款名为E6000的物联网主机,它是一种多协议、多接口的物联网主机,为智能交通系统的建设…

高级语言期末2009级A卷(计算机学院)

1.编写bool函数&#xff0c;判定给定的正整数n&#xff0c;M是否满足&#xff1a;M为n的质因数&#xff08;能整除n的质数&#xff09; #include <stdio.h> #include <stdbool.h> #include <math.h>bool Isprime(int n) {if(n<1)return false;for(int i2…

spring boot整合cache使用memcached 优化将配置信息放入 application中管理

上文 spring boot整合cache使用memcached 我们简单做了个 spring boot 整合cache 使用 memcached 缓存的案例 但 我们是将地址这类信息 放在了config 目录下的一个 配置类中了 这样 可维护性肯定是很低的 其实 memcached 是有一系列配置的 我们还是正确将 配置信息 写进 appli…

基于springboot+vue的美食推荐商城

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…

图表背后的智慧:办公场景中的数据可视化革新

在现代办公场景中&#xff0c;数据可视化的应用已经成为提高效率、推动创新的得力工具。无论是管理层还是普通员工&#xff0c;都能从数据可视化中受益匪浅。下面我就以可视化从业者的角度&#xff0c;简单聊聊这个话题。 首先&#xff0c;数据可视化提升了数据的易读性与理解性…

【重温设计模式】装饰模式及其Java示例

装饰模式的介绍 在众多设计模式中&#xff0c;有一种叫做装饰模式&#xff0c;它以一种独特的方式赋予了代码更多的灵活性。 装饰模式是一种结构型设计模式&#xff0c;它允许我们在运行时动态地为对象添加新的行为。这就像是我们在装饰一个房间时&#xff0c;可以随意添加或更…

CentOS系统上安装幻兽帕鲁/Palworld服务端的详细步骤是什么?

CentOS系统上安装幻兽帕鲁/Palworld服务端的详细步骤是什么&#xff1f; 首先&#xff0c;需要确认Docker是否已经安装。如果未安装&#xff0c;则需要进行安装。接下来&#xff0c;运行Docker容器。这一步是为了创建一个可以运行幻兽帕鲁服务端的环境。然后&#xff0c;在容器…

bootstrap-table 多层组合表头

如下图所示的二层组合表头 来人&#xff0c;上代码&#xff01; table.bootstrapTable({url: $.fn.bootstrapTable.defaults.extend.index_url,pk: id,sortName: id,search: false,showToggle: false,showColumns: false,showExport: false, commonSearch: false,columns: [[…

ElasticSearch之分布式模型介绍,选主,脑裂

写在前面 本文看下es分布式模型相关内容。 1&#xff1a;分布式模型 1.1&#xff1a;分布式特征 支持水平扩展&#xff0c;可以存储PB级别数据&#xff0c;每个就能都有自己唯一的名称,默认名称时elasticsearch&#xff0c;可以通过配置文件&#xff0c;如cluster.name: my…

使用 Docker 部署 Fiora 在线聊天室平台

一、Fiora 介绍 Fiora 简介 Fiora 是一款开源免费的在线聊天系统。 GitHub&#xff1a;https://github.com/yinxin630/fiora Fiora 功能 注册账号并登录&#xff0c;可以长久保存你的数据加入现有群组或者创建自己的群组&#xff0c;来和大家交流和任意人私聊&#xff0c;并添…

Cascading risk assessment in power-communication interdependent networks论文导读

Cascading risk assessment in power-communication interdependent networks 前言碎碎念 新学期了&#xff0c;兜兜转转绕了一圈&#xff0c;看了两篇交通流预测的内容&#xff0c;不过我的主要研究方向不在于此。最近和一些老师沟通交流&#xff0c;感觉思路稍微清晰了一些…

雷龙CS SD NAND(贴片式TF卡)测评体验

前段时间有幸免费得到了雷龙出品的贴片式的TF卡的芯片及转接板&#xff0c;两片贴片式nand芯片&#xff0b;一个转接板&#xff0c;一种一个已让官方焊接完好&#xff1b;如下图所示&#xff1a; 正面&#xff1a; 背面&#xff1a; 通过转接板&#xff0c;可以将CS SD NAND(贴…

好视通视频会议系统存在任意文件读取漏洞复现 [附POC]

漏洞简介 好视通视频会议是由深圳市华视瑞通信息技术有限公司开发&#xff0c;其在国内率先推出了3G互联网视频会议&#xff0c;并成功应用于SAAS领域。 资产 FOFA:app"好视通-视频会议" POC GET /register/toDownload.do?fileName../../../../../../../../../.…

NSGA II 算法讲解(毕业设计)(三)

目录 前言 1、NSGA II算法介绍 2、Pareto最优概念 2.1 Pareto最优&#xff0c;Pareto前延 2.2 支配关系 3、NSCA-II与NSCA相比&#xff0c;优势 4、NSGA II流程逻辑 5、拥挤度排序 6、新子代生成 前言 本篇文章介绍的是我的毕业设计&#xff0c;我将C语言将其实现。本…

深入理解volatile关键字

一、简介 volatile是 Java提供的一种轻量级的同步机制。Java包含两种内在的同步机制&#xff1a;同步块&#xff08;或方法&#xff09;和 volatile 变量相比于synchronized (synchronized常称为重量级&#xff09;volatile是更轻量级的&#xff0c;因为它不会引起线程上下文的…

LeetCode25: K 个一组翻转链表

题目描述 给你链表的头节点 head &#xff0c;每 k 个节点一组进行翻转&#xff0c;请你返回修改后的链表。 k 是一个正整数&#xff0c;它的值小于或等于链表的长度。如果节点总数不是 k 的整数倍&#xff0c;那么请将最后剩余的节点保持原有顺序。 你不能只是单纯的改变节点…

B树系列(详解)

目录 一、B-树 二、B树 三、B*树 四、时间复杂度 五、Mysql与B树系列 一、B-树 首先再说B树的性质以及其他的之前&#xff0c;先要说一声&#xff0c;好多人都把这个树叫B减树&#xff0c;其实不是&#xff0c;他就叫B树&#xff0c;至于原因我觉的没必要再这个名字上纠结…

HTTPS证书怎么申请?多少钱?

HTTPS证书的申请费用会因多种因素而异&#xff0c;主要包括以下几点&#xff1a; 1. 证书类型&#xff1a; - 域名验证型证书(DV SSL)&#xff1a;这种证书仅验证域名的所有权&#xff0c;申请速度较快&#xff0c;通常用于个人网站或小型项目&#xff0c;价格相对较低&…

Java对象大小计算

概述 在实际应用中&#xff0c;尤其是在进行JVM调优时&#xff0c;理解并正确估计对象大小是非常重要的&#xff0c;因为这直接影响到内存分配、垃圾回收效率以及应用程序的整体性能。 对象的组成 在Java中&#xff0c;计算一个对象的大小是为了了解它在内存中占用的确切空间…