本文发表于:ICML22
推荐指数: #paper/⭐⭐⭐
问题背景:
异配图的邻接矩阵难以确定,以及异配图的计算复杂度开销大
可行的解决办法:高通滤波+多跳邻居,GPRGNN(pagerank一类,各阶邻居的权重不同,ACM-GCN(高低通滤波,H2GCN(应该复杂度很大) WRGAT,GGCN(signed message) LINKX(MLP+graph)
模型
方法:两个MLP学习X和A,拼接后卷积
H
X
(
0
)
=
M
L
P
1
(
X
)
,
H
A
(
0
)
=
M
L
P
2
(
A
)
H_X^{(0)}=M\mathrm{LP}_1(X),~H_A^{(0)}=\mathrm{MLP}_2(A)
HX(0)=MLP1(X), HA(0)=MLP2(A)
仿照APPNP,再加上初等残差:
H
(
0
)
=
(
1
−
α
)
H
X
(
0
)
+
α
H
A
(
0
)
H^{(0)}=(1-\alpha)H_X^{(0)}+\alpha H_A^{(0)}
H(0)=(1−α)HX(0)+αHA(0)
H
(
l
)
=
(
1
−
γ
)
Z
(
l
)
H
(
l
)
+
γ
H
(
0
)
+
O
(
l
)
H^{(l)}=(1-\gamma)Z^{(l)}H^{(l)}+\gamma H^{(0)}+O^{(l)}
H(l)=(1−γ)Z(l)H(l)+γH(0)+O(l)
我们可以得到下面优化问题:
min
Z
(
l
)
∥
H
(
l
)
−
(
1
−
γ
)
Z
(
l
)
H
(
l
)
−
γ
H
(
0
)
∥
F
2
+
β
1
∥
Z
(
l
)
∥
F
2
+
β
2
∥
Z
(
l
)
−
∑
k
=
1
K
λ
k
A
^
k
∥
F
2
\min_{Z^{(l)}}\|H^{(l)}-(1-\gamma)Z^{(l)}H^{(l)}-\gamma H^{(0)}\|_{F}^{2}+\beta_{1}\|Z^{(l)}\|_{F}^{2}+\beta_{2}\|Z^{(l)}-\sum_{k=1}^{K}\lambda_{k}\hat{A}^{k}\|_{F}^{2}
Z(l)min∥H(l)−(1−γ)Z(l)H(l)−γH(0)∥F2+β1∥Z(l)∥F2+β2∥Z(l)−k=1∑KλkA^k∥F2
第一项是优化问题,第二项是F范数,第三项是逼近Z与多跳邻居
可得Z:
Z
(
l
)
∗
=
[
(
1
−
γ
)
H
(
l
)
(
H
(
l
)
)
T
+
β
2
∑
k
=
1
K
λ
k
A
^
k
−
γ
(
1
−
γ
)
H
(
0
)
(
H
(
l
)
)
T
]
[
(
1
−
γ
)
2
H
(
l
)
(
H
(
l
)
)
T
+
(
β
1
+
β
2
)
I
n
]
−
1
\begin{aligned} Z^{(l)*}& =\left[(1-\gamma)H^{(l)}(H^{(l)})^T+\beta_2\sum_{k=1}^K\lambda_k\hat{A}^k-\gamma(1-\gamma)H^{(0)}(H^{(l)})^T\right] \\ &\left[\left(1-\gamma\right)^2H^{(l)}(H^{(l)})^T+(\beta_1+\beta_2)I_n\right]^{-1} \end{aligned}
Z(l)∗=[(1−γ)H(l)(H(l))T+β2k=1∑KλkA^k−γ(1−γ)H(0)(H(l))T][(1−γ)2H(l)(H(l))T+(β1+β2)In]−1
计算加速
H
(
l
+
1
)
=
(
1
−
γ
)
Z
(
l
)
∗
H
(
l
)
+
γ
H
(
0
)
.
H^{(l+1)}=(1-\gamma)Z^{(l)*}H^{(l)}+\gamma H^{(0)}.
H(l+1)=(1−γ)Z(l)∗H(l)+γH(0).
H
(
l
+
1
)
=
(
1
−
γ
)
H
(
l
)
(
H
(
l
)
)
T
Q
(
l
+
1
)
+
β
2
∑
k
=
1
K
λ
k
A
^
k
Q
(
l
+
1
)
−
γ
(
1
−
γ
)
H
(
0
)
(
H
(
l
)
)
T
Q
(
l
+
1
)
+
γ
H
(
0
)
\begin{gathered} H^{(l+1)}= (1-\gamma)H^{(l)}(H^{(l)})^TQ^{(l+1)}+\beta_2\sum_{k=1}^K\lambda_k\hat{A}^kQ^{(l+1)} \\ -\gamma(1-\gamma)H^{(0)}(H^{(l)})^TQ^{(l+1)}+\gamma H^{(0)} \end{gathered}
H(l+1)=(1−γ)H(l)(H(l))TQ(l+1)+β2k=1∑KλkA^kQ(l+1)−γ(1−γ)H(0)(H(l))TQ(l+1)+γH(0)
其中,
Q
(
l
+
1
)
=
1
−
γ
β
1
+
β
2
H
(
l
)
−
1
−
γ
(
β
1
+
β
2
)
2
H
(
l
)
.
[
1
(
1
−
γ
)
2
I
c
+
1
β
1
+
β
2
(
H
(
l
)
)
T
H
(
l
)
]
−
1
(
H
(
l
)
)
T
H
(
l
)
\begin{aligned} Q^{(l+1)}=& \frac{1-\gamma}{\beta_1+\beta_2}H^{(l)}-\frac{1-\gamma}{(\beta_1+\beta_2)^2}H^{(l)}. \\ &\left[\frac1{(1-\gamma)^2}I_c+\frac1{\beta_1+\beta_2}(H^{(l)})^TH^{(l)}\right]^{-1}(H^{(l)})^TH^{(l)} \end{aligned}
Q(l+1)=β1+β21−γH(l)−(β1+β2)21−γH(l).[(1−γ)21Ic+β1+β21(H(l))TH(l)]−1(H(l))TH(l)
Group Effective
Definition
4.
1.
(
Grouping
effect
(
Li
et
al.
,
2020)
)
.
Given
\textbf{Definition 4. 1. }( \textbf{Grouping effect ( Li et al. , 2020) ) . Given}
Definition 4. 1. (Grouping effect ( Li et al. , 2020) ) . Given,a set of nodes
V
=
{
v
i
}
i
=
1
n
\mathcal{V}=\{v_i\}_{i=1}^n
V={vi}i=1n, let
v
i
→
v
j
v_i\to v_j
vi→vj denote the condi-tion that
(
1
)
∥
x
i
−
x
j
∥
2
→
0
(1)\left\|x_i-x_j\right\|_2\to0
(1)∥xi−xj∥2→0 and
(
2
)
∥
a
^
i
k
−
a
^
j
k
∥
2
→
0
( 2) \left \| \hat{a} _i^k- \hat{a} _j^k\right \| _2\to 0
(2)
a^ik−a^jk
2→0,
∀
k
∈
\forall k\in
∀k∈
[
1
,
K
]
.
[1,K].
[1,K]. A matrix
Z
Z
Z is said to have grouping effect if
v
i
→
v
j
⇒
∣
Z
i
p
−
Z
j
p
∣
→
0
,
∀
1
≤
p
≤
n
.
v_i\to v_j\Rightarrow|Z_{ip}-Z_{jp}|\to0,\forall1\leq p\leq n.
vi→vj⇒∣Zip−Zjp∣→0,∀1≤p≤n.
对于任意两个节点vi和vj,无论它们在图中有多远,如果它们共享相似的特征向量和局部结构,我们都可以得出结论:(1),它们将被给予相似的系数向量;(2),它们将在描述其他节点时扮演相似的角色;而(3),它们将得到相似的表示向量。另一方面,在具有异质性的图中,相邻的节点更有可能出现不同的情况,因此它们会得到不同的嵌入。此外,对于特征相似度较低的两个节点,如果它们具有较高的结构相似性,则可以通过局部图结构的正则化项来增强其表征
GloGNN++
之前的这个H矩阵是 纵向的 attention,即 节点和 邻居之间的。 这里提出 横向的 attention,就是自身节点特征的重要性不同,采用常规的方法,增加一个对角矩阵作为每一维特征的attention
讨论
1.GAT中的权重是自动学习的,缺乏可解释性,但我们的模型中的Z(l)是来自一个精心设计良好的优化问题,并且有一个封闭的解
2.其次,GAT中的注意权值总是非负值,而我们的方法中的Z(l)允许有符号值。因此,GAT只使用低通卷积滤波器,而我们的方法同时结合了低通和高通滤波器。
3.对于每个节点,GAT对图中所有节点执行的邻域聚合计算代价昂贵,具有二次时间复杂度w.r.t.节点数。然而,我们的方法加速了聚合,并推导出了一个线性的时间复杂度