爱因斯坦可以教给我们关于机器学习的知识
在机器学习中利用对称性
目录
- 一、说明
- 二、物理学中的对称性
- 三、机器学习中的对称性
- 四、卷积神经网络 (CNN) 中的对称性
- 五、将对称性集成到机器学习中,用于平面图像及其他图像
- 六、引用
一、说明
在许多方面,物理学和机器学习都有一个共同的目标:制定观察到的现象的模型。为了实现这一目标,物理学家早就认识到对称性的重要性。在这篇文章中,我们将探讨如何利用物理学中的对称性思想作为机器学习的指导原则。
雪花的对称性。[照片由 达米安·麦考格 on Unsplash]
R在过去的十年中,APID在机器学习方面取得了进展,特别是对于涉及复杂高维数据的问题,例如计算机视觉或自然语言处理中的问题。然而,与生物智能相比,对机器智能的一个普遍批评是它从示例中学习的效率低下。虽然年幼的孩子可能只从少数几个例子中学会识别新动物,但现代机器学习系统可能需要数百甚至数千个例子才能实现相同的壮举。
二、物理学中的对称性
作为人类,我们根据强大的物理定律形成周围世界的模型,其中许多是我们潜意识学习的。物理学家探索如何将这些定律和模型形式化和发现。他们的目标是制定准确描述和预测观察到的现象的基础过程模型。
物理系统可以在不同的抽象级别上建模。用于解释天文现象的模型通常利用与用于解释亚原子粒子的物理定律不同的物理定律。然而,有一个原则贯穿于物理定律的各个抽象层次:必须尊重自然界的已知对称性。
关于物理定律的对称性概念与它在描述物体对称性时更熟悉的用法略有不同。如果一个对象在某种变换下保持不变(即不变),则认为它具有对称性。例如,球体在任何任意旋转下仍然是球体这一事实意味着它表现出旋转对称性。
另一方面,如果控制系统行为的物理定律在经历转换之前和之后以相同的方式适用于系统,则该定律被认为是对称的。
一个简单的例子是平移对称性,它由以同样方式适用于系统的定律所满足,而不管系统的位置如何。例如,掉在房子一个房间的球与掉在另一个房间的球的行为相同(忽略任何外部因素,如任何微风)。
第二个例子是旋转对称性,它由定律满足,这些定律以同样的方式适用于系统,无论它面向哪个方向。第三个例子是时间平移对称性,它由不随时间变化的定律所满足。
物理学家很早就意识到物理定律的时空对称性。然而,在20世纪初,对称性在物理学中的重要性发生了范式转变。
爱因斯坦在1905年发表的关于狭义相对论的著名论文中没有从物理定律开始并推导出相应的对称性质,而是使用对称原理作为推导新物理定律的起点。
十年后,德国数学家艾米·诺特(Emmy Noether)在女性基本上被排除在学术职位之外的时代,对抽象代数和理论物理学都做出了开创性的贡献,进一步提升了对称性在物理学中的作用。她证明了对于物理定律的每一个连续对称性,都存在相应的守恒定律。例如,动量守恒定律可以从物理定律的平移对称性中推导出来。同样,角动量守恒来自旋转对称性和能量守恒来自时间平移对称性。
阿尔伯特·爱因斯坦(左)和艾美·诺特(右)。[图片来源于维基共享资源:爱因斯坦;诺特]
物理学的基本定律,如能量守恒和动量守恒,实际上源于宇宙的对称性。
利用对称性作为指导原则来发现相应的定律和模型来描述观察到的现象,不仅在物理学中有很大的用处,而且可以在机器学习中得到利用。
三、机器学习中的对称性
机器学习从业者非常清楚对模型施加约束以控制偏差-方差权衡的重要性。在寻找解释变量和目标变量之间关系的模型时,在机器学习中,我们首先指定一类模型,我们假设这些模型包含一个充分描述性的模型。在本类中,我们寻找最能描述观察到的现象的模型,即最大化拟合经验度量的模型。
必须指定一个足够宽泛的类,以便它包含一个准确描述关系的模型,同时也要受到足够的限制,以便它不会被过度拟合数据的模型所超越。这通常很难实现,因为当解释变量和目标变量之间的关系没有得到很好的理解时,机器学习是最有用的(毕竟,这是我们希望学习的东西),因此如何设置这些边界并不明显。例如,我们知道图像(即像素强度数组)与对应于图像语义含义的类别之间的关系非常复杂。我们如何指定一个模型,既允许这种复杂性,又相对受限?
在机器学习模型中引入归纳偏差以解决此问题的一种特别有效的方法是利用对称性原则——在这一点上应该不足为奇!
给定一大类模型,我们可以立即忽略绝大多数不遵守已知问题所表现出的对称性概念的模型。本着与爱因斯坦发现狭义相对论的精神相同的精神,我们首先注意到应该满足的对称原则,然后向后工作以找到最能描述观测数据的模型。
四、卷积神经网络 (CNN) 中的对称性
在机器学习中如何利用这一原理的典型例子是针对计算机视觉问题的卷积神经网络(CNN)的设计。与神经网络的任何使用一样,其目的是从低级特征中分层学习高级特征。计算机视觉中最重要的对称性是平移对称性:猫眼就是猫眼,无论它出现在图像中的哪个位置。
平移等方差的说明。给定一个图像(左上),应用卷积核(A)获得特征图(右上),然后平移(T)特征图(右下角)相当于先平移图像(左下角),然后应用卷积核(右下角)。[猫和特征图图像源]
CNN 通过其架构设计对平移对称性进行编码。每个神经元对应于输入的一个空间区域,并且仅连接到前一层中相应的神经元邻域。至关重要的是,每个神经元都以完全相同的方式与前一层中的相应邻域相关。因此,无论特征(例如猫眼)位于图像中的哪个位置,它都会以相同的方式刺激相应位置的神经元。卷积算子的这种属性称为平移等方差,在上图中可视化 - 将算子应用于特征后进行平移等价于平移后应用运算符。
通过这种精心的架构设计,我们将搜索的模型空间限制在那些遵循平移等价性常识属性的模型上。从启发式的角度来看,我们可能会考虑通过确保一种模式只需要学习一次来为我们的学习算法提供帮助。我们不必在所有可能的位置学习模式,而是通过在模型本身中编码平移等方差,确保可以在所有位置识别模式。
五、将对称性集成到机器学习中,用于平面图像及其他图像
将平移对称性集成到机器学习模型中是推动过去十年计算机视觉革命性进步的关键因素之一(结合数据和计算能力的激增)。
这无疑有助于 2D 图像具有简单的平面形式,可以以直观且计算高效的方式对平移对称性进行编码。对于涉及具有更复杂(非平面)几何形状的数据的问题,遵守所需的对称性原则可能更加困难。处理复杂的几何需要更先进的数学机械,从而催生了几何深度学习领域。几何深度学习社区在实现这一目标方面取得了显著进展,我们将在以后的文章中进一步讨论。
六、引用
[1] Brading & Castellani, 物理学中的对称性:哲学思考 (2018), arXiv/0301097
[2] 希金斯、阿莫斯、普法、拉卡尼尔、马特、雷森德、勒希纳,迈向解开表征的定义 (2018),arXiv:1812.02230
[3] 昆斯塔特,《物理定律的对称性》(1999),https://theory.uwinnipeg.ca/users/gabor/symmetry/slide15.html