正文

图神经网络和神经网络的区别

发布时间：2023-04-03 18:22:44 稿源：创意岭阅读： 60 当前文章关键词排名出租

大家好！今天让创意岭的小编来大家介绍下关于图神经网络和神经网络的区别的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com。

创意岭作为行业内优秀的企业，服务客户遍布全球各地，如需了解相关业务请拨打电话175-8598-2043，或添加微信：1454722008

本文目录:

1、一文看懂四种基本的神经网络架构
2、GNN(一) 图神经网络基本知识
3、神经网络如何外推：从前馈网络到图网络
4、RBF神经网络和BP神经网络有什么区别

图神经网络和神经网络的区别

一、一文看懂四种基本的神经网络架构

原文链接：

http://blackblog.tech/2018/02/23/Eight-Neural-Network/

更多干货就在我的个人博客 http://blackblog.tech 欢迎关注

刚刚入门神经网络，往往会对众多的神经网络架构感到困惑，神经网络看起来复杂多样，但是这么多架构无非也就是三类，前馈神经网络，循环网络，对称连接网络，本文将介绍四种常见的神经网络，分别是CNN，RNN，DBN，GAN。通过这四种基本的神经网络架构，我们来对神经网络进行一定的了解。

神经网络是机器学习中的一种模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

一般来说，神经网络的架构可以分为三类：

前馈神经网络：

这是实际应用中最常见的神经网络类型。第一层是输入，最后一层是输出。如果有多个隐藏层，我们称之为“深度”神经网络。他们计算出一系列改变样本相似性的变换。各层神经元的活动是前一层活动的非线性函数。

循环网络：

循环网络在他们的连接图中定向了循环，这意味着你可以按照箭头回到你开始的地方。他们可以有复杂的动态，使其很难训练。他们更具有生物真实性。

循环网络的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。

循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

对称连接网络：

对称连接网络有点像循环网络，但是单元之间的连接是对称的（它们在两个方向上权重相同）。比起循环网络，对称连接网络更容易分析。这个网络中有更多的限制，因为它们遵守能量函数定律。没有隐藏单元的对称连接网络被称为“Hopfield 网络”。有隐藏单元的对称连接的网络被称为玻尔兹曼机。

其实之前的帖子讲过一些关于感知机的内容，这里再复述一下。

首先还是这张图

这是一个M-P神经元

一个神经元有n个输入，每一个输入对应一个权值w，神经元内会对输入与权重做乘法后求和，求和的结果与偏置做差，最终将结果放入激活函数中，由激活函数给出最后的输出，输出往往是二进制的，0 状态代表抑制，1 状态代表激活。

可以把感知机看作是 n 维实例空间中的超平面决策面，对于超平面一侧的样本，感知器输出 1，对于另一侧的实例输出 0，这个决策超平面方程是 w⋅x=0。那些可以被某一个超平面分割的正反样例集合称为线性可分(linearly separable)样例集合，它们就可以使用图中的感知机表示。

与、或、非问题都是线性可分的问题，使用一个有两输入的感知机能容易地表示，而异或并不是一个线性可分的问题，所以使用单层感知机是不行的，这时候就要使用多层感知机来解决疑惑问题了。

如果我们要训练一个感知机，应该怎么办呢？

我们会从随机的权值开始，反复地应用这个感知机到每个训练样例，只要它误分类样例就修改感知机的权值。重复这个过程，直到感知机正确分类所有的样例。每一步根据感知机训练法则来修改权值，也就是修改与输入 xi 对应的权 wi，法则如下：

这里 t 是当前训练样例的目标输出，o 是感知机的输出，η 是一个正的常数称为学习速率。学习速率的作用是缓和每一步调整权的程度，它通常被设为一个小的数值（例如 0.1），而且有时会使其随着权调整次数的增加而衰减。

多层感知机，或者说是多层神经网络无非就是在输入层与输出层之间加了多个隐藏层而已，后续的CNN，DBN等神经网络只不过是将重新设计了每一层的类型。感知机可以说是神经网络的基础，后续更为复杂的神经网络都离不开最简单的感知机的模型，

谈到机器学习，我们往往还会跟上一个词语，叫做模式识别，但是真实环境中的模式识别往往会出现各种问题。比如：

图像分割：真实场景中总是掺杂着其它物体。很难判断哪些部分属于同一个对象。对象的某些部分可以隐藏在其他对象的后面。

物体光照：像素的强度被光照强烈影响。

图像变形：物体可以以各种非仿射方式变形。例如，手写也可以有一个大的圆圈或只是一个尖头。

情景支持：物体所属类别通常由它们的使用方式来定义。例如，椅子是为了让人们坐在上面而设计的，因此它们具有各种各样的物理形状。

卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子采样也叫做池化（pooling），通常有均值子采样（mean pooling）和最大值子采样（max pooling）两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。

卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。

这里举AlexNet为例：

·输入：224×224大小的图片，3通道

·第一层卷积：11×11大小的卷积核96个，每个GPU上48个。

·第一层max-pooling：2×2的核。

·第二层卷积：5×5卷积核256个，每个GPU上128个。

·第二层max-pooling：2×2的核。

·第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。

·第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。

·第五层卷积：3×3的卷积核256个，两个GPU上个128个。

·第五层max-pooling：2×2的核。

·第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。

·第二层全连接：4096维

·Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

卷积神经网络在模式识别领域有着重要应用，当然这里只是对卷积神经网络做了最简单的讲解，卷积神经网络中仍然有很多知识，比如局部感受野，权值共享，多卷积核等内容，后续有机会再进行讲解。

传统的神经网络对于很多问题难以处理，比如你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。

这是一个简单的RNN的结构，可以看到隐藏层自己是可以跟自己进行连接的。

那么RNN为什么隐藏层能够看到上一刻的隐藏层的输出呢，其实我们把这个网络展开来开就很清晰了。

从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。

如果反复把式2带入到式1，我们将得到：

在讲DBN之前，我们需要对DBN的基本组成单位有一定的了解，那就是RBM，受限玻尔兹曼机。

首先什么是玻尔兹曼机？

[图片上传失败...(image-d36b31-1519636788074)]

如图所示为一个玻尔兹曼机，其蓝色节点为隐层，白色节点为输入层。

玻尔兹曼机和递归神经网络相比，区别体现在以下几点：

1、递归神经网络本质是学习一个函数，因此有输入和输出层的概念，而玻尔兹曼机的用处在于学习一组数据的“内在表示”，因此其没有输出层的概念。

2、递归神经网络各节点链接为有向环，而玻尔兹曼机各节点连接成无向完全图。

而受限玻尔兹曼机是什么呢？

最简单的来说就是加入了限制，这个限制就是将完全图变成了二分图。即由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接。

h表示隐藏层，v表示显层

在RBM中，任意两个相连的神经元之间有一个权值w表示其连接强度，每个神经元自身有一个偏置系数b（对显层神经元）和c（对隐层神经元）来表示其自身权重。

具体的公式推导在这里就不展示了

DBN是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。

DBN由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

生成对抗网络其实在之前的帖子中做过讲解，这里在说明一下。

生成对抗网络的目标在于生成，我们传统的网络结构往往都是判别模型，即判断一个样本的真实性。而生成模型能够根据所提供的样本生成类似的新样本，注意这些样本是由计算机学习而来的。

GAN一般由两个网络组成，生成模型网络，判别模型网络。

生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。

举个例子：生成网络 G 好比假币制造团伙，专门制造假币，判别网络 D 好比警察，专门检测使用的货币是真币还是假币，G 的目标是想方设法生成和真币一样的货币，使得 D 判别不出来，D 的目标是想方设法检测出来 G 生成的假币。

传统的判别网络：

生成对抗网络：

下面展示一个cDCGAN的例子（前面帖子中写过的）

生成网络

判别网络

最终结果，使用MNIST作为初始样本，通过学习后生成的数字，可以看到学习的效果还是不错的。

本文非常简单的介绍了四种神经网络的架构，CNN，RNN，DBN，GAN。当然也仅仅是简单的介绍，并没有深层次讲解其内涵。这四种神经网络的架构十分常见，应用也十分广泛。当然关于神经网络的知识，不可能几篇帖子就讲解完，这里知识讲解一些基础知识，帮助大家快速入（zhuang）门（bi）。后面的帖子将对深度自动编码器，Hopfield 网络长短期记忆网络（LSTM）进行讲解。

二、GNN(一) 图神经网络基本知识

图是由点和边构成的，它可以分为两种表示方法分别是： 1. 有向图 2. 无向图

图像的度分为两种：1. 有向图的度 2. 无向图的度

①度可以理解为点之间的连接线 ②入度指向当前节点的连线，出度当前节点连出去的连线

子图表示某张图的子集

对于一个无向图，如果任意的节点i能够通过一些边达到节点j，则称之为连通图

其中对于图中任意两点都可以相互到达，我们称之为强连通图，反之称为弱连通图。

可以理解为所有的连通在一起的图算一个连通分量。如上图左边连通分量是1，右边连通分量是2。

图中的两个节点所能达到的最短路径。

图中的两两节点最短路径最大的值称之为图直径。

在图论和网络分析中，中心性（Centrality）是判断网络中节点重要性/影响力的指标。在社会网络分析中，一项基本的任务就是鉴定一群人中哪些人比其他人更有影响力，从而帮助我们理解他们在网络中扮演的角色。

公式：

重要的节点就是拥有许多连接的节点，你的社会关系越多，你的影响力就越强

思想就是与你连接的人越重要，你也就越重要

公式：

中间成员对路径两端的成员具有“更大的人际关系影响”。

接近中心性高的节点一般扮演的是八婆的角色（gossiper）。他们不一定是名人，但是乐于在不同的人群之间传递消息。

指出去的为hub，被指的为authority

三、神经网络如何外推：从前馈网络到图网络

How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks

ICLR2021最高分论文 https://arxiv.org/abs/2009.11848

52页论文，正文占9页，主要都是附录，不过附录里很多图片（一页就一两张图），排除这些一页一图的，只有40页

我们研究用梯度下降法训练的神经网络如何外推，也就是说，它们在训练分布的支持之外学习什么。以前的工作报告了使用神经网络进行外推时混合的实证结果：虽然前馈神经网络，即多层感知器（MLP）在某些简单任务中外推效果不好，但图形神经网络（GNN）——带有MLP模块的结构化网络——在更复杂的任务中取得了一些成功。为了得到理论解释，我们确定了MLPs和GNNs外推良好的条件。首先，我们量化了ReLU-MLPs从原点沿任意方向快速收敛到线性函数的观测结果，这意味着ReLU-MLPs不能外推大多数非线性函数。但是，当训练分布足够“多样化”时，他们可以证明学习线性目标函数。其次，在分析GNNs的成功和局限性时，这些结果提出了一个假设，我们提供了理论和经验证据：GNNs在将算法任务外推到新数据（例如。，较大的图或边权重）依赖于编码体系结构或特征中特定于任务的非线性。我们的理论分析建立在过度参数化网络与神经切线核的联系上。根据经验，我们的理论适用于不同的培训环境

1简介

人类在许多任务中推断得很好。例如，我们可以对任意大的数应用算术。人们可能想知道，神经网络是否也能做到这一点，并将其推广到任意远离训练数据的示例中（Lake et al.，2017）。奇怪的是，以前的工作报告混合外推结果与神经网络。早期的工作表明，前馈神经网络，又称多层感知器（MLPs），在学习简单多项式函数时不能很好地进行外推（Barnard&Wessels，1992；Haley&Soloway，1992年）。然而，最近的研究表明，图神经网络（GNNs）（Scarselli et al.，2009）是一类具有MLP构建块的结构化网络，在具有挑战性的算法任务中，如预测物理系统的时间演化（Battaglia et al.，2016），可以推广到比训练图大得多的图，学习图形算法（Velickovic et al.，2020），求解数学方程（Lample&Charton，2020）。

为了解释这个难题，我们正式研究了梯度下降（GD）训练的神经网络是如何外推的，即它们在训练分布的支持之外学习什么。我们说，如果一个神经网络在训练分布之外学习了一个任务，它就能很好地进行外推。乍一看，似乎神经网络可以在训练分布之外任意行为，因为它们具有高容量（Zhang et al.，2017），并且是通用逼近器（Cybenko，1989；Funahashi，1989年；Hornik等人，1989年；库尔科娃，1992年）。然而，神经网络受到梯度下降训练的限制（Hardt等人，2016；Soudry等人，2018年）。在我们的分析中，我们通过类比过参数化神经网络的训练动态和通过神经切线核（NTK）的核回归，明确考虑了这种隐式偏差（Jacot等人，2018）。

从前馈网络、最简单的神经网络和更复杂的体系结构（如GNNs）的构建块开始，我们建立了由GD训练的具有ReLU激活的过参数mlp的预测从原点沿任意方向收敛到线性函数。我们证明了两层网络的收敛速度，并从经验上观察到收敛经常发生在训练数据附近（图1），这表明ReLU-MLPs不能很好地外推大多数非线性任务。我们强调，我们的结果并不是基于ReLU网络具有有限多个线性区域的事实（Arora et al.，2018；Hanin&Rolnick，2019年；Hein等人，2019年）。虽然有有限多个线性区域意味着ReLU MLPs最终会变为线性，但MLPs是否会学习到接近训练分布的正确目标函数并没有说明。相比之下，我们的结果是非渐近的，并且量化了MLPs将学习什么样的函数接近于训练分布。其次，我们确定了mlp外推良好的条件：任务是线性的，训练分布的几何结构是充分“多样化”的。据我们所知，我们的结果是这种前馈神经网络的第一个外推结果。

然后，我们将我们对前馈神经网络的见解与GNNs联系起来，以解释GNNs在某些算法任务中外推得好的原因。先前的工作报告了可以通过动态规划（DP）解决的任务的成功外推（Bellman，1966），其计算结构与GNNs一致（Xu等人，2020）。DP更新通常可以分解为非线性和线性步骤。因此，我们假设GD训练的GNN可以在DP任务中很好地外推，如果我们在架构和输入表示中编码适当的非线性（图2）。重要的是，编码非线性可能不需要GNNs插值，因为MLP模块可以很容易地学习训练分布中的许多非线性函数（Cybenko，1989；Hornik等人，1989年；Xu等人，2020），但GNNs正确外推至关重要。我们使用图NTK（Du等人，2019b）证明了简化情况下的这一假设。在经验上，我们验证了三个DP任务的假设：最大度、最短路径和n体问题。我们证明了具有适当结构、输入表示和训练分布的GNNs可以很好地预测具有未知大小、结构、边权值和节点特征的图。我们的理论解释了以往工作的经验成功，并指出了它们的局限性：成功的外推依赖于编码任务特定的非线性，这需要领域知识或广泛的模型搜索。从更广泛的角度来看，我们的见解超越了GNNs，并广泛应用于其他神经网络。

总之，我们研究神经网络如何外推。首先，由GD训练的ReLU-mlp以O（1/t）的速率沿原点方向收敛为线性函数。其次，为了解释为什么GNNs在一些算法任务中可以很好地外推，我们证明了ReLU-MLPs在线性任务中可以很好地外推，从而引出一个假设：当适当的非线性被编码到结构和特征中时，神经网络可以很好地外推。我们用一个简化的例子证明了这个假设，并为更一般的情况提供了经验支持。

1.1相关工作

早期的工作显示了MLP不能很好地外推的示例任务，例如学习简单多项式（Barnard&Wessels，1992；Haley&Soloway，1992年）。相反，我们展示了ReLU MLPs如何外推的一般模式，并确定MLPs外推良好的条件。最近的工作研究了在NTK和平均场两种情况下，梯度下降对MLP产生的隐性偏差（Bietti和Mairal，2019；Chizat&Bach，2018年；Song等人，2018年）。与我们的结果相关，一些工作表明MLP预测收敛于“简单”分段线性函数，例如，具有很少的线性区域（Hanin&Rolnick，2019；Maennel等人，2018年；Savarese等人，2019年；威廉姆斯等人，2019年）。我们的工作不同之处在于，这些工作都没有明确研究外推法，有些只关注一维输入。最近的研究还表明，在NTK区域的高维环境中，MLP在某些标度极限下至多是一个渐近线性预测因子（Ba等人，2020；Ghorbani等人，2019年）。我们研究不同的设置（外推），我们的分析是非渐近性质，不依赖于随机矩阵理论。

先前的工作通过在较大的图上进行测试来探索GNN外推（Battaglia et al.，2018；Santoro等人，2018年；萨克斯顿等人，2019年；Velickovic等人，2020年）。我们是第一个从理论上研究GNN外推法的人，我们完成了外推法的概念，包括看不见的特征和结构。

2准备工作

3前馈神经网络如何外推

前馈网络是最简单的神经网络和更复杂的体系结构（如GNNs）的构建块，因此我们首先研究它们在GD训练时是如何外推的。在本文中，我们假设ReLU激活。第3.3节包含其他激活的初步结果。

3.1 RELU MLP的线性外推行为

通过架构，ReLU网络学习分段线性函数，但是在训练数据的支持之外，这些区域究竟是什么样的呢？图1举例说明了当GD对各种非线性函数进行训练时，ReLU MLP如何进行外推。这些例子表明，在训练支持之外，预测很快就会沿着原点的方向线性化。我们通过线性回归对MLPs的预测进行了系统的验证：决定系数（R2）总是大于0.99（附录C.2）。也就是说，ReLU MLPs几乎立即在训练数据范围之外“线性化”。

我们使用GD通过神经切线核（NTK）训练的神经网络的隐式偏差来形式化这个观察：GD训练的过参数化网络的优化轨迹等价于具有特定神经切线核的核回归的轨迹，在一系列被称为“NTK制度”的假设下（Jacot等人，2018年）。我们在这里提供了一个非正式的定义；更多详情，请参阅Jacot等人（2018）和附录A。

定义2。

（非正式）在NTK区域训练的神经网络是无限宽的，以一定的比例随机初始化，并且由GD以无穷小的步长训练。

先前的工作通过NTK分析过参数化神经网络的优化和分布泛化（Allen-Zhu等人，2019a；b类；Arora等人，2019a；b类；曹顾，2019；杜等人，2019c；一个；李亮，2018；日田和铃木，2021年）。相反，我们分析外推。

定理1将我们从图1中观察到的结果形式化：在训练数据范围之外，沿着原点的任何方向tv，两层ReLU MLP的预测迅速收敛为速率为O（1/t）的线性函数。线性系数β收敛速度中的常数项依赖于训练数据和方向v。证据见附录B.1

定理1

ReLU网络具有有限多个线性区域（Arora等人，2018；汉宁和罗尔尼克，2019），因此他们的预测最终成为线性。相反，定理1是一个更细粒度的分析MLP如何外推，并提供了收敛速度。虽然定理1假设两层网络处于NTK状态，但实验证实，线性外推行为发生在具有不同深度、宽度、学习速率和批量大小的网络上（附录C.1和C.2）。我们的证明技术也可能扩展到更深层次的网络。

图4a提供了一个更积极的结果：MLP在许多不同的超参数上很好地外推了线性目标函数。虽然学习线性函数一开始似乎非常有限，但在第4节中，这一见解将有助于解释GNN在非线性实际任务中的外推特性。在此之前，我们首先从理论上分析了MLPs外推的好时机。

3.2当RELU MLPS可证明外推井

图4a显示，当目标函数为线性时，MLP可以很好地外推。然而，这并不总是正确的。在本节中，我们展示了成功的外推依赖于训练数据的几何结构。直观地说，训练分布必须足够“多样化”，以便进行正确的推断

我们提供了两个条件，将训练数据的几何结构与外推联系起来。引理1指出，过参数化的mlp只需二维例子就可以学习线性目标函数。

实验：训练数据的几何结构影响外推。

定理2中的条件形式化了一种直觉，即训练分布必须是“多样的”，才能成功地进行外推，例如，D包括所有方向。从经验上讲，当满足定理2的条件时（图4b中的“all”），外推误差确实很小。相反，当训练示例仅限于某些方向时，外推误差要大得多（图4b和图3）。

与之前的工作相关，定理2提出了为什么虚假相关性可能会损害外推，补充了因果关系论点（Arjovsky et al.，2019；Peters等人，2016年；Rojas Carulla等人，2018年）。当训练数据具有虚假相关性时，某些特征组合丢失；e、例如，骆驼可能只出现在沙漠中的图像收集。因此，定理2的条件不再成立，模型可能外推错误。定理2也类似于线性模型的可辨识条件，但更为严格。如果训练数据具有全（特征）秩，我们可以唯一地识别一个线性函数。mlp更具表现力，因此识别线性目标函数需要附加约束。

综上所述，我们分析了ReLU-MLPs是如何外推的，并提供了两个启示：（1）MLPs由于其线性外推而不能外推大多数非线性任务（定理1）；当目标函数是线性函数时，如果训练分布是“多样的”（定理2），mlp可以很好地外推。在下一节中，这些结果将帮助我们理解更复杂的网络是如何外推的。

3.3具有其他激活功能的MLPS

在继续讨论GNNs之前，我们通过对其他激活函数tanh的实验来完成MLPs的描述σ(x） =tanh（x），余弦σ(x） =cos（x）（Lapedes&Farber，1987年；McCaughan，1997年；Sopena和Alquezar，1994），和σ(x） =x2（杜和李，2018；Livni等人，2014年）。详情见附录C.4。当激活函数和目标函数相似时，MLPs外推效果较好；e、例如，当学习tanh时，tanh激活可以很好地推断，但不能推断其他功能（图5）。而且，每个激活函数都有不同的局限性。要用tanh激活外推tanh函数，训练数据范围必须足够宽。当学习具有二次激活的二次函数时，只有两层网络可以很好地进行外推，而更多的层可以得到更高阶的多项式。对于高维数据，余弦激活很难优化，因此我们只考虑一维/二维余弦目标函数。

4图形神经网络如何外推

上面，我们看到非线性任务中的外推对于MLP来说是困难的。尽管存在这一局限性，GNNs在一些非线性算法任务中表现出了很好的外推能力，如直观物理（Battaglia et al.，2016；Janner等人，2019），图算法（Battaglia等人，2018；Velickovic等人，2020）和符号数学（Lample&Charton，2020）。为了解决这个差异，我们建立在MLP结果的基础上，研究GD训练的GNNs是如何外推的。

4.1假设：线性算法对齐有助于外推

我们从一个例子开始：训练GNNs来解决最短路径问题。对于这项任务，先前的工作观察到，具有最小聚集的改进GNN架构可以推广到比训练集中的图更大的图（Battaglia et al.，2018；Velickovic等人，2020）：

我们首先提供一个直观的解释（图2a）。最短路径可通过Bellman-Ford（BF）算法（Bellman，1958）求解，并进行以下更新

其中w（v，u）是边（v，u）的权重，d[k][u]是k步内到节点u的最短距离。这两个方程可以很容易地对齐：如果GNNs的MLP模块学习一个线性函数d[k]，那么它将模拟BF算法−1] [v]+w（v，u）。由于mlp可以外推线性任务，这种“对齐”可以解释为什么GNNs可以在这个任务中很好地外推。

为了进行比较，我们可以解释为什么我们不希望GNN使用更常用的和聚合（Eqn。1）在这项任务中推断得很好。对于和聚合，MLP模块需要学习一个非线性函数来模拟BF算法，但定理1表明，它们不会在训练支持之外外推大多数非线性函数。

我们可以将上述直觉推广到其他算法任务。许多GNNs外推良好的任务可以通过动态规划（DP）来解决（Bellman，1966），这是一种具有类似GNNs（Eqn）的递归结构的算法范式。1）（Xu等人，2020年）。

定义3。动态规划（DP）是一个带有更新的递归过程

其中答案[k][s]是迭代k和状态s索引的子问题的解决方案，DP Update是一个任务特定的更新函数，它基于上一次迭代解决子问题。从更广泛的角度出发，我们假设：如果我们将适当的非线性编码到模型结构和输入表示中，使MLP模块只需要学习接近线性的步骤，那么所得到的神经网络就可以很好地外推。

假设1。

我们的假设建立在（Xu等人，2020）的算法对齐框架之上，该框架指出，如果模块“对齐”以便于学习（可能是非线性）函数，则神经网络插值良好。成功的外推更难：模块需要与线性函数对齐。

线性算法对准的应用。

一般来说，线性算法对准不局限于GNN，广泛应用于神经网络。为了满足这种情况，我们可以在结构或输入表示中编码适当的非线性操作（图2）。使用GNNs学习DP算法是在体系结构中编码非线性的一个例子（Battaglia等人，2018；Corso等人，2020年）。另一个例子是对体系结构中的日志和exp变换进行编码，以帮助外推算术任务中的乘法（Trask等人，2018；Madsen&Johansen，2020年）。神经符号程序进一步发展，并对符号操作库进行编码，以帮助推断（Johnson等人，2017年；Mao等人，2019年；易等，2018年）。

对于某些任务，更改输入表示可能更容易（图2b）。有时，我们可以将目标函数f分解为f=g◦ 将h嵌入特征嵌入h和一个简单的目标函数g中，我们的模型可以很好地推断。我们可以通过使用领域知识通过专门的特征或特征转换获得h（Lample&Charton，2020；Webb等人，2020年），或通过X\D中未标记的未标记的未标记的分发数据的表示学习（例如，BERT）（Chen等人，2020年）；Devlin等人，2019年；胡等，2020；Mikolov等人，2013b；Peters等人，2018年）。这为表示如何帮助在不同应用领域进行外推提供了新的视角。例如，在自然语言处理中，预处理表示（Mikolov等人，2013a；Wu&Dredze，2019）和使用领域知识进行特征转换（袁等，2020年；Zhang等人，2019）帮助模型在语言之间进行概括，这是一种特殊的外推。在定量金融中，确定正确的“因素”或特征对于深入学习模型至关重要，因为金融市场可能经常处于外推制度中（Banz，1981；法兰西，1993年；罗斯，1976）。

线性算法对齐解释了文献中成功的外推，并指出外推一般更难：编码适当的非线性通常需要领域专家或模型搜索。其次，我们为我们的假设提供理论和实证支持。

4.2理论和经验支持

我们验证了我们对三个DP任务的假设：最大度、最短路径和n-体问题，并证明了最大度假设。我们强调了图结构在外推中的作用。

理论分析。

我们从一个简单而基本的任务开始：学习一个图的最大度，一个DP的特例。作为定理1的推论，常用的基于和的GNN（Eqn。1）无法很好地推断（证据见附录B.4）。

推论1。

具有和聚集和和和读出的GNNs在最大程度上不能很好地外推。为了实现线性算法对齐，我们可以对读出器中唯一的非线性max函数进行编码。定理3证实了具有最大读数的GNN在这个任务中可以很好地外推。

定理3并不是紧跟定理2，因为GNNs中的MLP模块只接受间接的监视。我们分析图NTK（Du等人，2019b）来证明附录B.5中的定理3。虽然定理3假设相同的节点特征，但我们在经验上观察到相同和不相同特征的相似结果（附录中的图16）。

条件的解释。

定理3中的条件类似于定理2中的条件。这两个定理都需要不同的训练数据，用定理3中的图结构或定理2中的方向来度量。在定理3中，如果所有训练图都具有相同的最大或最小节点度，例如，当训练数据来自以下族之一时，违反了该条件：路径、C-正则图（具有C度的正则图）、圈和阶梯。

实验：有助于推断的架构。

我们用两个DP任务来验证我们的理论分析：最大度和最短路径（详见附录C.5和C.6）。而以前的工作只测试不同大小的图（Battaglia et al.，2018；Velickovic等人，2020），我们还测试了具有不可见结构、边权重和节点特征的图。结果支持了我们的理论。对于最大度，具有最大读数的GNNs优于具有和读数的GNNs（图6a），证实了推论1和定理3。对于最短路径，具有最小读数和最小聚集的GNN优于具有和读数的GNN（图6a）。

实验证实了训练图结构的重要性（图7）。有趣的是，这两个任务支持不同的图结构。对于最大度，如定理3所预测的，当训练在树、完全图、扩张图和一般图上时，GNNs外推效果很好，当训练在4-正则图、圈图或梯形图上时，外推误差更大。对于最短路径，当我们改变训练图的稀疏性时，外推误差遵循U形曲线（附录中的图7b和图18）。直觉上，在稀疏或稠密图上训练的模型可能学习退化解。

实验：有助于推断的表征。

最后，我们展示了一个很好的输入表示帮助外推。我们研究了n体问题（Battaglia等人，2016；Watters等人，2017年）（附录C.7），即预测重力系统中n个物体的时间演化。根据之前的工作，输入是一个完整的图形，其中节点是对象（Battaglia等人，2016）。

5与其他分布外设置的连接

我们讨论几个相关的设置。直观地说，从我们上述结果的观点来看，相关设置中的方法可以通过1）学习超出训练数据范围的有用非线性和2）将相关测试数据映射到训练数据范围来改进外推。

领域适应研究对特定目标领域的泛化（Ben-David等人，2010；Blitzer等人，2008年；Mansour等人，2009年）。典型的策略会调整训练过程：例如，使用来自目标域的未标记样本来对齐目标和源分布（Ganin等人，2016；赵等，2018）。在训练期间使用目标域数据可能会导致有用的非线性，并可能通过匹配目标和源分布来减轻外推，尽管学习映射的正确性取决于标签分布（Zhao等人，2019）。

对大量未标记数据的自监督学习可以学习超出标记训练数据范围的有用非线性（Chen et al.，2020；Devlin等人，2019年；He等人，2020年；Peters等人，2018年）。因此，我们的结果提出了一个解释，为什么像BERT这样的预训练表示可以提高分布外鲁棒性（Hendrycks et al.，2020）。此外，自监督学习可以将语义相似的数据映射到相似的表示，因此映射后的一些域外实例可能会落入训练分布中。

不变模型旨在学习在多个训练分布中尊重特定不变性的特征（Arjovsky et al.，2019；Rojas Carulla等人，2018年；周等人，2021）。如果模型真的学习到了这些不变性，这可能发生在线性情况下，当存在混杂或反因果变量时（Ahuja等人，2021；Rosenfeld等人，2021），这可能从本质上增加了训练数据范围，因为模型可以忽略不变特征的变化。

分布鲁棒性考虑了数据分布的小干扰，并确保模型在这些干扰下表现良好（Goh&Sim，2010；Sagawa等人，2020年；Sinha等人，2018年；Staib&Jegelka，2019年）。相反，我们看的是更多的全局扰动。尽管如此，人们还是希望，有助于外推的修改通常也能提高对局部扰动的鲁棒性。

6结论

本文是一个初步的步骤，正式了解如何神经网络训练梯度下降外推。我们确定了MLPs和GNNs按期望外推的条件。我们还提出了一种解释，说明GNNs在复杂的算法任务中是如何能够很好地进行外推的：在架构和特性中编码适当的非线性可以帮助外推。我们的结果和假设与本文和文献中的实证结果一致

四、RBF神经网络和BP神经网络有什么区别

1.RBF 的泛化能力在多个方面都优于BP 网络, 但是在解决具有相同精度要求的问题时, BP网络的结构要比RBF 网络简单。

2. RBF 网络的逼近精度要明显高于BP 网络,它几乎能实现完全逼近, 而且设计起来极其方便, 网络可以自动增加神经元直到满足精度要求为止。但是在训练样本增多时, RBF 网络的隐层神经元数远远高于前者, 使得RBF 网络的复杂度大增加, 结构过于庞大, 从而运算量也有所增加。

3. RBF神经网络是一种性能优良的前馈型神经网络，RBF网络可以任意精度逼近任意的非线性函数，且具有全局逼近能力，从根本上解决了BP网络的局部最优问题，而且拓扑结构紧凑，结构参数可实现分离学习，收敛速度快。

4. 他们的结构是完全不一样的。BP是通过不断的调整神经元的权值来逼近最小误差的。其方法一般是梯度下降。RBF是一种前馈型的神经网络，也就是说他不是通过不停的调整权值来逼近最小误差的，的激励函数是一般是高斯函数和BP的S型函数不一样，高斯函数是通过对输入与函数中心点的距离来算权重的。

5. bp神经网络学习速率是固定的，因此网络的收敛速度慢，需要较长的训练时间。对于一些复杂问题，BP算法需要的训练时间可能非常长，这主要是由于学习速率太小造成的。而rbf神经网络是种高效的前馈式网络，它具有其他前向网络所不具有的最佳逼近性能和全局最优特性，并且结构简单，训练速度快。

以上就是关于图神经网络和神经网络的区别相关问题的回答。希望能帮到你，如有更多相关问题，您也可以联系我们的客服进行咨询，客服也会为您讲解更多精彩的知识和内容。