神经网络系统设计(神经网络系统设计论文)
大家好!今天让创意岭的小编来大家介绍下关于神经网络系统设计的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端
创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008
本文目录:
一、神经网络(Neural Network)
(1)结构:许多树突(dendrite)用于输入,一个轴突 (axon)用于输出。
(2)特性:兴奋性和传导性。兴奋性是指当信号量超过某个阈值时,细胞体就会被激活,产生电脉冲。传导性是指电脉冲沿着轴突并通过突触传递到其它神经元。
(3)有两种状态的机器:激活时为“是”,不激活时为“否”。神经细胞的状态取决于从其他神经细胞接收到的信号量,以及突触的性质(抑制或加强)。
(1)神经元——不重要
① 神经元是包含权重和偏置项的 函数 :接收数据后,执行一些计算,然后使用激活函数将数据限制在一个范围内(多数情况下)。
② 单个神经元:线性可分的情况下,本质是一条直线, ,这条直线将数据划分为两类。而线性分类器本身就是一个单层神经网络。
③ 神经网络:非线性可分的情况下,神经网络通过多个隐层的方法来实现非线性的函数。
(2)权重/参数/连接(Weight)——最重要
每一个连接上都有一个权重。一个神经网络的训练算法就是让权重的值调整到最佳,以使得整个网络的预测效果最好。
(3)偏置项(Bias Units)——必须
① 如果没有偏置项,所有的函数都会经过原点。
② 正则化偏置会导致欠拟合:若对偏置正则化,会导致激活变得更加简单,偏差就会上升,学习的能力就会下降。
③ 偏置的大小度量了神经元产生激励(激活)的难易程度。
(1)定义:也称为转换函数,是一种将输入 (input) 转成输出 (output) 的函数。
(2)作用:一般直线拟合的精确度要比曲线差很多,引入激活函数能给神经网络 增加一些非线性 的特性。
(3)性质:
① 非线性:导数不是常数,否则就退化成直线。对于一些画一条直线仍然无法分开的问题,非线性可以把直线变弯,就能包罗万象;
② 可微性:当优化方法是基于梯度的时候,处处可导为后向传播算法提供了核心条件;
③ 输出范围:一般限定在[0,1],使得神经元对一些比较大的输入会比较稳定;
④ 非饱和性:饱和就是指,当输入比较大的时候输出几乎没变化,会导致梯度消失;
⑤ 单调性:导数符号不变,输出不会上蹿下跳,让神经网络训练容易收敛。
(1)线性函数 (linear function)—— purelin()
(2)符号函数 (sign function)—— hardlim()
① 如果z值高于阈值,则激活设置为1或yes,神经元将被激活。
② 如果z值低于阈值,则激活设置为0或no,神经元不会被激活。
(3)对率函数 (sigmoid function)—— logsig()
① 优点:光滑S型曲线连续可导,函数阈值有上限。
② 缺点:❶ 函数饱和使梯度消失,两端梯度几乎为0,更新困难,做不深;
❷ 输出不是0中心,将影响梯度下降的运作,收敛异常慢;
❸ 幂运算相对来讲比较耗时
(4)双曲正切函数(hyperbolic tangent function)—— tansig()
① 优点:取值范围0中心化,防止了梯度偏差
② 缺点:梯度消失现象依然存在,但相对于sigmoid函数问题较轻
(5)整流线性单元 ReLU 函数(rectified linear unit)
① 优点:❶ 分段线性函数,它的非线性性很弱,因此网络做得很深;
❷ 由于它的线性、非饱和性, 对于随机梯度下降的收敛有巨大的加速作用;
② 缺点:❶ 当x<0,梯度都变成0,参数无法更新,也导致了数据多样化的丢失;
❷ 输出不是0中心
(6)渗漏型整流线性单元激活函数 Leaky ReLU 函数
① 优点:❶ 是为解决“ReLU死亡”问题的尝试,在计算导数时允许较小的梯度;
❷ 非饱和的公式,不包含指数运算,计算速度快。
② 缺点:❶ 无法避免梯度爆炸问题; (没有体现优于ReLU)
❷ 神经网络不学习 α 值。
(7)指数线性单元 ELU (Exponential Linear Units)
① 优点:❶ 能避免“死亡 ReLU” 问题;
❷ 能得到负值输出,这能帮助网络向正确的方向推动权重和偏置变化;
❸ 在计算梯度时能得到激活,而不是让它们等于 0。
② 缺点:❶ 由于包含指数运算,所以计算时间更长;
❷ 无法避免梯度爆炸问题; (没有体现优于ReLU)
❸ 神经网络不学习 α 值。
(8)Maxout(对 ReLU 和 Leaky ReLU的一般化归纳)
① 优点:❶ 拥有ReLU的所有优点(线性和不饱和)
❷ 没有ReLU的缺点(死亡的ReLU单元)
❸ 可以拟合任意凸函数
② 缺点 :参数数量增加了一倍。难训练,容易过拟合
(9)Swish
① 优点:❶ 在负半轴也有一定的不饱和区,参数的利用率更大
❷ 无上界有下界、平滑、非单调
❸ 在深层模型上的效果优于 ReLU
每个层都包含一定数量的单元(units)。增加层可增加神经网络输出的非线性。
(1)输入层:就是接收原始数据,然后往隐层送
(2)输出层:神经网络的决策输出
(3)隐藏层:神经网络的关键。把前一层的向量变成新的向量,让数据变得线性可分。
(1)结构:仅包含输入层和输出层,直接相连。
(2)作用:仅能表示 线性可分 函数或决策,且一定可以在有限的迭代次数中收敛。
(3)局限:可以建立与门、或门、非门等,但无法建立更为复杂的异或门(XOR),即两个输入相同时输出1,否则输出0。 (“AI winter”)
(1)目的:拟合某个函数 (两层神经网络可以逼近任意连续函数)
(2)结构:包含输入层、隐藏层和输出层 ,由于从输入到输出的过程中不存在与模型自身的反馈连接,因此被称为“前馈”。 (层与层之间全连接)
(3)作用: 非线性 分类、聚类、预测等,通过训练,可以学习到数据中隐含的知识。
(4)局限:计算复杂、计算速度慢、容易陷入局部最优解,通常要将它们与其他网络结合形成新的网络。
(5)前向传播算法(Forward Propagation)
① 方法:从左至右逐级依赖的算法模型,即网络如何根据输入X得到输出Y,最终的输出值和样本值作比较, 计算出误差 。
② 目的:完成了一次正反向传播,就完成了一次神经网络的训练迭代。通过输出层的误差,快速求解对每个ω、b的偏导,利用梯度下降法,使Loss越来越小。
② 局限:为使最终的误差达到最小,要不断修改参数值,但神经网络的每条连接线上都有不同权重参数,修改这些参数变得棘手。
(6)误差反向传播(Back Propagation)
① 原理:梯度下降法求局部极值
② 方法:从后往前,从输出层开始计算 L 对当前层的微分,获得各层的误差信号,此误差信号即作为修正单元权值的依据。计算结束以后,所要的两个参数矩阵的 梯度 就都有了。
③ 局限:如果激活函数是饱和的,带来的缺陷就是系统迭代更新变慢,系统收敛就慢,当然这是可以有办法弥补的,一种方法是使用 交叉熵函数 作为损失函数。
(1)原理:随着网络的层数增加,每一层对于前一层次的抽象表示更深入。在神经网络中,每一层神经元学习到的是前一层神经元值的更抽象的表示。通过抽取更抽象的特征来对事物进行区分,从而获得更好的区分与分类能力。
(2)方法:ReLU函数在训练多层神经网络时,更容易收敛,并且预测性能更好。
(3)优点:① 易于构建,表达能力强,基本单元便可扩展为复杂的非线性函数
② 并行性号,有利于在分布是系统上应用
(4)局限:① 优化算法只能获得局部极值,性能与初始值相关
② 调参理论性缺乏
③ 不可解释,与实际任务关联性模糊
(1)原理:由手工设计卷积核变成自动学习卷积核
(2)卷积(Convolutional layer): 输入与卷积核相乘再累加 (内积、加权叠加)
① 公式:
② 目的:提取输入的不同特征,得到维度很大的 特征图(feature map)
③ 卷积核:需要训练的参数。一般为奇数维,有中心像素点,便于定位卷积核
④ 特点:局部感知、参数变少、权重共享、分层提取
(3)池化(Pooling Layer):用更高层的抽象表达来表示主要特征,又称“降采样”
① 分类: 最大 (出现与否)、平均(保留整体)、随机(避免过拟合)
② 目的:降维,不需要训练参数,得到新的、维度较小的特征
(4)步长(stride):若假设输入大小是n∗n,卷积核的大小是f∗f,步长是s,则最后的feature map的大小为o∗o,其中
(5)填充(zero-padding)
① Full模式:即从卷积核(fileter)和输入刚相交开始做卷积,没有元素的部分做补0操作。
② Valid模式:卷积核和输入完全相交开始做卷积,这种模式不需要补0。
③ Same模式:当卷积核的中心C和输入开始相交时做卷积。没有元素的部分做补0操作。
(7)激活函数:加入非线性特征
(8)全连接层(Fully-connected layer)
如果说卷积层、池化层和激活函数层等是将原始数据映射到隐层特征空间(决定计算速度),全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用(决定参数个数)。
参考:
[1] 神经网络(入门最详细)_ruthy的博客-CSDN博客_神经网络算法入门
[2] 神经网络(容易被忽视的基础知识) - Evan的文章 - 知乎
[3] 人工神经网络——王的机器
[4] 如何简单形象又有趣地讲解神经网络是什么? - 舒小曼的回答 - 知乎
[5] 神经网络15分钟入门!足够通俗易懂了吧 - Mr.括号的文章 - 知乎
[6] 神经网络——最易懂最清晰的一篇文章_illikang的博客-CSDN博客_神经网络
[7] 直觉化深度学习教程——什么是前向传播——CSDN
[8] “反向传播算法”过程及公式推导(超直观好懂的Backpropagation)_aift的专栏-CSDN
[9] 卷积、反卷积、池化、反池化——CSDN
[10] 浙大机器学习课程- bilibili.com
二、Keras快速构建神经网络模型
用Keras搭建神经网络的步骤:
深度学习框架Keras——像搭积木般构建神经网络,主要分为7个部分,每个部分只需要几个keras API函数就能实现,用户即可像搭积木般一层层构建神经网络模型。
1. 创建模型 Create model
2. 添加层级 Add Layer
3. 模型编译 Compile
4. 数据填充 Fit
5. 模型评估 Evaluate
6. 模型预测 Predict
7. 模型保存 Save model
下面章节会对每一部分具体来介绍。。。
Keras 中主要有三类模型:Sequential model, Functional model, Subclass model
在开始创建模型之前,首先需要引入tensorflow和keras模块,然后再创建一个Sequential model
Sequential API定义如下:
layers参数可以为空, 然后通过add method向模型中添加layer,相对应的通过pop method移除模型中layer。
创建Function API模型,可以调用Keras.Model来指定多输入多数出。
Keras.Model定义:
Layers是神经网络基本构建块。一个Layer包含了tensor-in/tensor-out的计算方法和一些状态,并保存在TensorFlow变量中(即layers的权重weights)。
Layers主要分为6个类别,基础层,核心层,卷基层,池化层,循环层,融合层。
对派生类的实现可以用以下方法:
** init (): 定义layer的属性,创建layer的静态变量。
** build(self, input_shape): 创建依赖于输入的变量,可以调用add_weight()。
** call(self, *args, **kwargs): 在确保已调用build()之后,在 call 中调用。
** get_config(self): 返回包含用于初始化此层的配置的字典类型。
创建SimpleDense派生类,在build()函数里添加trainable weights。实现y=input*w +b
结果输出:
创建ComputeSum派生类,在 init 函数里添加 non-trainable weights。实现输入矩阵沿轴0元素相加后,x=x+self.total
结果输出:
核心层是最常用的层,涉及到数据的转换和处理的时候都会用到这些层。
Dense层就是所谓的全连接神经网络层,简称全连接层。全连接层中的每个神经元与其前一层的所有神经元进行全连接。
Dense 实现以下操作: output = activation(dot(input, kernel) + bias) 其中 activation 是按逐个元素计算的激活函数,kernel 是由网络层创建的权值矩阵,以及 bias 是其创建的偏置向量 (只在 use_bias 为 True 时才有用)。
将激活函数应用于输出。输入信号进入神经元后进行的运算处理。
sigmoid、tanh、ReLU、softplus的对比曲线如下图所示:
激活函数可以通过设置单独的激活层Activation实现,也可以在构造层对象时通过传递 activation 参数实现:
Dropout在训练中每次更新时,将输入单元的按比率随机设置为0,这有助于防止过拟合。未设置为0的输入将按1 /(1-rate)放大,以使所有输入的总和不变。
请注意,仅当训练设置为True时才应用Dropout层,以便在推理过程中不会丢弃任何值。 使用model.fit时,训练将自动适当地设置为True。
将输入展平。不影响批量大小。注意:如果输入的形状是(batch,)没有特征轴,则展平会增加通道尺寸,而输出的形状是(batch, 1)。
将输入重新调整为特定的尺寸
将任意表达式封装为Layer对象。在Lambda层,以便在构造模型时可以使用任意TensorFlow函数。 Lambda层最适合简单操作或快速实验。 Lambda层是通过序列化Python字节码来保存的。
使用覆盖值覆盖序列,以跳过时间步。
对于输入张量的每一个时间步(张量的第一个维度),如果所有时间步中输入张量的值与mask_value相等,则将在所有下游层中屏蔽(跳过)该时间步。如果任何下游层不支持覆盖但仍然收到此类输入覆盖信息,会引发异常。
举例说明:
Embedding 是一个将离散变量转为连续向量表示的一个方式。该层只能用作模型中的第一层。
Embedding 有以下3个主要目的: 在 embedding 空间中查找最近邻,这可以很好的用于根据用户的兴趣来进行推荐。 作为监督性学习任务的输入。 用于可视化不同离散变量之间的关系.
举例说明:
输出结果:
由维基百科的介绍我们可以得知,卷积是一种定义在两个函数(𝑓跟𝑔)上的数学操作,旨在产生一个新的函数。那么𝑓和𝑔的卷积就可以写成𝑓∗𝑔,数学定义如下:
对应到不同方面,卷积可以有不同的解释:𝑔 既可以看作我们在深度学习里常说的核(Kernel),也可以对应到信号处理中的滤波器(Filter)。而 𝑓 可以是我们所说的机器学习中的特征(Feature),也可以是信号处理中的信号(Signal)。f和g的卷积 (𝑓∗𝑔)就可以看作是对𝑓的加权求和。
一维时域卷积操作:
二维图像卷积操作:
卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网路能从低级特征中迭代提取更复杂的特征。
一维卷积层(即时域卷积),用以在一维输入信号上进行邻域滤波。
举例说明:
结果输出:
2D 卷积层 (例如对图像的空间卷积)。
举例说明:
结果输出:
3D卷积层(例如体积上的空间卷积)
举例说明:
结果输出:
深度可分离1D卷积。该层执行分别作用在通道上的深度卷积,然后是混合通道的逐点卷积。 如果use_bias为True并提供了一个偏差初始值设定项,则它将偏差向量添加到输出中。 然后,它可选地应用激活函数以产生最终输出。
深度可分离的2D卷积。可分离的卷积包括首先执行深度空间卷积(它分别作用于每个输入通道),然后是点向卷积,它将混合所得的输出通道。 depth_multiplier参数控制在深度步骤中每个输入通道生成多少个输出通道。
直观上,可分离的卷积可以理解为将卷积内核分解为两个较小内核的一种方式,或者是Inception块的一种极端版本。
转置卷积层 (有时被成为反卷积)。对转置卷积的需求一般来自希望使用 与正常卷积相反方向的变换,将具有卷积输出尺寸的东西 转换为具有卷积输入尺寸的东西, 同时保持与所述卷积相容的连通性模式。
池化层是模仿人的视觉系统对数据进行降维,用更高层次的特征表示图像。实施池化的目的:降低信息冗余;提升模型的尺度不变性、旋转不变性。 防止过拟合。
通常有最大池化层,平均池化层。
池化层有三种形态:1D 用于一维数据,2D 一般用于二维图像数据,3D 带时间序列数据的图像数据
循环神经网络(Recurrent Neural Network, 简称 RNN),循环神经网络的提出便是基于记忆模型的想法,期望网络能够记住前面出现的特征,并依据特征推断后面的结果,而且整体的网络结构不断循环,因此得名为循环神经网络。
长短期记忆网络(Long-Short Term Memory, LSTM )论文首次发表于1997年。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。
举例说明:
结果输出:
GRU 门控循环单元- Cho et al. 2014.
在LSTM中引入了三个门函数:输入门、遗忘门和输出门来控制输入值、记忆值和输出值。而在GRU模型中只有两个门:分别是更新门和重置门。与LSTM相比,GRU内部少了一个”门控“,参数比LSTM少,但是却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本,因而很多时候我们也就会选择更加”实用“的GRU。
举例说明:
结果输出:
循环神经网络层基类。
关于指定 RNN 初始状态的说明
您可以通过使用关键字参数 initial_state 调用它们来符号化地指定 RNN 层的初始状态。 initial_state 的值应该是表示 RNN 层初始状态的张量或张量列表。
可以通过调用带有关键字参数 states 的 reset_states 方法来数字化地指定 RNN 层的初始状态。 states 的值应该是一个代表 RNN 层初始状态的 Numpy 数组或者 Numpy 数组列表。
关于给 RNN 传递外部常量的说明
可以使用 RNN. call (以及 RNN.call)的 constants 关键字参数将「外部」常量传递给单元。 这要求 cell.call 方法接受相同的关键字参数 constants。 这些常数可用于调节附加静态输入(不随时间变化)上的单元转换,也可用于注意力机制。
举例说明:
在训练模型之前,我们需要配置学习过程,这是通过compile方法完成的。
他接收三个参数:优化器 opt
三、MATLAB控制系统仿真与实例详解的目录
第1章 控制系统仿真基础 1
1.1 自动控制理论与控制技术概述 1
1.1.1 自动控制理论的发展概况 1
1.1.2 自动控制系统简介 4
1.2 计算机仿真概述 5
1.2.1 系统与模型 6
1.2.2 计算机仿真 7
1.2.3 仿真的作用 8
1.2.4 仿真算法和仿真软件 8
1.2.5 计算机仿真的一般过程 9
第2章 MATLAB程序设计语言基础 11
2.1 MATLAB基础 11
2.1.1 MATLAB的产生与发展 11
2.1.2 MATLAB的主要特点 13
2.2 MATLAB操作平台 14
2.2.1 MATLAB的安装与启动 14
2.2.2 MATLAB的运行环境 15
2.3 MATLAB帮助系统 18
2.3.1 联机帮助系统 19
2.3.2 命令窗口查询帮助 20
2.3.3 联机演示系统 22
2.3.4 常用的命令和技巧 23
2.4 MATLAB的数值计算功能 24
2.4.1 MATLAB数据类型 24
2.4.2 矩阵的生成 26
2.4.3 矩阵的基本数学运算 37
2.4.4 数组运算 46
2.4.5 向量和下标 53
2.4.6 矩阵的相关函数 59
2.4.7 多项式运算 69
2.5 MATLAB在数值分析中的应用 71
2.6 MATLAB的图形可视化 74
2.6.1 二维图形的绘制 74
2.6.2 三维图形的绘制 78
2.6.3 图形的输出 80
2.7 MATLAB的程序设计 80
2.7.1 M文件 80
2.7.2 函数变量及变量作用域 82
2.7.3 子函数与局部函数 83
2.7.4 流程控制语句 84
2.8 符号运算功能 86
第3章 控制系统理论基础 91
3.1 经典控制理论基础 91
3.1.1 开环控制系统与闭环控制系统 91
3.1.2 控制系统分类 97
3.2 经典控制理论的研究内容 100
3.2.1 传递函数模型 101
3.2.2 零极点增益模型 105
3.2.3 控制系统的时域分析 105
3.2.4 控制系统的根轨迹分析 114
3.2.5 控制系统的频域分析 115
3.3 现代控制理论基础 117
3.3.1 状态空间模型 117
3.3.2 能控性和能观测性 118
3.3.3 能控性和能观测性实现 118
3.3.4 极点配置设计 125
3.3.5 最优控制设计 126
3.4 智能控制理论基础 128
3.4.1 智能控制的概念和特点 129
3.4.2 神经网络控制 129
3.4.3 模糊控制 134
第4章 Simulink交互式仿真环境 137
4.1 Simulink简介 137
4.1.1 Simulink概述 137
4.1.2 Simulink的启动与界面 138
4.2 Simulink中常用模块 140
4.2.1 CommonlyUsedBlocks(常用模块库) 140
4.2.2 Continuous(连续系统模块库) 142
4.2.3 Discontinuous(非连续系统模块库) 142
4.2.4 Discrete(离散系统模块库) 143
4.2.5 MathOperations(数学运算模块库) 144
4.2.6 Sinks(接收模块库) 145
4.2.7 Sources(信号源模块库) 146
4.3 Simulink建模 147
4.3.1 Simulink简单模型的建立 147
4.3.2 模块的操作 149
4.3.3 信号线的操作 150
4.3.4 模型注释 151
4.3.5 仿真配置 151
4.3.6 建模实例 155
4.4 子系统及其封装技术 157
4.4.1 Simulink子系统 157
4.4.2 封装模块 158
4.5 模型运行及分析 159
4.5.1 模型特征 159
4.5.2 模型运行 159
4.5.3 模型线性化 161
4.5.4 系统平衡点的求取 163
4.6 S-函数 164
4.6.1 S-函数的工作方式 164
4.6.2 用MATLAB语言编写S-函数 166
第5章 控制系统建模 169
5.1 系统的数学模型描述 169
5.1.1 连续系统 169
5.1.2 离散系统 171
5.2 MATLAB中控制系统模型的建立 172
5.2.1 传递函数模型 172
5.2.2 零极点增益模型 176
5.2.3 状态空间模型 179
5.3 系统不同模型之间的转换 181
5.4 系统模型的连接 192
5.5 连续系统与离散系统的相互转化 209
第6章 线性控制系统的分析与仿真 214
6.1 线性系统的时域分析 214
6.2 线性系统的根轨迹分析 231
6.3 线性系统的频域分析 237
6.3.1 频域响应分析 237
6.3.2 频率域稳定性分析 246
6.4 线性系统的状态空间分析 250
6.4.1 能控性分析 250
6.4.2 能观性分析 254
6.4.3 极点配置及其MATLAB实现 257
第7章 PID控制系统设计及仿真 262
7.1 PID控制系统设计原理 262
7.2 连续系统的模拟PID仿真 263
7.3 数字PID控制 264
7.3.1 位置式PID控制算法 264
7.3.2 连续系统的数字PID控制仿真 265
7.3.3 离散系统的数字PID控制仿真 267
7.3.4 增量式PID控制算法及仿真 272
7.3.5 积分分离PID控制算法及仿真 274
7.4 智能PID控制 278
7.4.1 神经元PID控制 278
7.4.2 模糊自适应PID控制 283
7.4.3 专家PID控制 292
第8章 最优控制系统设计 295
8.1 最优控制的基本概念 295
8.1.1 最优控制问题 295
8.1.2 最优控制的性能指标及应用类型 297
8.1.3 最优控制中的变分法 297
8.1.4 用变分法求连续系统最优控制 302
8.2 连续系统线性二次型最优控制 304
8.2.1 连续系统线性二次型最优控制原理 305
8.2.2 连续系统二次型最优控制的MATLAB函数 305
8.3 离散系统线性二次型最优控制 309
8.3.1 离散系统线性二次型最优控制原理 309
8.3.2 离散系统二次型最优控制的MATLAB函数 309
8.4 线性二次型高斯最优控制 311
8.4.1 LQG最优控制原理 311
8.4.2 LQG最优控制的MATLAB实现 312
8.5 最优控制系统设计实例 318
第9章 鲁棒控制系统设计 322
9.1 鲁棒控制系统简介 322
9.1.1 奇异值、H2和范数 323
9.1.2 标准鲁棒控制问题 323
9.1.3 结构与非结构不确定性 324
9.1.4 使用控制方法 324
9.2 鲁棒控制工具箱 326
9.3 鲁棒控制系统设计方法 329
第10章 神经网络系统设计及其MATLAB实现 331
10.1 人工神经网络概述 331
10.2 神经网络工具箱函数 332
10.3 神经网络模型及其MATLAB实现 334
10.3.1 感知器 334
10.3.2 线性神经网络 338
10.3.3 BP网络 344
10.3.4 径向基函数(RBF)神经网络 350
10.3.5 Hopfield网络 353
10.3.6 自组织特征映射神经网络 357
第11章 模糊控制系统设计 361
11.1 模糊控制系统 361
11.1.1 模糊控制系统的基本结构及其原理 361
11.1.2 PD、PI、PID型的模糊控制器 363
11.1.3 模糊控制器的设计方法 364
11.2 模糊控制工具箱简介 366
11.3 模糊推理系统的建立 367
第12章 系统辨识 374
12.1 系统辨识基础 374
12.1.1 辨识的内容和步骤 375
12.1.2 系统辨识的分类 376
12.2 系统辨识常用输入信号 376
12.3 最小二乘辨识及其MATLAB实现 379
12.3.1 最小二乘算法简介 380
12.3.2 最小二乘一次完成算法及其MATLAB实现 381
12.3.3 最小二乘递推算法 383
12.3.4 增广最小二乘算法 385
12.4 极大似然辨识及其MATLAB实现 389
12.4.1 极大似然辨识简介 389
12.4.2 动态模型参数极大似然辨识及其MATLAB实现 389
12.5 神经网络模型辨识及其MATLAB实现 392
……
四、图神经网络是怎么炼成的:GNN基本原理简介
此文算是对Google Research这篇 A Gentle Introduction to Graph Neural Networks 神作的阅读笔记.
十多年来,研究人员开发了一种称之为图神经网络(Graph Neural Networks,GNNs)的技术,旨在将如今在深度学习的诸多任务中摧枯拉朽的神经网络,应用到图结构之上,从而让神经网络捕捉到更错综复杂的交叉特征,以期待在一些任务上取得更佳的效果。鉴于操作图数据结构的复杂性,尽管已经发展了十几年,它在实际应用中却刚刚起步,即时是google也才开始研究将其被应用到药品研发、物理模拟、假新闻检测、交通预测和推荐系统等领域。
尽管GNN是一个新兴的研究领域,但图结构的数据其实在我们身边无处不在。那么什么是图呢?
这个理科生应该都清楚,图有点(Vertex)和边(Edge)两部分组成,一个图就代表了各个实体节点(node)之间的关系(edge):
每个节点或者边都可以包含它的一些属性信息,比如如果一个节点表示一个人,那么就可以包含这个人的姓名、性别、身高、体重之类的..我们研究需要的信息。
而这些信息,都可以用通用的向量的形式存入其中:
还有别忘了一点,边是可以有方向的,按此我们还能分为有向图或是无向图。边的方向代表了信息的传递方向,例如a是b的微信好友,那b也是a的微信好友,好友关系自然是没方向的,而比如a是b的爹,那显然b就不是a的爹,此时叫爹的关系就是有有方向的。
图结构的构建是非常灵活的,可以根据个人的设计构建出各种不一样的图。而作为开发者显然要结合实际解决的问题来构建合适的图。
正如前面所提到的,图无处不在。你可能已经熟悉例如知识图谱、社交网络之类的图数据。当时显然,图是一种极其强大的通用数据表示,传统神经网络中用到的欧式空间的数据,同样可以用图来表示,例如可以将图像和文本建模为图结构数据。
比如,我们可以将一张图片的每个像素作为图的节点,再将相邻的像素用边连接起来,就构造了一个该图像的图。
如上图展示了一个5*5的图片的邻接矩阵表示和图表示。
我们将每个单词作为节点,并将每个节点连接到下一个节点,就得到了一个文本的图:
当然,在实践中我们并不会这样来编码文本和图像,因为所有的图和文本都是非常规则的结构,表示成图就多此一举了。
我们再来看一些例子,这些数据的结构更加复杂,除了图之外很难用其他方式来表达。
分子是构成物质的基石,我们可以用节点来表示它的原子和电子,用边来表示共价键,这样便将一个分子表示成了一个图:
不同的图可以表示出不同的分子结构:
都说社会是一个大熔炉,身处其中的人和事物之间会发生极其复杂的关系。这种关系的表示用普通的表格数据是很难表示的,而图却能很好的展现。
下图是将莎士比亚歌剧《奥赛罗》中的任务关系表示成图:
怎么样,如果没看过歌剧能推测出那些是主角吗?
下面是将一个空手道竞标赛的对战关系构建为图:
类似的可以表示为图的数据还有很多很多,比如论文的引用之类统统都可以表示为图,下面是现实世界中不同规模的数据图表示的统计数据:
可见,各种各样规模的数据都可以轻松的用图来表示。
在上面我们列举了这么多的图,那么我们该对这些图数据执行什么任务呢?
图上的预测任务一般分为三类:
下面我们通过具体的示例来说明GNN怎么来解决上述的三个级别的预测问题。
在图级别的任务中,我们的目标是预测整个图的属性。例如我们通过分子图,来预测该分子的气味或是者它是否是与某些疾病有关的受体。
它的输入是完整的图:
输出是图的分类:
节点级任务一般就是预测每个节点的类型。
一个经典的例子就是Zach的空手道俱乐部。该数据集市一个单一的社交网络图,犹豫政治分歧,讲师Hi先生和管理员John之间不和导致空手道俱乐部分裂,其中的学员一部分效忠于Hi先生,一部分效忠于John。每个节点代表空手道联系着,边代表空手道之外这些成员的互动,预测问题就是判断这些节点是效忠于谁的。
边级任务其实就是预测每个边的属性.
在目标检测的语义分割任务中,我们也许不止要识别每个目标的类型,还需要预测各个目标之间的关系.我们可以将其描述为边级别的分类任务:给定表示图像中的对象的节点,我们希望预测哪些节点共享一条边,或者该边的值是多少。如果我们希望发现实体之间的连接,我们可以考虑图是完全连通的,并根据它们的预测值修剪边来得到一个稀疏图。
用图表示就是这样的过程:
那么我们要如何使用神经网络来处理上述各种类型的任务呢?
首先要考虑的是如何将图结构数据适配到神经网络.
回想一下啊,传统的神经网络输入的往往是矩阵形式的数据,那么要如何把图作为输入呢?
图表示有四种类型的信息:节点(nodes),边(edges),全局上下文(global-context),联通性(connectivity).对于前三种信息,有一个非常简单的方案,比如将节点排序,然后每个节点表示为一个向量,所有节点就得到了一个节点的矩阵,同理,边和上下文也可以这么搞.
但是要标识连通性就没有这么简单了,也许你会想到用临街矩阵来表示,但是这样表示会有明显的缺陷,因为节点数的规模往往是巨大的,对于一个数百万节点的图,那将耗费大量的空间,而且得到的矩阵往往也十分的稀疏,可以说空间利用率会很低.
当然,你也许会想,可以用稀疏矩阵来存储,这样就只需要存储连通的情况,空间利用率将大大提升,但是我们还要考虑到一点,就是稀疏矩阵的高性能计算一直是个艰难的,尤其是在用到GPU的情况.
并且,使用邻接矩阵还有一个问题就是各种不同的邻接矩阵可以标识相同的连通性,而这些矩阵并不能保证在神经网络中取的相同的效果.比如,同样的连通性,通过调换列的顺序,就能得到不同的邻接矩阵:
现在,我们成功的将图结构成功表示成了置换不变的矩阵格式,终于可以使用图形神经网络(GNN)来做图形预测任务了。
GNN是对保持图对称性(置换不变性)的图的所有属性(节点、边、全局上下文)的可优化变换。
我们将使用Gilmer等人提出的“消息传递神经网络”框架构建GNN,并使用Battaglia等人介绍的图网络网络架构示意图。GNNS采用“图输入,图输出”架构,这意味着这些模型类型接受图作为输入,其中包含节点,边和全局上下文的信息,并逐步地转换这些图嵌入,而不会更改输入的连接图结构。
我们使用最开始提到的那个图来构建一个最简单的GNN,输入的图是相应节点,边,全局信息的向量,我们针对每个向量使用一个MLP层来作变换,于是得到一个新的图.
针对上述构建的最简单的GNN,我们如何在上面描述的任何任务中进行预测呢?这里我们仅仅考虑二进制分类的情况,但这个框架可以很容易地扩展到多类或回归的情况。
如果是对节点分类,我们只要在最后一层接一个线性类器就可以了:
但是上面的预测过程有点过于简单了,完全没有用到图的结构信息,我们在此基础上增加一个pooling操作,以增加它的边缘信息:
具体操作是把待预测节点的邻居节点以及全局的信息进行聚合再做预测,即将这些embedding向量加到一起得到一个新的向量,再输入到最后的线性分类器.
同理,如果我们只有节点相应边的信息的话,也可以用类似的方式pooling,然后得到节点的向量表示再输入分类器:
反之,如果我们只有节点的信息,那么也可以用边所连接的两个节点来pooling出边的向量,然后将器输入到分类器预测边的类型:
显然,不管是哪种任务,整个GNN的推理过程都是一样的,可以表示为这样一个端到端的过程:
不过,显而易见的,这个简单的GNN在分类前只是对每个向量进行了一个变换,而没有用到图结构的任何信息,虽然在最后做预测的时候做了一些pooling的聚合,但也始终没有用到adjacency的信息,因此这个GNN的作用相当有限,但是它为我们提供了一个图结构层变换和堆叠的基本思路.
针对上面最简单GNN的不足,我们可以在其中根据连通性增加更加复杂的变换从而引入整个图结构的信息,我们将这个过程称之为信息传递.
信息传递包含三个步骤:
这个过程有点类似于卷积操作,每个节点汇聚了其邻居的节点,经过多个层的变换,它将涵盖全图的信息.
于是我们可以将这个节点信息传递应用到上述的图变换过程中:
然后,我们发现它并没用用上边的信息,于是可以把边信息也加上,变成这样:
既然把边的信息加上了,那怎么可以漏掉全局信息呢,于是完整的信息传递就可以表示成这样:
以上,我们梳理了最简单的GNNs是怎么完成的,你应该已经对GNN有了一个基本的了解,就像学会了传统神经网络中最简单的全连接网络类似,关于GNN还有更多不同种类的更复杂的图需要取了解和学习,但你只要掌握了以上的思想,学习起来也是十分容易的.
以上就是关于神经网络系统设计相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读: