正文

用于分类的神经网络模型（用于分类的神经网络算法）

发布时间：2023-04-19 00:17:38 稿源：创意岭阅读： 67

大家好！今天让创意岭的小编来大家介绍下关于用于分类的神经网络模型的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com。

创意岭作为行业内优秀的企业，服务客户遍布全球各地，如需了解SEO相关业务请拨打电话175-8598-2043，或添加微信：1454722008

本文目录:

1、神经网络Hopfield模型
2、神经网络BP模型
3、几种常见的循环神经网络结构RNN、LSTM、GRU
4、神经网络的分类

用于分类的神经网络模型（用于分类的神经网络算法）

一、神经网络Hopfield模型

一、Hopfield模型概述

1982年，美国加州工学院J.Hopfield发表一篇对人工神经网络研究颇有影响的论文。他提出了一种具有相互连接的反馈型人工神经网络模型——Hopfield人工神经网络。

Hopfield人工神经网络是一种反馈网络(Recurrent Network)，又称自联想记忆网络。其目的是为了设计一个网络，存储一组平衡点，使得当给网络一组初始值时，网络通过自行运行而最终收敛到所存储的某个平衡点上。

Hopfield网络是单层对称全反馈网络，根据其激活函数的选取不同，可分为离散型Hopfield网络(Discrete Hopfield Neural Network，简称 DHNN)和连续型 Hopfield 网络(Continue Hopfield Neural Network，简称CHNN)。离散型Hopfield网络的激活函数为二值型阶跃函数，主要用于联想记忆、模式分类、模式识别。这个软件为离散型Hopfield网络的设计、应用。

二、Hopfield模型原理

离散型Hopfield网络的设计目的是使任意输入矢量经过网络循环最终收敛到网络所记忆的某个样本上。

正交化的权值设计

这一方法的基本思想和出发点是为了满足下面4个要求：

1)保证系统在异步工作时的稳定性，即它的权值是对称的，满足

w_ij=w_ji，i，j=1，2…，N；

2)保证所有要求记忆的稳定平衡点都能收敛到自己；

3)使伪稳定点的数目尽可能地少；

4)使稳定点的吸引力尽可能地大。

正交化权值的计算公式推导如下：

1)已知有P个需要存储的稳定平衡点x₁，x₂…，x_P-1，x_P，x_p∈R^N，计算N×(P-1)阶矩阵A∈R^N^×^(P-1)：

A=(x₁-x_Px₂-x_P…x_P-1-x_P)^T。

2)对A做奇异值分解

A=USV^T，

U=(u₁u₂…u_N)，

V=(υ₁υ₂…υ_P-1)，

中国矿产资源评价新技术与评价新模型

Σ=diαg(λ₁，λ₂，…，λ_K)，O为零矩阵。

K维空间为N维空间的子空间，它由K个独立的基组成：

K=rαnk(A)，

设{u₁u₂…u_K}为A的正交基，而{u_K+1u_K+2…u_N}为N维空间的补充正交基。下面利用U矩阵来设计权值。

3)构造

中国矿产资源评价新技术与评价新模型

总的连接权矩阵为：

W_t=W_p-T·W_m，

其中，T为大于-1的参数，缺省值为10。

W_p和W_m均满足对称条件，即

(w_p)_ij=(w_p)_ji，

(w_m)_ij=(w_m)_ji，

因而W_t中分量也满足对称条件。这就保证了系统在异步时能够收敛并且不会出现极限环。

4)网络的偏差构造为

b_t=x_P-W_t·x_P。

下面推导记忆样本能够收敛到自己的有效性。

(1)对于输入样本中的任意目标矢量x_p，p=1，2，…，P，因为(x_p-x_P)是A中的一个矢量，它属于A的秩所定义的K个基空间的矢量，所以必存在系数α₁，α₂，…，α_K，使

x_p-x_P=α₁u₁+α₂u₂+…+α_Ku_K，

即

x_p=α₁u₁+α₂u₂+…+α_Ku_K+x_P，

对于U中任意一个u_i，有

中国矿产资源评价新技术与评价新模型

由正交性质可知，上式中

当i=j，

；

当i≠j，

；

对于输入模式x_i，其网络输出为

y_i=sgn(W_tx_i+b_t)

=sgn(W_px_i-T·W_mx_i+x_P-W_px_P+T·W_mx_P)

=sgn[W_p(x_i-x_P)-T·W_m(x_i-x_P)+x_P]

=sgn[(W_p-T·W_m)(x_i-x_P)+x_P]

=sgn[W_t(x_i-x_P)+x_P]

=sgn[(x_i-x_P)+x_P]

=x_i。

(2)对于输入模式x_P，其网络输出为

y_P=sgn(W_tx_P+b_t)

=sgn(W_tx_P+x_P-W_tx_P)

=sgn(x_P)

=x_P。

(3)如果输入一个不是记忆样本的x，网络输出为

y=sgn(W_tx+b_t)

=sgn[(W_p-T·W_m)(x-x_P)+x_P]

=sgn[W_t(x-x_P)+x_P]。

因为x不是已学习过的记忆样本，x-x_P不是A中的矢量，则必然有

W_t(x_-x_P)≠x-x_P，

并且再设计过程中可以通过调节W_t=W_p-T·W_m中的参数T的大小来控制(x-x_P)与x_P的符号，以保证输入矢量x与记忆样本之间存在足够的大小余额，从而使sgn(W_tx+b_t)≠x，使x不能收敛到自身。

用输入模式给出一组目标平衡点，函数HopfieldDesign( )可以设计出 Hopfield 网络的权值和偏差，保证网络对给定的目标矢量能收敛到稳定的平衡点。

设计好网络后，可以应用函数HopfieldSimu( )，对输入矢量进行分类，这些输入矢量将趋近目标平衡点，最终找到他们的目标矢量，作为对输入矢量进行分类。

三、总体算法

1.Hopfield网络权值W[N][N]、偏差b[N]设计总体算法

应用正交化权值设计方法，设计Hopfield网络；

根据给定的目标矢量设计产生权值W[N][N]，偏差b[N]；

使Hopfield网络的稳定输出矢量与给定的目标矢量一致。

1)输入P个输入模式X=(x[1]，x[2]，…，x[P-1]，x[P])

输入参数，包括T、h；

2)由X[N][P]构造A[N][P-1]=(x[1]-x[P]，x[2]-x[P]，…，x[P-1]-x[P])；

3)对A[N][P-1]作奇异值分解A=USV^T；

4)求A[N][P-1]的秩rank；

5)由U=(u[1]，u[2]，…，u[K])构造W_p[N][N]；

6)由U=(u[K+1]，…，u[N])构造W_m[N][N]；

7)构造W_t[N][N]=W_p[N][N]-T*W_m[N][N]；

8)构造b_t[N]=X[N][P]-W_t[N][N]*X[N][P]；

9)构造W[N][N](9～13)，

构造W1[N][N]=h*W_t[N][N]；

10)求W1[N][N]的特征值矩阵Val[N][N](对角线元素为特征值，其余为0)，特征向量矩阵Vec[N][N]；

11)求Eval[N][N]=diag{exp[diag(Val)]}[N][N]；

12)求Vec[N][N]的逆Invec[N][N]；

13)构造W[N][N]=Vec[N][N]*Eval[N][N]*Invec[N][N]；

14)构造b[N]，(14～15)，

C1=exp(h)-1，

C2=-(exp(-T*h)-1)/T；

15)构造

中国矿产资源评价新技术与评价新模型

Uˊ——U的转置；

16)输出W[N][N]，b[N]；

17)结束。

2.Hopfield网络预测应用总体算法

Hopfield网络由一层N个斜坡函数神经元组成。

应用正交化权值设计方法，设计Hopfield网络。

根据给定的目标矢量设计产生权值W[N][N]，偏差b[N]。

初始输出为X[N][P]，

计算X[N][P]=f(W[N][N]*X[N][P]+b[N])，

进行T次迭代，

返回最终输出X[N][P]，可以看作初始输出的分类。

3.斜坡函数

中国矿产资源评价新技术与评价新模型

输出范围[-1，1]。

四、数据流图

Hopfield网数据流图见附图3。

五、调用函数说明

1.一般实矩阵奇异值分解

(1)功能

用豪斯荷尔德(Householder)变换及变形QR算法对一般实矩阵进行奇异值分解。

(2)方法说明

设A为m×n的实矩阵，则存在一个m×m的列正交矩阵U和n×n的列正交矩阵V，使

中国矿产资源评价新技术与评价新模型

成立。其中

Σ=diag(σ₀，σ₁，…σ_p)p⩽min(m，n)-1，

且σ₀≥σ₁≥…≥σ_p＞0，

上式称为实矩阵A的奇异值分解式，σ_i(i=0，1，…，p)称为A的奇异值。

奇异值分解分两大步：

第一步：用豪斯荷尔德变换将A约化为双对角线矩阵。即

中国矿产资源评价新技术与评价新模型

其中

中国矿产资源评价新技术与评价新模型

中的每一个变换U_j(j=0，1，…，k-1)将A中的第j列主对角线以下的元素变为0，而

中的每一个变换V_j(j=0，1，…，l-1)将A中的第j行主对角线紧邻的右次对角线元素右边的元素变为0。]]

j具有如下形式：

中国矿产资源评价新技术与评价新模型

其中ρ为一个比例因子，以避免计算过程中的溢出现象与误差的累积，V_j是一个列向量。即

V_j=(υ₀，υ₁，…，υ_n-1)，

则

中国矿产资源评价新技术与评价新模型

其中

中国矿产资源评价新技术与评价新模型

第二步：用变形的QR算法进行迭代，计算所有的奇异值。即：用一系列的平面旋转变换对双对角线矩阵B逐步变换成对角矩阵。

在每一次的迭代中，用变换

中国矿产资源评价新技术与评价新模型

其中变换

将B中第j列主对角线下的一个非0元素变为0，同时在第j行的次对角线元素的右边出现一个非0元素；而变换V_j，j+1将第j-1行的次对角线元素右边的一个0元素变为0，同时在第j列的主对角线元素的下方出现一个非0元素。由此可知，经过一次迭代(j=0，1，…，p-1)后，B′仍为双对角线矩阵。但随着迭代的进行。最后收敛为对角矩阵，其对角线上的元素为奇异值。

在每次迭代时，经过初始化变换V₀₁后，将在第0列的主对角线下方出现一个非0元素。在变换V₀₁中，选择位移植u的计算公式如下：

中国矿产资源评价新技术与评价新模型

最后还需要对奇异值按非递增次序进行排列。

在上述变换过程中，若对于某个次对角线元素e_j满足

｜e_j｜⩽ε(｜s_j+1｜+｜s_j｜)

则可以认为e_j为0。

若对角线元素s_j满足

｜s_j｜⩽ε(｜e_j-1｜+｜e_j｜)

则可以认为s_j为0(即为0奇异值)。其中ε为给定的精度要求。

(3)调用说明

int bmuav(double^*a，int m，int n，double^*u，double^*v，double eps，int ka)，

本函数返回一个整型标志值，若返回的标志值小于0，则表示出现了迭代60次还未求得某个奇异值的情况。此时，矩阵的分解式为UAV^T；若返回的标志值大于0，则表示正常返回。

形参说明：

a——指向双精度实型数组的指针，体积为m×n。存放m×n的实矩阵A；返回时，其对角线给出奇异值(以非递增次序排列)，其余元素为0；

m——整型变量，实矩阵A的行数；

n——整型变量，实矩阵A的列数；

u——指向双精度实型数组的指针，体积为m×m。返回时存放左奇异向量U；

υ——指向双精度实型数组的指针，体积为n×n。返回时存放右奇异向量V^T；

esp——双精度实型变量，给定的精度要求；

ka——整型变量，其值为max(m，n)+1。

2.求实对称矩阵特征值和特征向量的雅可比过关法

(1)功能

用雅可比(Jacobi)方法求实对称矩阵的全部特征值与相应的特征向量。

(2)方法说明

雅可比方法的基本思想如下。

设n阶矩阵A为对称矩阵。在n阶对称矩阵A的非对角线元素中选取一个绝对值最大的元素，设为a_pq。利用平面旋转变换矩阵R₀(p，q，θ)对A进行正交相似变换：

A₁=R₀(p，q，θ)^TA，

其中R₀(p，q，θ)的元素为

r_pp=cosθ，r_qq=cosθ，r_pq=sinθ，

r_qp=sinθ，r_ij=0，i，j≠p，q。

如果按下式确定角度θ，

中国矿产资源评价新技术与评价新模型

则对称矩阵A经上述变换后，其非对角线元素的平方和将减少

，对角线元素的平方和增加

，而矩阵中所有元素的平方和保持不变。由此可知，对称矩阵A每次经过一次变换，其非对角线元素的平方和“向零接近一步”。因此，只要反复进行上述变换，就可以逐步将矩阵A变为对角矩阵。对角矩阵中对角线上的元素λ₀，λ₁，…，λ_n-1即为特征值，而每一步中的平面旋转矩阵的乘积的第i列(i=0，1，…，n-1)即为与λ_i相应的特征向量。

综上所述，用雅可比方法求n阶对称矩阵A的特征值及相应特征向量的步骤如下：

1)令S=I_n(I_n为单位矩阵)；

2)在A中选取非对角线元素中绝对值最大者，设为a_pq；

3)若｜a_pq｜＜ε，则迭代过程结束。此时对角线元素a_ii(i=0，1，…，n-1)即为特征值λ_i，矩阵S的第i列为与λ_i相应的特征向量。否则，继续下一步；

4)计算平面旋转矩阵的元素及其变换后的矩阵A₁的元素。其计算公式如下

中国矿产资源评价新技术与评价新模型

5)S=S·R(p，q，θ)，转(2)。

在选取非对角线上的绝对值最大的元素时用如下方法：

首先计算实对称矩阵A的非对角线元素的平方和的平方根

中国矿产资源评价新技术与评价新模型

然后设置关口υ₁=υ₀/n，在非对角线元素中按行扫描选取第一个绝对值大于或等于υ₁的元素α_pq进行平面旋转变换，直到所有非对角线元素的绝对值均小于υ₁为止。再设关口υ₂=υ₁/n，重复这个过程。以此类推，这个过程一直作用到对于某个υ_k＜ε为止。

(3)调用说明

void cjcbj(double^*a，int n，double^*v，double eps)。

形参说明：

a——指向双精度实型数组的指针，体积为n×n，存放n阶实对称矩阵A；返回时，其对角线存放n个特征值；

n——整型变量，实矩阵A的阶数；

υ——指向双精度实型数组的指针，体积为n×n，返回特征向量，其中第i列为与λ_i(即返回的α_ii，i=0，1，……，n-1)对应的特征向量；

esp——双精度实型变量。给定的精度要求。

3.矩阵求逆

(1)功能

用全选主元高斯-约当(Gauss-Jordan)消去法求n阶实矩阵A的逆矩阵。

(2)方法说明

高斯-约当法(全选主元)求逆的步骤如下：

首先，对于k从0到n-1做如下几步：

1)从第k行、第k列开始的右下角子阵中选取绝对值最大的元素，并记住此元素所在的行号和列号，再通过行交换和列交换将它交换到主元素位置上，这一步称为全选主元；

；

，i，j=0，1，…，n-1(i，j≠k)；

4)α_ij-

，i，j=0，1，…，n-1(i，j≠k)；

5)-

，i，j=0，1，…，n-1(i≠k)；

最后，根据在全选主元过程中所记录的行、列交换的信息进行恢复，恢复原则如下：在全选主元过程中，先交换的行、列后进行恢复；原来的行(列)交换用列(行)交换来恢复。

图8-4 东昆仑—柴北缘地区基于HOPFIELD模型的铜矿分类结果图

(3)调用说明

int brinv(double^*a，int n)。

本函数返回一个整型标志位。若返回的标志位为0，则表示矩阵A奇异，还输出信息“err^**not inv”；若返回的标志位不为0，则表示正常返回。

形参说明：

a——指向双精度实型数组的指针，体积为n×n。存放原矩阵A；返回时，存放其逆矩阵A^-1；

n——整型变量，矩阵的阶数。

六、实例

实例：柴北缘—东昆仑地区铜矿分类预测。

选取8种因素，分别是重砂异常存在标志、水化异常存在标志、化探异常峰值、地质图熵值、Ms存在标志、Gs存在标志、Shdadlie到区的距离、构造线线密度。

构置原始变量，并根据原始数据构造预测模型。

HOPFIELD模型参数设置：训练模式维数8，预测样本个数774，参数个数8，迭代次数330。

结果分44类(图8-4，表8-5)。

表8-5 原始数据表及分类结果（部分）

续表

二、神经网络BP模型

一、BP模型概述

误差逆传播(Error Back-Propagation)神经网络模型简称为BP(Back-Propagation)网络模型。

Pall Werbas博士于1974年在他的博士论文中提出了误差逆传播学习算法。完整提出并被广泛接受误差逆传播学习算法的是以Rumelhart和McCelland为首的科学家小组。他们在1986年出版“Parallel Distributed Processing，Explorations in the Microstructure of Cognition”(《并行分布信息处理》)一书中，对误差逆传播学习算法进行了详尽的分析与介绍，并对这一算法的潜在能力进行了深入探讨。

BP网络是一种具有3层或3层以上的阶层型神经网络。上、下层之间各神经元实现全连接，即下层的每一个神经元与上层的每一个神经元都实现权连接，而每一层各神经元之间无连接。网络按有教师示教的方式进行学习，当一对学习模式提供给网络后，神经元的激活值从输入层经各隐含层向输出层传播，在输出层的各神经元获得网络的输入响应。在这之后，按减小期望输出与实际输出的误差的方向，从输入层经各隐含层逐层修正各连接权，最后回到输入层，故得名“误差逆传播学习算法”。随着这种误差逆传播修正的不断进行，网络对输入模式响应的正确率也不断提高。

BP网络主要应用于以下几个方面：

1)函数逼近：用输入模式与相应的期望输出模式学习一个网络逼近一个函数；

2)模式识别：用一个特定的期望输出模式将它与输入模式联系起来；

3)分类：把输入模式以所定义的合适方式进行分类；

4)数据压缩：减少输出矢量的维数以便于传输或存储。

在人工神经网络的实际应用中，80%～90%的人工神经网络模型采用BP网络或它的变化形式，它也是前向网络的核心部分，体现了人工神经网络最精华的部分。

二、BP模型原理

下面以三层BP网络为例，说明学习和应用的原理。

1.数据定义

P对学习模式(x_p，d_p)，p=1，2，…，P；

输入模式矩阵X[N][P]=(x₁，x₂，…，x_P)；

目标模式矩阵d[M][P]=(d₁，d₂，…，d_P)。

三层BP网络结构

输入层神经元节点数S0=N，i=1，2，…，S0；

隐含层神经元节点数S1，j=1，2，…，S1；

神经元激活函数f1[S1]；

权值矩阵W1[S1][S0]；

偏差向量b1[S1]。

输出层神经元节点数S2=M，k=1，2，…，S2；

神经元激活函数f2[S2]；

权值矩阵W2[S2][S1]；

偏差向量b2[S2]。

学习参数

目标误差ϵ；

初始权更新值Δ₀；

最大权更新值Δ_max；

权更新值增大倍数η⁺；

权更新值减小倍数η^-。

2.误差函数定义

对第p个输入模式的误差的计算公式为

中国矿产资源评价新技术与评价新模型

y2_kp为BP网的计算输出。

3.BP网络学习公式推导

BP网络学习公式推导的指导思想是，对网络的权值W、偏差b修正，使误差函数沿负梯度方向下降，直到网络输出误差精度达到目标精度要求，学习结束。

各层输出计算公式

输入层

y0_i=x_i，i=1，2，…，S0；

隐含层

中国矿产资源评价新技术与评价新模型

y1_j=f1(z1_j)，

j=1，2，…，S1；

输出层

中国矿产资源评价新技术与评价新模型

y2_k=f2(z2_k)，

k=1，2，…，S2。

输出节点的误差公式

中国矿产资源评价新技术与评价新模型

对输出层节点的梯度公式推导

中国矿产资源评价新技术与评价新模型

E是多个y2_m的函数，但只有一个y2_k与w_kj有关，各y2_m间相互独立。

其中

中国矿产资源评价新技术与评价新模型

则

中国矿产资源评价新技术与评价新模型

设输出层节点误差为

δ2_k=(d_k-y2_k)·f2′(z2_k)，

则

中国矿产资源评价新技术与评价新模型

同理可得

中国矿产资源评价新技术与评价新模型

对隐含层节点的梯度公式推导

中国矿产资源评价新技术与评价新模型

E是多个y2_k的函数，针对某一个w1_ji，对应一个y1_j，它与所有的y2_k有关。因此，上式只存在对k的求和，其中

中国矿产资源评价新技术与评价新模型

则

中国矿产资源评价新技术与评价新模型

设隐含层节点误差为

中国矿产资源评价新技术与评价新模型

则

中国矿产资源评价新技术与评价新模型

同理可得

中国矿产资源评价新技术与评价新模型

4.采用弹性BP算法(RPROP)计算权值W、偏差b的修正值ΔW，Δb

1993年德国 Martin Riedmiller和Heinrich Braun 在他们的论文“A Direct Adaptive Method for Faster Backpropagation Learning：The RPROP Algorithm”中，提出Resilient Backpropagation算法——弹性BP算法(RPROP)。这种方法试图消除梯度的大小对权步的有害影响，因此，只有梯度的符号被认为表示权更新的方向。

权改变的大小仅仅由权专门的“更新值”

确定

中国矿产资源评价新技术与评价新模型

其中

表示在模式集的所有模式(批学习)上求和的梯度信息，(t)表示t时刻或第t次学习。

权更新遵循规则：如果导数是正(增加误差)，这个权由它的更新值减少。如果导数是负，更新值增加。

中国矿产资源评价新技术与评价新模型

RPROP算法是根据局部梯度信息实现权步的直接修改。对于每个权，我们引入它的

各自的更新值

，它独自确定权更新值的大小。这是基于符号相关的自适应过程，它基

于在误差函数E上的局部梯度信息，按照以下的学习规则更新

中国矿产资源评价新技术与评价新模型

其中0＜η^-＜1＜η⁺。

在每个时刻，如果目标函数的梯度改变它的符号，它表示最后的更新太大，更新值

应由权更新值减小倍数因子η^-得到减少；如果目标函数的梯度保持它的符号，更新值应由权更新值增大倍数因子η⁺得到增大。

为了减少自由地可调参数的数目，增大倍数因子η⁺和减小倍数因子η^–被设置到固定值

η⁺=1.2，

η^-=0.5，

这两个值在大量的实践中得到了很好的效果。

RPROP算法采用了两个参数：初始权更新值Δ₀和最大权更新值Δ_max

当学习开始时，所有的更新值被设置为初始值Δ₀，因为它直接确定了前面权步的大小，它应该按照权自身的初值进行选择，例如，Δ₀=0.1(默认设置)。

为了使权不至于变得太大，设置最大权更新值限制Δ_max，默认上界设置为

Δ_max=50.0。

在很多实验中，发现通过设置最大权更新值Δ_max到相当小的值，例如

Δ_max=1.0。

我们可能达到误差减小的平滑性能。

5.计算修正权值W、偏差b

第t次学习，权值W、偏差b的的修正公式

W^(t)=W^(t-1)+ΔW^(t)，

b^(t)=b^(t-1)+Δb^(t)，

其中，t为学习次数。

6.BP网络学习成功结束条件每次学习累积误差平方和

中国矿产资源评价新技术与评价新模型

每次学习平均误差

中国矿产资源评价新技术与评价新模型

当平均误差MSE＜ε，BP网络学习成功结束。

7.BP网络应用预测

在应用BP网络时，提供网络输入给输入层，应用给定的BP网络及BP网络学习得到的权值W、偏差b，网络输入经过从输入层经各隐含层向输出层的“顺传播”过程，计算出BP网的预测输出。

8.神经元激活函数f

线性函数

f(x)=x，

f′(x)=1，

f(x)的输入范围(-∞，+∞)，输出范围(-∞，+∞)。

一般用于输出层，可使网络输出任何值。

S型函数S(x)

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围(0，1)。

f′(x)=f(x)[1-f(x)]，

f′(x)的输入范围(-∞，+∞)，输出范围(0，

]。

一般用于隐含层，可使范围(-∞，+∞)的输入，变成(0，1)的网络输出，对较大的输入，放大系数较小；而对较小的输入，放大系数较大，所以可用来处理和逼近非线性的输入/输出关系。

在用于模式识别时，可用于输出层，产生逼近于0或1的二值输出。

双曲正切S型函数

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围(-1，1)。

f′(x)=1-f(x)·f(x)，

f′(x)的输入范围(-∞，+∞)，输出范围(0，1]。

一般用于隐含层，可使范围(-∞，+∞)的输入，变成(-1，1)的网络输出，对较大的输入，放大系数较小；而对较小的输入，放大系数较大，所以可用来处理和逼近非线性的输入/输出关系。

阶梯函数

类型1

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围{0，1}。

f′(x)=0。

类型2

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围{-1，1}。

f′(x)=0。

斜坡函数

类型1

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围[0，1]。

中国矿产资源评价新技术与评价新模型

f′(x)的输入范围(-∞，+∞)，输出范围{0，1}。

类型2

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围[-1，1]。

中国矿产资源评价新技术与评价新模型

f′(x)的输入范围(-∞，+∞)，输出范围{0，1}。

三、总体算法

1.三层BP网络(含输入层，隐含层，输出层)权值W、偏差b初始化总体算法

(1)输入参数X[N][P]，S₀，S₁，f₁[S₁]，S₂，f₂[S₂]；

(2)计算输入模式X[N][P]各个变量的最大值，最小值矩阵 X_max[N]，X_min[N]；

(3)隐含层的权值W₁，偏差b₁初始化。

情形1：隐含层激活函数f( )都是双曲正切S型函数

1)计算输入模式X[N][P]的每个变量的范围向量X_rng[N]；

2)计算输入模式X的每个变量的范围均值向量X_mid[N]；

3)计算W，b的幅度因子W_mag；

4)产生[-1，1]之间均匀分布的S₀×1维随机数矩阵R_and[S₁]；

5)产生均值为0，方差为1的正态分布的S₁×S₀维随机数矩阵Randnr[S₁][S₀]，随机数范围大致在[-1，1]；

6)计算W[S₁][S₀]，b[S₁]；

7)计算隐含层的初始化权值W₁[S₁][S₀]；

8)计算隐含层的初始化偏差b₁[S₁]；

9))输出W₁[S₁][S₀]，b₁[S₁]。

情形2：隐含层激活函数f( )都是S型函数

1)计算输入模式X[N][P]的每个变量的范围向量X_rng[N]；

2)计算输入模式X的每个变量的范围均值向量X_mid[N]；

3)计算W，b的幅度因子W_mag；

4)产生[-1，1]之间均匀分布的S₀×1维随机数矩阵R_and[S₁]；

5)产生均值为0，方差为1的正态分布的S₁×S₀维随机数矩阵R_andnr[S₁][S₀]，随机数范围大致在[-1，1]；

6)计算W[S₁][S₀]，b[S₁]；

7)计算隐含层的初始化权值W₁[S₁][S₀]；

8)计算隐含层的初始化偏差b₁[S₁]；

9)输出W₁[S₁][S₀]，b₁[S₁]。

情形3：隐含层激活函数f( )为其他函数的情形

1)计算输入模式X[N][P]的每个变量的范围向量X_rng[N]；

2)计算输入模式X的每个变量的范围均值向量X_mid[N]；

3)计算W，b的幅度因子W_mag；

4)产生[-1，1]之间均匀分布的S₀×1维随机数矩阵R_and[S₁]；

5)产生均值为0，方差为1的正态分布的S₁×S₀维随机数矩阵R_andnr[S₁][S₀]，随机数范围大致在[-1，1]；

6)计算W[S₁][S₀]，b[S₁]；

7)计算隐含层的初始化权值W₁[S₁][S₀]；

8)计算隐含层的初始化偏差b₁[S₁]；

9)输出W₁[S₁][S₀]，b₁[S₁]。

(4)输出层的权值W₂，偏差b₂初始化

1)产生[-1，1]之间均匀分布的S₂×S₁维随机数矩阵W₂[S₂][S₁]；

2)产生[-1，1]之间均匀分布的S₂×1维随机数矩阵b₂[S₂]；

3)输出W₂[S₂][S₁]，b₂[S₂]。

2.应用弹性BP算法(RPROP)学习三层BP网络(含输入层，隐含层，输出层)权值W、偏差b总体算法

函数：Train3BP_RPROP(S₀，X，P，S₁，W₁，b₁，f₁，S₂，W₂，b₂，f₂，d，TP)

(1)输入参数

P对模式(x_p，d_p)，p=1，2，…，P；

三层BP网络结构；

学习参数。

(2)学习初始化

；

2)各层W，b的梯度值

，

初始化为零矩阵。

(3)由输入模式X求第一次学习各层输出y₀，y₁，y₂及第一次学习平均误差MSE

(4)进入学习循环

epoch=1

(5)判断每次学习误差是否达到目标误差要求

如果MSE＜ϵ，

则，跳出epoch循环，

转到(12)。

(6)保存第epoch-1次学习产生的各层W，b的梯度值

，

(7)求第epoch次学习各层W，b的梯度值

，

1)求各层误差反向传播值δ；

2)求第p次各层W，b的梯度值

，

；

3)求p=1，2，…，P次模式产生的W，b的梯度值

，

的累加。

(8)如果epoch=1，则将第epoch-1次学习的各层W，b的梯度值

，

设为第epoch次学习产生的各层W，b的梯度值

，

。

(9)求各层W，b的更新

1)求权更新值Δ_ij更新；

2)求W，b的权更新值

，

；

3)求第epoch次学习修正后的各层W，b。

(10)用修正后各层W、b，由X求第epoch次学习各层输出y₀，y₁，y₂及第epoch次学习误差MSE

(11)epoch=epoch+1，

如果epoch≤MAX_EPOCH，转到(5)；

否则，转到(12)。

(12)输出处理

1)如果MSE＜ε，

则学习达到目标误差要求，输出W₁，b₁，W₂，b₂。

2)如果MSE≥ε，

则学习没有达到目标误差要求，再次学习。

(13)结束

3.三层BP网络(含输入层，隐含层，输出层)预测总体算法

首先应用Train3lBP_RPROP( )学习三层BP网络(含输入层，隐含层，输出层)权值W、偏差b，然后应用三层BP网络(含输入层，隐含层，输出层)预测。

函数：Simu3lBP( )。

1)输入参数：

P个需预测的输入数据向量x_p，p=1，2，…，P；

三层BP网络结构；

学习得到的各层权值W、偏差b。

2)计算P个需预测的输入数据向量x_p(p=1，2，…，P)的网络输出 y₂[S₂][P]，输出预测结果y₂[S₂][P]。

四、总体算法流程图

BP网络总体算法流程图见附图2。

五、数据流图

BP网数据流图见附图1。

六、实例

实例一全国铜矿化探异常数据BP 模型分类

1.全国铜矿化探异常数据准备

在全国铜矿化探数据上用稳健统计学方法选取铜异常下限值33.1，生成全国铜矿化探异常数据。

2.模型数据准备

根据全国铜矿化探异常数据，选取7类33个矿点的化探数据作为模型数据。这7类分别是岩浆岩型铜矿、斑岩型铜矿、矽卡岩型、海相火山型铜矿、陆相火山型铜矿、受变质型铜矿、海相沉积型铜矿，另添加了一类没有铜异常的模型(表8-1)。

3.测试数据准备

全国化探数据作为测试数据集。

4.BP网络结构

隐层数2，输入层到输出层向量维数分别为14，9、5、1。学习率设置为0.9，系统误差1e-5。没有动量项。

表8-1 模型数据表

续表

5.计算结果图

如图8-2、图8-3。

图8-2

图8-3 全国铜矿矿床类型BP模型分类示意图

实例二全国金矿矿石量品位数据BP 模型分类

1.模型数据准备

根据全国金矿储量品位数据，选取4类34个矿床数据作为模型数据，这4类分别是绿岩型金矿、与中酸性浸入岩有关的热液型金矿、微细浸染型型金矿、火山热液型金矿(表8-2)。

2.测试数据准备

模型样本点和部分金矿点金属量、矿石量、品位数据作为测试数据集。

3.BP网络结构

输入层为三维，隐层1层，隐层为三维，输出层为四维，学习率设置为0.8，系统误差1e-4，迭代次数5000。

表8-2 模型数据

4.计算结果

结果见表8-3、8-4。

表8-3 训练学习结果

表8-4 预测结果(部分)

续表

三、几种常见的循环神经网络结构RNN、LSTM、GRU

传统文本处理任务的方法中一般将TF-IDF向量作为特征输入。显而易见，这样的表示实际上丢失了输入的文本序列中每个单词的顺序。在神经网络的建模过程中，一般的前馈神经网络，如卷积神经网络，通常接受一个定长的向量作为输入。卷积神经网络对文本数据建模时，输入变长的字符串或者单词串，然后通过滑动窗口加池化的方式将原先的输入转换成一个固定长度的向量表示，这样做可以捕捉到原文本中的一些局部特征，但是两个单词之间的长距离依赖关系还是很难被学习到。

循环神经网络却能很好地处理文本数据变长并且有序的输入序列。它模拟了人阅读一篇文章的顺序，从前到后阅读文章中的每一个单词，将前面阅读到的有用信息编码到状态变量中去，从而拥有了一定的记忆能力，可以更好地理解之后的文本。

其网络结构如下图所示：

由图可见，t是时刻，x是输入层，s是隐藏层，o是输出层，矩阵W就是隐藏层上一次的值作为这一次的输入的权重。

如果反复把式 2 带入到式 1，将得到：

其中f和g为激活函数，U为输入层到隐含层的权重矩阵，W为隐含层从上一时刻到下一时刻状态转移的权重矩阵。在文本分类任务中，f可以选取Tanh函数或者ReLU函数，g可以采用Softmax函数。

通过最小化损失误差（即输出的y与真实类别之间的距离），我们可以不断训练网络，使得得到的循环神经网络可以准确地预测文本所属的类别，达到分类目的。相比于卷积神经网络等前馈神经网络，循环神经网络由于具备对序列顺序信息的刻画能力，往往能得到更准确的结果。

RNN的训练算法为：BPTT

BPTT的基本原理和BP算法是一样的，同样是三步：

1.前向计算每个神经元的输出值；

2.反向计算每个神经元的误差项值，它是误差函数E对神经元j的加权输入的偏导数；

3.计算每个权重的梯度。

最后再用随机梯度下降算法更新权重。

具体参考： https://www.jianshu.com/p/39a99c88a565

最后由链式法则得到下面以雅可比矩阵来表达的每个权重的梯度:

由于预测的误差是沿着神经网络的每一层反向传播的，因此当雅克比矩阵的最大特征值大于1时，随着离输出越来越远，每层的梯度大小会呈指数增长，导致梯度爆炸；反之，若雅克比矩阵的最大特征值小于1，梯度的大小会呈指数缩小，产生梯度消失。对于普通的前馈网络来说，梯度消失意味着无法通过加深网络层次来改善神经网络的预测效果，因为无论如何加深网络，只有靠近输出的若干层才真正起到学习的作用。 这使得循环神经网络模型很难学习到输入序列中的长距离依赖关系 。

关于RNN梯度下降的详细推导可以参考: https://zhuanlan.zhihu.com/p/44163528

梯度爆炸的问题可以通过梯度裁剪来缓解，即当梯度的范式大于某个给定值时，对梯度进行等比收缩。而梯度消失问题相对比较棘手，需要对模型本身进行改进。深度残差网络是对前馈神经网络的改进，通过残差学习的方式缓解了梯度消失的现象，从而使得我们能够学习到更深层的网络表示；而对于循环神经网络来说，长短时记忆模型及其变种门控循环单元等模型通过加入门控机制，很大程度上弥补了梯度消失所带来的损失。

LSTM的网络机构图如下所示：

与传统的循环神经网络相比，LSTM仍然是基于xt和ht−1来计算ht，只不过对内部的结构进行了更加精心的设计，加入了输入门it 、遗忘门ft以及输出门ot三个门和一个内部记忆单元ct。输入门控制当前计算的新状态以多大程度更新到记忆单元中；遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉；输出门控制当前的输出有多大程度上取决于当前的记忆单元。

在经典的LSTM模型中，第t层的更新计算公式为

其中it是通过输入xt和上一步的隐含层输出ht−1进行线性变换，再经过激活函数σ得到的。输入门it的结果是向量，其中每个元素是0到1之间的实数，用于控制各维度流过阀门的信息量；Wi 、Ui两个矩阵和向量bi为输入门的参数，是在训练过程中需要学习得到的。遗忘门ft和输出门ot的计算方式与输入门类似，它们有各自的参数W、U和b。与传统的循环神经网络不同的是，从上一个记忆单元的状态ct−1到当前的状态ct的转移不一定完全取决于激活函数计算得到的状态，还由输入门和遗忘门来共同控制。

在一个训练好的网络中，当输入的序列中没有重要信息时，LSTM的遗忘门的值接近于1，输入门的值接近于0，此时过去的记忆会被保存，从而实现了长期记忆功能；当输入的序列中出现了重要的信息时，LSTM应当把其存入记忆中，此时其输入门的值会接近于1；当输入的序列中出现了重要信息，且该信息意味着之前的记忆不再重要时，输入门的值接近1，而遗忘门的值接近于0，这样旧的记忆被遗忘，新的重要信息被记忆。经过这样的设计，整个网络更容易学习到序列之间的长期依赖。

GRU是在LSTM上进行简化而得到的，GRU的网络结构如下所示：

Zt代表更新门，更新门的作用类似于LSTM中的遗忘门和输入门，它能决定要丢弃哪些信息和要添加哪些新信息。

Rt代表重置门，重置门用于决定丢弃先前信息的程度。

要注意的是，h只是一个变量，因此在每个时刻，包括最后的线性组合，h都是在用以前的自己和当前的备选答案更新自己。举例来说，这一个变量好比一杯酒，每次我们要把一部分酒倒出去，并把倒出去的酒和新加入的原料混合，然后在倒回来，这里的reset控制的就是要倒出去的，并且混合好之后再倒回来的酒的比例，而update控制的则是用多大的比例混合新原料和倒出来的之前调制好的酒。同理，也可以以此理解LSTM，LSTM的遗忘门功能上和reset相似，而输入门与update相似，不同之处在于LSTM还控制了当前状态的exposure，也就是输出门的功能，这是GRU所没有的。

1.百面机器学习

2. https://zhuanlan.zhihu.com/p/45649187

3. https://www.jianshu.com/p/39a99c88a565

四、神经网络的分类

网络分类人工神经网络按其模型结构大体可以分为前馈型网络也称为多层感知机网络）和反馈型网络(也称为Hopfield网络）两大类，前者在数学上可以看作是一类大规模的非线性映射系统，后者则是一类大规模的非线性动力学系统。它们的结构模型如图1、图2所示，图中圆圏代表神经元，其间的有向连线代表神经元突触。按照学习方式，人工神经网络又可分为有导师学习和无导师学习两类；按工作方式则可分为确定性和随机性两类；按时间特性还可分为连续型或离散型两类，等等。

用于分类的神经网络模型（用于分类的神经网络算法）