正文

人工神经网络的三种类型（人工神经网络的三种类型是什么）

发布时间：2023-04-08 03:53:02 稿源：创意岭阅读： 81

大家好！今天让创意岭的小编来大家介绍下关于人工神经网络的三种类型的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com。

创意岭作为行业内优秀的企业，服务客户遍布全球各地，如需了解相关业务请拨打电话175-8598-2043，或添加微信：1454722008

本文目录:

1、神经网络模型-27种神经网络模型们的简介
2、深度学习中什么是人工神经网络？
3、人工神经网络概念梳理与实例演示
4、什么是人工神经网络？

人工神经网络的三种类型（人工神经网络的三种类型是什么）

一、神经网络模型-27种神经网络模型们的简介

【1】Perceptron(P) 感知机

【1】感知机

感知机是我们知道的最简单和最古老的神经元模型，它接收一些输入，然后把它们加总，通过激活函数并传递到输出层。

【2】Feed Forward(FF)前馈神经网络

【2】前馈神经网络

前馈神经网络（FF），这也是一个很古老的方法——这种方法起源于50年代。它的工作原理通常遵循以下规则：

1.所有节点都完全连接

2.激活从输入层流向输出，无回环

3.输入和输出之间有一层（隐含层）

在大多数情况下，这种类型的网络使用反向传播方法进行训练。

【3】Radial Basis Network(RBF) RBF神经网络

【3】RBF神经网络

RBF 神经网络实际上是激活函数是径向基函数而非逻辑函数的FF前馈神经网络（FF）。两者之间有什么区别呢？

逻辑函数--- 将某个任意值映射到[0 ,... 1]范围内来，回答“是或否”问题。适用于分类决策系统，但不适用于连续变量。

相反，径向基函数--- 能显示“我们距离目标有多远”。这完美适用于函数逼近和机器控制（例如作为PID控制器的替代）。

简而言之，RBF神经网络其实就是，具有不同激活函数和应用方向的前馈网络。

【4】Deep Feed Forword(DFF)深度前馈神经网络

【4】DFF深度前馈神经网络

DFF深度前馈神经网络在90年代初期开启了深度学习的潘多拉盒子。这些依然是前馈神经网络，但有不止一个隐含层。那么，它到底有什么特殊性？

在训练传统的前馈神经网络时，我们只向上一层传递了少量的误差信息。由于堆叠更多的层次导致训练时间的指数增长，使得深度前馈神经网络非常不实用。直到00年代初，我们开发了一系列有效的训练深度前馈神经网络的方法; 现在它们构成了现代机器学习系统的核心，能实现前馈神经网络的功能，但效果远高于此。

【5】Recurrent Neural Network(RNN) 递归神经网络

【5】RNN递归神经网络

RNN递归神经网络引入不同类型的神经元——递归神经元。这种类型的第一个网络被称为约旦网络（Jordan Network），在网络中每个隐含神经元会收到它自己的在固定延迟（一次或多次迭代）后的输出。除此之外，它与普通的模糊神经网络非常相似。

当然，它有许多变化 — 如传递状态到输入节点，可变延迟等，但主要思想保持不变。这种类型的神经网络主要被使用在上下文很重要的时候——即过去的迭代结果和样本产生的决策会对当前产生影响。最常见的上下文的例子是文本——一个单词只能在前面的单词或句子的上下文中进行分析。

【6】Long/Short Term Memory (LSTM) 长短时记忆网络

【6】LSTM长短时记忆网络

LSTM长短时记忆网络引入了一个存储单元，一个特殊的单元，当数据有时间间隔（或滞后）时可以处理数据。递归神经网络可以通过“记住”前十个词来处理文本，LSTM长短时记忆网络可以通过“记住”许多帧之前发生的事情处理视频帧。 LSTM网络也广泛用于写作和语音识别。

存储单元实际上由一些元素组成，称为门，它们是递归性的，并控制信息如何被记住和遗忘。

【7】Gated Recurrent Unit (GRU)

【7】GRU是具有不同门的LSTM

GRU是具有不同门的LSTM。

听起来很简单，但缺少输出门可以更容易基于具体输入重复多次相同的输出，目前此模型在声音（音乐）和语音合成中使用得最多。

实际上的组合虽然有点不同：但是所有的LSTM门都被组合成所谓的更新门(Update Gate)，并且复位门(Reset Gate)与输入密切相关。

它们比LSTM消耗资源少，但几乎有相同的效果。

【8】Auto Encoder (AE) 自动编码器

【8】AE自动编码器

Autoencoders自动编码器用于分类，聚类和特征压缩。

当您训练前馈(FF)神经网络进行分类时，您主要必须在Y类别中提供X个示例，并且期望Y个输出单元格中的一个被激活。这被称为“监督学习”。

另一方面，自动编码器可以在没有监督的情况下进行训练。它们的结构 - 当隐藏单元数量小于输入单元数量（并且输出单元数量等于输入单元数）时，并且当自动编码器被训练时输出尽可能接近输入的方式，强制自动编码器泛化数据并搜索常见模式。

【9】Variational AE (VAE) 变分自编码器

【9】VAE变分自编码器

变分自编码器，与一般自编码器相比，它压缩的是概率，而不是特征。

尽管如此简单的改变，但是一般自编码器只能回答当“我们如何归纳数据？”的问题时，变分自编码器回答了“两件事情之间的联系有多强大？我们应该在两件事情之间分配误差还是它们完全独立的？”的问题。

【10】Denoising AE (DAE) 降噪自动编码器

【10】DAE降噪自动编码器

虽然自动编码器很酷，但它们有时找不到最鲁棒的特征，而只是适应输入数据（实际上是过拟合的一个例子）。

降噪自动编码器（DAE）在输入单元上增加了一些噪声 - 通过随机位来改变数据，随机切换输入中的位，等等。通过这样做，一个强制降噪自动编码器从一个有点嘈杂的输入重构输出，使其更加通用，强制选择更常见的特征。

【11】Sparse AE (SAE) 稀疏自编码器

【11】SAE稀疏自编码器

稀疏自编码器（SAE）是另外一个有时候可以抽离出数据中一些隐藏分组样试的自动编码的形式。结构和AE是一样的，但隐藏单元的数量大于输入或输出单元的数量。

【12】Markov Chain (MC) 马尔科夫链

马尔可夫链（Markov Chain, MC）是一个比较老的图表概念了，它的每一个端点都存在一种可能性。过去，我们用它来搭建像“在单词hello之后有0.0053％的概率会出现dear，有0.03551%的概率出现you”这样的文本结构。

这些马尔科夫链并不是典型的神经网络，它可以被用作基于概率的分类（像贝叶斯过滤），用于聚类（对某些类别而言），也被用作有限状态机。

【13】Hopfield Network (HN) 霍普菲尔网络

【13】HN霍普菲尔网络

霍普菲尔网络（HN）对一套有限的样本进行训练，所以它们用相同的样本对已知样本作出反应。

在训练前，每一个样本都作为输入样本，在训练之中作为隐藏样本，使用过之后被用作输出样本。

在HN试着重构受训样本的时候，他们可以用于给输入值降噪和修复输入。如果给出一半图片或数列用来学习，它们可以反馈全部样本。

【14】Boltzmann Machine (BM) 波尔滋曼机

【14】 BM 波尔滋曼机

波尔滋曼机（BM）和HN非常相像，有些单元被标记为输入同时也是隐藏单元。在隐藏单元更新其状态时，输入单元就变成了输出单元。（在训练时，BM和HN一个一个的更新单元，而非并行）。

这是第一个成功保留模拟退火方法的网络拓扑。

多层叠的波尔滋曼机可以用于所谓的深度信念网络，深度信念网络可以用作特征检测和抽取。

【15】Restricted BM (RBM) 限制型波尔滋曼机

【15】 RBM 限制型波尔滋曼机

在结构上，限制型波尔滋曼机（RBM）和BM很相似，但由于受限RBM被允许像FF一样用反向传播来训练（唯一的不同的是在反向传播经过数据之前RBM会经过一次输入层）。

【16】Deep Belief Network (DBN) 深度信念网络

【16】DBN 深度信念网络

像之前提到的那样，深度信念网络（DBN）实际上是许多波尔滋曼机（被VAE包围）。他们能被连在一起（在一个神经网络训练另一个的时候），并且可以用已经学习过的样式来生成数据。

【17】Deep Convolutional Network (DCN) 深度卷积网络

【17】 DCN 深度卷积网络

当今，深度卷积网络（DCN）是人工神经网络之星。它具有卷积单元（或者池化层）和内核，每一种都用以不同目的。

卷积核事实上用来处理输入的数据，池化层是用来简化它们（大多数情况是用非线性方程，比如max），来减少不必要的特征。

他们通常被用来做图像识别，它们在图片的一小部分上运行（大约20x20像素）。输入窗口一个像素一个像素的沿着图像滑动。然后数据流向卷积层，卷积层形成一个漏斗（压缩被识别的特征）。从图像识别来讲，第一层识别梯度，第二层识别线，第三层识别形状，以此类推，直到特定的物体那一级。DFF通常被接在卷积层的末端方便未来的数据处理。

【18】Deconvolutional Network (DN) 去卷积网络

【18】 DN 去卷积网络

去卷积网络（DN）是将DCN颠倒过来。DN能在获取猫的图片之后生成像（狗：0，蜥蜴：0，马：0，猫：1）一样的向量。DNC能在得到这个向量之后，能画出一只猫。

【19】Deep Convolutional Inverse Graphics Network (DCIGN) 深度卷积反转图像网络

【19】 DCIGN 深度卷积反转图像网络

深度卷积反转图像网络（DCIGN），长得像DCN和DN粘在一起，但也不完全是这样。

事实上，它是一个自动编码器，DCN和DN并不是作为两个分开的网络，而是承载网路输入和输出的间隔区。大多数这种神经网络可以被用作图像处理，并且可以处理他们以前没有被训练过的图像。由于其抽象化的水平很高，这些网络可以用于将某个事物从一张图片中移除，重画，或者像大名鼎鼎的CycleGAN一样将一匹马换成一个斑马。

【20】Generative Adversarial Network (GAN) 生成对抗网络

【20】 GAN 生成对抗网络

生成对抗网络（GAN）代表了有生成器和分辨器组成的双网络大家族。它们一直在相互伤害——生成器试着生成一些数据，而分辨器接收样本数据后试着分辨出哪些是样本，哪些是生成的。只要你能够保持两种神经网络训练之间的平衡，在不断的进化中，这种神经网络可以生成实际图像。

【21】Liquid State Machine (LSM) 液体状态机

【21】 LSM 液体状态机

液体状态机（LSM）是一种稀疏的，激活函数被阈值代替了的（并不是全部相连的）神经网络。只有达到阈值的时候，单元格从连续的样本和释放出来的输出中积累价值信息，并再次将内部的副本设为零。

这种想法来自于人脑，这些神经网络被广泛的应用于计算机视觉，语音识别系统，但目前还没有重大突破。

【22】Extreme Learning Machine (ELM) 极端学习机

【22】ELM 极端学习机

极端学习机（ELM）是通过产生稀疏的随机连接的隐藏层来减少FF网络背后的复杂性。它们需要用到更少计算机的能量，实际的效率很大程度上取决于任务和数据。

【23】Echo State Network (ESN) 回声状态网络

【23】 ESN 回声状态网络

回声状态网络（ESN）是重复网络的细分种类。数据会经过输入端，如果被监测到进行了多次迭代（请允许重复网路的特征乱入一下），只有在隐藏层之间的权重会在此之后更新。

据我所知，除了多个理论基准之外，我不知道这种类型的有什么实际应用。。。。。。。

【24】Deep Residual Network (DRN) 深度残差网络

【24】 DRN 深度残差网络

深度残差网络（DRN）是有些输入值的部分会传递到下一层。这一特点可以让它可以做到很深的层级（达到300层），但事实上它们是一种没有明确延时的RNN。

【25】Kohonen Network (KN) Kohonen神经网络

【25】 Kohonen神经网络

Kohonen神经网络（KN）引入了“单元格距离”的特征。大多数情况下用于分类，这种网络试着调整它们的单元格使其对某种特定的输入作出最可能的反应。当一些单元格更新了，离他们最近的单元格也会更新。

像SVM一样，这些网络总被认为不是“真正”的神经网络。

【26】Support Vector Machine (SVM)

【26】 SVM 支持向量机

支持向量机（SVM）用于二元分类工作，无论这个网络处理多少维度或输入，结果都会是“是”或“否”。

SVM不是所有情况下都被叫做神经网络。

【27】Neural Turing Machine (NTM) 神经图灵机

【27】NTM 神经图灵机

神经网络像是黑箱——我们可以训练它们，得到结果，增强它们，但实际的决定路径大多数我们都是不可见的。

神经图灵机（NTM）就是在尝试解决这个问题——它是一个提取出记忆单元之后的FF。一些作者也说它是一个抽象版的LSTM。

记忆是被内容编址的，这个网络可以基于现状读取记忆，编写记忆，也代表了图灵完备神经网络。

二、深度学习中什么是人工神经网络？

人工神经网络（Artificial Neural Network，即ANN ）是从信息处理角度对人脑神经元网络进行抽象，是20世纪80年代以来人工智能领域兴起的研究热点，其本质是一种运算模型，由大量的节点（或称神经元）之间相互联接构成，在模式识别、智能机器人、自动控制、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统，它是在现代神经科学研究成果的基础上提出的，试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络具有四个基本特征：

（1）非线性– 非线性关系是自然界的普遍特性，人工神经元处于激活或抑制二种不同的状态，这种行为在数学上表现为一种非线性

人工神经网络的三种类型（人工神经网络的三种类型是什么）

人工神经网络

关系。具有阈值的神经元构成的网络具有更好的性能，可以提高容错性和存储容量。

（2）非局限性– 一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征，而且可能主要由单元之间的相互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子。

（3）非常定性 –人工神经网络具有自适应、自组织、自学习能力。神经网络不但处理的信息可以有各种变化，而且在处理信息的同时，非线性动力系统本身也在不断变化。经常采用迭代过程描写动力系统的演化过程。

（4）非凸性–一个系统的演化方向，在一定条件下将取决于某个特定的状态函数。例如能量函数，它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值，故系统具有多个较稳定的平衡态，这将导致系统演化的多样性。

人工神经网络中，神经元处理单元可表示不同的对象，例如特征、字母、概念，或者一些有意义的抽象模式。网络中处理单元的类型分为三类：输入单元、输出单元和隐单元。输入单元接受外部世界的信号与数据；输出单元实现系统处理结果的输出；隐单元是处在输入和输出单元之间，不能

人工神经网络的三种类型（人工神经网络的三种类型是什么）

人工神经网络

由系统外部观察的单元。神经元间的连接权值反映了单元间的连接强度，信息的表示和处理体现在网络处理单元的连接关系中。

总结:人工神经网络是一种非程序化、适应性、大脑风格的信息处理，其本质是通过网络的变换和动力学行为得到一种并行分布式的信息处理功能，并在不同程度和层次上模仿人脑神经系统的信息处理功能。

三、人工神经网络概念梳理与实例演示

人工神经网络概念梳理与实例演示

神经网络是一种模仿生物神经元的机器学习模型，数据从输入层进入并流经激活阈值的多个节点。

递归性神经网络一种能够对之前输入数据进行内部存储记忆的神经网络，所以他们能够学习到数据流中的时间依赖结构。

如今机器学习已经被应用到很多的产品中去了，例如，siri、Google Now等智能助手，推荐引擎——亚马逊网站用于推荐商品的推荐引擎，Google和Facebook使用的广告排名系统。最近，深度学习的一些进步将机器学习带入公众视野：AlphaGo 打败围棋大师李世石事件以及一些图片识别和机器翻译等新产品的出现。

在这部分中，我们将介绍一些强大并被普遍使用的机器学习技术。这当然包括一些深度学习以及一些满足现代业务需求传统方法。读完这一系列的文章之后，你就掌握了必要的知识，便可以将具体的机器学习实验应用到你所在的领域当中。

随着深层神经网络的精度的提高，语音和图像识别技术的应用吸引了大众的注意力，关于AI和深度学习的研究也变得更加普遍了。但是怎么能够让它进一步扩大影响力，更受欢迎仍然是一个问题。这篇文章的主要内容是：简述前馈神经网络和递归神经网络、怎样搭建一个递归神经网络对时间系列数据进行异常检测。为了让我们的讨论更加具体化，我们将演示一下怎么用Deeplearning4j搭建神经网络。

一、什么是神经网络？

人工神经网络算法的最初构思是模仿生物神经元。但是这个类比很不可靠。人工神经网络的每一个特征都是对生物神经元的一种折射：每一个节点与激活阈值、触发的连接。

连接人工神经元系统建立起来之后，我们就能够对这些系统进行训练，从而让他们学习到数据中的一些模式，学到之后就能执行回归、分类、聚类、预测等功能。

人工神经网络可以看作是计算节点的集合。数据通过这些节点进入神经网络的输入层，再通过神经网络的隐藏层直到关于数据的一个结论或者结果出现，这个过程才会停止。神经网络产出的结果会跟预期的结果进行比较，神经网络得出的结果与正确结果的不同点会被用来更正神经网络节点的激活阈值。随着这个过程的不断重复，神经网络的输出结果就会无限靠近预期结果。

二、训练过程

在搭建一个神经网络系统之前，你必须先了解训练的过程以及网络输出结果是怎么产生的。然而我们并不想过度深入的了解这些方程式，下面是一个简短的介绍。

网络的输入节点收到一个数值数组（或许是叫做张量多维度数组）就代表输入数据。例如, 图像中的每个像素可以表示为一个标量，然后将像素传递给一个节点。输入数据将会与神经网络的参数相乘，这个输入数据被扩大还是减小取决于它的重要性，换句话说，取决于这个像素就不会影响神经网络关于整个输入数据的结论。

起初这些参数都是随机的，也就是说神经网络在建立初期根本就不了解数据的结构。每个节点的激活函数决定了每个输入节点的输出结果。所以每个节点是否能够被激活取决于它是否接受到足够的刺激强度，即是否输入数据和参数的结果超出了激活阈值的界限。

在所谓的密集或完全连接层中，每个节点的输出值都会传递给后续层的节点，在通过所有隐藏层后最终到达输出层，也就是产生输入结果的地方。在输出层, 神经网络得到的最终结论将会跟预期结论进行比较(例如，图片中的这些像素代表一只猫还是狗?)。神经网络猜测的结果与正确结果的计算误差都会被纳入到一个测试集中，神经网络又会利用这些计算误差来不断更新参数，以此来改变图片中不同像素的重要程度。整个过程的目的就是降低输出结果与预期结果的误差，正确地标注出这个图像到底是不是一条狗。

深度学习是一个复杂的过程，由于大量的矩阵系数需要被修改所以它就涉及到矩阵代数、衍生品、概率和密集的硬件使用问题，但是用户不需要全部了解这些复杂性。

但是，你也应该知道一些基本参数，这将帮助你理解神经网络函数。这其中包括激活函数、优化算法和目标函数(也称为损失、成本或误差函数)。

激活函数决定了信号是否以及在多大程度上应该被发送到连接节点。阶梯函数是最常用的激活函数, 如果其输入小于某个阈值就是0，如果其输入大于阈值就是1。节点都会通过阶梯激活函数向连接节点发送一个0或1。优化算法决定了神经网络怎么样学习，以及测试完误差后，权重怎么样被更准确地调整。最常见的优化算法是随机梯度下降法。最后, 成本函数常用来衡量误差，通过对比一个给定训练样本中得出的结果与预期结果的不同来评定神经网络的执行效果。

Keras、Deeplearning4j 等开源框架让创建神经网络变得简单。创建神经网络结构时，需要考虑的是怎样将你的数据类型匹配到一个已知的被解决的问题，并且根据你的实际需求来修改现有结构。

三、神经网络的类型以及应用

神经网络已经被了解和应用了数十年了，但是最近的一些技术趋势才使得深度神经网络变得更加高效。

GPUs使得矩阵操作速度更快；分布式计算结构让计算能力大大增强；多个超参数的组合也让迭代的速度提升。所有这些都让训练的速度大大加快，迅速找到适合的结构。

随着更大数据集的产生，类似于ImageNet 的大型高质量的标签数据集应运而生。机器学习算法训练的数据越大，那么它的准确性就会越高。

最后，随着我们理解能力以及神经网络算法的不断提升，神经网络的准确性在语音识别、机器翻译以及一些机器感知和面向目标的一些任务等方面不断刷新记录。

尽管神经网络架构非常的大，但是主要用到的神经网络种类也就是下面的几种。

3.1前馈神经网络

前馈神经网络包括一个输入层、一个输出层以及一个或多个的隐藏层。前馈神经网络可以做出很好的通用逼近器，并且能够被用来创建通用模型。

这种类型的神经网络可用于分类和回归。例如，当使用前馈网络进行分类时，输出层神经元的个数等于类的数量。从概念上讲, 激活了的输出神经元决定了神经网络所预测的类。更准确地说, 每个输出神经元返回一个记录与分类相匹配的概率数，其中概率最高的分类将被选为模型的输出分类。

前馈神经网络的优势是简单易用，与其他类型的神经网络相比更简单，并且有一大堆的应用实例。

3.2卷积神经网络

卷积神经网络和前馈神经网络是非常相似的，至少是数据的传输方式类似。他们结构大致上是模仿了视觉皮层。卷积神经网络通过许多的过滤器。这些过滤器主要集中在一个图像子集、补丁、图块的特征识别上。每一个过滤器都在寻找不同模式的视觉数据，例如，有的可能是找水平线，有的是找对角线，有的是找垂直的。这些线条都被看作是特征，当过滤器经过图像时，他们就会构造出特征图谱来定位各类线是出现在图像的哪些地方。图像中的不同物体，像猫、747s、榨汁机等都会有不同的图像特征，这些图像特征就能使图像完成分类。卷积神经网络在图像识别和语音识别方面是非常的有效的。

卷积神经网络与前馈神经网络在图像识别方面的异同比较。虽然这两种网络类型都能够进行图像识别，但是方式却不同。卷积神经网络是通过识别图像的重叠部分，然后学习识别不同部分的特征进行训练；然而，前馈神经网络是在整张图片上进行训练。前馈神经网络总是在图片的某一特殊部分或者方向进行训练，所以当图片的特征出现在其他地方时就不会被识别到，然而卷积神经网络却能够很好的避免这一点。

卷积神经网络主要是用于图像、视频、语音、声音识别以及无人驾驶的任务。尽管这篇文章主要是讨论递归神经网络的，但是卷积神经网络在图像识别方面也是非常有效的，所以很有必要了解。

3.3递归神经网络

与前馈神经网络不同的是，递归神经网络的隐藏层的节点里有内部记忆存储功能，随着输入数据的改变而内部记忆内容不断被更新。递归神经网络的结论都是基于当前的输入和之前存储的数据而得出的。递归神经网络能够充分利用这种内部记忆存储状态处理任意序列的数据，例如时间序列。

递归神经网络经常用于手写识别、语音识别、日志分析、欺诈检测和网络安全。

递归神经网络是处理时间维度数据集的最好方法，它可以处理以下数据：网络日志和服务器活动、硬件或者是医疗设备的传感器数据、金融交易、电话记录。想要追踪数据在不同阶段的依赖和关联关系需要你了解当前和之前的一些数据状态。尽管我们通过前馈神经网络也可以获取事件，随着时间的推移移动到另外一个事件，这将使我们限制在对事件的依赖中，所以这种方式很不灵活。

追踪在时间维度上有长期依赖的数据的更好方法是用内存来储存重要事件，以使近期事件能够被理解和分类。递归神经网络最好的一点就是在它的隐藏层里面有“内存”可以学习到时间依赖特征的重要性。

接下来我们将讨论递归神经网络在字符生成器和网络异常检测中的应用。递归神经网络可以检测出不同时间段的依赖特征的能力使得它可以进行时间序列数据的异常检测。

递归神经网络的应用

网络上有很多使用RNNs生成文本的例子，递归神经网络经过语料库的训练之后，只要输入一个字符，就可以预测下一个字符。下面让我们通过一些实用例子发现更多RNNs的特征。

应用一、RNNs用于字符生成

递归神经网络经过训练之后可以把英文字符当做成一系列的时间依赖事件。经过训练后它会学习到一个字符经常跟着另外一个字符（“e”经常跟在“h”后面，像在“the、he、she”中）。由于它能预测下一个字符是什么，所以它能有效地减少文本的输入错误。

Java是个很有趣的例子，因为它的结构包括很多嵌套结构，有一个开的圆括号必然后面就会有一个闭的，花括号也是同理。他们之间的依赖关系并不会在位置上表现的很明显，因为多个事件之间的关系不是靠所在位置的距离确定的。但是就算是不明确告诉递归神经网络Java中各个事件的依赖关系，它也能自己学习了解到。

在异常检测当中，我们要求神经网络能够检测出数据中相似、隐藏的或许是并不明显的模式。就像是一个字符生成器在充分地了解数据的结构后就会生成一个数据的拟像，递归神经网络的异常检测就是在其充分了解数据结构后来判断输入的数据是不是正常。

字符生成的例子表明递归神经网络有在不同时间范围内学习到时间依赖关系的能力，它的这种能力还可以用来检测网络活动日志的异常。

异常检测能够使文本中的语法错误浮出水面，这是因为我们所写的东西是由语法结构所决定的。同理，网络行为也是有结构的，它也有一个能够被学习的可预测模式。经过在正常网络活动中训练的递归神经网络可以监测到入侵行为，因为这些入侵行为的出现就像是一个句子没有标点符号一样异常。

应用二、一个网络异常检测项目的示例

假设我们想要了解的网络异常检测就是能够得到硬件故障、应用程序失败、以及入侵的一些信息。

模型将会向我们展示什么呢？

随着大量的网络活动日志被输入到递归神经网络中去，神经网络就能学习到正常的网络活动应该是什么样子的。当这个被训练的网络被输入新的数据时，它就能偶判断出哪些是正常的活动，哪些是被期待的，哪些是异常的。

训练一个神经网络来识别预期行为是有好处的，因为异常数据不多，或者是不能够准确的将异常行为进行分类。我们在正常的数据里进行训练，它就能够在未来的某个时间点提醒我们非正常活动的出现。

说句题外话，训练的神经网络并不一定非得识别到特定事情发生的特定时间点（例如，它不知道那个特殊的日子就是周日），但是它一定会发现一些值得我们注意的一些更明显的时间模式和一些可能并不明显的事件之间的联系。

我们将概述一下怎么用 Deeplearning4j（一个在JVM上被广泛应用的深度学习开源数据库）来解决这个问题。Deeplearning4j在模型开发过程中提供了很多有用的工具：DataVec是一款为ETL（提取-转化-加载）任务准备模型训练数据的集成工具。正如Sqoop为Hadoop加载数据，DataVec将数据进行清洗、预处理、规范化与标准化之后将数据加载到神经网络。这跟Trifacta’s Wrangler也相似，只不过它更关注二进制数据。

开始阶段

第一阶段包括典型的大数据任务和ETL：我们需要收集、移动、储存、准备、规范化、矢量话日志。时间跨度的长短是必须被规定好的。数据的转化需要花费一些功夫，这是由于JSON日志、文本日志、还有一些非连续标注模式都必须被识别并且转化为数值数组。DataVec能够帮助进行转化和规范化数据。在开发机器学习训练模型时，数据需要分为训练集和测试集。

训练神经网络

神经网络的初始训练需要在训练数据集中进行。

在第一次训练的时候，你需要调整一些超参数以使模型能够实现在数据中学习。这个过程需要控制在合理的时间内。关于超参数我们将在之后进行讨论。在模型训练的过程中，你应该以降低错误为目标。

但是这可能会出现神经网络模型过度拟合的风险。有过度拟合现象出现的模型往往会在训练集中的很高的分数，但是在遇到新的数据时就会得出错误结论。用机器学习的语言来说就是它不够通用化。Deeplearning4J提供正则化的工具和“过早停止”来避免训练过程中的过度拟合。

神经网络的训练是最花费时间和耗费硬件的一步。在GPUs上训练能够有效的减少训练时间，尤其是做图像识别的时候。但是额外的硬件设施就带来多余的花销，所以你的深度学习的框架必须能够有效的利用硬件设施。Azure和亚马逊等云服务提供了基于GPU的实例，神经网络还可以在异构集群上进行训练。

创建模型

Deeplearning4J提供ModelSerializer来保存训练模型。训练模型可以被保存或者是在之后的训练中被使用或更新。

在执行异常检测的过程中，日志文件的格式需要与训练模型一致，基于神经网络的输出结果，你将会得到是否当前的活动符合正常网络行为预期的结论。

代码示例

递归神经网络的结构应该是这样子的：

MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder(

.seed(123)

.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT).iterations(1)

.weightInit(WeightInit.XAVIER)

.updater(Updater.NESTEROVS).momentum(0.9)

.learningRate(0.005)

.gradientNormalization(GradientNormalization.ClipElementWiseAbsoluteValue)

.gradientNormalizationThreshold(0.5)

.list()

.layer(0, new GravesLSTM.Builder().activation("tanh").nIn(1).nOut(10).build())

.layer(1, new RnnOutputLayer.Builder(LossFunctions.LossFunction.MCXENT)

.activation("softmax").nIn(10).nOut(numLabelClasses).build())

.pretrain(false).backprop(true).build();

MultiLayerNetwork net = new MultiLayerNetwork(conf);

net.init();

下面解释一下几行重要的代码：

.seed(123)

随机设置一个种子值对神经网络的权值进行初始化，以此获得一个有复验性的结果。系数通常都是被随机的初始化的，以使我们在调整其他超参数时仍获得一致的结果。我们需要设定一个种子值，让我们在调整和测试的时候能够用这个随机的权值。

.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT).iterations(1)

决定使用哪个最优算法（在这个例子中是随机梯度下降法）来调整权值以提高误差分数。你可能不需要对这个进行修改。

.learningRate(0.005)

当我们使用随机梯度下降法的时候，误差梯度就被计算出来了。在我们试图将误差值减到最小的过程中，权值也随之变化。SGD给我们一个让误差更小的方向，这个学习效率就决定了我们该在这个方向上迈多大的梯度。如果学习效率太高，你可能是超过了误差最小值；如果太低，你的训练可能将会永远进行。这是一个你需要调整的超参数。

四、什么是人工神经网络？

工神经网络是一种应用类似於大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为「神经网络」或类神经网路。神经网络是一种运算模型[1]，由大量的节点（或称「神经元」，或「单元」）和之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对於通过该连接信号的加权值，称之为权重（weight），这相当於人工神经网路的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

它的构筑理念是受到生物（人或其他动物）神经网络功能的运作启发而产生的。人工神经网络通常是通过一个基於数学统计学类型的学习方法（Learning Method）得以优化，所以人工神经网络也是数学统计学方法的一种实际应用，通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间，另一方面在人工智能学的人工感知领域，我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法，人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力)，这种方法比起正式的逻辑学推理演算更具有优势。

以上就是关于人工神经网络的三种类型相关问题的回答。希望能帮到你，如有更多相关问题，您也可以联系我们的客服进行咨询，客服也会为您讲解更多精彩的知识和内容。