transformer模型和lstm
大家好!今天让创意岭的小编来大家介绍下关于transformer模型和lstm的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,有小程序、在线网页版、PC客户端和批量生成器
问友Ai官网:https://ai.de1919.com。
本文目录:
最值得五个模型
以下是我认为最值得的五个模型:1. GPT-3:这是目前最先进的自然语言处理模型之一,具备高度的自然语言理解和生成能力,能够处理各种常见任务,包括文本生成、翻译、回答问题等。2. Transformer:这是一种用于机器翻译和自然语言处理的模型,具有高效的并行训练和推理能力。3. ResNet:这是一种深度卷积神经网络,适用于图像分类,视频分类和物体检测等计算机视觉。4. LSTM:这是一种循环神经网络,适用于处理时序数据,例如语音识别、音频合成和文本生成等任务。5. GAN:这是一种生成对抗网络,适用于生成各种类型的数据,例如图像、音频和文本。GAN在图像生成方面特别有用,在虚拟现实和计算机游戏等领域具有广泛的应用。lstm具有什么特点
LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络(RNN),主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。 LSTM 已经在科技领域有了多种应用。基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。工作原理
LSTM区别于RNN的地方,主要就在于它在算法中加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构被称为cell。
一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。
说起来无非就是一进二出的工作原理,却可以在反复运算下解决神经网络中长期存在的大问题。目前已经证明,LSTM是解决长序依赖问题的有效技术,并且这种技术的普适性非常高,导致带来的可能性变化非常多。各研究者根据LSTM纷纷提出了自己的变量版本,这就让LSTM可以处理千变万化的垂直问题。
Transformer和LSTM的对比
现在的想法是transformer模型建立依赖关系的能力可能是依旧比较差。
Transformer 长程依赖的捕获能力是比 RNN 类结构差的。
这点在最近 Transformer-XL [1] 的文章中有体现。
可以看的到 Transformer 是比 RNN 有明显差距的。虽然读了这个 RECL 的定义感觉作者有强行定超参拉开两者差距之嫌,但毫无疑问的是 Transformer 确实是最糟糕的,只是不一定有数字上好几倍这么夸张。
但是,题目叙述中有一个误解,我们可以说 Transformer 建立长程依赖的能力差,但这不是 Self-Attention 的锅。
但summarization(摘要)任务上需要考虑的是成篇章级别,并且长距离依赖,这时单靠self-attention建模依赖关系可能仍显不足,而这时候lstm的优势反而凸显出来
Self-Attention 可以使任意两个 token 间的依赖计算变为常数,长距离依赖上 Self-Attention 是强于 RNN 结构的。要说问题,出也是出在 positional embedding 上,很多最近的 paper 都在尝试调整这一部分,也证明大家确实觉得现在这里是有问题的。
但另一方面, Self-Attention 其实并不是 Transformer 的全部。 个人来看, 从深度 CNN 网络中借鉴而来的 FFN(全连接层) 可能更加重要。 事实上 18 年 ACL [2] 有人做过实验,把 Transformer 里的 Self-Attention 换成 RNN 和 CNN,发现其实性能几乎没降多少。而带来性能提高的,主要是 FFN with residual 和 multiple heads.
最后,不负责任的猜测,Transformer 在 Summarization 上不够好,其实可能更多的是数据量的问题。 Transformer 这个结构最牛逼的地方就在于它第一次做到了在 NLP 中把深度叠上去还能 work, 而 NMT 恰好也是一个目前数据量非常丰富且问题尺度本身不大的一个任务了,充分发挥了 Transformer 的优势。而 Summarization 任务,相对于其 pairphrase 本身的长度,benchmark 的数据样本总量可能就略显不足了。
记得之前在哪看过一个图来着,说是 RNN 在中等数据量(几十万级别以下)下效果是比较好的,忘记出处了,有同学记得的话求评论提醒哈~
Reference
[1] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
[2] How Much Attention Do You Need? A Granular Analysis of Neural Machine Translation Architectures
以上就是关于transformer模型和lstm相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读:
chatGPT在国内用不了(chatroulette在中国能用吗)