HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    transformer做预测不如LSTM(transformer预测过程)

    发布时间:2023-05-19 23:58:09     稿源: 创意岭    阅读: 58        

    大家好!今天让创意岭的小编来大家介绍下关于transformer做预测不如LSTM的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    只需要输入关键词,就能返回你想要的内容,有小程序、在线网页版、PC客户端和批量生成器iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    问友Ai官网:https://ai.de1919.comiCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    本文目录:iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    transformer做预测不如LSTM(transformer预测过程)iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    transformer做预测不如LSTM(transformer预测过程)iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    Transformer和LSTM的对比iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    现在的想法是transformer模型建立依赖关系的能力可能是依旧比较差。iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    Transformer 长程依赖的捕获能力是比 RNN 类结构差的。iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    这点在最近 Transformer-XL [1] 的文章中有体现。iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    可以看的到 Transformer 是比 RNN 有明显差距的。虽然读了这个 RECL 的定义感觉作者有强行定超参拉开两者差距之嫌,但毫无疑问的是 Transformer 确实是最糟糕的,只是不一定有数字上好几倍这么夸张。iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    但是,题目叙述中有一个误解,我们可以说 Transformer 建立长程依赖的能力差,但这不是 Self-Attention 的锅。iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    但summarization(摘要)任务上需要考虑的是成篇章级别,并且长距离依赖,这时单靠self-attention建模依赖关系可能仍显不足,而这时候lstm的优势反而凸显出来iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    Self-Attention 可以使任意两个 token 间的依赖计算变为常数,长距离依赖上 Self-Attention 是强于 RNN 结构的。要说问题,出也是出在 positional embedding 上,很多最近的 paper 都在尝试调整这一部分,也证明大家确实觉得现在这里是有问题的。iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    但另一方面, Self-Attention 其实并不是 Transformer 的全部。 个人来看, 从深度 CNN 网络中借鉴而来的 FFN(全连接层) 可能更加重要。 事实上 18 年 ACL [2] 有人做过实验,把 Transformer 里的 Self-Attention 换成 RNN 和 CNN,发现其实性能几乎没降多少。而带来性能提高的,主要是 FFN with residual 和 multiple heads.iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    最后,不负责任的猜测,Transformer 在 Summarization 上不够好,其实可能更多的是数据量的问题。 Transformer 这个结构最牛逼的地方就在于它第一次做到了在 NLP 中把深度叠上去还能 work, 而 NMT 恰好也是一个目前数据量非常丰富且问题尺度本身不大的一个任务了,充分发挥了 Transformer 的优势。而 Summarization 任务,相对于其 pairphrase 本身的长度,benchmark 的数据样本总量可能就略显不足了。iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    记得之前在哪看过一个图来着,说是 RNN 在中等数据量(几十万级别以下)下效果是比较好的,忘记出处了,有同学记得的话求评论提醒哈~iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    Reference
    [1] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
    [2] How Much Attention Do You Need? A Granular Analysis of Neural Machine Translation ArchitecturesiCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    以上就是关于transformer做预测不如LSTM相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。iCX创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司


    推荐阅读:

    illustrator教程自学(illustrator入门教程)

    chatGPT下载到本地(如何下载chatroulette)

    如何下载ChatGPT中文版(如何下载chatroulette)

    景观设计详解讲解视频(景观设计详解讲解视频大全)

    百度综艺简体(百度综艺简体是免费的吗)