正文

gpt embedding

发布时间：2023-06-12 16:38:21 稿源：创意岭阅读： 79

大家好！今天让创意岭的小编来大家介绍下关于gpt embedding的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，有小程序、在线网页版、PC客户端和批量生成器

官网：https://ai.de1919.com。

本文目录:

GPT的auto-regressive语言模型架构在信息表示方面有什么架构上的缺陷？具体如何改进？

gpt embedding

GPT的auto-regressive语言模型架构在信息表示方面有什么架构上的缺陷？具体如何改进？

1） GPT

在Bert 之后，OpenAI 的 GPT-2 就是其中之一。它在文本生成上有着惊艳的表现，其生成的文本在上下文连贯性和情感表达上都超过了人们对目前阶段语言模型的预期。仅从模型架构而言，GPT-2 并没有特别新颖的架构，它和 transformer 的 Decoder 类似。相比较于GPT-1，GPT -2 使用了更大的预料，更大和更深的模型。

从transformer的decoder里移除了decoder对encoder的attention部分。也就是消除掉了seq2seq的过程。

GPT是一个语言模型，每一个时刻只能看见当前时刻前面时刻的信息，是一个auto regressive的过程。

GPT2，hidden state的大小有变化，根据层数的多少有small，medum，large，extra large的划分。

GPT的训练过程是交叉式的预测下一个单词，测试的时候是输入一个句子生成另外一个句子。

GPT的预训练就是训练一个语言模型。而bert的预训练是masked language model和nsp的任务。

GPT由多个decocer block组成，每一个decoder block由masked self-attention和feed forward neural network组成。

一个timestamp的hidden state经过线性层转换为vocab size大小的embedding，然后经过softmax，算出每个词汇的概率，找出其中概率最大的词作为预测输出，然后下一个时刻的词作为真实输出，计算两者的cross entropy来训练模型。

每一个timestamp后面的位置都mask掉，设置一个负无群大的值，做softmax的时候，该位置的值就为0。

2）总结

transformer decoder的构造

预训练的时候做语言模型的训练

GPT2用更多更深的block