正文

gpt和bert区别（bert和gpt2区别）

发布时间：2023-03-13 09:21:24 稿源：创意岭阅读： 99 问大家

大家好！今天让创意岭的小编来大家介绍下关于gpt和bert区别的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

ChatGPT国内免费在线使用，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com

本文目录:

1、磁盘初始化时选mbr还是选gpt，有什么区别
2、BERT预训练模型
3、硬盘GPT分区与MBR分区的有什么区别？
4、BERT：深度双向预训练语言模型

gpt和bert区别（bert和gpt2区别）

一、磁盘初始化时选mbr还是选gpt，有什么区别

MBR和GPT各有各的特点，这两个现在都在使用，至于选哪一个是要分情况讨论的。

gpt和bert区别（bert和gpt2区别）

在设置新磁盘时，系统会询问你是想要使用MBR还是GPT分区。GPT是一种新的标准，并在将来逐渐取代MBR。

GPT为我们带来了很多新的特性，但MBR仍然拥有最好的兼容性。GPT并不是Windows专用的新标准，Mac OS X，Linux，及其他操作系统同样使用GPT，实际上其他操作系统仍可以使用MBR。

新磁盘在使用之前，必须对其进行分区操作。MBR（Master Boot Record）和GPT（GUID Partition Table）是在磁盘上存储分区信息的两种不同方式。这些分区信息包含了每个分区从哪里开始的信息，这样才能让操作系统知道哪个扇区是属于哪个分区的，以及哪个分区是可以启动的。在磁盘上创建分区时，必须在MBR和GPT之间选择一个适当的分区管理方式。

MBR的局限性

MBR的意思是“主引导记录”，最早在1983年在IBM PC DOS 2.0中提出。

它是存在于驱动器开始部分的一个特殊的启动扇区，磁盘的第一个扇区。这个扇区包含了已安装的操作系统的Bootloader和驱动器的逻辑分区信息。

MBR最大支持2TB磁盘，它无法处理大于2TB容量的磁盘。MBR支持最多4个主分区——如果想要更多分区，就需要创建所谓“扩展分区”，并在其中创建逻辑分区。MBR已经成为磁盘分区和启动的工业标准。

GPT的优势

GPT意为GUID分区表。（GUID意为全局唯一标识符）。这是一个正逐渐取代MBR的新标准。它和UEFI相辅相成——UEFI用于取代老旧的BIOS，而GPT则取代老旧的MBR。之所以叫作“GUID分区表”，是因为你的驱动器上的每个分区都有一个全局唯一的标识符（globally unique identifier，GUID）——这是一个随机生成的字符串，可以保证为地球上的每一个GPT分区都分配完全唯一的标识符。

GPT没有MBR的那些限制。磁盘驱动器容量几乎不限制（还是有限制的，只不过对我们来说它太大太大）。它还支持几乎无限个分区数量，限制只在于操作系统——Windows支持最多128个GPT分区，而且你还不需要创建扩展分区。

在MBR磁盘上，分区和启动信息是保存在一起的。如果这部分数据被覆盖或破坏，事情就麻烦了。相对的，GPT在整个磁盘上保存多个这部分信息的副本，因此它更为健壮，并可以恢复被破坏的这部分信息。GPT还为这些信息保存了循环冗余校验码（CRC）以保证其完整和正确——如果数据被破坏，GPT会发觉这些破坏，并从磁盘上的其他地方进行恢复。而MBR则对这些问题无能为力——只有在问题出现后，你才会发现计算机无法启动，或者磁盘分区都不翼而飞了。

现代操作系统也同样支持GPT。Linux内建了GPT支持。苹果公司基于Intel芯片的MAC电脑也不再使用自家的APT（Apple Partition Table），转而使用GPT。

如果现在要进行分区的话，推荐使用GPT对磁盘进行分区。它更先进，更健壮，所有计算机系统都在向其转移。如果你需要保持对旧系统的兼容性——比如在使用传统BIOS的计算机上启动Windows，你需要使用MBR。

二、BERT预训练模型

n-gram语言模型：根据前面n个词预测当前词，它的缺点是，一般只能取1-2，n越大计算成本越高，这就使得它关注的信息是非常局限的。

预训练语言模型：wordvec\glove\fasttext。wordvec是根据周围词预测当前词或当前词预测周围词，相比于n-gram，它关注了下文，但它仍然是关注局部信息。glove通过构建词频共现矩阵来训练词向量，将全局信息融入到词向量中。fasttext仍然是局部的，只是他分词是基于subword，对于oov词相对友好。三者共同的缺点是，无法解决一词多义问题。

高级语言模型：elmo\GPT，elmo采用1层静态向量+2层单向LSTM提取特征，并且能够解决一词多义，elmo是一个双向语言模型，但实际上是两个单向语言模型（方向相反）的拼接，这种融合特征的能力比 BERT 一体化融合特征方式弱。GPT采用Transformer的decoder单元提取特征，同样也可以解决一词多义问题，但GPT是单向的。所以，对上下文信息的融合，二者能力还不够。

bert是双向语言模型，句子没有shift_mask操作，所以是完整的上下文环境，证实了双向语言模型对文本特征表示的重要性。bert同时证实了预训练模型能够简化很多繁重任务的网络结构，在11个nlp任务上都有显著提升。

bert采用Transformer的encoder单元提取特征，encoder中包含几个重要的机制：self-attention、muti-head attention、position encoding。

bert分为bert_base和bert_large大小两个模型，bert_base采用了12个encoder单元，768维隐藏层，12个attention。bert_base采用了24个encoder单元，1024维隐藏层，16个attention。

input：单句或句对组合，有[cls]作为句子开头的标记，[sep]作为句子分隔和结束的标记。

token embedding：对于英文采用WordPiece embeddings，也就是一个单词会被拆成词根词缀的，比如图中的playing被拆成了play和ing两个token；对于中文，就是单子拆分。

segment embedding：相邻句子采用不同的标志分隔，形如111111111100000011111100000。

position embedding：在transformer中，单词之间是没有先后顺序的，而语言本身是有序的，所以采用采用正余弦函数来计算每个单词的先后顺序，这种方式有点勉强，算是折中方式。

前面讲到elmo也是双向语言模型，它是采用bi-LSTM来提取特征，如下：

比如一句话：‘北京是中国的首都’，在LSTM中从左往右，预测‘中国’的时候只能看到‘北京’，从右往左，预测‘中国’的时候只能看到‘首都’，然后将两个lstm的输出做拼接来达到上下文信息融合的目的。其实是没有完全做到双向，只是以结构的改变来接近双向语言模型。真正的双向是预测‘中国’的时候，需要同时看到‘北京’和‘首都’。由此，mask LM产生了。

mask LM的原理是将‘中国’遮盖住，同时用‘北京’和‘首都’来预测‘中国’。‘北京’和‘首都’联系起来语言模型很容易联想到就是‘中国’啦。这个思想和wordvec的CBOW模型如出一辙，就是用周围词预测当前词，只是这个思想放在厉害的transformer中，便能大显其能。

BERT的mask方式：在选择mask的15%的词当中，80%情况下使用mask掉这个词，10%情况下采用一个任意词替换，剩余10%情况下保持原词汇不变。这样mask的优点是什么？

1）被随机选择15%的词当中以10%的概率用任意词替换去预测正确的词，相当于文本纠错任务，为BERT模型赋予了一定的文本纠错能力；

2）被随机选择15%的词当中以10%的概率保持不变，缓解了finetune时候与预训练时候输入不匹配的问题（预训练时候输入句子当中有mask，而finetune时候输入是完整无缺的句子，即为输入不匹配问题）。

在Mask LM任务中，模型学到了词与词之间的关系，而NSP任务是要模型学到句子与句子之间的关系，比如问答、推理等。它将训练语料分为两类，一是将50%语料构建成正常语序的句子对，比如A-B句子对，B就是A的实际下一个句子，并做标记为isnext；二是将50%语料构建成非正常语序句子对，B是来自语料库的随机句子，并做标记为notnext。然后通过对句子对的关系做分类，预测B到底是不是A句子的下一个句子，使模型具有句子级别的识别能力。

微调的目的在于我们的任务与bert预训练任务是不一致的，但是bert是非常好的语言模型，他具备提取词法和句法的强大能力。将bert嵌入到我们的网络结构中，能够简化在语言模型方面的复杂结构。只需要将输入做成和bert适配的格式就行，而在bert后面接上全连接、CNN等简单模型进行训练，就能够使训练得到一个比较好的效果。

GPT 和 BERT 都采用Transformer，Transformer 是encoder-decoder 结构，GPT 的单向语言模型采用 decoder 部分，decoder 的部分见到的都是不完整的句子；BERT 的双向语言模型则采用 encoder 部分，采用了完整句子。他俩最主要的区别在于BERT是双向语言模型，更适合文本分类等任务，GPT是单向语言模型，更适合生成式任务。

1）低层网络捕捉了短语级别的结构信息

2）表层信息特征在底层网络（3，4），句法信息特征在中间层网络（6~9），语义信息特征在高层网络。（9~12）

3）主谓一致表现在中间层网络（8，9）

1）ROBERTA

•静态mask->动态mask：在bert中每一个epoch被mask的是相同的词，而ROBERTA在每一个epoch结束，重新随机15%的词，使不同的词被mask。

•去除句对NSP任务，输入连续多个句子：在bert中最长是512个token，输入单句或者句对不容易把512个token占满，ROBERTA输入更多句子占满512个坑位。

•训练使用更多数据更大batch size 更长时间

2）ALBERT

•减少参数：词表 V 到隐层 H 的中间，插入一个小维度 E，即一个VxH的embedding变成两个VxE, ExH的两个fc。

•共享所有层的参数：Attention 和 FFN，在bert中每一层的Attention 和 FFN的参数是不一样的。

•SOP 替换 NSP：负样本换成了同一篇文章中的两个逆序的句子，bert中是A-->B和A-->随机，ALBERT中是A-->B，B-->A。

•BERT对MASK 15% 的词来预测。ALBERT 预测的是 n-gram 片段，包含更完整的语义信息。

•训练数据长度：90%取512，BERT90% 128

•对应BERT large：H:1024 ->4096 L:24->12 窄而深->宽而浅

三、硬盘GPT分区与MBR分区的有什么区别？

MBR的局限性

MBR的意思是“主引导记录”，最早在1983年在IBM PC DOS

2.0中提出。

之所以叫“主引导记录”，是因为它是存在于驱动器开始部分的一个特殊的启动扇区。这个扇区包含了已安装的操作系统的启动加载器和驱动器的逻辑分区信息。所谓启动加载器，是一小段代码，用于加载驱动器上其他分区上更大的加载器。如果你安装了Windows，Windows启动加载器的初始信息就放在这个区域里——如果MBR的信息被覆盖导致Windows不能启动，你就需要使用Windows的MBR修复功能来使其恢复正常。如果你安装了Linux，则位于MBR里的通常会是GRUB加载器。

MBR支持最大2TB磁盘，它无法处理大于2TB容量的磁盘。MBR还只支持最多4个主分区——如果你想要更多分区，你需要创建所谓“扩展分区”，并在其中创建逻辑分区。

MBR已经成为磁盘分区和启动的工业标准。

GPT的优势

GPT意为GUID分区表。（GUID意为全局唯一标识符）。这是一个正逐渐取代MBR的新标准。它和UEFI相辅相成——UEFI用于取代老旧的BIOS，而GPT则取代老旧的MBR。之所以叫作“GUID分区表”，是因为你的驱动器上的每个分区都有一个全局唯一的标识符（globally

unique

identifier，GUID）——这是一个随机生成的字符串，可以保证为地球上的每一个GPT分区都分配完全唯一的标识符。

这个标准没有MBR的那些限制。磁盘驱动器容量可以大得多，大到操作系统和文件系统都没法支持。它同时还支持几乎无限个分区数量，限制只在于操作系统——Windows支持最多128个GPT分区，而且你还不需要创建扩展分区。

兼容性

使用GPT的驱动器会包含一个“保护性MBR”。这种MBR会认为GPT驱动器有一个占据了整个磁盘的分区。如果你使用老实的MBR磁盘工具对GPT磁盘进行管理，你只会看见一个占据整个磁盘的分区。这种保护性MBR保证老式磁盘工具不会把GPT磁盘当作没有分区的空磁盘处理而用MBR覆盖掉本来存在的GPT信息。

在基于UEFI的计算机系统上，所有64位版本的Windows

8.1、8、7和Vista，以及其对应的服务器版本，都只能从GPT分区启动。所有版本的Windows

8.1、8、7和Vista都可以读取和使用GPT分区。

其他现代操作系统也同样支持GPT。Linux内建了GPT支持。苹果公司基于Intel芯片的MAC电脑也不再使用自家的APT（Apple

Partition Table），转而使用GPT。

我们推荐你使用GPT对磁盘进行分区。它更先进，更健壮，所有计算机系统都在向其转移。如果你需要保持对旧系统的兼容性——比如在使用传统BIOS的计算机上启动Windows，你需要使用MBR。

四、BERT：深度双向预训练语言模型

论文标题：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文链接： https://arxiv.org/abs/1810.04805

BERT（Bidirectional Encoder Representations from Transformers）通过预训练来学习无标注数据中的深度双向表示，预训练结束后通过添加一个额外的输出层进行微调，最终在多个NLP任务上实现了SOTA。

预训练语言模型在实践中证明对提高很多自然语言处理任务有效，其中包括句子层级的任务，比如自然语言推断（natural language inference）和复述（paraphrasing），还有token层级的任务，比如命名实体识别（named entity recognition）和问答（question answering）。

在下游任务中应用预训练语言模型表示的方法有两种：feature-based的方法和fine-tuning的方法。举例来说，ELMo这种预训练语言模型使用feature-based的方法，通过将ELMo的预训练的表示作为额外的特征输入到特定于任务的模型中去；GPT使用fine-tuning的方法，通过引入少量的特定于任务的参数，在下游任务中训练时所有的预训练参数。

截止BERT之前的预训练语言模型都是单向的（unidirectional），包括GPT和ELMo，这样的方法对句子层级的任务不是最优的，而且对于token层级的任务比如问答非常有害。BERT使用masked language model（MLM）的方法来预训练，这种方法能够训练一个双向的（directional）语言模型。除了masked language model的预训练的方法，BERT还使用了next sentence prediction的预训练方法。

BERT的使用分为两个阶段：预训练（pre-training）和微调（fine-tuning）。预训练阶段模型通过两种不同的预训练任务来训练无标注数据。微调阶段模型使用预训练参数初始化，然后使用下游任务（downstream task）的标注数据来微调参数。

BERT的一个显著特点是它在不同的任务上有统一的架构，使用时只需要在BERT后面接上下游任务的结构即可使用。

BERT的模型架构是一个多层双向的Transformer的encoder。我们标记模型的层数（每一层是一个Tranformer的block）为，模型的hidden size为，self-attention head的数量为。两个比较通用的BERT架构为和。

对比GPT，BERT使用了双向self-attention架构，而GPT使用的是受限的self-attention，即限制每个token只能attend到其左边的token。

BERT的输入表示能够是一个句子或者是一个句子对，这是为了让BERT能够应对各种不同的下游任务。BERT的输入是一个序列，该序列包含一个句子的token或者两个句子结合在一起的token。

具体地，我们会将输入的自然语言句子通过 WordPiece embeddings 来转化为token序列。这个token序列的开头要加上 [CLS] 这个特殊的token，最终输出的 [CLS] 这个token的embedding可以看做句子的embedding，可以使用这个embedding来做分类任务。

由于句子对被pack到了一起，因此我们需要在token序列中区分它们，具体需要两种方式：

①在token序列中两个句子的token之间添加 [SEP] 这样一个特殊的token；

②我们为每个token添加一个用来学习的embedding来区分token属于句子A还是句子B，这个embedding叫做segment embedding。

具体地，BERT的输入由三部分相加组成：token embeddings、segment embeddings和position embeddings。如下图所示：

BERT使用两个无监督的任务进行预训练，分别是Masked LM和Next Sentence Prediction(NSP)。如下图所示，我们定义输入的embedding为，BERT最终输出的 [CLS] 的embedding为，最终输出的第个token的embedding为。

我们有理由相信一个深度双向模型比left-to-right模型和left-to-right和right-to-left简单连接的模型的效果更加强大。不幸的是，标准的条件语言模型只能够够left-to-right或者right-to-left地训练，这是因为双向条件会使每个token能够间接地“看到自己”，并且模型能够在多层上下文中简单地预测目标词。

为了能够双向地训练语言模型，BERT的做法是简单地随机mask掉一定比例的输入token（这些token被替换成 [MASK] 这个特殊token），然后预测这些被遮盖掉的token，这种方法就是Masked LM(MLM)，相当于完形填空任务（cloze task）。被mask掉的词将会被输入到一个softmax分类器中，分类器输出的维度对应词典的大小。在预训练时通常为每个序列mask掉15%的token。与降噪自编码器（denoising auto-encoders）相比，我们只预测被mask掉的token，并不重建整个输入。

这种方法允许我们预训练一个双向的语言模型，但是有一个缺点就是造成了预训练和微调之间的mismatch，这是因为 [MASK] 这个token不会在微调时出现。为了缓解这一点，我们采取以下做法：在生成训练数据时我们随机选择15%的token进行替换，被选中的token有80%的几率被替换成 [MASK] ，10%的几率被替换成另一个随机的token，10%的几率该token不被改变。然后将使用交叉熵损失来预测原来的token。

一些重要的NLP任务如Question Answering (QA)或者Natural Language Inference (NLI)需要理解句子之间的关系，而这种关系通常不会被语言模型直接捕捉到。为了使得模型能够理解句子之间的关系，我们训练了一个二值的Next Sentence Prediction任务，其训练数据可以从任何单语语料库中生成。具体的做法是：当选择句子A和句子B作为训练数据时，句子B有50%的几率的确是句子A的下一句（标签是 IsNext ），50%的几率是从语料库中随机选择的句子（标签是 NotNext ）。 [CLS] 对应的最后一个隐层输出向量被用来训练NSP任务，这个embedding就相当于sentence embedding。虽然这个预训练任务很简单，但是事实上在微调时其在QA和NLI任务上表现出了很好的效果。在前人的工作中，只有sentence embedding被迁移到下游任务中，而BERT会迁移所有的参数来初始化下游任务模型。

Transformer的self-attention机制允许BERT建模多种下游任务。对于包含句子对的任务，通常的做法是先独立地对句子对中的句子进行编码，然后再应用双向交叉注意（bidirectional cross attention）。而BERT使用self-attention机制统一了这两个过程，这是因为对拼接起来的句子对进行self-attention有效地包含了两个句子之间的双向交叉注意（bidirectional cross attention）。

对于每个任务来说，我们只需要将任务特定的输入输出插入到BERT中然后端到端地微调即可。举例子来说，BERT的预训练输入句子A和句子B在微调时可以类比为：

①paraphrasing任务中的句子对；

②entailment任务中的hypothesis-premise对；

③question answering任务中的question-passage对；

④text classification或者sequence tagging任务中的text-∅对（也就是只输入一个text，不必一定需要两个句子）。

对于BERT的输出，对于一些token-level的任务，BERT的token表示将被输入到一个输出层，比如sequence tagging或者question answering任务；对于entailment或者sentiment analysis这样的任务，可以将 [CLS] 对应的表示输入到一个输出层。

我们使用 [CLS] 这个token的最后一层的隐层向量作为聚合的表示，可以认为是sentence embedding。在微调时只引入一个新的权重，这里的代表标签的数量，然后计算标准分类损失。下图展示了BERT在GLUE上的效果：

在这个数据集上，我们将question和passage拼接起来作为一个输入序列（中间是 [SEP] ）。在微调时引入一个start向量和一个end向量，计算和的点积然后通过函数作为word 是答案的span起始位置的概率：。答案的终止位置也做上述类似处理。从到的候选区间的得分记作，我们挑选的最大得分区间作为预测的结果。下图展示了BERT在SQuAD v1.1上的效果：

SQuAD v2.0有的question在提供的passage中没有答案存在。在微调时我们设置没有答案的问题的span的起始和结束位置都是 [CLS] 这个token，也就是start和end的可能性空间包含进了 [CLS] 的位置。在预测时，我们比较没有答案的span得分和最优的有答案得分。当时，我们预测这是一个有答案的问题，这里的用来在dev set上选择最优的。下图展示了BERT在SQuAD v2.0上的效果：

微调时我们为BERT构建4个输入序列，每一个是所给的句子（句子A）和一个可能的延续（句子B）。然后引入一个向量，该向量和每一个输入对应的 [CLS] 的embedding的点积再通过一个层来得到每个选择的得分。下图展示了BERT在SWAG上的效果：

以上就是关于gpt和bert区别相关问题的回答。希望能帮到你，如有更多相关问题，您也可以联系我们的客服进行咨询，客服也会为您讲解更多精彩的知识和内容。