是时候“抛弃”谷歌 BERT 模型了!新型预训练语言模型问世

BERT 模型了!新型预训练语言模型问世

是时候“放弃”Google BERT模型了!出现了新的预训练语言模型

作者| XLNet团队

翻译|孙伟

编辑|简

产品| AI技术大本营(ID: rgznai100)

最近,XLNet团队发布了一种新的预训练语言模型XLNet。这种新型号在各种基准测试中优于谷歌此前发布的BERT型号。 XLNet-Large型号的数据量大约是BERT型号的10倍。谁是XLnet和BERT可供选择?

XLnet团队进行了一项对比实验。为了保证比较的公平性,作者在比较实验中使用了相同的环境和配置,相同的训练数据,并确保了BERT和XLNet模型的几乎所有训练方法的超参数都是相同的。这些超参数由BERT作者发布并在BERT中使用。也就是说,这些超参数被选择用于BERT模型设计,最有可能针对BERT而非XLNet进行优化。具体的超参数设置如下(两个模型的超参数相同):

批量大小:256;

培训步骤数量:1M;

优化器:Adam,学习率1e-4,预热10,000,线性衰减;

培训语料库:Wikipedia + BooksCorpus,在处理维基百科时使用与BERT repo相同的工具,但由于某种原因,我们的Wiki语料库只有20亿字,BERT使用25亿字,因此XLNet训练数据略低于BERT。

模型结构参数:24层,1024个隐藏层,16个头;

Finetuning超参数搜索空间。

此外,作者修改了一些与数据相关的实现细节,以便与BERT模型进行一对一的比较。

在先前的实验中,在训练前会话中,令牌令牌不能看到令牌令牌CLS和拆分令牌SEP,但是可以在当前实现中看到,这与BERT模型一致。

在微调部分,如BERT,使用“XL格式”代替普通XLNet格式,用[CLS,A,SEP,B,SEP]替换[A,SEP,B,SEP,CLS] 。

此外,我们考虑了BERT模型的三种变体,并报告了每项任务的最佳微调结果。三种变体如下:

模型1(模型-I):由BERT作者发布的原始BERT模型;

模型2(模型-II):也是作者的中文单词覆盖模型;

模型3(模型-III):由于我们认为下一个句子预测(NSP)可能会影响性能,我们?褂肂ERT发布的代码来预训练新模型而不会损失NSP。

注意:上述设置可能使BERT模型更加有利,因为每个任务通过不同的变体具有最佳性能。

开发设置结果在GLUE和SQuAD上,RACE上的测试设置结果如下(不使用数据增强,集成或多任务处理):

不同型号的比较。 XLNet-Large(如纸张中)使用更多的培训数据和更大的批量。对于BERT模型,我们仅报告三种变体中每种变体的最佳结果的微调。

表中的一些观察结果非常有趣:

使用相同的数据,并使用几乎相同的培训方法进行培训,XLNet优于BERT模型,对所有数据集都具有相当大的优势;

投资超过10倍数据(与XLNet-Large-wikibooks和XLNet-Large相比)的性能提升低于在11个基准测试中将其中8个从BERT模型替换为XLNet模型的性能提升;

在一些基准测试(例如CoLA和MRPC)中,使用较少数据训练的模型比使用更多数据训练的模型表现更好。

我们相信我们可能会从上述结果中得到一些结果。

XLNet模型优于BERT模型。

XLNet-Large可以更好地进行优化:观察2和3似乎表明我们之前发布的XLNet-Large(使用更多数据培训)没有充分利用数据大小。因此,我们将继续研究相关方法,并使用XLNet模型正确扩展语言预训练的规模。根据目前有限的观察结果,我们推测以下培训细节可能发挥重要作用:数据关联:数据大小,数据源,数据清理,数据编码,数据格式化;

优化相关:学习率(和计划),批量大小,培训步骤数,优化程序;

重要的是这些超参数可能彼此具有高阶交互。

Facebook AI最近的GLUE排名也可能说明培训细节的重要性。

总之,该实验清楚地将算法/模型的影响与其他因素分开,例如训练细节,大型计算和大数据。基于以上结果,XLNet件。

原始链接:

10: 47

来源: CSDN

是时候“放弃”Google BERT模型了!出现了新的预训练语言模型

作者| XLNet团队

翻译|孙伟

编辑|简

产品| AI技术大本营(ID: rgznai100)

最近,XLNet团队发布了一种新的预训练语言模型XLNet。这种新型号在各种基准测试中优于谷歌此前发布的BERT型号。 XLNet-Large型号的数据量大约是BERT型号的10倍。谁是XLnet和BERT可供选择?

XLnet团队进行了一项对比实验。为了保证比较的公平性,作者在比较实验中使用了相同的环境和配置,相同的训练数据,并确保了BERT和XLNet模型的几乎所有训练方法的超参数都是相同的。这些超参数由BERT作者发布并在BERT中使用。也就是说,这些超参数被选择用于BERT模型设计,最有可能针对BERT而非XLNet进行优化。具体的超参数设置如下(两个模型的超参数相同):

批量大小:256;

培训步骤数量:1M;

优化器:Adam,学习率1e-4,预热10,000,线性衰减;

培训语料库:Wikipedia + BooksCorpus,在处理维基百科时使用与BERT repo相同的工具,但由于某种原因,我们的Wiki语料库只有20亿字,BERT使用25亿字,因此XLNet训练数据略低于BERT。

模型结构参数:24层,1024个隐藏层,16个头;

Finetuning超参数搜索空间。

此外,作者修改了一些与数据相关的实现细节,以便与BERT模型进行一对一的比较。

在先前的实验中,在训练前会话中,令牌令牌不能看到令牌令牌CLS和拆分令牌SEP,但是可以在当前实现中看到,这与BERT模型一致。

在微调部分,如BERT,使用“XL格式”代替普通XLNet格式,用[CLS,A,SEP,B,SEP]替换[A,SEP,B,SEP,CLS] 。

此外,我们考虑了BERT模型的三种变体,并报告了每项任务的最佳微调结果。三种变体如下:

模型1(模型-I):由BERT作者发布的原始BERT模型;

模型2(模型-II):也是作者的中文单词覆盖模型;

模型3(模型-III):由于我们认为下一个句子预测(NSP)可能会影响性能,我们使用BERT发布的代码来预训练新模型而不会损失NSP。

注意:上述设置可能使BERT模型更加有利,因为每个任务通过不同的变体具有最佳性能。

开发设置结果在GLUE和SQuAD上,RACE上的测试设置结果如下(不使用数据增强,集成或多任务处理):

不同型号的比较。 XLNet-Large(如纸张中)使用更多的培训数据和更大的批量。对于BERT模型,我们仅报告三种变体中每种变体的最佳结果的微调。

表中的一些观察结果非常有趣:

使用相同的数据,并使用几乎相同的培训方法进行培训,XLNet优于BERT模型,对所有数据集都具有相当大的优势;

投资超过10倍数据(与XLNet-Large-wikibooks和XLNet-Large相比)的性能提升低于在11个基准测试中将其中8个从BERT模型替换为XLNet模型的性能提升;

在一些基准测试(例如CoLA和MRPC)中,使用较少数据训练的模型比使用更多数据训练的模型表现更好。

我们相信我们可能会从上述结果中得到一些结果。

XLNet模型优于BERT模型。

XLNet-Large可以更好地进行优化:观察2和3似乎表明我们之前发布的XLNet-Large(使用更多数据培训)没有充分利用数据大小。因此,我们将继续研究相关方法,并使用XLNet模型正确扩展语言预训练的规模。根据目前有限的观察结果,我们推测以下培训细节可能发挥重要作用:

数据关联:数据大小,数据源,数据清理,数据编码,数据格式化;

优化相关:学习率(和计划),批量大小,培训步骤数,优化程序;

重要的是这些超参数可能彼此具有高阶交互。

Facebook AI最近的GLUE排名也可能说明培训细节的重要性。

总之,该实验清楚地将算法/模型的影响与其他因素分开,例如训练细节,大型计算和大数据。基于以上结果,XLNet件。

原始链接:

仅提供信息存储空间服务。

阅读()

投诉