本篇文章2818字,读完约7分钟
arxiv作者:新宋章,李航机器心编译:杜伟,小舟自Googlebert模型问世以来,各种bert变体模型活跃在自然语言理解任务中 最近,字节跳动ai实验室的李航等人的研究者提出了在clue和glue任务中性能超过Googlebert、albert、xlnet等的新的多粒度Bert模型 诸如bert之类的预训练语言模型在自然语言理解( nlu )的许多任务中显示了良好的性能 模型中的token一般是精细的粒度,在英语这样的语言中,token是单词和子字。 在中文这样的语言中,是单个汉字 例如英语有由多个单词表达式组成的自然词汇单元。 这似乎采用粗粒度标记化( tokenization )也是合理的 实际上,细粒度和粗粒度标注化在学习预训练语言模型方面各有利弊 最近,字节跳动新松张、李航两位研究者基于细粒度和粗粒度的标签化,提出了一种称为ambert (多粒度bert )的新的预训练语言模型 在结构上,ambert具有两个编码器 在英语的情况下,ambert是将单词序列(细粒度标记)和短语序列(粗粒度标记)标记化的输入,用一个编码器解决单词序列,用另一个编码器解决短语序列,利用两个编码器之间的共享参数,最终与单词 论文链接: arxiv/pdf/2008.11869.pdf研究小组用clue、glue、squad、race等中文和英语基准数据集进行了实验 实验结果表明,ambert的性能几乎在所有情况下都优于现有的最佳性能模型。 特别是在中文中,ambert的提高效果显着 首先来看一下中英语任务中细、粗粒度模型层的观察 下面的图1显示了适用于中英文句子的细粒度模型的初层观察尝试 你会发现有些token不恰当地出现在句子的其他token上。 例如在英语句子中,“drawing”、“new”、“dog”分别对“portrait”、“york”、“food”这个词有很高的观察力的权重,但这是不合适的 在中文句子中,汉字的“拍”、“北”、“长”分别对“卖”、“京”、“市”有很高的观察力权重,这也不合适 下面的图2显示了与英语相同句子的粗粒度模型的第一层的观察努力 英文句子中,由单词构成的短语有“drawing room”、“york minister”、“dog food”,在前两句中观察力合适,但在最后一句中由于不正确的标记化而出现了不合适的观察力 同样,在中文句子中,观察力较高的“球拍”和“首都”是合理的,但“市长”是不合理的 但请观察:错误的书写是不可避免的。 其次详细解读ambert模型的细节和实验结果 ambert模型研究者将ambert的整体框架显示在图3中 ambert将副本作为输入。 副本是一个文档中的长序列或两个不同文档中的两个短序列的级联 然后,标记输入副本,获得细而粗的粒度token序列 整个ambert模型的框架具体地说,ambert具有两个编码器,分别用于解决精细的粗粒度token序列 各编码器具有与bert(devlin等)和transformer编码器( vaswani等)完全相同的体系结构 另外,两个编码器在各自对应的层共享相同的参数,但两者的嵌入参数不同 编码器在对应的层上根据细粒度token序列生成上下文表示,粗粒度编码器在对应的层上根据粗粒度token序列生成上下文表示 最后,ambert分别输出细小的粗粒度token的上下文表现序列 预训练ambert的预训练基于遮罩语言建模( mlm ),从两个精细粗粒度级别展开 为了比较,研究者只把预测下面的句子( next sentence prediction,nsp )用于实验 在分类任务上的ambert微调中,每个精细的粗粒度编码器都创建特定的[cls]表示法,并将这些表示法定义为分类任务中使用的函数的优化 微调过程被定义为以下函数的优化。 同样,可以微调“跨度检测”( span detection )任务的ambert。 这里,细粒度token的表现和对应的粗粒度token的表现是级联的。 替代模型研究者还提出了ambert的两种替代模型ambert-combo和ambert-hybrid,并依赖于多粒度的标记 研究者在实验部分也比较了三者 在实验部分,研究者分别用中英语标准数据集,比较了ambert和细、粗粒度bert基线以及ambert-combo和ambert-hybrid替代模型 中文任务下表1显示了分类任务的结果 ambert将bert基线方法的平均得分提高了约1.0%,表明性能优于ambert-combo和ambert-hybrid替代模型 下表2显示了机器阅读理解( mrc )任务中的结果 可以看到,ambert将bert基线的平均得分提高了约3.0% 另外,研究者在clue排行榜上比较了ambert和现在的最佳模型,结果如下表所示,英语任务研究者在glue任务中比较了ambert和bert模型、ambert-combo、ambert-hybrid替代模型 谷歌Bert的结果来自原来的论文,our bert的结果是研究者得到的 如下表4所示,ambert在很多任务中性能优于其他模型,同时ambert等多粒度模型可以得到比单粒度模型更好的结果 在多粒度模型中,ambert即使在参数和计算量少的情况下也依然实现了最佳的性能 研究者在squad任务中将ambert与其他bert模型进行了比较 谷歌Bert的结果可以从原论文中得到,也可以通过研究者使用官方代码执行得到 ambert在squad任务中比google bert更好,如下表5所示 our bert (word )一般表现良好,our bert (phrase )在跨度检测任务中表现不好 此外,ambert在race任务中是所有开发集和测试集的基线中最好的 ambert是最佳的多粒度模型 最后,研究者在表6中表示了在glue和mrc任务中比较ambert和sota模型的结果:样本研究者定性研究了bert和ambert的结果,结果如下表7所示,研究者表示了包含任务qnli和cmnli的随机例子 数值“0”表示有包含关系,数值“1”表示没有包含关系 word/phrase表示our bert的词或短语 机心共同开启科学技术在线公开课:零基础入门游视天元megengine在6节课中帮助开发者学习开发入门深度 9月1日,游戏科学技术移动商务团队研究员王鹏带来了第6课“展开的高度化:推理方的优化”,介绍了megengine框架中模型的量化方案、量化相关模块和采用方法,使用了megengine 欢迎大家入群学习。 © the end转载请联系本公众号获得许可后投稿或要求报道: content@jiqizhixin原标题:“李航等人提出了多粒度ambert模型,clue、glue优于BET,中文提高