博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
预训练语言模型 | (1) 概述
阅读量:4037 次
发布时间:2019-05-24

本文共 607 字,大约阅读时间需要 2 分钟。

 

自从Bert问世以来,预训练语言模型的各种变体层出不穷,在预训练语言模型专栏,我将参考一些资料,对一些主要的平时使用比较多的预训练语言模型做一些理论层面的整理。

至于预训练语言模型的应用,可以查阅我的文分分类和机器阅读理解相关专栏,上面结合代码和具体的任务,详细说明了如何把预训练语言模型应用到文本分类和阅读理解任务上。

全系列预训练语言模型的相关论文可以查看清华大学刘志远老师组整理的list:。具体的模型细节,可以查阅list中的相关论文。

 

  • 简单概述

语言模型是机器理解人类语言的途径,17年的transformer是语言模型摆脱rnn,lstm建模的一次尝试,后续的bert则是大力出奇迹的代表,用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑,而xlnet将gpt和bert的优点结合在了一起,然后用更更大的数据吊打了bert。没过多久,bert的增强版roberta用更更更大的数据打败了xlnet。然而当bert的模型达到一定程度后,受到了硬件资源的限制,于是谷歌通过矩阵分解和参数共享压缩了bert的模型大小,因此当albert使用了和bert同样的参数量的时候,推理能力又上了一个台阶

接下来几篇博客,我将对一些主要的平时使用比较多的预训练语言模型做一些理论层面的整理,今后还会跟进预训练语言模型技术的发展,争取与时俱进。

 

 

转载地址:http://musdi.baihongyu.com/

你可能感兴趣的文章
慢慢欣赏linux make uImage流程
查看>>
linux内核学习(7)脱胎换骨解压缩的内核
查看>>
以太网基础知识
查看>>
慢慢欣赏linux 内核模块引用
查看>>
kprobe学习
查看>>
慢慢欣赏linux phy驱动初始化2
查看>>
慢慢欣赏linux CPU占用率学习
查看>>
2020年终总结
查看>>
Homebrew指令集
查看>>
React Native(一):搭建开发环境、出Hello World
查看>>
React Native(二):属性、状态
查看>>
JSX使用总结
查看>>
React Native(四):布局(使用Flexbox)
查看>>
React Native(七):Android双击Back键退出应用
查看>>
Android自定义apk名称、版本号自增
查看>>
adb command not found
查看>>
Xcode 启动页面禁用和显示
查看>>
【剑指offer】q50:树中结点的最近祖先
查看>>
二叉树的非递归遍历
查看>>
【leetcode】Reorder List (python)
查看>>