文件名称:
DeBERTa:DeBERTa的实施-源码
开发工具:
文件大小: 90kb
下载次数: 0
上传时间: 2021-03-19
详细说明:DeBERTa:注意力分散的增强解码的BERT
这个软件库的正式实施
消息
2/03/2021
DeBERTa v2代码和900M,1.5B现在在这里。这包括用于我们的SuperGLUE单模型提交并达到89.9的1.5B模型,而人类基线为89.8。您可以在我们的找到有关此提交的更多详细信息
v2的新功能
词汇在v2中,我们使用了根据训练数据构建的大小为128K的新词汇。代替GPT2分词器,我们使用词器。
nGiE(nGram诱导输入编码)在v2中,除了第一个转换器层之外,我们还使用了额外的卷积层,以更好地学习输入令牌的本地依赖性。我们将在此功能上添加更多的消融研究。
在关注层中将位置投影矩阵与内容投影矩阵共享在我们先前的实验的基础上,我们发现这可以保存参数而不影响性能。
应用存储桶对相对位置进行编码在v2中,我们使用对数存储桶对类似于T5的相对位置进行编码。
900M模型和1.5
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.