WoBERT:以词为基本单位的中文BERT-源码沃伯特以词为基本单位的中文BERT（基于单词的BE

文件名称: WoBERT:以词为基本单位的中文BERT-源码

所属分类: 其它

开发工具:

文件大小: 18kb

下载次数: 0

上传时间: 2021-03-30

提供者: weixin_********

下载 (18kb)

不能下载？报告错误

详细说明：沃伯特以词为基本单位的中文BERT（基于单词的BERT）详情训练目前开源的WoBERT是基本版本，在哈工大开源的基础上进行继续预训练，预训练任务为MLM。初始化阶段，将每个词用BERT自带的Tokenizer切分为字，然后用模型使用单张24G的RTX训练了100万步（大概训练了10天），序列长度为512，学习5e-6，batch_size为16，累积梯度16步，，等于batch_size = 256训练了6万步左右。训练语料大概是30多G的通用型语料。此外，我们还提供了WoNEZHA，这是基于华为开源的进行再预训练的，训练细节跟WoBERT基本一样。NEZHA的模型结构跟BERT相似，不同的是它使用了相对位置编码，而BERT用的是绝对位置编码，因此理论上NEZHA能处理的文本长度是无上限的。这里提供以词为单位的WoNEZHA，就是让大家多一个选择。 2021年03月03日：添加

(系统自动生成,下载前可以参看下载内容)